阿里云发布开源模型Qwen2,称显著超越当前领先的Llama-3-70B和Qwen1.5的110B模型

阿里云发布了新一代的开源模型Qwen2,这是一个重大的技术升级。Qwen2系列模型从Qwen1.5升级而来,已经在Hugging Face和ModelScope平台上同步开源。Qwen2系列包含5个不同尺寸的预训练和指令微调模型,参数量从0.5B到72B不等。这些模型在中文和英文的基础上,增加了27种语言的高质量数据,显著提升了模型的多语言处理能力。

Qwen2系列模型在多个评测基准上展现出领先的表现,尤其在代码编写、数学解题等能力上有显著提升3132。此外,Qwen2系列模型增大了上下文长度支持,最高可达128K tokens,这使得模型在处理长文本信息时更为有效。

所有尺寸的Qwen2模型都采用了GQA(Generalized Query Answering)技术,这有助于推理加速和显存占用降低。在安全性方面,Qwen2-72B-Instruct在多语言不安全查询类别中表现出色,减少了生成有害响应的比例。

Qwen2-72B模型在自然语言理解、知识、代码、数学和多语言等多项能力上,显著超越了当前领先的模型,如Llama-3-70B和Qwen1.5的110B模型。阿里云CTO周靖人表示,开源开放是阿里云的重要策略,他们致力于打造AI时代最开放的云,让算力更普惠、让AI更普及。


已发布

分类

来自

标签: