阿里云发布开源模型Qwen2,宣称性能超美国最强开源模型Llama3-70B
6月7日,阿里云在技术博客上宣布了一个重要进展:他们发布了名为Qwen2-72B的开源模型,这款模型在全球范围内以其卓越的性能脱颖而出。Qwen2-72B不仅超越了美国目前最强的开源模型Llama3-70B,还优于众多国内的闭源大型模型,如文心4.0、豆包pro、混元pro等。对于有兴趣探索这一新成果的公众,阿里云提供了在魔搭社区和Hugging Face平台上免费获取通义千问最新开源模型的途径。
此次发布的Qwen2系列是对今年2月推出的通义千问Qwen1.5的一次显著升级,整体性能和多项具体能力均有提升,涉及代码处理、数学运算、逻辑推理、指令执行以及多语言理解等方面。Qwen2-72B在一系列国际公认的测评中,包括MMLU、GPQA、HumanEval等,赢得了多项世界第一,继续拉大与美国Llama3模型之间的距离。阿里云发布开源模型Qwen2,宣称性能超美国最强开源模型Llama3-70B。
Qwen2系列相当全面,涵盖了从Qwen2-0.5B至Qwen2-72B等多个不同规模的预训练和指令微调模型,其中特别引入了Qwen2-57B-A14B这一混合专家模型(MoE),采用了创新的GQA(分组查询注意力)机制。这种机制使得模型运行时能更高效地利用资源,用户将体验到更快的推理速度和更低的显存需求。
自推出以来,通义千问Qwen系列在全球范围内迅速走红,其总下载量在短短一个月内实现翻番,目前已超过1600万次。开源社区的积极响应进一步证明了Qwen系列的成功,已有超过1500款基于Qwen的二次开发模型面世。值得注意的是,Qwen系列中的72B及110B模型多次在HuggingFace的Open LLM Leaderboard开源模型排行榜上夺得首位,彰显了其在全球AI领域的影响力。
近日,斯坦福大学AI团队开发的Llama3-V开源模型被指涉嫌抄袭清华大学与面壁智能合作的开源项目“小钢炮”MiniCPM-Llama3-V 2.5,此事件迅速在网络上引发了广泛讨论
2024-06-04 15:37:44斯坦福AI团队承诺撤下相关模型5月9日的阿里云AI智领者峰会上,阿里云首席技术官周靖人分享了通义大模型的最新应用和服务数据。据统计,通义大模型通过阿里云已服务于超过9万家企业,而通过钉钉平台,这一数字达到了220万
2024-05-11 21:21:50美国最该尴尬的在零一万物创立一周年的时刻,CEO李开复公布了一项重要成果:公司的千亿参数Yi-Large闭源模型在斯坦福大学新推出的AlpacaEval 2.0评估中,赢得了全球大模型的最高胜率
2024-05-13 14:27:59零一万物千亿参数模型Yi-Large发布!李开复呼吁关注TC-PMF5月17日,腾讯云在北京举办了生成式AI产业应用峰会,会上分享了腾讯大模型应用产品的最新进展。当前,长文模型、个人助手、智能体平台成为大模型领域厂商竞争的关键点
2024-05-20 08:08:27全球大模型应用百花齐放