阿里云通义千问超大规模的MoE模型Qwen2.5-Max于1月29日凌晨正式上线。该模型是阿里云通义团队对MoE模型的最新成果,预训练数据超过20万亿tokens。在知识、编程、综合能力以及人类偏好对齐等主流权威基准测试上,Qwen2.5-Max展现出与DeepSeek V3、GPT-4和Claude-3.5-Sonnet比肩甚至领先的性能。
Qwen2.5-Max的发布标志着中国AI阵营在高性能、低成本技术路线上的又一重要突破。通义团队对Qwen2.5-Max的指令模型版本和基座模型版本进行了评估测试。指令模型在多项基准测试中几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。而在基座模型对比中,Qwen2.5-Max与目前领先的开源MoE模型DeepSeek V3和最大的开源稠密模型Llama-3.1-405B相比,在大多数基准测试中都展现出了显著优势。
市场人士认为,此前过度聚焦于DeepSeek,而忽视了包括阿里通义在内的中国AI整体性追赶。行业媒体表示,如果Qwen-2.5-max的确性能超过V3,可以对其RL推理模型给予更大期待。农历除夕夜,阿里巴巴股价出现显著异动,收盘前从涨幅1%快速拉升至6.71%,总市值达到2284亿美元。
今年阿里云作为春晚云计算AI独家合作伙伴,首次亮相中央广播电视总台蛇年春晚,为春晚直播提供了全球云基础设施和通义大模型AI技术支持。春晚主舞台采用了阿里云通义大模型AI技术来呈现科幻电影中的“子弹时间”经典画面。通过云上多视角拍摄,观众能够体验到“空中环绕、时空凝结”的创新观看效果。此外,阿里云通义AIGC技术成果也在节目画面中得到应用,为舞台设计提供风格迁移、参考图生成、风格化处理等技术支持。
DeepSeek发布了新款开源多模态AI模型Janus-Pro。该模型在GenEval和DPG-Bench基准测试中表现优异,超越了OpenAI的DALL-E 3和Stable Diffusion
2025-01-28 09:17:49DeepSeek发布新模型短短一个月内,中国AI初创公司深度求索(DeepSeek)发布了两款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-26 15:51:02DeepSeek新模型火到海外农历除夕夜,全球华人喜迎新春之时,纽约证券交易所的电子屏上,阿里巴巴美股股价在收盘前从涨幅1%快速拉升至6.7%。这一行情异动背后,是一场技术上的奇袭
2025-01-29 23:11:26阿里除夕夜抛出重磅新模型近日,一则关于AI的新闻在全球范围内引起了广泛关注。斯坦福大学和华盛顿大学的研究人员发表了一篇论文,展示了他们以不到50美元(约364元)的云计算费用训练出的一款名为S1的推理模型
2025-02-08 09:05:58364元就能开发DeepSeek模型