清华翟季冬：DeepSeek 百倍算力效能背后的系统革命智者访谈多模态大模型再升级

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-02-01 13:13:44 网易新闻

就在DeepSeek在华尔街和应用下载榜上引起轰动的同时，深度求索公司在除夕夜再次推出了新的产品。1月28日凌晨，DeepSeek在Hugging Face平台上发布了全新升级的多模态大模型Janus-Pro 7B和1.5B版本，这是对去年10月发布的基础版模型的一次迭代升级。

根据技术报告，70亿参数版本的Janus-Pro在多项文生图基准测试中表现出色，不仅超过了OpenAI的DALL-E 3，还优于Stability AI最新推出的Stable Diffusion 3-Medium模型。15亿和70亿参数量级使得该模型可以在普通个人电脑上本地运行，并采用MIT开源协议，允许商业场景下的无限制应用。

从技术架构来看，通过优化训练策略和1.6亿样本数据集的支持，Janus-Pro在短提示图像生成领域展现出了出色的稳定性和质量，解决了以往大模型在短提示生成时容易出错的问题。官方对比图显示，新版模型在图像细节呈现和语义理解方面较前代产品有了明显提升。

为了验证其实力，进行了几项实测。首先是视觉理解测试，Janus-Pro成功识别出一张图片中的波音787型客机，并且在背景有干扰因素的情况下，还能根据涂装判断出该航空公司为全日空。面对带有恶趣味的梗图，Janus-Pro也能准确理解其含义，将“分离式视觉编码”比喻为强壮的健美狗，而“单一视觉编码器”则被比喻为瘦弱的狗。此外，Janus-Pro在地标识别方面也表现出色。

接下来是文生图测试。面对“画一个漂亮的小女孩”的短提示，Janus-Pro与其他大模型如DALL·E3和Grok一样表现突出，都能很好地处理人物面部的细节。然而，在进阶版“三日凌空”的刻画中，Janus-Pro生成了一幅与语义完全不同的场景。专家分析认为，由于输入分辨率被限制在384×384，影响了模型在OCR等需要精细识别任务上的表现。较低的分辨率以及视觉Token编码器引入的重建损失，导致生成的图像细节表现不足，有时还会导致语义理解失败。

尽管存在一些不足，但Janus-Pro仍然受到了广泛欢迎。GitHub数据显示，该模型开源24小时内就获得了超过3000次星标，并衍生出包括Stable Diffusion插件、Photoshop扩展在内的7个社区项目。开源社区代表张天翼表示，DeepSeek一贯的开源策略让开发者可以无顾虑地将其集成到商业产品中，这可能会催生新一代AI艺术创作工具。

(责任编辑：张蕾)

关闭

清华翟季冬：DeepSeek 百倍算力效能背后的系统革命 智者访谈 多模态大模型再升级

相关新闻

今日热点

频道热点

清华翟季冬：DeepSeek 百倍算力效能背后的系统革命智者访谈多模态大模型再升级