就在DeepSeek在华尔街和应用下载榜上引起轰动的同时,深度求索公司在除夕夜再次推出了新的产品。1月28日凌晨,DeepSeek在Hugging Face平台上发布了全新升级的多模态大模型Janus-Pro 7B和1.5B版本,这是对去年10月发布的基础版模型的一次迭代升级。
根据技术报告,70亿参数版本的Janus-Pro在多项文生图基准测试中表现出色,不仅超过了OpenAI的DALL-E 3,还优于Stability AI最新推出的Stable Diffusion 3-Medium模型。15亿和70亿参数量级使得该模型可以在普通个人电脑上本地运行,并采用MIT开源协议,允许商业场景下的无限制应用。
从技术架构来看,通过优化训练策略和1.6亿样本数据集的支持,Janus-Pro在短提示图像生成领域展现出了出色的稳定性和质量,解决了以往大模型在短提示生成时容易出错的问题。官方对比图显示,新版模型在图像细节呈现和语义理解方面较前代产品有了明显提升。
为了验证其实力,进行了几项实测。首先是视觉理解测试,Janus-Pro成功识别出一张图片中的波音787型客机,并且在背景有干扰因素的情况下,还能根据涂装判断出该航空公司为全日空。面对带有恶趣味的梗图,Janus-Pro也能准确理解其含义,将“分离式视觉编码”比喻为强壮的健美狗,而“单一视觉编码器”则被比喻为瘦弱的狗。此外,Janus-Pro在地标识别方面也表现出色。
接下来是文生图测试。面对“画一个漂亮的小女孩”的短提示,Janus-Pro与其他大模型如DALL·E3和Grok一样表现突出,都能很好地处理人物面部的细节。然而,在进阶版“三日凌空”的刻画中,Janus-Pro生成了一幅与语义完全不同的场景。专家分析认为,由于输入分辨率被限制在384×384,影响了模型在OCR等需要精细识别任务上的表现。较低的分辨率以及视觉Token编码器引入的重建损失,导致生成的图像细节表现不足,有时还会导致语义理解失败。
尽管存在一些不足,但Janus-Pro仍然受到了广泛欢迎。GitHub数据显示,该模型开源24小时内就获得了超过3000次星标,并衍生出包括Stable Diffusion插件、Photoshop扩展在内的7个社区项目。开源社区代表张天翼表示,DeepSeek一贯的开源策略让开发者可以无顾虑地将其集成到商业产品中,这可能会催生新一代AI艺术创作工具。
8月22日,清华园迎来了新一批的研究生成员,属于2024级的学子们踏上了这片充满历史与梦想的土地。清华大学官方微博温馨发声,伴随着清晨的和煦阳光,清华园再次拥抱了新的主人
2024-08-23 14:01:56杨倩晒清华研究生录取通知书2024年9月23日至24日,中国政府中东问题特使翟隽应邀访问伊朗,分别会见伊朗外交部部长顾问哈吉、部长助理兼中东北非事务总司长舒什塔里,就中伊关系和中东地区局势交换意见
2024-09-25 10:16:11中国政府中东问题特使翟隽访问伊朗