12月25日,阿里云发布了业界首个开源多模态推理模型QVQ-72B-Preview。该模型在视觉理解和推理能力方面表现出色,特别是在解决数学、物理、科学等领域的复杂问题上尤为突出。多项评测数据显示,QVQ的表现超越了此前的视觉理解模型Qwen2-VL,与OpenAI o1、Claude3.5 Sonnet等推理模型相当。目前,开发者可以在魔搭社区和HuggingFace平台上直接体验这一模型。
人类的推理能力源于语言思维和视觉记忆,因此利用视觉理解增强大模型的推理能力成为AI技术的重要探索方向。阿里云表示,QVQ是一个基于视觉进行深度思考和推理的大模型。它不仅能更准确地感知视觉内容并进行细致分析,还会质疑自身假设,仔细审视推理过程中的每一步,最终给出深思熟虑后的结论。QVQ可以轻松识别“梗图”内涵,通过真实照片合理推断物体数量及高度等信息,并在面对数学、物理、化学等科学难题时,像人甚至科学家一样提供思考过程和准确答案。
阿里mPLUG团队近期发布了一项新成果——通用多模态大模型mPLUG-Owl3,这款模型专为理解复杂多图和长视频内容设计
2024-08-19 17:47:52阿里发通用多模态大模型mPLUG-Owl39月19日,中国科学院地理科学与资源研究所携手中国科学院青藏高原研究所、中国科学院自动化研究所等机构,共同发布了名为“坤元”(Sigma Geography)的多模态地理科学大模型
2024-09-19 22:01:00全球首个多模态地理科学大模型发布执掌阿里云一周年,吴泳铭终于登上了2024年云栖大会的演讲台,他表示,过去22个月,AI发展的速度超过任何历史时期。
2024-09-20 14:48:09阿里CEO吴泳铭称阿里云将继续降价当地时间12月11日,谷歌CEO桑达尔·皮查伊发布了一份说明,宣布推出Gemini 2.0,这是他们最强大的模型
2024-12-12 07:52:45谷歌AI大模型Gemini2.0发布