2B多模态新SOTA,华科、华南理工发布Mini-Monkey,专治“切分增大分辨率”后遗症
近期,多模态大模型处理高分辨率图像的性能优化成为了研究热点。以往的多数方法集中于图像切分与融合策略,以增强模型对图像细节的理解,但这种做法可能导致目标和连续区域的割裂,尤其是在文档理解任务中,文字断裂的问题尤为突出。
针对这一难题,华中科技大学与华南理工大学合作推出了一款名为Mini-Monkey的轻量级多模态大模型。该模型创新性地采用了多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效解决了传统图像切分策略的弊端,显著提升了模型在高分辨率图像和文档理解任务上的性能。Mini-Monkey在多个基准测试中均取得了领先地位,充分展示了其在多模态理解与文档智能领域的潜力。
MSAC策略让Mini-Monkey能够自动生成多尺度的图像表示,确保模型能从不同尺度中识别完整的对象,避免了因切分造成的识别障碍。而SCM则是一种无参数的机制,用于在保持高效计算的同时,筛选出关键的视觉特征,进一步优化了模型的效率和性能。
实验结果显示,Mini-Monkey不仅在文档智能任务上取得了优异成绩,还在广泛的多模态理解任务中实现了性能提升,与更大参数量的模型相比,如GLM-4v-9B,Mini-Monkey在OCRBench测试中得分高达802,展现出其作为2B参数量模型的顶尖状态。
5月14日,OpenAI在春季发布会上揭晓了其最新的旗舰AI模型——GPT-4o,这一模型以“全知全能”为目标,实现了实时的语音、文本、图像交互功能
2024-05-15 09:10:07OpenAI发布全新生成式AI模型GPT-4o随着OpenAI在2024年5月14日的展示,GPT-4o这一多模态大模型产品进入了公众视野,标志着信息获取方式可能迎来变革
2024-05-15 08:45:10GPT-4o为OpenAI开启超级入口原标题:大地磁暴预警发布会产生哪些影响?记者从中国气象局了解到,3月24日、25日和26日三天,将可能出现地磁活动,其中3月25日可能发生中等以上地磁暴甚至大地磁暴
2024-03-25 13:10:14大地磁暴预警发布最近,OpenAI发布的GPT-4o吸引了全球的广泛关注,而与此同时,其他机构也在这一领域取得了显著进展。5月14日,阿布扎比先进技术研究委员会下属的技术创新研究所揭晓了新一代Falcon 2模型
2024-05-20 16:49:06时隔一年Falcon回归!110亿参数5.5万亿token