10月20日,人工智能团队DeepSeek AI发布了全新多模态模型 DeepSeek-OCR。该模型以“探索视觉 - 文本压缩边界”为核心目标,从大语言模型视角重新定义了视觉编码器的功能定位,为文档识别、图像转文本等高频场景提供了兼顾精度与效率的新解决方案,受到技术领域和行业应用端的广泛关注。
DeepSeek-OCR采用分层设计的视觉编码方案,支持Tiny、Small、Base、Large、Gundam五种尺寸配置,可根据不同硬件条件与场景需求灵活选择。Gundam版本特别针对大尺寸复杂文档进行了优化,采用了1024×640混合尺寸配置及专属裁剪模式,能更精准处理多栏排版、图文混杂的专业文档。
模型创新性地融合了SAM(Segment Anything Model)的图像分割能力和CLIP的视觉理解能力,并通过MlpProjector模块实现与语言模型的高效对接。这一设计不仅使模型能够精准提取文本内容,还能同步捕捉文字、表格、图像在原图中的空间布局信息,为后续结构化输出提供关键支撑,解决了传统OCR“只认文字、不识布局”的痛点。
DeepSeek-OCR展现出极强的多场景适应性。它既支持单张图像、PDF文档的单次处理,也能应对批量图像的高效识别,所有输出结果均支持Markdown格式,方便用户直接编辑或导入其他办公软件。模型内置边界框检测功能,可精准定位文本块、表格、插图在原图中的位置,结合动态裁剪策略,根据图像尺寸自动调整处理逻辑,在保证识别精度的同时大幅提升处理速度。
此外,DeepSeek-OCR集成vllm框架实现高效推理,支持多任务并发处理,即便面对大规模文档处理需求,也能保持稳定的响应效率,尤其适合学术论文、企业报表、个人简历等复杂文档的数字化转化场景。
DeepSeek开源了R1最新0528版本,尽管官方未对此版本进行详细说明,但已有网友在著名代码测试平台Live CodeBench中发现其性能可与OpenAI最新的o3模型高版本相媲美
2025-05-29 08:46:15DeepSeek开源新版R1媲美OpenAIOpenAI发布了两款免费使用的AI模型,GPT-oss-120b和GPT-oss-20b。这些模型可以根据用户提示生成文本内容,并允许开发者进行定制。然而,OpenAI并未提供用于训练这些模型的数据
2025-08-06 08:21:05OpenAI突发两款开源模型由于新模型R2迟迟未发布,DeepSeek近期备受关注。国际知名半导体研究机构Semianalysis的报告显示,DeepSeek的用户使用率从年初的7.5%峰值显著下降至3%,官网流量同期下滑近三成
2025-07-10 13:25:04DeepSeek使用率暴跌原因何在