DeepSeek发布多模态AI模型DeepSeek-OCR:利用视觉信息压缩文本输入

DeepSeek发布新型多模态AI模型DeepSeek-OCR,该模型通过视觉感知技术将文本输入压缩至十分之一,同时保留97%原始信息,能够处理大规模复杂文档,显著减少令牌使用量并提升处理效率。

DeepSeek发布多模态AI模型DeepSeek-OCR:利用视觉信息压缩文本输入

DeepSeek发布了新的多模态AI模型「DeepSeek-OCR」。「OCR」指的是用于文档扫描等场景的光学字符识别(Optical Character Recognition),这是一个能够大幅减少令牌使用的同时处理大规模复杂文档的模型。

模型架构与性能

「DeepSeek-OCR」是一个针对OCR优化的6.6GB AI模型,能够在保留97%原始信息的同时将文本量压缩至十分之一。系统包含两个核心组件:

  • DeepEncoder:负责图像处理的3.8亿参数编码器
  • 文本生成器:建立在拥有5.7亿活跃参数的DeepSeek3B-MoE之上

技术特点

在DeepEncoder内部,系统会减少识别内容的令牌,并将其传递给连接图像和文本的CLIP模型。1024×1024像素的图像原始需要4096个令牌,而经过DeepEncoder处理后可以缩减到256个令牌。

DeepSeek-OCR支持多种图像分辨率,所需的视觉令牌在低分辨率时为64个,高分辨率时最多为400个。相比之下,传统OCR系统完成相同任务需要数千个令牌。

处理能力

在单个NVIDIA A100 GPU上,DeepSeek-OCR每天能够处理超过20万页文档。配备8台A100的20台服务器,每日吞吐量可达3300万页。

应用前景

据《南华早报》报道,使用DeepSeek-OCR可以实现可扩展的超长文本上下文处理。该技术能够在保持近期上下文高分辨率的同时,用更少的计算资源处理较旧的上下文,为信息保留与效率平衡的、理论上无限扩展的上下文架构开辟了道路。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计