DeepSeek-OCR:图像如何帮助聊天机器人处理长对话

中国AI研究人员开发出DeepSeek-OCR技术,通过将对话历史转换为图像进行光学上下文压缩,使聊天机器人在处理长对话时保持快速响应。该技术仅需原来十分之一的token量,支持近100种语言,并能处理图表、化学公式等复杂内容。

DeepSeek-OCR:图像如何帮助聊天机器人处理长对话

中国AI研究人员希望通过使用图像,使聊天机器人在处理具有大量历史记录的对话时仍能保持快速和经济高效。DeepSeek-OCR的开发者确信,通过光学上下文压缩,AI助手可以变得明显更好。该模型目前处于实验阶段。尽管进行了十倍压缩,但已经能够证明达到97%的准确率。

当前AI聊天机器人的问题

当今AI聊天机器人的问题是,它们每次回答时都需要重新处理完整的历史记录。而通过光学压缩,对话历史被存储为图像,处理时需要的token更少。例如,原本需要1000个token的情况现在只需约100个token。这使得响应速度提高了十倍。这在处理长PDF文档时也很有帮助。

以人类记忆为模型

通过OCR(光学字符识别),AI在需要时将图像转换回文本。但DeepSeek的方法远远超出了传统OCR的范围。该系统不仅能识别文本,还能将图表转换为适用于Excel的表格,将化学公式转换为机器可读的SMILES格式,并分析几何图形。此外,它还在单一模型中掌握近100种语言。

DeepSeek的开发人员还尝试了不同的分辨率,并提出了用不同清晰度模拟人类记忆的想法。时间上较近的上下文可以以更高分辨率存储,从而在AI记忆中更清晰。较久远的记忆由于分辨率较低会逐渐模糊。

“初步探索"与实际应用

在实际应用方面,DeepSeek收集了广泛的训练数据:约100种语言的3000万PDF页面,2000万自然场景图像,以及数百万个用于图表、化学公式和几何图形的合成样本。在生产中,该系统目前每天已经能够处理超过20万页——仅使用一个较旧的Nvidia A100加速器。这使得它对大规模数据处理具有吸引力,例如在保险公司、政府机构或出版社。

研究人员自己在论文中将DeepSeek-OCR称为"初步探索”,并指出了未解决的问题。例如,在"大海捞针"测试中,当需要从非常长的上下文中搜索特定信息时,系统的表现如何?

DeepSeek通过这种方式尝试了一种不同的AI架构方法。这家中国AI实验室一直在努力建立与美国AI公司(如OpenAI、Google或Anthropic)相抗衡的力量,后者主要专注于扩展规模。DeepSeek-OCR的代码连同模型权重已在GitHub上提供下载,感兴趣的人可以尝试使用。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计