开源工具CoSyn实现GPT-4V级视觉AI平民化

研究人员开发出突破性开源工具CoSyn,通过代码生成合成训练数据,使开源视觉语言模型在文本丰富图像理解任务上超越GPT-4V和Gemini等专有模型,为AI训练提供版权问题解决方案。

CoSyn:开源工具实现GPT-4V级视觉AI平民化

某大学与某人工智能研究机构的研究人员开发出一项突破性工具,使开源AI系统能够匹配或超越GPT-4V和Gemini 1.5 Flash等专有模型的视觉理解能力,可能重塑开源与封闭AI开发之间的竞争格局。

这款名为CoSyn(代码引导合成)的工具解决了AI开发中的关键瓶颈:缺乏高质量训练数据来教机器理解科学图表、医疗图示和财务文档等复杂视觉信息。CoSyn利用现有语言模型的编码能力生成合成训练数据,而非从互联网抓取数百万张图像(这种做法存在版权和伦理问题)。

合成数据生成解决AI训练最大挑战

训练AI理解文本丰富图像的挑战长期困扰该领域。与自然照片不同,科学图形、图表和文档需要耗时昂贵的大量标注工作。传统方法依赖从互联网收集图像及其替代文本描述,但这种方法产生的训练数据往往流于表面且存在法律问题。

CoSyn采用根本不同的方法:认识到大多数文本丰富图像最初通过代码创建——Python脚本生成图表,LaTeX渲染数学公式,HTML创建网页界面。研究团队的洞见是逆转这一过程:利用语言模型经过验证的编码能力生成底层代码,然后执行该代码创建逼真的合成图像。

CoSyn训练模型在关键基准测试中超越GPT-4V和Gemini

结果令人瞩目。使用包含40万张图像和270万指令对的合成数据集,CoSyn训练的模型在开源系统中实现最先进性能,并在七项测量文本丰富图像理解的基准测试中超越专有模型。

平均而言,他们的70亿参数模型在基准测试套件中得分80.9%,比之前最佳开源模型(Llama 3.2 11B)高出3.9个百分点。更值得注意的是,即使他们的"零样本"模型(未使用评估数据集中的任何示例进行训练)也超越了大多数开源和封闭模型,证明了从合成数据学习的能力可迁移性。

在一个特别引人注目的演示中,研究人员创建名为NutritionQA的新基准,包含100个关于营养标签照片的问题。仅使用7000张合成生成的营养标签进行训练,他们的模型就超越了在数百万真实图像上训练的其他模型。

真实公司已将视觉AI用于质量控制和自动化

该技术已在各行业找到实际应用。例如某公司使用视觉语言模型进行电缆安装质量保证:现场工作人员拍摄安装过程照片,系统自动验证每个步骤是否正确执行。

这种专业视觉理解可能改变众多企业工作流程,从金融服务的自动化文档处理到制造业的质量控制。使用合成数据在特定视觉任务上训练模型的能力意味着,公司可以开发适合其特定需求的AI系统,而无需传统所需的大规模数据收集工作。

确保数据多样性的人物驱动方法

CoSyn的关键创新之一是确保数据多样性的方法。为防止AI生成内容中常见的重复输出,系统采用研究人员称为"人物驱动机制"的方法。每次CoSyn生成合成示例时,会将请求与随机抽样的人物配对——简短描述如"不断构思新外星人世界的科幻小说家"或"准备实验材料的化学老师"。

这种方法使系统能够生成九种不同类别的内容:图表、文档、数学问题、表格、图示、矢量图形、乐谱、电路图和化学结构。研究人员使用11种不同的渲染工具,从Python的Matplotlib图表到LaTeX数学表达式,得到20个专用生成流程支持。

突破可能平衡开源与大型科技公司的竞争环境

这对更广泛的AI行业意义重大。某中心和某机构等主要科技公司已投资数十亿美元开发专有视觉语言能力,创建其训练方法和数据源仍为商业机密的系统。CoSyn为开源替代方案提供竞争路径,无需类似资源投入。

开放承诺不仅限于发布模型。完整的CoSyn代码库、40万张图像数据集和所有训练脚本均公开可用,使全球研究人员和公司能够在此基础上继续开发。这种透明度解决了对专有AI系统黑箱性质日益增长的担忧。

教AI代理像人类一样点击、滚动和导航

除了静态图像理解,CoSyn正在开创对下一代AI代理至关重要的能力——能够自主导航数字界面并执行复杂任务的系统。研究人员开发合成"指向数据",教模型在屏幕截图上准确点击的位置,这是基于Web自动化的基本要求。

使用65,000张带点击注释的合成屏幕截图,他们的模型在ScreenSpot(点击预测基准)上实现最先进性能,超越在130万真实屏幕截图上训练的系统。随着行业向能够自主执行知识工作的AI代理发展,这种能力至关重要。

合成数据规避AI训练中日益严重的版权危机

合成数据方法还为AI训练数据周围日益增长的法律挑战提供潜在解决方案。随着关于受版权保护材料训练是否构成合理使用的诉讼持续进行,合成数据生成提供规避许多知识产权问题的替代路径。

2023年就AI和版权向国会作证的专家认为,合成数据是对真实世界训练数据的补充而非替代:“我不认为合成数据消除对大量多样化训练数据的需求,但这确实允许以非凡方式扩展其能力。”

该方法展示如何将现有知识转移到新应用,而无需直接使用受版权保护的材料。

合成数据的当前局限与未来展望

尽管前景广阔,合成数据生成面临重要限制。“一个局限是可能继承生成此类合成数据的模型偏差,“研究人员承认。系统也可能难以实现多样性:“如果你提示大网络在不同运行中生成一些数据,可能生成相似数据。”

当前研究专注于文本丰富图像而非自然照片,限制其在某些领域的直接适用性。不过研究人员表示正在努力将该方法扩展到医学成像。

展望未来,研究人员预计合成数据生成将成为标准实践:“未来两三年,甚至现在,它已成为教模型不同能力的非常重要组成部分。“但她强调最佳结果可能需要结合合成和真实世界数据:“真实世界数据反映某些真实世界分布。合成数据可以大规模生成,更可控。”

从某机构到某中心的早期采用者已在试验该技术

早期采用信号表明该技术已在影响行业实践。“我听说像某机构某些团队,还有某中心,他们正在尝试使用我们的数据训练模型,“研究人员在采访中透露。

对初创公司和小型企业而言,成本优势可能特别显著。“对某些初创公司,在自有服务器上托管开源模型比调用API更便宜,且更可控,“研究人员指出。

研究团队决定完全开源反映关于AI开发的更广泛理念。随着研究人员在完成博士学位后加入某研究所全职工作,对开放科学的承诺仍然是其使命核心。“目前这些视觉语言模型相当脆弱。只需要正确数据就能获得正确能力,“她说。“如果找到正确数据,可以改进模型能力,这将造福社会。”

从描述到行动的AI愿景

随着研究从实验室走向实际应用,影响远超越改进的基准分数。研究人员和同事已经在展望可能改变残疾人与技术交互方式的应用,从为听力障碍者理解手语的AI到为视觉障碍者描述复杂医学图像的系统。

专家看到更广泛的可能性,特别是在机器人技术和科学发现领域:“合成数据开启许多我们没有自然发生数据的可能应用。其中一个应用是为机器人创建模拟训练数据。”

这项工作不仅代表技术成就——它证明开源AI开发可以通过创新方法解决基本挑战,与资金雄厚的大型科技公司竞争。正如研究人员反思选择加入某研究所而非接受某机构等公司更高薪酬offer时指出:“我认为这些多模态模型仍处于非常早期阶段,没有太多开放资源或知识可以分享给社区。”

信息很明确:在构建能够真正看见和理解世界的AI竞赛中,优势可能并不总是属于资金最雄厚者,而是属于拥有最具创造性解决方案者。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计