智能信息提取与对话AI的前沿研究

学术合作与研究方向

某中心学者Heng Ji作为伊利诺伊大学厄巴纳-香槟分校计算机科学教授，致力于帮助人们在信息洪流中辨别真伪。她领导Blender实验室，旨在实现计算机从海量信息中提取精确、简洁且可靠知识的能力。

“这是一个挑战，但如果我们不加以解决，这将演变成严重的社会问题，“Ji表示，“帮助人们获取可靠信息，从而做出明智选择，这就是我的动力。”

Ji团队在国防高级研究计划局和美国国家科学基金会支持下，开发了SmartBook框架。该技术以乌克兰危机为案例，自动消化网络新闻数据，提取事件、地点、人员、武器和军事行动等信息，生成结构化战况报告。

报告采用时间线结构，以重大事件为章节，战略问题为标题，每个问题链接相关主张并附信息来源（图1）。虽然使用大语言模型生成摘要，但SmartBook包含多个组件，避免单一模型可能产生的幻觉问题。

专家编辑测试显示，仅需删除约2%的自动生成内容，证明该框架可作为分析师的优质起点。目前团队正在扩展多语言和多信源支持。

在药物发现领域，Ji团队开发了MolT5自监督学习框架，可同时处理自然语言文本和分子字符串。给定分子字符串，系统能生成包含医药、原子和化学属性的文本描述；反之，根据属性描述可生成对应分子结构。

该框架将分子视为"外语”，实现分子与语言间的双向翻译，为药物研发提供新思路。

通过某中心与大学的合作中心，研究人员致力于开发能自动学习、推理、更新知识的多模态对话系统。“如果数字助手能阅读用户喜欢的书籍和电影，就能进行更深入、有趣的对话，“Ji指出。

合作中心还重点关注对话系统的真实性、公平性和透明度改进。虽然存在创造力与真实性的权衡，但Ji相信能通过新算法实现双重目标。

针对当前大语言模型热潮，Ji建议研究者保持乐观态度：“虽然大语言模型关闭了一些研究方向，但开启了结构化预测、跨文档推理、模型理论理解等新领域。”

她提倡学术界与工业界研究的结合，并分享了自己在某中心参与大语言模型防幻觉系统开发的经验：“与某中心合作，我希望贡献的想法能成为下一代AI系统的组成部分，让广大用户受益。”