科学研究所数据为何具有挑战性
科研出版物是全球最重要却最难获取的内容宝库。这些文献通过图书馆网络永久保存,跨越时空与学科连接思想发现,包含证据支撑、专业见解和统计关系。虽然价值连城,但大多隐藏在网络之外:网络上充斥萌猫视频却难觅前沿癌症研究。例如存在数十年的科学引文索引(Web of Science),多数人既未听闻更未使用过。
科研论文难以获取的现状导致无法直接用于训练GPT-3或DALL-E等生成模型。想象研究者提出实验设想时,AI能即时反馈是否已有更优方案;实验获得新数据后,AI能推荐后续研究方向;甚至协助撰写论文手稿——当前最接近该愿景的Google Scholar仍非可持续方案,某机构的Watson项目也因数据不足未能兑现承诺。
要实现价值释放,需长期投入与愿景规划。需将科学出版物视为可组合分析的基础素材,突破访问壁垒后,才能用海量数据喂养生成式AI模型。这类模型有望加速科研创新:生成新科学思想、管理文献海洋、识别缺陷研究,并将复杂成果转化为通俗解读。
如何构建科学领域的DALL-E或GPT-3
生成式AI展现的魔法效果源于对海量信息的合成能力。要打造科学的魔法体验,需实现:用自然语言查询文献并获得证据支撑的答案;辅助研究者完善假设;避免如阿尔茨海默症研究中错误假设导致的巨额浪费。虽然看似科幻,但AlphaFold利用蛋白质数据库预测2亿种蛋白质结构的成功先例,证明聚合科研数据能实现突破。
将论文分解为最小单元
科研论文包含图表、统计关系和引用等宝贵元素。将其拆解为组件并规模化使用,可训练机器执行不同类型科研任务。简单问题只需单一组件训练,复杂查询则需理解多组件关联关系。典型复杂提示包括:“为何该假设错误”、“生成新治疗方案”、“基于数据撰写论文"等。
已有团队在此方向取得进展:Elicit运用GPT-3处理百万论文标题与摘要回答科研问题;System提取实体间统计关系;Primer通过arXiv为政府企业提供多源数据看板。
获取全部组件
当前工具主要依赖标题摘要而非全文,因约83%论文无法自由获取。拥有数据的某中心和某机构存在使用许可限制。值得注意的是,某中心在COVID-19疫情期间仅使用PubMed开放论文开发问答原型,未动用其学术搜索平台的全文数据。
获取论文并超越单篇阅读的倡议已持续数十年。作者曾创建开放获取平台The Winnower和未来论文工具Authorea,最终在scite通过出版商合作部分解决访问问题。
连接组件并定义关系
scite推出的"智能引用"技术,通过出版商合作从全文提取引用语句,揭示论文被引用的上下文情境。这需要机器学习规模化分析引文陈述。依托开放论文完成概念验证后,向出版商证明该系统可提升文章发现性并提供更负责任的研究评估指标。目前已索引11亿条智能引用,覆盖超半数已发表论文。
使用关系数据训练AI模型
从论文提取的组件与关系可训练新语言模型。GPT-3虽强大却不擅长科学问题:当GPT-2经数百万论文训练后,在特定知识任务表现更优。这凸显训练数据的关键性——近期有团队用GPT-3撰写论文,但可能存在事实错误。我们需要能验证科学主张的系统,正如某机构推出的维基百科引文验证工具。
当前进展
主要障碍仍是论文获取与资源限制。一旦实现规模化访问,新模型便蓬勃发展:某中心专利团队用1亿专利训练专利分析系统;BioBERT/SciBERT虽仅训练1%特定领域科学文本,却在学术任务中表现卓越(包括scite的引文分类系统)。
新近发布的ScholarBERT突破访问限制,使用全部科学文献训练BERT模型(声称"非消耗性使用”)。但它在专业知识任务表现反而不如SciBERT等小模型。值得注意的是,BERT类模型规模远小于GPT-3,不支持通用提示与上下文学习。关键问题在于:若用ScholarBERT数据训练GPT-3级生成模型,并像智能引用那样标注答案来源,将产生何种效果?
为何现在时机成熟
论文日益开放与机器算力提升使时机成熟。利用论文及关联数据库训练机器回答问题、合成新想法,可能彻底改变医疗、政策与技术领域。想象从检索文档标题转变为直接获取答案,将对全学科研究流程产生深远影响。
打破科学知识的可获取性与可理解性壁垒,将推动网络从点击量导向转变为证据与真实性导向。制药业有强烈动力实现该愿景——越来越多初创公司用AI识别药物靶点。而公众、政府乃至搜索引擎用户,或许都愿意为获取可信且省时的服务放弃免费搜索。世界迫切需要这样的系统,且需要尽快实现。