数据收集与训练
人工智能发展的瓶颈在于数据而非算法。数据收集效率取决于人类在计算机上的工作效率,而界面设计、用户体验和技术实现直接影响交互质量。因此前端开发成为人工智能技术开发的关键组成部分。
以构建科技公司识别功能为例:单纯的关键词匹配会遇到严重歧义问题(如"Apple"既指公司也指水果)。通过标注上下文中的示例数据,可以训练出能处理歧义的统计模型。优质模型需要至少10,000条标注数据,理想情况下需要更多。
传统标注工具(如Brat)和众包平台(如某机构机械土耳其)虽然能完成基础工作,但随着AI训练数据需求增长,需要重新思考如何提升标注效率和成本效益。低质量的标注工具会导致标注者感到枯燥沮丧,进而降低数据质量。改善用户体验可以借鉴移动游戏的成功经验:通过游戏化设计、UX心理学、UI设计和跨平台前端技术,使标注任务变得愉悦高效。
演示与教育
人工智能常被看作神秘的黑盒子,但我们的目标应该是使其更加透明和可访问。仅仅展示结果是不够的,用户需要从计算机视角理解后台运作机制,并能直接与技术交互。后端创新需要前端创新的配合。
以科技公司标注模型演示为例:简单的句子标注无法展示模型真实能力。更好的方式是展示模型决策依据,例如通过百分比或交互式图表可视化置信度,让用户输入自己的句子进行测试。交互式可视化工具displaCy就是成功案例,它通过可视化语法结构帮助用户理解系统的抽象能力。
调试与迭代
理解并处理系统错误模式是AI产品化的主要挑战。统计错误与其他性能问题类似,需要尽早连接前端界面来探索模型行为。人类不擅长直觉判断哪些情况常见,而机器学习系统常出现反直觉的错误。
通过错误分析可以发现模型需要特定类型的更多示例,或者需要添加新特征(如"是否在某数据库中存在")。更系统的解决方案是使用主动学习:让模型根据自身不确定性提出问题。虽然需要在后端进行额外工程开发,但效率远高于无偏标注。
结论
人工智能作为抽象的研究领域,实际上增加了对前端开发的需求。抽象技术难以直观理解,使得可视化成为调试过程中不可或缺的部分;当语言描述失效时,演示变得至关重要;最重要的是,机器学习需要人类教师。虽然系统训练任务本质上是重复性的,但游戏化的经验表明,通过交互设计,重复性任务可以变得富有成就感而非令人厌烦。
正如前端开发对任何基于网络的产品都至关重要一样,它也将为新兴人工智能技术的开发过程增添不可估量的价值,推动更好的面向用户的产品发展。
2018年1月更新:本文描述的许多概念已应用于新的主动学习标注工具,该工具允许在循环中使用模型收集训练和评估数据,通过模型预测决定后续询问内容。其网络应用帮助标注者每次专注于一个二元决策。