吴恩达提出"缩小AI":从大数据转向高质量小数据
人工智能先驱吴恩达近期提出,人工智能领域需要从依赖大数据的模型训练转向注重数据质量的"数据-centric AI"方法。尽管他早期在斯坦福大学和某机构的研究推动了使用GPU训练大规模深度学习模型的发展,但他现在认为,许多行业需要的是针对小数据的智能解决方案。
基础模型的潜力与局限
吴恩达指出,自然语言处理领域的基础模型(如GPT-3)展示了大规模预训练模型的潜力,但在计算机视觉领域,由于视频处理的计算需求和成本,类似的基础模型尚未成熟。他认为,如果有更强大的处理能力,构建视频基础模型将成为可能。
然而,这种大数据范式主要适用于拥有海量用户数据的消费者软件公司,对于制造业、医疗等其他行业,由于缺乏大规模数据集,需要不同的方法。
数据-centric AI的核心思想
数据-centric AI被定义为系统化设计数据以成功构建AI系统的学科。与过去十年主导的"改进代码"范式不同,现在许多应用中神经网络架构已经相对成熟,改进数据质量成为更有效的途径。
吴恩达强调:“在许多根本没有巨量数据集的行业中,焦点必须从大数据转向好数据。拥有50个精心设计的样本就足以向神经网络解释你想要它学习什么。”
实际应用与工具
通过某机构的LandingLens平台,制造商可以使用少至50张高质量图像构建有价值的缺陷检测系统。关键工具包括:
- 数据一致性工具:识别标注不一致的数据子集,提高标签一致性
- 针对性数据收集:根据模型表现弱点,有针对性地收集特定类型数据
- 合成数据生成:针对特定缺陷类别生成合成数据,解决数据不平衡问题
解决数据偏见问题
数据-centric方法也有助于解决数据集偏见问题。通过精心设计数据子集,可以更有针对性地解决模型在特定子群体上表现偏差的问题,而不是试图改变整个神经网络架构。
行业应用挑战与解决方案
在制造业中,每个制造商可能需要构建自定义AI模型,这与消费者互联网领域"一个模型服务十亿用户"的模式截然不同。解决方案是开发工具让客户能够自己完成大部分工作,包括数据工程和模型训练。
吴恩达总结道:“上世纪AI最大的转变是向深度学习的转变,而这十年最大的转变可能是向数据-centric AI的转变。随着神经网络架构的成熟,许多实际应用的瓶颈将是我们能否有效获取所需数据来开发运行良好的系统。”