计算机视觉在自然识别中的挑战与应用

本文探讨了iNaturalist平台如何利用计算机视觉技术识别自然物种,包括机器学习模型的训练挑战、数据集构建方法,以及通过AWS开放数据平台推动生物多样性研究的进展。

iNaturalist开放海量自然数据——及计算机视觉挑战

在一次森林徒步中,你发现了一只色彩斑斓的小鸟。你基本确定这是一只雀鸟——但具体是哪种?iNaturalist应用正是为这类场景而生:全球用户通过它记录和识别户外发现的生物。如今,由某中心云服务(AWS)支持的人工智能正在这些观察结果的分类中扮演越来越重要的角色。

iNaturalist约十年前推出,源自加州大学伯克利分校三名学生的硕士项目。此后,该应用吸引了150万科学家和自然爱好者组成的社区,用户上传的照片涵盖从熊蜂到熊等各种生物。iNaturalist如今是加州科学院与国家地理学会的联合项目,曾完全依赖用户进行物种识别,而现在计算机开始提供辅助。

独特的计算机视觉挑战

康奈尔鸟类学实验室研究工程师Grant Van Horn指出,iNaturalist对研究人员吸引力在于它向计算机视觉社区提出了独特挑战。例如,若构建识别雀鸟的计算机模型,可能会从网络抓取图像用于训练。但这类数据集通常充满鸟类静止的高质量照片,与iNaturalist上主要由业余爱好者拍摄的多样化照片截然不同——徒步者可能只在鸟类飞走时勉强抓拍,或背景干扰导致识别困难。

这还假设鸟类处于静止状态。Van Horn指出,燕子和雨燕很少停歇——优秀观鸟者能识别飞行中的鸟类,但如何训练计算机做到同样的事?这仅是自然相关计算机视觉挑战中的一例。许多物种外观极其相似,拥有多个名称(如学名Danaus plexippus和通用名帝王蝶),甚至存在多种形态:同一物种的雌雄个体可能外观不同;卵孵化为幼虫再变为成熟昆虫。

这些挑战存在于全球数百万动植物物种中。从这个角度看,AWS托管的iNaturalist上记录的30多万物种仅是用户持续添加数据后可能达到的冰山一角。

新型机器学习竞赛

2017年,Van Horn与爱丁堡大学机器学习助理教授Oisin Mac Aodha开始利用iNaturalist数据在计算机视觉与模式识别会议(CVPR)年度会议上举办竞赛。作为会议细粒度视觉分类研讨会的一部分,竞赛提供数据集并根据分类准确性排名,错误率最低的队伍获胜。

初期,iNaturalist数据的基本分类对Van Horn和Mac Aodha就构成学习曲线。他们花费大量时间学习分类法、清理数据,并为首届竞赛组装包含85.9万张图像的数据集。第二年推出更具长尾分布的数据集(许多物种仅有少量相关图像),201年数据集缩减为26.8万张高度相似类别但在多样情境下拍摄的图像。

经历去年中断后,主竞赛今年回归且规模更大:训练数据集包含270万张图像,代表1万种物种。2021年iNat挑战赛于3月8日开始,5月28日结束。

今年更大的数据集可能鼓励团队探索机器学习领域近期趋势:无监督学习,即计算机模型通过寻找信息中的模式从无标签或预定义"答案"的数据中学习。竞赛要求每个参赛作品为数据集中的每张图像提供一个预测分类,错误率降至5%将被视为"惊人成就"。

向开放数据迈进

分类大规模图像的能力为解答关于栖息地、行为和物种内变异的科学问题开辟了可能性。基于此类洞察,Mac Aodha和Van Horn创建了自然世界任务新数据集(NeWT),超越物种分类问题,探索照片中展现的行为与属性相关概念。该工作将出现在今年CVPR会议中,并计划举办竞赛挑战参赛者构建能推广到这些替代问题的模型。

目前CVPR竞赛的获胜方案尚未被iNaturalist部署,因错误率最低的代码与手机高效运行的代码存在性能权衡。但竞赛数据集在计算机视觉和机器学习文献中得到广泛使用,过去几年产生约300篇引用。

竞赛在Kaggle平台举办,吸引iNaturalist社区外的广泛参与者。2019年竞赛有213支全球团队参加,获胜者来自中国。为保障公平性,参赛者无论身处何地都必须能访问和处理数据集中的数千至数百万张图像。

2020年,iNaturalist获得某中心机器学习研究奖,提供无限制现金资助和AWS促销额度以推动机器学习前沿发展。这帮助覆盖iNaturalist在实施机器学习分类时继续在AWS存储数据的成本。今年3月,该应用加入AWS开放数据注册表,确保其6000万观察记录集合持续向公众免费开放。

如今,iNaturalist已从完全依赖人工识别转变为定期提供机器生成标识,这些标识正开始揭示新的潜在研究路径。Mac Aodha强调:“确保数据持久且长期可访问而非仅限竞赛期间至关重要,为这些数据集提供稳定家园极具价值。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计