DolphinGemma:人工智能如何破译海豚通信
数十年来,理解海豚的咔嗒声、哨声和脉冲串一直是科学前沿。如果我们不仅能聆听海豚的声音,还能充分理解其复杂通信模式以生成真实回应呢?
某机构与某研究机构及野外研究项目的合作,宣布在DolphinGemma方面取得进展:这是一个基础AI模型,经过训练可学习海豚发声结构并生成新颖的类海豚声音序列。这种跨物种通信探索方法推动了AI技术与海洋世界连接潜力的边界。
数十年的海豚社会研究
理解任何物种都需要深度背景,这是野外研究项目提供的众多要素之一。自1985年以来,该项目持续进行全球最长水下海豚研究,对特定野生大西洋斑海豚群落进行跨代研究。这种非侵入式方法产生了丰富独特的数据集:数十年的水下视频和音频与个体海豚身份、生活史和行为观察精确配对。
研究重点在于观察分析海豚的自然通信和社会互动。水下工作使研究人员能够直接关联声音与特定行为,这是水面观察无法实现的。数十年来,他们已将声音类型与行为背景相关联,例如:
- 母亲和幼崽重聚时使用的签名哨声(独特名称)
- 争斗时常见的脉冲串"吱吱声"
- 求偶或追逐鲨鱼时使用的咔嗒"嗡嗡声"
了解个体海豚对准确解读至关重要。这项观察工作的最终目标是理解这些自然声音序列中的结构和潜在含义——寻找可能指示语言的模式和规则。
DolphinGemma介绍
分析海豚自然复杂通信是一项艰巨任务,而标记数据集为尖端AI提供了独特机会。
DolphinGemma由某机构开发,利用特定音频技术:SoundStream标记器有效表示海豚声音,然后由适合复杂序列的模型架构处理。这个约4亿参数的模型经过优化,可直接在野外使用的手机上运行。
该模型基于Gemma的见解构建,这是某机构的轻量级开源模型集合。经过对野生大西洋斑海豚声学数据库的广泛训练,DolphinGemma作为音频输入-输出模型,处理自然海豚声音序列以识别模式、结构,并最终预测序列中可能的下一个声音,类似于人类语言大模型预测句子中的下一个单词或标记。
使用手机监听分析海豚声音
除了分析自然通信外,研究还探索在海洋中使用技术的潜在双向交互。这导致了与某研究机构合作开发的CHAT(鲸类听觉增强遥测)系统。
该概念首先依赖于将新颖的合成哨声(由CHAT创建,不同于自然海豚声音)与海豚喜欢的特定物体关联。通过在人类之间演示系统,研究人员希望天生好奇的海豚能学会模仿哨声来请求这些物品。最终,随着更多自然声音被理解,它们也可以添加到系统中。
为实现双向交互,CHAT系统需要:
- 在海洋噪声中准确听到模仿声
- 实时识别被模仿的哨声
- 通过水下工作的骨传导耳机告知研究人员海豚"请求"的物品
- 使研究人员能够快速响应并提供正确物品,加强关联
某型号手机实时处理高保真海豚声音分析。新一代系统围绕新型号手机构建(研究计划于2025年夏季),整合扬声器/麦克风功能,并使用手机的高级处理同时运行深度学习模型和模板匹配算法。
使用智能手机显著减少了定制硬件需求,提高了系统可维护性,降低了功耗,并缩小了设备成本和尺寸——这些对于公海野外研究至关重要。同时,DolphinGemma的预测能力可以帮助CHAT在发声序列中更早预测和识别潜在模仿,提高研究人员对海豚的反应速度,使交互更加流畅和强化。
与研究界共享DolphinGemma
认识到科学发现中合作的价值,计划在今年夏季将DolphinGemma作为开放模型共享。虽然使用大西洋斑海豚声音训练,但预计其对研究其他鲸类物种的研究人员具有潜在效用。不同物种的发声可能需要微调,而模型的开放性促进了这种适应。
通过提供DolphinGemma等工具,希望为全球研究人员提供挖掘自己声学数据集的工具,加速模式搜索,并共同加深对这些智能海洋哺乳动物的理解。
理解海豚通信的旅程很长,但野外研究、工程专业知识和某机构技术的结合正在开辟令人兴奋的新可能性。我们不再只是聆听,而是开始理解声音中的模式,为人类与海豚通信之间的差距可能缩小的未来铺平道路。