AI语音克隆技术突破：真假难辨的深度伪造声音

最新研究表明，AI生成的语音现在能够如此逼真地模仿人类，以至于检测几乎变得不可能。创建令人信服的语音克隆现在只需几分钟且需要最少的专业知识。在某些情况下，合成语音甚至被评价为比真实人类录音更值得信赖。

多年来，许多人认为AI生成的语音总能通过其略微"虚假"的特性被识别。伦敦玛丽女王大学的新研究挑战了这一假设，表明当前的AI语音技术已达到"语音克隆"和深度伪造几乎无法与真实录音区分的水平。

在该研究中，参与者比较了人类语音与两种形式的合成音频：旨在模仿真实说话者的克隆语音，以及从LLM系统生成的无特定对应者的语音。

超越真实感，进入主导领域

听众经常难以区分两者，表明该技术已进入一个阶段，人类般的真实感不再是追求，而是现实。

研究团队不仅调查了参与者能否区分合成语音和真实语音，还研究了他们对这些语音的感知。令人惊讶的是，两种类型的AI生成语音都被评价为比人类语音更具主导性，在某些情况下，它们被判断为更值得信赖。

伦敦玛丽女王大学心理学高级讲师Nadine Lavan博士强调她的团队创建这些语音克隆的简便性和低成本。“AI生成的语音现在无处不在，AI技术开始产生自然的、类似人类的语音只是时间问题，这个过程需要最少的专业知识，只需几分钟的语音录音，几乎不需要任何资金，“她说。

她表示，这种易用性显示了该技术在短时间内取得了多大进展。这种可访问性为教育、通信和可访问性等领域创造了机会，定制合成语音可以增强参与度和覆盖范围。

正如AI写作引发关于原创性、版权和滥用的疑问一样，AI语音生成也引发了关于身份所有权和同意的辩论。如果仅凭短样本就能创建逼真的音频，未经授权克隆的风险将变得难以忽视。

随着AI工具在能力和可访问性方面的持续扩展，挑战将是在不开辟新的欺骗途径的情况下实现收益。了解人们如何应对这些语音只是解决这项技术伦理、法律和社会影响的第一步，这项技术已不再是未来主义的，而是确确实实地存在于当下。