体验Hume免费工具:与AI版自己对话的技术探索

本文详细介绍了Hume公司EVI 3模型的超现实语音克隆功能,探讨了其技术原理、实际体验效果,以及AI语音技术在现实应用中的潜力和局限性,包括数据收集方式和未来发展趋势。

我与AI版本的自己对话——感谢Hume的免费工具及试用方法

EVI 3的语音克隆功能虽然存在不足,但其卓越特性远远超过了这些缺点。

使用EVI 3的语音克隆功能

如果您曾有过与AI版本的自己对话的冲动,现在您可以尝试了——某种程度上。周四,AI初创公司Hume宣布为其最新一代Empathic Voice Interface(EVI)模型EVI 3推出新的"超现实语音克隆"功能。该模型于上月发布。其理念是,通过上传一段您说话的简短录音——理想情况下在30到90秒之间——模型应该能够快速生成一个AI生成的您声音的复制品,然后您可以与之进行口头互动,就像与站在您面前的另一个人交谈一样。

我还上传了一段自己声音的录音到EVI 3,并花了一些时间与模型模仿我声音的版本闲聊。我原本希望(或许天真地)能有一种"恐怖谷"体验——那种极其罕见的与几乎完全真实但又有些不对劲以至于让人感到轻微不安的事物互动的感觉——但当EVI 3版本的我更像是一个音频卡通版的自己时,我感到失望。

让我详细解释一下。

在某些方面,对我声音的模仿无疑是真实的。它似乎在说话时间歇性地停顿,方式与我倾向于做的差不多,带有一丝熟悉的声带摩擦音。但模仿仅止于此。

Hume在其博客文章中声称,EVI 3的新语音克隆功能可以捕捉"说话者个性的各个方面"。这是一个模糊的承诺(可能是故意的),但在我自己的试验中,模型在这方面似乎有所不足。远非感觉像是对我自己行为怪癖和幽默感的令人信服的模拟,模型说话时带着一种活泼、急于取悦的语气,非常适合抗抑郁药的广播广告。我喜欢认为自己友好且通常乐观,但AI显然夸大了这些特定的性格特征。

尽管其总体表现像小狗一样温顺,但模型奇怪地坚决拒绝尝试用口音说话,这在我看来似乎是它擅长的那种有趣的语音练习。当我要求它尝试一下澳大利亚口音时,它用我的正常声音说了一两次"g’day"和"mate",然后立即回避任何更大胆的尝试。无论我提示它谈论什么,它倾向于找到一些创造性和迂回的方式,将话题绕回我录制声音样本时讨论的主题,这让人想起Anthropic去年的一项实验,其中Claude被调整成对金门大桥着迷。

例如,在我的第二次试验中,我录制了自己谈论Led Zeppelin的内容,那天早上我一直在听。当我然后要求EVI 3的声音克隆版本阐明其对暗物质本质的看法时,它迅速找到了一种方式将其回应带回到音乐主题,将弥漫宇宙的神秘不可见力量与赋予歌曲意义和力量的无形旋律进行比较。

您可以在此处亲自尝试EVI 3的新语音克隆功能。

根据Hume网站的说法,与EVI API交互产生的用户数据默认会被收集和匿名化,以训练公司的模型。但是,您可以通过个人资料中的"零数据保留"功能关闭此设置。对于非API产品,包括上面链接的演示,公司表示它"可能"会收集和使用数据来改进其模型——但同样,如果您创建个人资料,可以切换此设置。

低语机器人

AI语音已经存在了相当长的时间,但历史上它们在真实性方面相当有限;例如,当您收到经典Siri或Alexa的回应时,很明显您是在与机器人交谈。相比之下,新一代AI语音模型,包括EVI 3,不仅被设计成用自然语言说话,而且更重要的是,模仿真实日常人类语音中细微的转折、语调、特性和节奏。

“人类沟通的很大一部分是强调正确的词语,在正确的时间停顿,使用正确的语调,“Hume首席执行官兼首席科学家Alan Cowen告诉我。

正如Hume在周四的一篇博客文章中所写,EVI 3"知道要强调哪些词语,什么让人发笑,以及口音和其他语音特征如何与词汇互动。“据公司称,这标志着与早期语音生成模型的重大技术飞跃,“后者缺乏对语言的有意义理解。”

许多AI专家会反对在这种语境中使用"理解"等词语,因为像EVI 3这样的模型仅仅被训练来检测和重现从其大量训练数据中收集的模式,这一过程可以说没有留下任何我们认可的真正语义理解的空间。

根据Hume的博客文章,EVI 3"在数万亿的文本标记和数百万小时的语音上进行了训练。“据Cowen称,仅这种方法就使模型能够以比直观预期更真实的声音说话。“对于语音[模型],最令人惊讶的是,仅仅通过大量数据训练,[它们]可以多么人性化,“他说。

但抛开哲学争论不谈,新一代AI语音模型无疑令人印象深刻。当被提示时,它们可以探索比其前辈更广泛的声音表达范围。像Hume和ElevenLabs这样的公司声称,这些新模型将对娱乐和营销等行业产生实际好处,但一些专家担心它们会为欺骗打开新的大门——正如上周所示,当时一个未知人士使用AI模仿美国国务卿Marco Rubio的声音,随后部署声音克隆试图欺骗政府官员。

“我看不出有任何理由我们需要一个低语的机器人,“语言学家、《AI骗局》合著者Emily M. Bender最近告诉我。“比如,那是为了什么?除了也许掩盖你正在听的是合成事实?”

革命性变成常规

是的,EVI 3的语音克隆功能,像所有AI工具一样,有其缺点。但这些缺点被其卓越特性大大掩盖了。

首先,我们应该记住,今天上市的生成式AI模型是该技术的婴儿期,它们只会继续改进。在不到三年的时间里,我们从ChatGPT的公开发布发展到可以或多或少令人信服地模拟真实人类声音的AI模型,以及像Google的Veo 3这样可以产生真实视频和同步音频的工具。生成式AI进步的惊人速度至少应该让我们暂停思考。

今天,EVI 3可以模拟您声音的粗略近似。然而,期望其继任者——或者也许是继任者的继任者——能够以真正令人信服的方式捕捉您的声音并非不合理。在这样一个世界中,人们可以想象EVI或类似的语音生成模型与AI代理配对,例如,代表您参加Zoom会议。不那么乐观地说,它也可能成为骗子的梦想成真。

不过,关于我与EVI 3语音克隆功能交互体验的最惊人事实是,这项技术已经感觉多么平凡。

随着技术创新步伐的加快,我们即时正常化那些会让前几代人惊得目瞪口呆的事物的能力也在加快。OpenAI的Sam Altman在最近的博客文章中提出了这一点:根据Altman的说法,我们正在接近奇点,但在大多数情况下,感觉就像一切照常。

想要更多关于AI的故事?注册我们的每周新闻通讯《创新》。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计