语音识别技术实战:从iOS到GPT的智能纠错之旅

本文详细记录了作者对比iOS 17与GPT在语音识别准确度上的实验过程,探讨了如何利用GPT-3.5优化语音识别结果,涉及WebAuthn、U2F等技术术语的识别改进,以及API使用成本等实际考量。

语音识别

更新:Evan告诉我Whisper已经解决了语音识别问题。他有一个封装程序可以从麦克风录音并在此处打印转录内容。Whisper非常令人印象深刻,唯一的注意事项是它有时会在结尾插入完整的虚构句子。这些单词在上下文中总是有点合理,但没有任何声音可能导致这种情况。根据我的经验,它总是在最后出现,删除它没有问题,因此,注意到这一点,您应该忽略下面的所有内容,因为Whisper是更好的解决方案。

上周的博客文章相当长,并且有比正常情况更多的拼写错误。(感谢指出它们的人。我想我已经修复了所有报告的错误。) 这是因为我在评测中看到iOS 17的语音识别应该有很大改进,我想我会试一试。我一直发现iOS的识别优于Google Docs,而且我有一台适合测试版的旧iPad Pro。 iOS的性能仍然很好,是的,我认为它比iOS 16更好。但它仍然远未达到“魔法”的水平,尤其是在使用技术术语时。以下段落直接取自上周文章的原始输出(我用斜体标出了错误):

它已集成到W3C凭证管理规范中,因此通过navigator.credentials.create和navigator.credentials.get调用。本文档旨在理解支撑web orphan的深层结构,而不是其细节的指南。因此,我们将把许多细节留给网络上已经存在的众多Web Oran指南,而是专注于UF中的结构如何被继承到Web orphan中并更新。

虽然很多单词都在那里很好,但错误密度如此之高,进行所有修正意味着它并不明显优于打字。然而,如今全世界都对LLMs兴奋不已。它们能帮忙吗? 我写了一个脚本来将文本分段,使每段至少500字节,然后将它们发送到gpt-3.5-turbo,并前缀以下指令,温度为0.6:

以下是一个糟糕的语音识别系统的输出。请纠正其错误并回复修正后的版本,无需任何前言。系统无法识别的一些不常见单词包括U2F、CTAP、FIDO、CTAP2、JSON、FIDO2、WebAuthn、承载令牌、哈希、钓鱼、RP ID、通行密钥、caBLE和密码管理器。

这是该段落的清理版本:

它已集成到W3C凭证管理规范中,因此通过navigator.credentials.create和navigator.credentials.get调用。本文档旨在理解支撑Web认证的深层结构,而不是其细节的指南。因此,我们将把许多细节留给网络上已经存在的众多WebAuthn指南,而是专注于U2F中的结构如何被继承到WebAuthn中并更新。

有一个情况是它写了“web认证”而不是“WebAuthn”,但它修复了所有其他问题! 这就是我尝试的方法:我向iOS口述长段落,然后运行脚本用GPT清理,然后在Obsidian中手动编辑。从Obsidian,pandoc转换为HTML和EPUB格式。 这个提示是一些实验的结果。最初,我要求GPT修复“错误和语法”,但在阅读结果时,一些句子不正确,我发现它“修复”成了无意义的内容。因此我去掉了“和语法”。您可以要求它以Markdown格式输出,我可能应该这样做,但当我想到时,我已经进行了太多手动编辑。 一个奇怪之处是,我用“recognise”(英式拼写)写了指令,但后来认为使用更常见的美式拼写(“recognize”)可能效果更好。但这似乎使情况更糟! 一个明显的尝试是使用GPT 4。然而,我误读了OpenAI API的成本,认为他们的收费是按令牌而不是每1000令牌。因此,由于估计值偏差三个数量级,GPT 4对于一个随机实验来说似乎有点太贵,我对所有内容都使用了GPT 3.5。 我没有用同样的方式写这篇文章,但这个实验效果足够好,我将来可能会对更长的公共写作再次尝试。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计