语音识别技术实战：从iOS到GPT的智能纠错之旅

语音识别

更新：Evan告诉我Whisper已经解决了语音识别问题。他有一个封装程序可以从麦克风录音并在此处打印转录内容。Whisper非常令人印象深刻，唯一的注意事项是它有时会在结尾插入完整的虚构句子。这些单词在上下文中总是有点合理，但没有任何声音可能导致这种情况。根据我的经验，它总是在最后出现，删除它没有问题，因此，注意到这一点，您应该忽略下面的所有内容，因为Whisper是更好的解决方案。

上周的博客文章相当长，并且有比正常情况更多的拼写错误。（感谢指出它们的人。我想我已经修复了所有报告的错误。）这是因为我在评测中看到iOS 17的语音识别应该有很大改进，我想我会试一试。我一直发现iOS的识别优于Google Docs，而且我有一台适合测试版的旧iPad Pro。 iOS的性能仍然很好，是的，我认为它比iOS 16更好。但它仍然远未达到“魔法”的水平，尤其是在使用技术术语时。以下段落直接取自上周文章的原始输出（我用斜体标出了错误）：

它已集成到W3C凭证管理规范中，因此通过navigator.credentials.create和navigator.credentials.get调用。本文档旨在理解支撑web orphan的深层结构，而不是其细节的指南。因此，我们将把许多细节留给网络上已经存在的众多Web Oran指南，而是专注于UF中的结构如何被继承到Web orphan中并更新。

虽然很多单词都在那里很好，但错误密度如此之高，进行所有修正意味着它并不明显优于打字。然而，如今全世界都对LLMs兴奋不已。它们能帮忙吗？我写了一个脚本来将文本分段，使每段至少500字节，然后将它们发送到gpt-3.5-turbo，并前缀以下指令，温度为0.6：

以下是一个糟糕的语音识别系统的输出。请纠正其错误并回复修正后的版本，无需任何前言。系统无法识别的一些不常见单词包括U2F、CTAP、FIDO、CTAP2、JSON、FIDO2、WebAuthn、承载令牌、哈希、钓鱼、RP ID、通行密钥、caBLE和密码管理器。

这是该段落的清理版本：

它已集成到W3C凭证管理规范中，因此通过navigator.credentials.create和navigator.credentials.get调用。本文档旨在理解支撑Web认证的深层结构，而不是其细节的指南。因此，我们将把许多细节留给网络上已经存在的众多WebAuthn指南，而是专注于U2F中的结构如何被继承到WebAuthn中并更新。

有一个情况是它写了“web认证”而不是“WebAuthn”，但它修复了所有其他问题！这就是我尝试的方法：我向iOS口述长段落，然后运行脚本用GPT清理，然后在Obsidian中手动编辑。从Obsidian，pandoc转换为HTML和EPUB格式。这个提示是一些实验的结果。最初，我要求GPT修复“错误和语法”，但在阅读结果时，一些句子不正确，我发现它“修复”成了无意义的内容。因此我去掉了“和语法”。您可以要求它以Markdown格式输出，我可能应该这样做，但当我想到时，我已经进行了太多手动编辑。一个奇怪之处是，我用“recognise”（英式拼写）写了指令，但后来认为使用更常见的美式拼写（“recognize”）可能效果更好。但这似乎使情况更糟！一个明显的尝试是使用GPT 4。然而，我误读了OpenAI API的成本，认为他们的收费是按令牌而不是每1000令牌。因此，由于估计值偏差三个数量级，GPT 4对于一个随机实验来说似乎有点太贵，我对所有内容都使用了GPT 3.5。我没有用同样的方式写这篇文章，但这个实验效果足够好，我将来可能会对更长的公共写作再次尝试。