单臂黑客的实战经验:语音控制、AI助手与无障碍技术生存指南

一位资深计算机专家在肩部手术后,仅能使用单臂工作一个月的真实记录。文章深入探讨了如何结合macOS语音控制、AI编程助手(如Claude Code)、以及一系列软硬件工具来维持生产力,并分享了克服技术指令、标点符号和口音识别等具体挑战的实用技巧。

One Armed Hacker - Accessibility Hacking

对于那些可能还不知道的人,我一直在从肩部手术中恢复,并在过去一个月里只用一只手臂操作。说得委婉点,这很有趣。打字尤其困难,所以我严重依赖语音控制和听写。事实上,这篇完整的文章是单独在我Mac上使用听写完成的(稍后会详细介绍)。

第1天,吊着绷带

打字的替代方案

近年来,听写技术取得了长足进步,让它来处理带有苏格兰口音的打字效果出人意料地不错,Siri只搞错大约一半的时间,所以这篇博文的写作时间是正常情况下的两倍。操作系统和移动设备上的无障碍功能已经成为我工具包中真正有用的部分。将听写与Claude Code这样的工具配对使用救了我:我可以对着机器说话,让它解读我说的话,并生成我需要的东西。正是通过这种工作流程,我的pR1项目得以在我基本上只有一只手的情况下发布。

为什么写这个?

无障碍是我们大多数人直到突然需要依赖它时才会忽视的东西。在过了几周的单臂生活后,除了用手以外的任何方式都成了保持我左肩固定的唯一方法。我几乎无法完成日常工作,仅仅是因为使用鼠标或键盘都成了一场战斗,所以依赖其他技术基本上成了我的生命线。我通常认为理所当然的使用触控板、双手打字等任务,都变得缓慢、笨拙得多,有时甚至比预期的要痛苦得多。

如果你从未尝试过单臂生活(0/10,不推荐),想象一下它甚至如何影响最简单的日常任务。穿衣服(尤其是袜子、帽子)、打字、穿夹克、用一只手拉上拉链……所有这些都突然变成了小难题。学习用一只手做所有事情是一条陡峭的上坡路,老实说,我没料到会这么难。止痛药有帮助,但能够向我的电脑或手机口述信息,才是让我保持生产力和勉强清醒的原因。

听写并不完美

在Mac上听写的一个更恼人的方面是它以美国为中心。很多语音快捷方式都假设是美国用语,比如必须说“空格键”而不是简单的“空格”,这很烦人。再加上苏格兰口音和阅读障碍,你会得到一些真正无益的误解。例如,Siri似乎坚信她的名字是“Sarah”,所以她会热情地回应,然后就直接不理我了。任何有非标准口音(苏格兰或其他)的人都对这种痛苦太熟悉了。

科幻梦想 vs. 现实

我们都知道《少数派报告》、《钢铁侠》和所有科幻电影中的幻想,其中语音控制看起来流畅而毫不费力:说话,系统就能工作。我们正在接近这个目标。语音控制很好,听写很好,但它仍然远非完美——尤其是当你试图使用工具、命令行参数或任何稍微有点技术性的东西时。尝试用它来处理任何技术性内容:命令行参数、符号、文件路径或任何需要精确性的东西,它很快就会崩溃。对于散文来说很棒,对于管理来说可以忍受,对于技术性工作来说很粗糙。然而,一个关键改进是AI代理的使用。因为你可以有效地指导他们用散文来写技术性内容,虽然不完美,但肯定比试图向终端口述Python和Go函数要容易,而且“pipe”的解释大约每五次中有一次能成功。

听写出错的地方(以及如何变通)

听写很好,有时甚至堪称出色,但它仍然会被任何超出正常会话美式英语范围的东西绊倒(作为一个苏格兰人,这真的非常烦人)。技术性工作、标点符号、符号、文件名、代码和口音都相当迅速地暴露了它的局限性。以下是我遇到的主要问题,以及真正有帮助的变通方法。

符号和标点

这是听写最快崩溃的地方。开发者每天输入的任何东西都可能被搞得一团糟。例如:

  • 竖线 (|) – 被解释为“type”、“hype”、“wipe”,或者干脆什么都没识别到。
    • 变通方法:说“vertical bar”而不是“pipe”;大约80%的时间有效。或者用散文口述命令,然后让AI代理构建实际的语法。
  • 斜杠与反斜杠 – 经常混淆或完全被忽略。
    • 变通方法:非常缓慢地说“forward slash”或“back slash”;macOS语音控制比Siri听写更可靠地识别它。
  • 引号 – “Quote”、“double quote”和“apostrophe”都会被误用。
    • 变通方法:对于散文,改用“open quote”/“close quote”;写代码时手动输入引号,这样更快且能避免错误。
  • 冒号和分号 – 经常被忽略或插在错误的地方。
    • 变通方法:完整口述句子,然后手动编辑标点,或者稍后使用“insert colon”之类的语音命令插入它们。

文件路径和命令

听写真的不是为处理这类命令而设计的(输入这个命令尝试了很多很多次):/usr/local/bin/python3 -m http.server 8thousandno 8 zero 80,去它的,80 eighty :hidethepain:

  • 变通方法:用完整的描述性句子说话,例如,“generate a Python command to start a web server on port eighty eighty”,然后让AI代理输出正确的语法。这样你就完全避免了符号噩梦。

CLI 参数

-v--verbose--force 或任何带有连字符的标志都会被搞得一团糟。尤其是连字符,非常不可靠。

  • 变通方法:使用:
    • “dash”
    • “double dash”
    • “hyphen” 或者口述意图,让代理来整理。

大写

听写对于专有名词、文件名或首字母缩略词的处理不一致。例如:

  • “SSH” 变成 “s s h”
  • “GitHub” 变成 “get hub”
  • “zsec.red” 变成 “zed section red”、“zee sec”,或者Siri那天随便怎么想,美国化不幸地要求我将Z不正确地发音为zee而不是zed 😦。
  • 变通方法:之后用搜索替换功能过一遍,或者为你日常使用的术语创建语音控制宏(例如,“insert uppercase S S H”)。

口音和误听

苏格兰口音在某些地方绝对会摧毁语音听写。常见问题:

  • “Siri” 变成 “Sarah”
  • “shell” 变成 “shall”
  • “code” 变成 “cold”
  • “curl” 变成 “Carol”
  • “sudo” 变成 “pseudo”
  • 变通方法:使用macOS语音控制而不是Siri听写——它对口音的容忍度更高。稍微放慢语速,保持命令简短和单调;听写对“机器人模式”的反应比对对话语气的反应更好。

行动受限带来的精神负担

我没想到的一点是,只能用一只手臂所带来的纯粹的精神疲惫。这不仅身体上疲惫——还要不断消耗认知能力去解决你以前从未想过的基本问题,这些行动直到此刻之前都是日常的自主行为。 两件非常基本的事情,从椅子上站起来、坐起来以及捡东西,我的深蹲能力和核心力量呈指数级提高。要捡起任何东西甚至弯腰,我需要蹲下来抓东西,这发生的次数比你想象的要多。站起来也是如此,不能推扶手或任何东西,因为给手臂施压是我最不能做的事情,所以用腿和核心来做所有事情也同样痛苦! 穿衣服变成了一项早晨的策略练习。纽扣是显而易见的噩梦,但问题远不止于此。怎么穿T恤?每个人的方法不同,但我发现有效的方法是先把吊带穿过衬衫,把它套过头,然后把能动的手臂穿过另一个袖子。袜子一开始感觉不可能:你需要同时把它们撑开并引导你的脚进去。腰带需要按照通常依赖双手相互配合的顺序来穿、拉和扣紧。 即使是像提裤子这样不经思考的事情,当你无法用另一只手臂扶墙时,也变成了平衡动作。我发现最简单的方法就是直接仰面躺下,让重力来完成繁重的工作。不优雅,但有效。 另一个例子:想象你在车里,需要系上安全带或关车门,但你不能正常够到门把手,也不能像平时那样引导安全带。这些是你一生都在自动执行的微小日常动作。失去一只手臂,你立刻就失去了这种自主权。

单臂生存工具包

单臂生活迫使你重新思考工作流程的每个部分。你最终会构建一个工具包,这不是为了便利,而是为了找到保持生产力、避免疼痛、以及在听写出错时阻止自己(用能动的手)把笔记本电脑扔出窗外的方法。以下是我发现能带来巨大改变的一系列工具、设置和奇怪技巧。

Dragon Dictation (Nuance Dragon)

如果你需要原始准确性,它仍然是语音识别的黄金标准。Dragon比大多数内置系统能更好地处理口音,并且处理长篇文本的效果出奇地好。对于技术性工作来说并不完美,但对于撰写草稿、回复电子邮件或快速捕捉想法来说,它远远领先于Siri或macOS听写。

  • 为什么它对单手操作很重要
    • 对非标准口音(包括苏格兰口音)的最佳准确性。
    • 你可以为技术术语训练自定义词汇。
    • 比主流听写引擎的误触发少得多。

macOS 听写

macOS听写不错,而且重要的是,它一直存在。增强听写(离线模式)提高了速度并减少了延迟,这使它不那么令人抓狂。对于命令行或技术性内容,它的宽容度较低,但对于一般写作来说,触发快速且易于使用。 通过以下方式使其可以忍受:

  • 在系统设置中启用增强听写。
  • 使用语音控制进行光标移动和编辑。
  • 为经常说的话创建自定义命令,例如“insert pipe symbol”、“new paragraph”或系统经常搞砸的技术术语。

AI代理 (Claude Code, ChatGPT, Gemini)

Claude Code一直很出色,大多数时候都很好用,但仍然不完美。 最大的改变是使用AI代理来填补听写失败的地方。与其试图口述精确的语法(“pipe! no, pipe! vertical bar! no stop that”),不如口述意图,让代理来编写技术内容。

  • AI如何帮助单手操作
    • 你口述想法,代理编写实际代码。
    • 代理自动规范标点和结构。
    • 它们避免反复摆弄微小的符号或大括号。
    • 它们充当你的口音和机器之间的缓冲。
    • 即使听写把你的话弄错了,代理通常也能理解你的意思。

文字处理器和笔记工具

像Microsoft Word、Google Docs和Obsidian这样的工具变得至关重要,纯粹因为它们提供了宽容的环境:自动更正、语法检查、格式辅助和撤销按钮成了你的朋友。

  • 为什么这些很重要
    • 听写会倾倒出混乱的文本——文字处理器会清理它。
    • 语法和拼写检查会抓住麦克风捕捉到的无意义内容。
    • 语音触发的格式化(“bold that”、“insert bullet list”)效果很好。
    • 如果你进行较长的写作会话,Word和Google Docs比大多数编辑器更能处理好听写。

键盘快捷键和自动化

即使只有一只手,一些快捷键仍然有帮助——主要是那些你能用能动的手按下的:

  • Cmd + Space – 启动聚焦搜索(或者Raycast,如果你用它的话)。
  • Cmd + A / C / V – 全选、复制、粘贴。
  • Cmd + Tab – 应用切换。 将这与macOS快捷指令、Keyboard Maestro或Automator配对,你可以将操作链接在一起,这样单个快捷键就可以替代三四个你身体上无法轻松完成的繁琐鼠标移动。

硬件助手

不是软件,但值得指出:

  • 垂直鼠标或轨迹球 – 减轻手腕压力,单手控制更好。
  • 宏键盘 – 将常用操作分配给大而易按的按钮,我在桌面上设置了一个streamdeck,便于导航、书签和应用以及功能。
  • 手机/平板支架 – 这样你就不用尝试用受伤的手臂抓握任何东西。即使是正确角度的便宜支架,也能在可用和痛苦之间产生天壤之别。

结论

如果说过去一个月教会了我一件事,那就是无障碍工具不是可选的附加项,它们也不完美。不幸的是,我们还没有达到科幻级别的功能,但在你的身体停止合作的瞬间,它们就变成了重要的基础设施。听写、语音控制、AI代理、更智能的文字处理器、自动化和一些便宜的硬件是我能够继续工作、交流和保持基本功能的唯一原因,尽管一切都要花两倍的时间,疼痛却是三倍。我逐渐欣赏的另一件事是新技术的“轻盈”,我没想到的是我的iPad的重量,例如M4型号轻如鸿毛,当你单手使用时非常出色。 这些工具都不是完美的。听写仍然搞砸了我一半的句子,口音在语音控制中仍然是二等公民。现实中口述任何东西仍然是一种耐心和脏话的练习。但这些工具的组合——生存工具包——在“完全无法工作”和“缓慢但可管理”之间产生了差异,而AI代理的加入加速了我能够做到本来无法做到的事情。 最让我惊讶的是,即使我最终完全摆脱了吊带,我可能也会继续使用这种设置的很多部分。一旦你度过了最初的尴尬期,这些工具确实使日常工作更容易——压力更小,重复性动作更少,并且有更快的方法将想法从头脑中转移到屏幕上。无障碍技术可能是环境强加给我的,但我能看到它在我这次受伤成为过去后,仍将长期成为我正常工作流程的一部分。 然而,我不得不说,我不喜欢AI写作散文内容以及它添加的措辞,有时很糟糕,那种机器人的语调加上缺乏情感确实减损了写作。 在需要依赖之前,学习和启用你的无障碍选项。 熟悉听写、语音命令、自动化和你的平台提供的任何工具。你不会注意到有多少自主权存在于微小、平凡的动作中,直到你突然无法执行它们。而一旦你需要帮助,让这些工具已经设置好并准备就绪,会使从双手生活到单手即兴发挥的转变不那么痛苦。 至少,你会欣赏无障碍技术已经进步了多少,以及它还有多长的路要走。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计