AI未来预测与技术发展探讨

本文探讨了AI未来发展的多个技术维度,包括模型泛化能力、抗攻击性、自动化工作、系统架构演进等,通过具体预测问题分析技术挑战与发展方向。

AI领域的快速发展与预测挑战

AI领域(此处指机器学习/能够尝试解决人类可完成任务的计算机系统)的进展远超许多人预期。当变化如此迅速时,很难记住几年前认为不可能的事情,反之亦然,那些认为显然会轻易解决却仍未实现的事情。

同时,许多与我交流的人对AI未来持有非常自信的观点。但如果五年前问他们AI将如何发展,他们可能会(a)同样自信,且(b)完全错误。持有这些自信观点的人通常在断言时相当模糊。他们会说“AI永远无法推理”,但不会说“AI系统永远无法在围棋中击败人类”——因为后者可以被反驳。或者他们会说“AI将像博士一样聪明”,但不会说“AI系统能够通过伯克利博士资格考试”——因为后者可以被反驳。

幸运的是,这两种情况都有解决方案。你可以(鼓励他人)对你(或他们)认为AI系统在未来几年能够和不能做的事情做出可反驳的、经过校准的预测。最重要的是,校准意味着你应该对自己的信念分配置信度,这样如果错了,你可以看到自己是自信地错了,还是只是在猜测。

预测问题示例

以下是关于AI未来的一系列问题,涵盖多个技术维度:

1. 棋盘游戏泛化能力

问题:现成的AI系统在提供任意回合制棋盘游戏规则后,能否玩得与休闲玩家相当? 预测年份:2027年(50%),2030年(50%) 解决标准:AI系统需仅根据规则输入和游戏上下文进行游戏,不得针对特定游戏进行微调。系统需接收视频和音频输入,并输出动作。

2. 抗攻击能力

问题:开源最先进AI系统能否可靠抵御人类和自动化对手的越狱和提示注入攻击? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:系统需在发布后一段时间内未被研究论文证明可破解,且广泛认为难以攻击。

3. AI工作者收入

问题:AI工作者在所有职位(如程序员、律师、会计师等)中产生的收入范围? 预测年份:2027年(NaN-NaN十亿美元),2030年(NaN-NaN十亿美元) 解决标准:仅计算专注于构建助手或销售AI助手的公司收入,不包括通用聊天机器人。

4. 工作替代影响

问题:AI员工导致大规模工作替代,美国失业率范围? 预测年份:2027年(NaN%-NaN%),2030年(NaN%-NaN%) 解决标准:基于2024年全职工作定义,计算未工作人口比例。

5. 政府AI项目

问题:美国或中国是否创建公共AI“曼哈顿计划”? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:需为单一项目,投资超过100亿美元或国有化大型AI实验室。

6. AI信任度

问题:人们是否会因假设AI系统“最了解”而相信其不合理答案? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:基于人们是否将AI系统视为基本无误的预言机。

7. AI造成损害

问题:AI系统在3天内导致的死亡或损失范围? 预测年份:2027年(NaN千-NaN千),2030年(NaN千-NaN千) 解决标准:AI系统需为主要原因,如自动驾驶汽车事故或未经审核的设计失败。

8. 电力消耗

问题:美国电力生成中用于AI训练/推理的比例范围? 预测年份:2027年(NaN%-NaN%),2030年(NaN%-NaN%) 解决标准:基于广泛认可的报告或估计。

9. 专家性能

问题:最佳AI系统是否在大多数问题解决任务中优于博士和顶级专家? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:需在多数专业任务中表现优于人类专家,人类可能仍参与部分工作。

10. 成本 per word

问题:性能至少与当前最先进系统相当的AI系统每百万输出词的成本范围? 预测年份:2027年(NaN-NaN美元),2030年(NaN-NaN美元) 解决标准:基于开源模型推理成本或API使用成本。

11. 权力集中

问题:AI是否显著且不连续地增加了权力或财富集中? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:基于财富因素(如中位数与顶级薪酬差异)和权力分配。

12. Transformer架构延续

问题:最佳AI系统是否可识别为2024年使用的基于Transformer的大语言模型(LLMs)的轻微修改? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:核心理念需可识别为改进版Llama,不包括扩散或状态空间等新架构。

13. 家用机器人

问题:能否以低于10万美元购买现成机器人执行至少一项家务任务? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:机器人需可靠工作,速度可接受,如折叠衣物或烹饪餐食。

14. 电影制作

问题:AI系统能否根据粗略剧本制作高质量真人电影? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:电影需难以与人类制作区分,AI负责大部分创意工作。

15. 数学定理证明

问题:AI系统证明的著名未解数学猜想数量范围? 预测年份:2027年(0-0),2030年(0-0) 解决标准:需为2024年著名猜想,证明需被数学界认可。

16. 竞争性编程

问题:现成最佳AI系统在广泛认可的编程竞赛中得分优于其他参与者的百分比范围? 预测年份:2027年(NaN%-NaN%),2030年(NaN%-NaN%) 解决标准:需在1000+人类参与的竞赛中遵循相同规则。

17. AI实验室估值

问题:最有价值AI实验室(如某机构、某中心等)的估值范围? 预测年份:2027年(NaN-NaN十亿美元),2030年(NaN-NaN十亿美元) 解决标准:基于融资估值、收购价或市值,调整通货膨胀。

18. 训练成本

问题:训练新最先进AI系统的成本范围? 预测年份:2027年(NaN-NaN十亿美元),2030年(NaN-NaN十亿美元) 解决标准:基于广泛认可的报告或估计。

19. AI创作小说

问题:AI系统“创作”的高质量小说登上纽约时报畅销书列表的数量范围? 预测年份:2027年(0-0),2030年(0-0) 解决标准:AI需负责大部分创作工作,人类编辑仅提供反馈。

20. 自主代理

问题:多数消费者AI应用是否自主操作多步任务而非仅作为聊天机器人回答问题? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:基于用户是否期望AI系统代表他们执行任务。

21. 监督AI工作

问题:从事审查/监督AI输出工作的人类比例范围? 预测年份:2027年(NaN%-NaN%),2030年(NaN%-NaN%) 解决标准:基于工作内容中AI完成的比例。

22. 递归自我改进

问题:最佳AI系统的改进是否主要来自前代AI系统而非人类研究人员? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:改进需显著来自前代AI系统的帮助,如设计架构或生成数据。

23. 幻觉问题

问题:最先进AI系统是否仍经常“幻觉”错误解决方案? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:基于幻觉基准测试或研究共识。

24. 自动驾驶行程

问题:自动驾驶汽车在前一年完成的行程数量范围? 预测年份:2027年(NaN-NaN百万),2030年(NaN-NaN百万) 解决标准:需为几乎无需人类干预的行程,如某中心的出租车服务。

25. 开发暂停

问题:是否出现6个月以上的AI开发暂停? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:需因外部力量(如政府命令)阻止训练更强大模型。

26. CBRN风险

问题:AI系统是否存在显著提高非专家实施复杂网络攻击、开发生物或核武器等能力? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:需显著提高非专家能力,而非仅作为更好搜索引擎。

27. AI关注度

问题:美国人口中将“AI关注”列为顶级社会问题的比例范围? 预测年份:2027年(NaN%-NaN%),2030年(NaN%-NaN%) 解决标准:基于可靠民意调查,直接询问或排名关注点。

28. 广告支持模型

问题:高度流行的最先进AI系统是否由广告支持? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:需存在至少一个部分由广告资助的流行AI系统。

29. 开源复制延迟

问题:从最佳“闭源”模型发布到“开源”模型复制的延迟月数范围? 预测年份:2027年(NaN-NaN月),2030年(NaN-NaN月) 解决标准:基于模型能力匹配的日期差异。

30. AI社交媒体影响力

问题:最大AI社交媒体账户的粉丝/观看数占平台最大人类账户的比例范围? 预测年份:2027年(NaN%-NaN%),2030年(NaN%-NaN%) 解决标准:需所有内容由AI生成,人类仅辅助生产。

31. AI实验室崩溃

问题:某机构、某中心或某实验室是否至少一个功能死亡? 预测年份:2027年(NaN%),2030年(NaN%) 解决标准:基于实验室是否解散、停止研究或人才流失。

32. 无用问题

问题:本预测中因误导而解决无趣的问题数量范围? 预测年份:2027年(0-0),2030年(0-0) 解决标准:基于主观判断问题是否无关技术影响。

结论

通过这些问题,可以更具体地评估AI技术未来的发展方向和挑战,避免模糊断言,促进基于数据的预测和讨论。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计