图灵测试的时代价值与AI发展现状
1950年10月1日,《Mind》期刊发表了艾伦·图灵长达27页的论文《计算机器与智能》。70多年后的今天,这篇提出"机器能思考吗?“的论文仍然是人工智能领域的基础文献。
然而,尽管这篇论文具有标志性意义,但构建与人类智能相媲美的系统的原始目标仍难以实现。某中心Alexa副总裁兼首席科学家Rohit Prasad曾写道:“我认为图灵提出的目标对像我这样的AI科学家来说并不是一个有用的工作方向。图灵测试充满局限性,其中一些局限性图灵本人在他的开创性论文中已经讨论过。”
图灵测试的当代适用性
Alex Smola(某机构副总裁兼杰出科学家):“问题的核心与70年前一样重要。但我认为,与其寻求AI的二元(是/否)测试,我们应该有更渐进的衡量标准。例如,可以讨论机器能够欺骗人类多长时间。Alexa和其他系统现在对许多单轮查询做得相当不错,甚至还有一些相当 capable 的多轮系统。实际上,你可以通过Alexa Prize测试其中一些系统(‘Alexa,让我们聊天’)。使用时间可以更精细地衡量进展,例如通过发现冒牌货所需的分钟数(或轮数),而不是固定的时间限制。”
Yoelle Maarek(Alexa购物研究与科学副总裁):“很明显这不是一个完美的定义。首先,我怀疑是否存在一个普遍认同的智能定义,而且不清楚’人类’指的是什么。是指任何人类吗?机器能否与某些人类无法区分,而与其他人可以区分?然而,这是一个仍可用于启发的简化概念。它确实带来了灵感,例如在国际象棋或围棋方面的 outstanding 进展。当然,在许多其他领域,机器仍然需要学习,这些挑战继续激励着科学家。我们在Alexa购物研究中关注的两个领域是对话购物(作为对话AI的子领域)和计算幽默的进步。在这些困难的AI挑战中即使取得微小进展,我相信我们将为客户带来巨大价值,甚至让他们微笑。”
Nikko Ström(Alexa AI副总裁兼杰出科学家):“基于与人类智能无法区分来评估AI,就像基于与鸟类无法区分来评估飞机一样有意义。我们可能永远不会有一个单一的定义,但一个共同的线索是可泛化性,即在系统设计期间未考虑的新情况下取得成功的能力。为了实现这种泛化,AI需要推理和规划的能力,具有世界知识的表示,学习和记忆的能力,以及调节和整合这些认知能力以实现目标的能力。AI还需要成为世界的积极参与者,在评估智能时,不仅需要考虑目标是否实现,还需要根据取决于应用的效能指标(例如成本、能源使用、速度等)考虑目标实现的效率。我的预测是,一旦一个或几个成功的此类系统存在,就会出现一个标准模型,成为AI的事实定义。”
Gaurav Sukhatme(南加州大学教授兼某中心学者):“我认为’能够表现出与人类相当或无法区分的智能行为’的想法在思考AI时仍然适用。然而,多年来,当涉及到’测试’时,这个想法被非常狭隘地解释——即人们寻找在某些狭窄任务上类似人类的表现。我认为我们需要提醒人们,智能是非常广泛的能力集合,我们需要承认人类对世界有深刻的理解,是社交的,有同理心,能够并且确实持续学习,并且能够做非常广泛的事情。如果我们要说我们已经构建了一个展示AI的机器或系统,我希望看到它在类似广泛的能力上表现出与人类无法区分的行为。”
图灵会对今天的什么感到惊讶?
Sukhatme:“我认为他会对我们生产的技术制品取得的进展感到惊讶。而且他会对它们多么不智能感到失望。”
Maarek:“很难回答,因为这是纯粹的推测。但我愿意相信计算幽默会是其中之一,仅仅因为它让我们所有人都微笑。”
Ström:“莫拉维克悖论的解决。机器学习和特别是深度学习现在使我们能够解决机器人技术中的感觉运动任务,以及物体识别和语音识别等感觉任务。然而,通用智能仍然是一个困难的、基本上未解决的问题。我还认为图灵会对量子计算机着迷。”
Smola:“最让图灵惊讶的可能是数据量及其即时可用性。我们可以在超过1万亿字符的文本上构建语言模型,或者我们有数亿张图像可用,这可能是最大的区别。正是由于这些海量数据,我们才能够构建生成语音(例如某中心Polly)、翻译文本(例如某中心Translate)、识别语音(例如Transcribe)、识别图像、图像中的人脸或能够分析视频中姿势的系统。同时,不清楚他是否会预见到计算的指数级增长。UNIVAC能够每秒执行约4,000次浮点操作(FLOPS)。我们最新的P4服务器可以执行约1-2 PetaFLOPS,即1,000,000,000,000,000次乘加运算——你可以以每小时约30美元的价格租用它们。”
2090年科学家仍在困惑的理论问题
Sukhatme:“人类大脑如何以如此节能的方式完成它们所做的事情?什么是意识?”
Maarek:“在理论计算机科学问题方面,我相信像Winograd模式挑战这样的困难AI问题将会得到解决。但我愿意相信其他AI挑战,如给机器真正的幽默感,还不会解决。想到在1534年,法国作家弗朗索瓦·拉伯雷说’笑是人类特有的’,这是令人谦卑的。这可能就是我的团队研究计算幽默的原因——它既有趣又困难。”
Ström:“在70年内,我预测AI已经为实际目的解决,并用于认知任务,无论大小。所以不是那个。一些长期存在的深刻问题,如NP=P,仍将未解决。时间、空间、能量和物质的物理模型仍然不完整,关于生命如何从无生命的构建块中自发出现的问题仍然会困扰人类和合成科学家。除非我们幸运,70年也不足以确定我们的星系中是否存在外星智能生命。”
Smola:“这真的很困难,因为大多数预测甚至十年左右都站不住脚。在2016年,当我面试工作并在某中心和另一家大公司之间做决定时,那家另一家公司告诉我,在AI上赌注云服务是错误的。可能永远让我们保持清醒的问题是如何在保护个人自由的同时适当平衡创新。这些挑战需要学术界、工业界、政府和我们社会的多个利益相关者持续和仔细的考虑。同样,我们将永远无法完全表征我们统计工具的经验能力。简单来说,我们可能会 always 遇到在理论上应该表现得更好的算法。最后,还有从数据中实际获得关于世界如何工作的因果理解的问题。这是困难的,并困扰了(自然)科学家几个世纪。我们可能会看到大量进展的领域包括自主系统。自动驾驶汽车有如此多的经济前景,我认为我们最终将交付可行的方案。用于汽车的算法也可以适用于各种其他问题,如制造、维护等。未来一二十年将是惊人的——我们可能也会在图灵测试本身上看到巨大进展。”