AI生成隐藏3D图像的局限性解析

本文探讨了ChatGPT和Gemini等AI模型在生成Magic Eye式隐藏3D图像时的技术缺陷,揭示了文本生成模型与图像生成模型之间的协作断层,以及AI对自身输出缺乏验证机制的问题。

隐藏3D图像

你知道那些带有隐藏3D图像的自体立体图吗?就像1990年代的Magic Eye图片,看起来是嘈杂的重复图案,直到你正确散焦眼睛才能看到立体效果?ChatGPT居然可以生成这种图像!至少ChatGPT自己是这么声称的。

读者Pippin建议尝试用ChatGPT生成Magic Eye风格图像后,我生成了上方令人捧腹的海豚图片。最让我惊讶的是它的描述文字——为何会产生如此自信却完全错误的结果?

ChatGPT在互联网训练中接触过Magic Eye立体图的信息。当要求"生成独角兽的magic eye 3D立体图像"时,它传递给DALL-E3(实际生成图像的模型)的描述非常具体:

需要包含复杂图案和神秘元素背景,独角兽的角和鬃毛应在图案中清晰可辨…

但DALL-E3返回的图像却是这样的:

ChatGPT不会对返回的图像进行识别验证——无论DALL-E3生成什么,对它来说都是黑箱。于是ChatGPT继续按照预设描述行事,仿佛图像完全符合要求般指向根本不存在的3D幻象。

某机构的Gemini(原Bard)使用专用图像生成模型Imagen 2,其生成的"隐藏图像"更加直白:

Gemini具备图像描述模型,但当我要求描述刚生成的图像时,它依然无法识别这些根本不像Magic Eye图像的事实。除非用户主动上传图像,否则Gemini仅作为文本生成器运行。

销售"AI"的厂商喜欢将其包装成全能程序,但Gemini和ChatGPT更像装满应用的手机:文本生成应用可在特定场景调用图像生成应用,但它们并非真正意义上的统一程序。

值得注意的是,即使ChatGPT仅进行文本生成且理论上可以自我检查,它仍然默认自己完美完成任务。在生成ASCII文字艺术时:

当在新会话中向ChatGPT发送其自生成的ASCII文字时,它竟识别为"ERROR"。这些模型在识别和评估自身输出的ASCII艺术方面同样糟糕。

虽然生成ASCII艺术和3D图像并非ChatGPT类模型的主要应用场景,但这提醒我们:这些模型并不理解人类需求,也不掌握正确执行的基本步骤。当ChatGPT增加图像识别或描述功能时,并非原文本模型变聪明了,只是能调用其他应用而已。

最后来个3D幻象挑战!我要求生成特别棘手的图像,第一次很可能看不出隐藏图案。当你看到海龟图案时就会恍然大悟!

彩蛋内容:尝试让ChatGPT生成《小王子》风格的隐藏绵羊图像,基本以失败告终。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计