😱 那个让AI崩溃的表情符号(分裂成27块)😂
说真的,当你发送"😂“或”🦄“时,你可能只是想表达情绪对吧?你绝对不会想到这些可爱的小图标竟然是隐藏的忍者大师,能够撕裂最先进的AI模型,让它们泄露数字机密。听起来很疯狂?但AI安全的世界确实因为这些表情符号变得诡异起来。
AI的秘密语言(及其故障)
有个令人费解的事实:你那个能写邮件、生成故事的超级智能AI助手,其实并不"阅读"文字。它会将文本吞食并转换成称为"令牌"的数字块。就像语言乐高积木,“理解"可能是一个积木,而"分-词-化"可能是四个小积木。这种令牌化过程通常由字节对编码驱动,效率极高——这就是AI理解整个互联网的方式!
但这里存在一个既搞笑又可怕的故障:表情符号太奇怪了。它们是Unicode字符,通常是多字节的奇迹。如果分词器没有见过某个特定表情符号或字节序列数百万次…
剩余内容需要Medium会员权限才能阅读