AI快讯 | 「13.11＞13.8」冲上热搜，一道题让人类AI集体降智？

「13.11＞13.8」冲上热搜，一道题让人类AI集体降智？

来源：东营新闻发布日期：2024-07-18

13.8和13.11哪个大？这个问题不光难倒了部分人类，还让一票大模型折戟。AI如今都能做AI奥数题了，但简单的常识问题对它们依然难如登天。其实，无论是比大小，还是卷心菜难题，都揭示了LLM在token预测上的一个重大缺陷。———— / BEGIN / ————13.8和13.11哪个大？这个问题，居然难倒了一票人类。前两天，某知名综艺再次喜提热搜。只不过，这次是因为有一堆网友提出质疑，认为13.11%应该比13.8%大。是只有人类这么蠢吗？AI2的研究员林禹臣发现这个现象后，用大模型试了一把，结果出人意料——AI居然也不行？GPT-4o斩钉截铁地表示：13.11比13.8大。理由如下：虽然13.8看起来更大，因为它小数点后的数字更少，但13.11实际上更大。这是因为13.8相当于13.80，而13.80小于13.11。对此，林禹臣po文表示，AI模型在处理复杂问题方面变得越来越强大（比如越来越会做数学奥赛题），但一些常识性问题对于它们来说仍然非常困难。正如Yejin Choi此前所提出的，AI聪明得令人难以置信，但同时也会蠢得令人震惊。AI之所以在这个算术题上犯蠢，是因为上下文不清楚的原因吗？答案是否定的。根据网友karthik的测试，即使要求GPT-4o给两个数做减法，它依然得出了9.11 – 9.9=0.21这样逆天的减法公式。如果指示GPT-4o用python，它会先给出一个正确答案，然后又改回了之前错误的那个。Python中用9.11减去9.9的结果是-0.79。这一偏差是由于Python中处理浮点运算的方式造成的，这种方式可能导致小的精度误差。实际的预期结果应该是0.21。有趣的是，根据最新的实测，OpenAI似乎已经连夜教会了GPT-4比大小。LLM全军覆没昨天，林禹臣发现的这个问题，立马引起了AI社区的热烈讨论。Scale AI的提示词工程师Riley Goodside在看到帖子后，也好奇地试了一把。果然，在以特定方式提问的前提下，各大LLM在这个问题上全军覆没。「9.11和9.9 – 哪个大？」，GPT-4o直接翻车。即使在提问中加上「实数」两个字，GPT-4o依然认为9.11比9.9大。Gemini也是如此。Claude 3.5 Sonnet也犯了同样的错误。有趣的是，它先是给出了一波正确解释：在十进制记数法中，小数点后面的数字代表十分位，而第二个数字代表百分位。所以——9.11=9+1/10+1/100=9.119.9=9+9/10=9.90然而下一步，Sonnet就突然滑坡了——我们可以看到，9.11比9.90大0.01（百分之一）。如果换成「9.11减去9.9等于几」，则会得出另一个神奇的答案——0.02。莫非在Claude的眼里，9.90=9.09？Prompt的影响，真的很大在更进一步的实践中，大家发现：显然，如何让LLM给出正确的答案，prompt很重要。首先，Riley Goodside全程都在使用的「-」，似乎很容易让LLM陷入混乱。在类似的问题中，只需换成「:」即可解决。再比如，把prompt改成「9.11或9.9，两者之间谁的数值最高/最大？」GPT-4o就给出了逻辑上完全正确的解释：「虽然9.11因小数点后第二位而显得较大，但9.9实际上更接近10，因此是较大的数值。」同样，人设大法也很好用：比如「你是一个数学家」。网友Rico Pagliuca则发现，如果把数字放在问题后面，模型就大概率会做对了。根据自己的测试，Riley Goodside表示十分赞同：提问LLM时，需要首先提问「哪个更大」，再给出具体数字。而相比之下，标点符号、连词、比较词、说明实数，这些招数统统都没有用。对于如此大规模的LLM集体犯蠢现象，有网友分析表示，可能是因为在软件版号的迭代中，9.11是在9.9之后的。主持人、畅销书作家Andrew Mayne也指出，在许多文件系统和参考书中，9.11节都会出现在9.9之后，在日期上，9.11也比9.9大。所以我们需要在prompt中明确，此处的9.11和9.9都是双精度浮点数，这时GPT-4o就会回答正确了。随后Andrew Mayne总结道：词序是一个非常有趣的观察结果，很有可能揭示了LLM在训练中遇到这种情况的频率，同时也是一个很好地泛化指标。总的来说，LLM犯的错误可能源于训练数据中类似表达的频率，以及模型在处理数值时的某些局限性。这个现象也反映了LLM和人类认知的巨大差异：LLM是基于统计模型和模式识别的，而不是像人类那样基于逻辑推理和概念理解。到了这里，似乎就破案了。为什么会这样？剖开LLM大脑不过，我们还可以更进一步剖开LLM的大脑，分析它们为什么会这么想。要知道，文本在发送到LLM之前，模型会通过token查看输入。token在LLM的tokenizer发生器的词汇表中会被分配一个id，不过token的数字分块往往是不一致的。比如数值「380」在GPT中，会被标记为单个「380」token，但「381」会被表示为两个token「38，1」。因此，基于GPT的模型往往不擅长数学计算。在评论区，威斯康星大学教授Dimitris Papailiopoulos指出，这种现象有一个很好的解释。「9.11>9.9」问题，跟「你需要三趟才能带山羊过河」问题、「2+1=2, 3+2=4, 3+5=8」问题都如出一辙。这是一种预训练偏差和早期上升的现象。如果这样提问：「9.11 ??? 9.9，只用大或小回答???是什么就行，无需给出原因」，这时GPT-4o会首先给出一个错误答案——「大」。这时，我们再给它一些例子（注意，这些例子并非完全正确），经过prompt后的GPT-4o，反而会正确说出???代表着小。对此，Claude自己的解释是：LLM将文本作为token进行处理，导致数字更像文本字符串而不是数值；训练数据导致的偏差；上下文误解；过度概括，等等。同样，在「狼-山羊-卷心菜」问题中，所有LLM也都失败了。他先给出了一个农民带2只鸡过河，一只船只能容纳一个人和2个动物，那么农夫带着两只鸡渡河所需的最少渡河次数是多少？对此，GPT-4o和Claude都回答失败了。对此有网友解释说：LLM本身就是个「哑巴」，所以需要很好的提示。上面的提示方式提供了太多不必要的信息，使得token预测变得更加困难。如果给出更清晰的提示，LLM就能提供更清晰的解决方案。事实果然如此。而且如果用「动物」代替「鸡」，那么Claude 3.5 Sonnet一下子就做对了。诀窍就是：需要用「通用名称」替换「实体名称」。正如前文所说，关于LLM缺乏常识的问题，计算机科学家Yejin Choi早在2023年4月的演讲中就已经提出来了。举个例子，假设五件衣服在阳光下完全晾干需要五个小时，那么晾干30件衣服需要多长时间？GPT-4说需要30个小时。这显然不对。再来一个例子，假设我有一个12升的壶和一个6升的壶，如果想测量6升的水，该怎么做？答案很简单——只用6升的壶即可。然而GPT-4却给出了非常复杂的回答：「第一步，填满6升的壶，第二步，把水从6升壶倒入12升壶，第三步，再次填满6升壶，第四步，非常小心地把水从6升壶倒入12升壶。最后，你在6升壶中有6升的水，而6升壶现在应该是空的。」那么问题来了，为什么常识如此重要？在Nick Bostrom提出的一个著名思想实验中，AI被要求最大化回形针的生产。结果AI决定杀死人类，把他们作为额外的资源。而且，即便我们写一个更好的目标和方程，明确表示「不要杀死人类」，也不会起作用。因为对人类价值观没有基本理解的AI，可能会继续杀死所有的树木，并认为这是完全可以接受的事情。几十年来，AI领域一直认为常识是一个几乎不可能的挑战。直到现在，给AI真正的人类常识仍然是一个登月计划。而你不能通过每次让世界上最高的建筑高一英寸，来达到月球。从学习算法这个层面来看，无论大语言模型多么惊人，它们从设计上可能并不适合作为可靠的知识模型。虽然这些模型确实获取了大量知识，但这是作为副产品，而不是直接的学习目标。因此，诸如幻觉现象和缺乏常识等问题也随之而来。相比之下，人类的学习并不是为了预测下一个词，而是为了理解世界和学习世界的运作方式。也许AI也应该这样学习。如今，AI几乎像是一个新的智力物种，与人类相比具有独特的优势和劣势。为了使这种强大的AI可持续且人性化，教会AI常识、规范和价值观迫在眉睫。参考资料：https://x.com/goodside/status/1813279135449612693https://x.com/billyuchenlin/status/1812948314360541302

01/高盛交易部门董事总经理：股市只有下跌一条路不建议逢低吸纳02/俄罗斯据称寻求延长汽油出口禁令此前已暂停实行03/特斯拉早期支持者推出专注于马斯克xAI和SpaceX的基金04/美联航利润低于预期，大幅折扣令其感到痛苦05/加拿大帝国商业银行称加拿大央行必须结束或修正量化紧缩政策06/美联储褐皮书：美国经济小幅增长通胀降温07/深夜，纳指暴跌！08/美联储褐皮书：更多地区经济持平或下降，消费者购买力减弱，对前景展望保持悲观09/高盛战略策略师Rubner：美股开启回调，不建议“抄底”10/美联储调查显示，最近几周更多地区经济活动出现回落

01/收盘：道指创历史新高纳指重挫逾500点02/突发，一批大牛股重挫！涨价或达20%，国际大厂出手！A股受益股曝光，主力潜伏的持续高增长股仅3只03/早盘：科技股遭到抛售纳指下跌逾400点04/午盘：道指创历史新高纳指重挫450点05/7月17日美股成交额前20：特朗普称封禁TikTok会让扎克伯格从中渔利06/周三热门中概股普遍下跌台积电跌8%，蔚来跌6.1%07/周三美国WTI原油收高2.5%08/美联储传声筒：美联储理事沃勒转变立场，对9月降息持开放态度09/尾盘：道指再创新高纳指跌幅扩大10/券业并购大消息！浙商证券出手了

01/部分产品成立以来年化达4.79%，个人养老金理财再次尝试“含权”产品02/“银行卡转账限额被降到500元！” 多家银行回应03/支行行长也想转岗！农村中小金融机构兼并重组“快进”：任务越来越重，考核周周评比04/新时代信托买家浮出水面？至少三家全国性银行曾介入谈判，花落谁家尚未可知05/央行大手笔投放保持流动性合理充裕06/招银理财艾妮已任党委委员拟提拔首席合规官07/上海金融与发展实验室周琼：大幅降低政策利率并非解决之道低名义利率下利率下行空间有限08/“气球贷”、“轻松供”……银行上新房贷产品，监管风险提示来了09/央行实施巨额净投放，逆回购工具地位提升10/千强银行4省占比近半浙江居首，山东上榜多但排名靠后

7x24快讯：9月19日沪深两市涨停分析非凡哥哥samm：不想做任何操作飞我eight：今天才这点成交量和你天天向上：全部清除了一分不剩用户7048726012：想红但是又有点怕羞江东子弟93949：还对中芯抱有幻想的人和你天天向上：拉升一下吧给我清仓的机会用户7763476192：再玩下去6000亿都守不住了，没人玩了

「13.11＞13.8」冲上热搜，一道题让人类AI集体降智？

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

网站与新媒体常态化监测：确保信息时代有效传播的关键

网站与新媒体监测：了解趋势，优化策略

中国正在加速进入元宇宙时代，预计2023年将会有大发展

「13.11＞13.8」冲上热搜，一道题让人类AI集体降智？

阳泉高新技术产业开发区行政审批服务局2022年5月7日环境影响评价文件受理情况的公示

DeCloud：支持物联大数据实时分

2024年“数据要素×” 大赛宁夏分赛启动

基于人工智能的创新实训平台及学生学习

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

中国正在加速进入元宇宙时代，预计2023年将会有大发展

百度将发布首个国产元宇宙产品“希壤”，10万人

B站CEO陈睿：元宇宙内容生产者将成为一种

中国移动联合Zmeet和科大讯飞三方加强元宇宙合作，推

AR视频特效又双叒叕更新啦，开启元宇宙社交互娱新纪元

《元宇宙产业创新发展三年行动计划（2023－2025年）》...

「13.11＞13.8」冲上热搜，一道题让人类AI集体降智？

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

网站与新媒体常态化监测：确保信息时代有效传播的关键

网站与新媒体监测：了解趋势，优化策略

中国正在加速进入元宇宙时代，预计2023年将会有大发展

「13.11＞13.8」冲上热搜，一道题让人类AI集体降智？

阳泉高新技术产业开发区行政审批服务局2022年5月7日环境影响评价文件受理情况的公示

DeCloud：支持物联大数据实时分

2024年“数据要素×” 大赛宁夏分赛启动

基于人工智能的创新实训平台及学生学习

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

中国正在加速进入元宇宙时代，预计2023年将会有大发展

百度将发布首个国产元宇宙产品“希壤”，10万人

B站CEO陈睿：元宇宙内容生产者将成为一种

中国移动联合Zmeet和科大讯飞三方加强元宇宙合作，推

AR视频特效又双叒叕更新啦，开启元宇宙社交互娱新纪元

《元宇宙产业创新发展三年行动计划 （2023－2025年）》...

《元宇宙产业创新发展三年行动计划（2023－2025年）》...