一道小学奥数题4个AI平台答案不一,专家回应
来源:民生-新浪重庆 发布日期:2024-03-12
“给娃儿辅导奥数题,问了多个AI平台,每个答案都不一样。”近日,重庆家长刘先生向上游新闻(报料邮箱baoliaosy@163.com)记者反映:同一道奥数题,百度、阿里云、今日头条等国内4个主流AI大模型平台,竟然给出了不同的答案。3月11日,上游新闻记者从百度客服及人工智能专家处了解到,人工智能大模型平台并不是题库,数据模型一直在学习完善中,尤其是在数学和逻辑方面。同一道奥数题,刘先生得到结果为30分钟、7分钟两种不同答案。/受访者供图刘先生告诉上游新闻记者,自己的孩子上小学四年级,最近他在辅导孩子做奥数题,但自己并非理工科出身,感觉有些困难。因为他从事影视制作方面的工作,经常使用人工智能工具辅助,就想到使用类似平台来帮忙。刘先生将一道题输入经常使用的百度的文心一言、阿里云的通义千问、今日头条的豆包等4个主流人工智能大模型平台进行测试。具体题目为:一天,萱萱到离自己家4000米的表哥家去玩。早晨7:20,萱萱从家出发向表哥家走去,每分钟行60米,同时表哥骑车从家出发来接她。表哥到萱萱家后才发现萱萱已经走了,又立即返回去追,表哥骑车每分钟行260米。当表哥追上萱萱后,带着她一起回表哥家,这时骑车速度为每分钟175米。请问:当他们到达表哥家时,还差几分钟就到8点?“当时两个(AI平台)列出了推理过程,均给出了‘7分钟’的答案,应该是对的。我觉得算得有点复杂,就又让AI用适合小学五年级的算法再算一次,结果答案自此之后就不一致了。”在刘先生提供的截图中,上游新闻记者看到,有的平台会给出“30分钟”的答案。上游新闻记者测试时,要求AI重新计算,有的AI甚至给出了“还差-23分钟就到8点”的离谱答案。刘先生感觉很困惑:“是不是AI自己不敢保证是正确的,多问几遍它自己就把自己绕晕了,越回答越错?”记者得到了一个“-23分钟”的答案。/截图11日,上游新闻记者致电文心一言会员服务热线询问此事,工作人员表示,“目前的系统回复不是每次都一模一样的,它主要针对您的提问和您输入问题的一个复杂性程度进行回复。如果是它输出的结果是不满意或者是有误的,您可以及时点踩反馈,帮助文心一言进步。”工作人员表示,反馈提交之后,后台工作人员也会去不断优化模型的一个能力,“因为AI生成的结果,是根据您输入的一个需求和提示词提供的,它是自动识别和理解您的一个意图和需求,并提供相关的文本图片,目前模型能力确实也在不断地发展,需要时间。”无独有偶。在上海从事AI类自媒体的白先生(化名),也用孩子的数学题测试了国外的GPT4、Claude和Google Bard等AI平台以及国内多个主流AI平台,也发现了类似问题,甚至有的AI对题意都出现了理解错误。一位国内人工智能方面的专家告诉上游新闻记者,目前主流的AI大模型平台并不是数学题库,“大数据模型一直在学习完善中,尤其是在数学和逻辑方面,所以很多产品对话框旁边都有点赞点踩的图标。通过这种方式反馈问题,模型才会学习完善。如果家长想要更精准的答案,更推荐给孩子使用学习机一类的AI产品。”该专家表示,“即便是目前国际上一些数学、化学、物理等方面的专业性做题AI,也很难拿到奥赛满分。”据参考消息,今年1月,美国一个名为阿尔法几何(AlphaGeometry)的AI系统,能做出国际数学奥林匹克(IMO)的30道几何题中的25道,已经接近人类奥数金牌得主水平,该突破性成果甚至登上了著名的《自然》(Nature)杂志。据报道,美国亚利桑那州立大学副教授沙卡里安,在2023年1月初用1000个数学问题对ChatGPT进行了测试,结果发现准确率只有60%,低于一般中学生的准确率。牛津大学机器学习研究员西蒙·弗莱德尔,曾在一项研究中让ChatGPT做了一系列数学任务,包括简单的计算、数学证明题、搜索数学文献和奥数题,结果也发现,ChatGPT在大多数任务上表现为“不及格”,在需要多层逻辑推导的题目上表现尤为糟糕。而最具迷惑性的是,哪怕ChatGPT做错数学题,也会非常“迷之自信”地给出看起来权威的错误答案。专家表示,AI的语言模型目标在于处理和理解人类的语言,更擅长生成类似人类的对话,而不是为了成为完美的数学计算器,“AI作为一种工具,只适用于那些最懂数学的人,而不是最不了解数学的人。在借鉴AI给出的答案之前,一定要加以验证,不要过于依赖它。”
01/科大国盾量子技术股份有限公司02/晶科能源股份有限公司关于“晶能转债”预计满足转股价格修正条件的提示性公告03/关于景顺长城景丰货币市场基金E类份额新增蚂蚁基金为销售机构的公告04/浙江亚光科技股份有限公司首次公开发行部分限售股上市流通公告
01/上市以来首亏!汽车巨头东风集团遭遇阵痛期02/牛市来了吗?胡锡进:今天涨了6654元 仍亏着26702元03/昨夜,这些A股公司集体出手:回购!04/十大券商策略:A股上涨概率约62%!修复行情进行时 关注这些主线05/路透调查:108位经济学家中有72位表示美联储将在6月首次降息06/美国前总统特朗普暗示 如果当选,可能对加密货币持宽容态度07/炒期货巨亏又被曝大米造假,“油茅”金龙鱼跌下神坛08/纽约联储调查显示长期通胀预期上升 美联储可能遇到麻烦09/特朗普承诺:若当选将重新实行强硬的关税政策10/刚刚,光伏新能源猛拉!宁王突然爆了!
01/全国人大代表、中国银行董事长葛海蛟:坚持高质量发展“硬道理” 走好中国特色金融发展之路02/11家银行预报业绩:去年净利润集体见涨,净息差被“点名关注”03/今年首批储蓄国债销售火爆 多家银行网点一小时内售罄04/民营银行存款利率“迫降”,息差缩窄下注资焦虑待解05/又是一例“因债行骗”!农行员工6年时间诈骗10人842万为自己还债 获刑14年被终身禁业06/9名“洋外脑”入列国有大型银行董事会07/成立专项工作组、加大必要资源投入……大行、股份行齐发声 多措并举提升支付便利性08/李云泽:我国抵御风险的家底非常坚实09/全国政协委员、中国社会科学院世界经济与政治研究所副所长张斌:以更大逆周期政策力度释放经济增长活力10/国际金价屡创新高 银行力推积存金
7x24快讯:9月19日沪深两市涨停分析非凡哥哥samm:不想做任何操作飞我eight:今天才这点成交量和你天天向上:全部清除了一分不剩用户7048726012:想红但是又有点怕羞江东子弟93949:还对中芯抱有幻想的人和你天天向上:拉升一下吧给我清仓的机会用户7763476192:再玩下去6000亿都守不住了,没人玩了
-
中国科协九大代表——蒋兴良:一线工作者也是创新主力军
-
九天追梦有红颜——北京航天飞行控制中心女科技专家素描
-
泉州出台措施 技术创新基金扩容至150亿元
-
首批32家企业入驻昆山元宇宙产业园
-
人工智能专业可能会被划入哪一专业大类?
-
喜报!年度品牌创新杰出企业 长沙绿叶
-
本人大四学生,在广东上学,将于2023年6月毕业(专业:电子商务)。想要报考公务员,有专业限制吗?
-
双创加油站,一起来加油!杨浦区科技创新政策培训会(总第50期)即将举行
-
《人口健康报》:山东——健康医疗数据要素价值化进程全面提速
-
《中国中医药报》:《“数据要素×”三年行动计划(2024—2026年)》印发:推进中医药高...
-
大数据研究唐诗宋词 结论很颠覆
-
常熟全力推动科技创新与先进制造深度融合
-
首批32家企业入驻昆山元宇宙产业园
-
《元梦之星》再度亮相央视晚会,“小小元宇宙”是来真的?
-
《元梦之星》元宵节再上央视,星搭子们在“小小元宇宙”共庆佳节
-
·沙特推出世界首个国家级“元宇宙”平台,用户可线上游览当地景点02-27
-
元宇宙如何带来更好的科学
-
直播 | 2022河南智慧旅游大会——面向元宇宙·建设文旅美好新生活为贯彻落实河南省文旅文创融合战略,加快推进以数字化、网络化、智能化为特征的数字文旅经济发展,全面塑造“行走河南·读懂中国”品牌体系,河南省文化和旅游厅3月12日举2022-03-12 09:00:00
-
副中心高标准打造元宇宙应用示范区
-
元宇宙区块链传奇手游 手机传奇 19M
-
微软中国首个工业元宇宙应用中心落户苏
-
沃尔玛将通过在元宇宙中扩张的商业战略来彻底改变零售业