首页 人工智能元宇宙大数据 企业智能化 智慧城市 科技 商务
当前位置:首页 > 人工智能

OpenAI :最新研究发现AI模型在回答事实问题时表现拉胯 GPT-4o准确率才38.2%

来源:新浪广东美食 发布日期:2024-11-01

最近,一项由 OpenAI 进行的研究显示,尽管人工智能技术飞速发展,当前最先进的语言模型在回答事实问题时的成功率却远低于预期。研究采用了 OpenAI 自家的 SimpleQA 基准测试,这个测试包含了4,326个,涵盖了科学、政治和艺术等多个领域,每个问题都有一个明确的正确答案。经过两名独立评审员的验证,结果显示,OpenAI最好的模型 o1-preview 的准确率仅为42.7%,而 GPT-4o 则略低,只有38.2%。至于更小的 GPT-4o-mini,准确率甚至只有8.6%。相比之下,Anthropic 的 Claude 模型表现得更差,Claude-3.5-sonnet 的正确率仅为28.9%。这项研究的关键在于测试的设计,不仅仅是为了测试 AI 的表现,还为了让大家认识到 AI 模型在知识获取方面的局限性。研究者强调,用户在使用这些模型时,应该将其视为信息处理工具,而不是完全依赖的知识来源。为了获得更准确的回答,最好能为 AI 提供可靠的数据,而不是单纯依赖其内置的知识。值得注意的是,AI 模型对自身能力的估计往往过于乐观。研究人员发现,当这些模型被要求对自己的回答进行信心评分时,它们通常会给出夸大的准确性评分。在重复回答相同问题的测试中,即使模型多次给出相同答案,它们的实际成功率也仍低于其自我评估的准确性。这与外界对语言模型常常产生荒谬回答却显得信心满满的批评一致。研究者认为,当前的 AI 系统在事实准确性上存在明显的缺口,亟需改进。同时,他们也提出了一个开放性问题:AI 在回答简短事实问题的表现是否能预测其在处理更长、更复杂回答时的表现。为了支持更可靠的语言模型的开发,OpenAI 已经将 SimpleQA 基准测试的资料公开发布到 Github 上。自 站长之家

5年大量投入研发!华为自研仓颉编程语言官网上线:首个公测版本开放下载美国禁止向中国半导体、AI、量子领域投资!中方强烈回应Intel被要求必须拆分!前CEO:万万不可星巴克发布四季度财报,中国市场实现高质量、可盈利、可持续发展苹果史上最小电脑!新款Mac mini今日预售:16GB内存4499元起小米史上最精致流畅数字旗舰!小米15系列今日首销:4499元起理想汽车人事变动!李想直接管销售服务业务,马东辉接替沈亚楠任总裁Lululemon Q3营收同比增长28% Q4指引不及预期好市多 Q1营收不及预期 净销售额同比增8%SEC建议:美国公司应向投资者披露对加密资产市场的风险敞口

小米官方:小米15屏幕不会混用,由华星光电独供81.5万!小米SU7 Ultra开订,雷军:全面领先保时捷Taycan脱口秀主持人发文致歉:因喊29岁女生"大姐"雷军感谢大家购买80多万小米SU7 Ultra:致敬中国汽车崛起的梦想中兴回应联想专利诉讼:难以理解但表示尊重赛力斯前三季度营收1066.27亿元 同比大增539.24%中兴通讯回应被联想海外起诉专利侵权:难以理解但表示尊重,不会改变维护合法权益的决心华为11月新品计划曝筂ate70领衔 还有大折叠和平板联想在海外起诉中兴通讯,涉及专利侵权纠纷独家丨蚂蚁集团副总裁唐方已离职