AI快讯 | OpenAI ：最新研究发现AI模型在回答事实问题时表现拉胯 GPT-4o准确率才38.2%

OpenAI ：最新研究发现AI模型在回答事实问题时表现拉胯 GPT-4o准确率才38.2%

来源：新浪广东美食发布日期：2024-11-01

最近，一项由 OpenAI 进行的研究显示，尽管人工智能技术飞速发展，当前最先进的语言模型在回答事实问题时的成功率却远低于预期。研究采用了 OpenAI 自家的 SimpleQA 基准测试，这个测试包含了4，326个，涵盖了科学、政治和艺术等多个领域，每个问题都有一个明确的正确答案。经过两名独立评审员的验证，结果显示，OpenAI最好的模型 o1-preview 的准确率仅为42.7%，而 GPT-4o 则略低，只有38.2%。至于更小的 GPT-4o-mini，准确率甚至只有8.6%。相比之下，Anthropic 的 Claude 模型表现得更差，Claude-3.5-sonnet 的正确率仅为28.9%。这项研究的关键在于测试的设计，不仅仅是为了测试 AI 的表现，还为了让大家认识到 AI 模型在知识获取方面的局限性。研究者强调，用户在使用这些模型时，应该将其视为信息处理工具，而不是完全依赖的知识来源。为了获得更准确的回答，最好能为 AI 提供可靠的数据，而不是单纯依赖其内置的知识。值得注意的是，AI 模型对自身能力的估计往往过于乐观。研究人员发现，当这些模型被要求对自己的回答进行信心评分时，它们通常会给出夸大的准确性评分。在重复回答相同问题的测试中，即使模型多次给出相同答案，它们的实际成功率也仍低于其自我评估的准确性。这与外界对语言模型常常产生荒谬回答却显得信心满满的批评一致。研究者认为，当前的 AI 系统在事实准确性上存在明显的缺口，亟需改进。同时，他们也提出了一个开放性问题:AI 在回答简短事实问题的表现是否能预测其在处理更长、更复杂回答时的表现。为了支持更可靠的语言模型的开发，OpenAI 已经将 SimpleQA 基准测试的资料公开发布到 Github 上。自站长之家

5年大量投入研发！华为自研仓颉编程语言官网上线：首个公测版本开放下载美国禁止向中国半导体、AI、量子领域投资！中方强烈回应Intel被要求必须拆分！前CEO：万万不可星巴克发布四季度财报，中国市场实现高质量、可盈利、可持续发展苹果史上最小电脑！新款Mac mini今日预售：16GB内存4499元起小米史上最精致流畅数字旗舰！小米15系列今日首销：4499元起理想汽车人事变动！李想直接管销售服务业务，马东辉接替沈亚楠任总裁Lululemon Q3营收同比增长28% Q4指引不及预期好市多 Q1营收不及预期净销售额同比增8%SEC建议：美国公司应向投资者披露对加密资产市场的风险敞口

小米官方：小米15屏幕不会混用，由华星光电独供81.5万！小米SU7 Ultra开订，雷军：全面领先保时捷Taycan脱口秀主持人发文致歉：因喊29岁女生"大姐"雷军感谢大家购买80多万小米SU7 Ultra：致敬中国汽车崛起的梦想中兴回应联想专利诉讼：难以理解但表示尊重赛力斯前三季度营收1066.27亿元同比大增539.24%中兴通讯回应被联想海外起诉专利侵权：难以理解但表示尊重，不会改变维护合法权益的决心华为11月新品计划曝筂ate70领衔还有大折叠和平板联想在海外起诉中兴通讯，涉及专利侵权纠纷独家丨蚂蚁集团副总裁唐方已离职

OpenAI ：最新研究发现AI模型在回答事实问题时表现拉胯 GPT-4o准确率才38.2%

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

网站与新媒体常态化监测：确保信息时代有效传播的关键

中国正在加速进入元宇宙时代，预计2023年将会有大发展

山东科技职业学院：专业群建在万亿产业链上

OpenAI ：最新研究发现AI模型在回答事实问题时表现拉胯 GPT-4o准确率才38.2%

营销引擎云码Marketing Engine以大模型为底座，适配业务场景的泛行业营销AI应用工具集

智能推荐 AIRecAIRec智能推荐提供千人千面的个性化推荐服务推荐系统开发平台PAI-Rec场景化行业推荐服务AIRec个性化算法开发平台TPP智能召回引擎BE

向量检索服务VRS可应用于大模型知识库搭建、多模态 AI 搜索等多种场景

全省新能源装备、工程机械、农机装备产业链产学研精准对接和新技术新产品...

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

中国正在加速进入元宇宙时代，预计2023年将会有大发展

中国联通携元宇宙通信创新成果亮相2023世界电信和信息社会日大会

全国首家省市级工业元宇宙5G创新研究中心成立

荷里活廣場NFT呈獻「元宇宙綠色村莊歷奇之旅」

粤港澳大湾区54家企业入选《2024胡润中国元宇宙潜力企业榜》

《元宇宙白皮书（2023）》解读:元宇宙行业尚处于非常早期的发展阶段

OpenAI ：最新研究发现AI模型在回答事实问题时表现拉胯 GPT-4o准确率才38.2%

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

网站与新媒体常态化监测：确保信息时代有效传播的关键

中国正在加速进入元宇宙时代，预计2023年将会有大发展

山东科技职业学院： 专业群建在万亿产业链上

OpenAI ：最新研究发现AI模型在回答事实问题时表现拉胯 GPT-4o准确率才38.2%

营销引擎云码Marketing Engine以大模型为底座，适配业务场景的泛行业营销AI应用工具集

智能推荐 AIRecAIRec智能推荐提供千人千面的个性化推荐服务推荐系统开发平台PAI-Rec场景化行业推荐服务AIRec个性化算法开发平台TPP智能召回引擎BE

向量检索服务VRS可应用于大模型知识库搭建、多模态 AI 搜索等多种场景

全省新能源装备、工程机械、农机装备产业链产学研精准对接和新技术新产品...

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

中国正在加速进入元宇宙时代，预计2023年将会有大发展

中国联通携元宇宙通信创新成果亮相2023世界电信和信息社会日大会

全国首家省市级工业元宇宙5G创新研究中心成立

荷里活廣場NFT呈獻「元宇宙綠色村莊歷奇之旅」

粤港澳大湾区54家企业入选《2024胡润中国元宇宙潜力企业榜》

《元宇宙白皮书（2023）》解读:元宇宙行业尚处于非常早期的发展阶段

山东科技职业学院：专业群建在万亿产业链上