AI快讯 | 2023年中国大模型评测（一）：行研创作新范式

2023年中国大模型评测（一）：行研创作新范式

来源：财经微博发布日期：2024-04-13

在报告撰写评测中，各平台表现各异，其中商量整体表现稳定且领先，而GPT3.5和百川因信息更新和答案完整性问题而在某些关键模块中失分较多

在报告撰写能力评测中，商量整体表现稳定，超过均分。文心一言3.5和星火有波动；讯飞在分类任务中表现佳，天工在多个领域表现优秀但产业链不足。GPT3.5因信息库旧而在竞争和市场方面失分。智谱清言和通义千问整体稳定，各有突出领域。百川在政策方面波动大，紫东太初和雅意表现相似但在特定模块有所不足。Minimax在多数模块略高于均分，但在某些重要领域失分严重。

在行研基础能力评测维度中，商汤商量、GPT3.5、以及文心一言3.5表现稳定性强，在单一模块能力各有领先

在行研基础能力评测中，商汤商量、GPT3.5和文心一言3.5表现稳定，各自在不同方面领先。GPT3.5在逻辑推理上领先，商汤商量擅长文字生成和语境转换，文心一言3.5优于意图理解。天工、智谱清言和百川波动性大，表现不均。讯飞星火、腾讯混元和Minimax表现平稳但有波动，特别是Minimax在文字生成上表现较弱。通义千问、紫东太初和雅意整体较弱，特别是在逻辑推理和意图理解上，显示出与领先模型在参数量和微调方面的差距。

2023年中国大模型评测（一）：行研创作新范式

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

网站与新媒体监测：了解趋势，优化策略

中国正在加速进入元宇宙时代，预计2023年将会有大发展

2023年中国大模型评测（一）：行研创作新范式

东莞市井禾电子科技有限公司

深圳通八洲智能科技有限公司

科技攻“尖”产业向“新”——吴忠市以新质生产...

哪里有WBI021F27多少钱_WBI021F27供应商相关-广州市唯博电子科技有限公司

东莞数码印花/直销菲林打印机/广州彩喷行电子商务有限公司

元宇宙与数字藏品的联系

疫情时代，元宇宙旅游

妈祖文化|推进妈祖元宇宙建设！这份协议签了

金融元宇宙赋能实体经济-赵永新教授演讲

中国正在加速进入元宇宙时代，预计2023年将会有大发展

中国农业发展银行元宇宙营业厅项目潜在供应商征集公告

平望镇元宇宙政务大厅项目政府采购招标代理

苏州工业园区：深耕工业元宇宙！瑞欧威尔苏州总部开业

困守大山的脑瘫青年，活在克隆人虚拟世界

宁夏回族自治区文化和旅游厅“云上娃娃鱼·一码游宁夏”项目（二标段）宁夏二十一景元宇宙数字文旅营销服务项目第一次验收报告