首页 人工智能元宇宙大数据 企业智能化 智慧城市 科技 商务
当前位置:首页 > 人工智能

2023年中国大模型评测(一):行研创作新范式

来源:财经微博 发布日期:2024-04-13

在报告撰写评测中,各平台表现各异,其中商量整体表现稳定且领先,而GPT3.5和百川因信息更新和答案完整性问题而在某些关键模块中失分较多

在报告撰写能力评测中,商量整体表现稳定,超过均分。文心一言3.5和星火有波动;讯飞在分类任务中表现佳,天工在多个领域表现优秀但产业链不足。GPT3.5因信息库旧而在竞争和市场方面失分。智谱清言和通义千问整体稳定,各有突出领域。百川在政策方面波动大,紫东太初和雅意表现相似但在特定模块有所不足。Minimax在多数模块略高于均分,但在某些重要领域失分严重。

在行研基础能力评测维度中,商汤商量、GPT3.5、以及文心一言3.5表现稳定性强,在单一模块能力各有领先

在行研基础能力评测中,商汤商量、GPT3.5和文心一言3.5表现稳定,各自在不同方面领先。GPT3.5在逻辑推理上领先,商汤商量擅长文字生成和语境转换,文心一言3.5优于意图理解。天工、智谱清言和百川波动性大,表现不均。讯飞星火、腾讯混元和Minimax表现平稳但有波动,特别是Minimax在文字生成上表现较弱。通义千问、紫东太初和雅意整体较弱,特别是在逻辑推理和意图理解上,显示出与领先模型在参数量和微调方面的差距。