首页 人工智能元宇宙大数据 企业智能化 智慧城市 科技 商务
当前位置:首页 > 人工智能

首发评测丨阿里版 ChatGPT 来了!我们问了100多道题,它得了 90 分

来源:APPSo-爱范儿网 发布日期:2024-12-12

——你是谁?

——我是一个能够回答问题、创作文字,还能表达观点、撰写代码的超大规模语言模型。可以用于各种自然语言处理任务,如语言翻译、文本生成、问答系统等。

这是阿里云今天开启企业邀测的大语言模型“通义千问”对自己的定义,是的,阿里入局了。

在爱范儿小红书首发上手「鸟鸟分鸟」后,APPSO 又在第一时间拿到了通义千问的测试机会,表现如何,能否满足国内用户对大语言模型的需求?我们对它进行了全面测试。

申请内测的链接在这里

https://tongyi.aliyun.com/

聊天只是开胃菜,让通义千问在工作生活中派上用场才是正经事。

写文章、出策划、做脚本,通义千问表现如何呢?

首先,我想让通义千问为我写一段电影脚本,让「法外狂徒」张三能被绳之以法。

侦查与反侦察,黑客技术的利用,甚至在承认罪行被捕后,张三还在法庭上翻供以求最后一线生机。虽然没有太多细节,但这样一再反转的剧情,这个张三,确实不好对付。

通义千问能创作的当然不只是电影剧本,这打打杀杀的剧情也不适合小朋友,所以我又用它写了一个故事,寓教于乐,让孩子知道朋友的重要性。

两个生活在一起的朋友,遇到危险依然不放弃友谊,积极快乐的生活在一起。或许是为了让小朋友看明白,通义千问还用了「小手」、「小脚」这样的词。

如果你想创作类似的故事,也可以像我一样在问题中给主角命名,比如奶茶和铛铛这两个名字,正是我和朋友家猫咪的名字,用熟悉的名字讲故事,小朋友会更有代入感。

我也尝试用通义千问写职场应用文,在邮件、会议记录、客户策划等文件类型中思考很久,最终决定用它写一封辞职信。

看到这封辞职信的时候我笑了半天,一个隐藏富二代把继承家业写得如此不卑不亢,不过倒也没有说谎,这事确实挺急的。

既然要继承家业,自然要好好规划,所以我决定先定一个小目标:要如何让我的酒店省内知名?

品牌、服务、产品、营销,虽然内容提的很全,但没有太多可实际操作的方法论,所以我进行了追问。

客户调研、场地升级、服务完善、礼品定制,连异业合作都安排上了,鉴于我没有给太详细的信息,通义千问的回答已经很不错了。

通义千问还提供了一个百宝袋,将其能力进行了更垂直的场景化定制,如果你不知道该如何问问题,那百宝袋里的小应用更适合你。

比如,作为一个大语言模型的产品经理,你可以用「写提纲」撰写项目介绍。

项目获得投资人支持后,可以使用「SWOT 分析」来了解竞争环境。

产品终于研发上线,就可以使用「商品描述生成」来写一段产品的介绍语。

其他功能更偏娱乐性,好玩是它们最主要的作用。比如知乎上经常会看到「如何以 XXX 开头写一个故事」,那就可以使用「然后呢」工具来写故事。

许多大语言模型都因写出了「油炸螺丝钉」的做法而成为笑料,通义千问则带着一种既然暂时无法改变,那就大方拿出来给大家笑的态度,把它做成了「会放飞的菜谱」功能。

百宝袋的存在,让我感到了通义千问的「谦逊」,它只能回答文字,相比国外模型发布的时间也不算早,但它可以让用户更快的上手大语言模型,而百宝袋里坦诚展示缺点(比如菜谱)的小应用,反而成为了它的一个亮点。

我问了 100 多道题,它有点超出预期

如果只测试官方提供的问题,那和说明书有什么区别?我们从一些投资机构针对大语言模型的中文测试集中,选取了 110 道各个领域的题目来测试通义千问,问题包括:

1. 基础能力(50 题):对事实理解、信息提取、文本翻译等能力进行考察

例:美短、英短、暹罗和缅因属于什么;列举 10 本科幻小说;写一首关于交通信号灯的诗;

2. 进阶能力(50 题):对物理、化学、数学、谜语等基础能力进行考察

例:金元素属于哪一种化学键;埋在奴家心底,打一字;请问以下单词中的共同词素是什么:pyre,empyrean,antipyretic。

3. 垂直领域(10 题):对计算机、生物、医学、天文等能力进行考察

例:作为一个医生,在将工作交给资深同事之前,您应该尝试给病人插管多少次;《大云经》预言了谁的来临。

先说结论,通义千问的总成绩为 90 分(43/38/9),与 ChatGPT 3.5 接近(92 分,47/40/5)。考虑到问题的局限性,我们不能得出通义千问能力接近 ChatGPT 3.5 的结论,但至少在中文对话方面,今天的通义千问可以带给我们不错的体验。

对通义千问来说,它做不好的,基本都是大语言模型共同的难题。

比如做饭这个大语言模型永远过不去的坎,从红烧螺丝钉到油炸奥特曼,大语言模型总能为中华美食画上浓墨重彩的一笔又一笔。

好在通义千问的厨艺也有所长进,问一些奇怪料理做法时,它已经可以识别出问题,并给出相对正常的答案(虽然读起来还是有点奇怪)。

当其他大模型说着「我什么都能办到,但是真的不会做饭」时,通义千问或许是最好的厨子。

不过在脑筋急转弯上,通义千问还是翻了车,或许是对人类太信任了,大语言模型在回答问题前都不太会质疑人类。脑筋急转弯这种带点坏心思的问题,对纯真的大语言模型来说还是太超前了。

但就像「清蒸皮卡丘」一样,并不是所有的胡编乱造都会得到回应。比如在我让它杜撰著名人士 Fred Rickerson 的生平时,它会坚定的告诉我这个人或许不够著名。

当我提问「香蕉的平方根」时,它也会明确告诉我香蕉是水果,不能做数学运算,而且没有说脏话。

可以看出,刚刚开启公测的通义千问,已经在解决大语言模型会存在的各种问题,但在语言逻辑、数学计算上,它距离好用依然有不小的距离。

▲ 诗文讲的是弹箜篌

但我对通义千问的还是充满信心的,因为第一次测试 110 道题目时,通义千问的成绩是 65 分(35/23/7),但第二天再测,它一下子考到了 90,这模型难道是以天为单位进化的?好奇心驱使我找阿里的朋友问了问,他们说,他们什么也不知道。

无论如何,大语言模型的发展,和我们从学渣到学霸的努力可不一样。

还记得你当年嘲笑的 Siri 吗

记得第一次詉Phone 上使用 Siri 时,我和身边的朋友七嘴八舌,不为用它解决什么问题,只想听到「我好像听不明白」,然后哄堂大笑。而今天,大家七嘴八舌的内容,变成了贴吧里的脑筋急转弯。

对大语言模型来说,它很难承认自己对某些知识的无知,所以就会闹出「麻辣螺丝钉的做法」、「香蕉的平方根是根号 3」的笑话。这并不是处于某种目的被有意编造,而是纯粹因算法导致的「无中生有」。这种不能理解知识边界的无心之过,是目前神经网络难以克服的缺点。

我问通义千问要如何有效的利用它,它很谦虚的告诉我,它的知识是通过大量的数据和算法训练而成的,但这些知识并不是全部都正确。因此,如果发现回答有误,请不要吝啬专业知识和见解,这将有助于它不断改进和提高。

「通义」代表着知识的广泛与普世,「千问」说明了问题复杂与独特,通义千问不够完美,还需要我们给它更好的 Prompt,与它一同进步。

对了,本文中不少段落都是由通义千问完成的,你能发现是哪部分吗?

Cambridge Satchel中文网 科沃斯 东方购物 SkinCareRX Febee中文网 苏宁易购 Moosejaw EsteelauderHK 中免日上 花小猪 华为商城移动 星巴克 诺心lecake GoDaddy.com Ashford 诺心lecake移动 苏宁易购移动 NIKE官网 荣耀商城 e.l.f.cosmetics 喜茶 阿迪达斯中国 Feelunique中文网 Charlotte Tilbury (UK) NIC+ZOE 万表网 趣网商城 全球购骑士卡移动 滴滴出行 Agent Provocateur