AI快讯 | 生产力工具中的“六边形战士”：解密海螺AI“红海突围”的底气

生产力工具中的“六边形战士”：解密海螺AI“红海突围”的底气

来源：资讯-A5站长网发布日期：2024-07-06

2023年可以说是人工智能行业最振奋的一年，大模型的能力每隔一段时间就会上一个新台阶，汹涌澎湃的技术革命迅速影响着每一个人的生活，AGI不再是一种技术理想，而是触手可及的现实。

到了2024年，人工智能的热度不减，但口口相传的“百模大战”并未上演。资本市场罕见地“降温”，不少大模型悄无声息地消失，有机会进入决赛圈的大模型创业者，仅剩下寥寥数家。

其中就有孵化出海螺AI的MiniMax，一家不为太多人所熟知，估值却早已超过25亿美元的现象级独角兽。

01 技术路线几乎没有退路

目前国内估值超过10亿美元的大模型创业团队只有五六家，MiniMax恰恰又是其中最为特殊的存在：

1、月之暗面、百川智能、零一万物等均成立于2023年，MiniMax却是一家诞生于2021年的企业，比友商们早了两年时间。

2、有别于李开复、王小川等人的“明星”身份和高调风格，MiniMax的创始人闫俊杰不可谓不低调，很少在公开场合露面。

3、“抢算力”俨然是整个AI行业的常态，MiniMax没有够购买任何GPU，而是以相对便宜的价格找火山引擎租了大量GPU算力。

为何特立独行的MiniMax能够活下来？答案就藏在闫俊杰时常提及的一句话里：“我选的技术路线几乎没有退路”。

直接的例子就是MoE（混合专家模型）上的“豪赌”。

时间回到2023年夏天，国内的大模型厂商们纷纷加快了研发进度，摆在MiniMax面前的现实问题是：自家2B和2C的产品已经有很多用户，传统dense（稠密）模型生成token的成本太高，延时太严重；在计算资源有限的情况下，只有MoE才能训练完当时的数据。

理论上讲，MoE相较于dense模型的预训练速度更快，在相同参数的情况下，有着更快的推理速度，但在微调方面存在诸多挑战，比如泛化能力不足容易引发过拟合现象，属于典型的“技术派才有的红利”。

其他厂商选择dense模型快速迭代的时候，MiniMax放了80%以上的算力和研发资源做MoE，而且没有Plan B。

拐点出现在2024年初，MiniMax发布了国内首个基于MoE架构的abab 6，找到了越来越多加速实现Scaling Laws的途径，包括改进模型架构、重构数据pipeline等等，并在三个月后研发出了更强大的abab 6.5。

正如外界所熟知的，长文本能力在2024年成为生产力工具的“胜负手”，万亿参数的abab 6.5已经200k tokens 的上下文长度，综合能力已经不逊于国外主流大模型；使用同样的训练技术和数据的abab 6.5s，进一步提升了推理速度，可以在1秒内处理近3万字的文本。

按照业界常用的“大海捞针”机制，即在很长的文本中放入一个和该文本无关的句子（针），然后通过自然语言提问模型，看模型是否准确将这个针回答出来。在891次问答中，abab 6.5均能正确回答。

现在，MoE模型已经上升为行业共识，被认为是高性能AI大模型的必选项，而MiniMax已经在这条路上“抢跑”了一年。

02 技术驱动的产品方法论

让许多人没想到的是，一群痴迷于技术的工程师，“意外”做出了多个日活用户超过100万的产品，包括Glow、星野、海螺AI等，涵盖内容社区、生产力工具等不同方向。

曾有媒体在采访时询问闫俊杰：“你们第一个模型还没做出来，就招了产品经理，当时你如何向他描述你想要一个怎样的产品？”出乎预料的是，闫俊杰给出的回答只要三个字：“不知道。”

闫俊杰口中的“不知道”，源于对技术的敬畏：当前AI原生的超级产品，无不源自突破性的技术进步。

比如搜索问答几乎是所有对话式AI的标配，也是我们使用生产力工具提升工作效率的刚需功能。但越是基础的功能，越能验证生产力工具的价值，考验背后大模型的能力。

百度发布2024年Q1财报后，我们同时在海螺AI和国外的一款产品进行了对比，用户体验可谓高下立见：

海螺AI整理出了百度的核心业务信息，包括营收、利润等关键数据，以及百度智能云、开发者社区、百度APP、萝卜快快等核心业务数据，有着清晰的逻辑和侧重，并且每条内容都关联了对应的信息源，甚至在末尾附加了和百度财报相关的常见问题。

另一款产品也准确回答了财报的核心信息，但仅仅引述了一些媒体报道，输出内容的结构化很弱，需要人工二次处理信息。和直接用搜索引擎查找信息的方式相比，并未节省太多的时间。

再比如长尾内容的检索和生成能力。像百度财报这样的热门议题，很容易找到相关的媒体报道，一些小众的长尾内容，似乎更能考验生产力