谷歌让12个AI大模型玩“大富翁”
来源:烟台新闻 发布日期:2024-12-21
给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。而 GPT-4o 则是主打一个“自私”,只考虑自己的短期利益。这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的“资源”做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多。12 个智能体组一桌游戏作者组织的“大富翁”游戏,真名叫做 Donor Game(捐赠博弈)。在这过程中,作者关注的是各模型组成的智能体群体的表现,因此不同模型产生的智能体不会出现在同一局游戏当中。再说简单些,就是 GPT 和 GPT 坐一桌,Claude 和 Claude 坐一桌。每个桌上坐了 12 个智能体,它们各自手中都握有一定量的“资源”,系统会从这 12 名玩家中随机抽取 2 个,分别作为“捐赠者”和“受赠者”。捐赠者可以选择将自己手中的部分资源捐赠给受赠者,受赠者获得的资源是捐赠者捐赠资源的两倍。也就是说,捐赠者每花费掉一份资源时,受赠者都可以获得两份,这也是总体资源能够增加的来源。不过对于单个个体而言,选择不进行捐献,在短期内的收益会更高。在做决定之时,捐赠者能够知道受赠者之前做出的决定,从而判断是否要捐赠。这样的“捐赠”,每一代中一共会进行 12 次,一轮结束后,手中资源量排在前 6 名的智能体可以保留至下一代。同时,下一代会产生 6 个新的智能体,这 6 个新智能体会从留下的 6 个智能体那里学习策略,但同时为了差异化也会引入随机变异。包括初始的一代在内,基于每个模型产生的智能体,都会进行十轮迭代。上述过程就是一次完整实验,针对每个模型,作者都会实验五次,然后比较总资源量的平均值,以及最终策略的复杂程度。Claude 喜欢合作,GPT 最自私一通测试下来,作者发现基于 Claude 的智能体种群的平均资源量每一代都稳步增长,总体合作水平越来越高。相比之下,基于 GPT 的智能体种群合作水平总体呈现下降趋势,看上去非常“自私”。基于 Gemini 的种群表现则介于二者之间,它们的合作水平有所提高,但和 Claude 比差距还是很大,并且表现不太稳定。而从策略角度来看,经历了 10 代的积累之后,三个模型产生的经验都变得相当复杂,但以 Claude 最为突出。进一步地,作者还引入了“惩罚机制”,即捐赠者可以花费一定资源,让“受赠者”手中的资源减少相应的两倍。结果,该机制对 Claude 模型的影响最为积极 ——Claude 种群最终的平均资源量是无惩罚情况下的 2 倍左右,并且所有 5 次实验都表现出了增长趋势。对 GPT 模型的影响则非常有限,PT 种群的平均资源量也始终徘徊在较低水平,甚至随轮次增加有下降,表明惩罚机制并没有改变 GPT 的“自私”想法。对 Gemini 模型的影响最为复杂,在个别情况下 Gemini 种群借助惩罚机制将平均资源量提高到了 600 以上,明显高于无惩罚的情况;但更多情况下,Gemini 种群在引入惩罚后出现了更严重的“合作崩溃”,平均资源量急剧下跌,表明 Gemini 智能体容易因过度惩罚而陷入报复的恶性循环。有网友认为,这个实验可以启发新的研究方向,比如用智能体来进行大规模的社会学实验,可能会带来一些有趣的新可能性。脑洞更大的网友,想到了可以借用智能体实现科幻小说中描绘的场景,运行数以百万计的模拟约会或战争游戏。不过,也有人认为实验中观测到的合作现象,可能只是对训练数据中人类对话的模仿,并不能说明智能体当中可以产生“文化进化”。论文地址:https://arxiv.org/abs/2412.10270参考链接:https://news.ycombinator.com/item?id=42450950
Mate 70被疯抢!中国市场手机激活量最新排名:华为拿下第一nova13香:年底换机首选华为nova 13系列 前后多焦段人像带来真香体验理想汽车人事变动!李想直接管销售服务业务,马东辉接替沈亚楠任总裁Lululemon Q3营收同比增长28% Q4指引不及预期好市多 Q1营收不及预期 净销售额同比增8%SEC建议:美国公司应向投资者披露对加密资产市场的风险敞口三星电子第三季度晶圆代工全球市占率15.5%一图看懂蔚来、小鹏、理想汽车2022年第三季度财报苹果正与腾讯、字节谈判:将人工智能整合国行版iPhone中999元!闪极AI拍拍镜发布:国内首款量产AI拍摄眼镜
俄罗斯宣布自研EUV光刻机:比ASML更便宜、更容易制造!小米SU7冲下山30米 车报废了但一家三口无大碍小米SU7不慎冲下近30米陡坡翻滚撞树致报废:完好护住车里三人极越员工万字长文吐槽夏一平:长不大的200斤孩子蔚来被质疑有钱不给供应商?李斌回应称付款周期为验收后90天理想L6荣获2024汽车工业巅峰奖年度最佳车型消息称阿维塔下一代新车基于长安 SDA 开发,华为不再为平台背书苹果正与腾讯、字节谈判:将人工智能整合国行版iPhone中《仙剑奇侠传四》重制版与原版对比 画质天差地别力争2027年量产2nm!日本接收首台EUV光刻机:重71吨、四阶段安装