谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

作者:news 发表时间:2025-08-12
前美联储官员Bullard:若独立性得到尊重 愿意担任美联储老大 Mhmarkets迈汇:全球黄金需求波动与市场走势分析秒懂 中天期货:橡胶缓慢上移 纯碱大幅上行科技水平又一个里程碑 美国7月通胀上升,符合预期 600711,宣布“摘帽”!明日停牌最新报道 Moneta Markets外汇:阿根廷页岩油气的波动与机遇后续会怎么发展 前美联储官员Bullard:若独立性得到尊重 愿意担任美联储老大实测是真的 层层转包!申万宏源证券被诉实垂了 前美联储官员Bullard:若独立性得到尊重 愿意担任美联储老大 美国7月实际平均周薪同比增长1.4%后续会怎么发展 确定退市,“万亿”恒大落幕!许家印、丁玉梅等被追讨超400亿元股息及酬金,全球范围超500亿元资产被冻结学习了 Mhmarkets迈汇:全球黄金需求波动与市场走势分析 瑞芯微现2笔大宗交易 均为折价成交 中金黄金大宗交易成交972.67万元 曹建军获批出任前海财险副总经理 高管团队重构迈出关键一步 欢迎江苏中慧元通生物科技股份有限公司(HK.2627) 今日上市!实时报道 瑞芯微现2笔大宗交易 均为折价成交 龙国太保监事会谢幕:险企治理改革的探索与合规困境 Palantir已成为标普500最昂贵股票后续来了 郑纪业副研究员团队:基于改进YOLOv11的轻量化肉牛面部识别方法(《智慧农业(中英文)》2025年第3期)官方处理结果 丰山集团:8月19日将召开2025年半年度业绩说明会实垂了 Palantir已成为标普500最昂贵股票 瑞芯微现2笔大宗交易 均为折价成交 晓东聊股事|沪指站上3600,投资者该何去何从? 山东地区个别焦化近期有限产计划:将于8月16日—8月25日限产30% 8月26日—9月3日限产50%太强大了 碳酸锂狂飙的4天:多空决战宜春,投资者半夜蹲守矿山科技水平又一个里程碑 4055万千瓦 上海用电负荷创新高 李大霄:余钱好股 坐稳扶好后续反转 商务部公布对原产于加拿大的进口油菜籽、原产于加拿大等国的进口卤化丁基橡胶反倾销调查初裁太强大了 升级布局A股500强,AI量化再加码|【西部利得西部利得中证A500指数增强】正在发售中! 4055万千瓦 上海用电负荷创新高这么做真的好么? 晓东聊股事|沪指站上3600,投资者该何去何从?记者时时跟进 四川路桥与铁建重工举行座谈官方已经证实 科技双周报|GPT-5落地+算力链再升级,AI产业趋势预计或将持续后续来了 河南-宁波舟山港-越南,首条!官方通报来了 本周股债怎么投?听听基金经理怎么说学习了 升级布局A股500强,AI量化再加码|【西部利得西部利得中证A500指数增强】正在发售中!这么做真的好么? 突发!储能上市公司副董事长辞职官方已经证实

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”,只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的“资源”做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏,真名叫做 Donor Game(捐赠博弈)。

在这过程中,作者关注的是各模型组成的智能体群体的表现,因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些,就是 GPT 和 GPT 坐一桌,Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体,它们各自手中都握有一定量的“资源”,系统会从这 12 名玩家中随机抽取 2 个,分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者,受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说,捐赠者每花费掉一份资源时,受赠者都可以获得两份,这也是总体资源能够增加的来源。

不过对于单个个体而言,选择不进行捐献,在短期内的收益会更高。

在做决定之时,捐赠者能够知道受赠者之前做出的决定,从而判断是否要捐赠。

这样的“捐赠”,每一代中一共会进行 12 次,一轮结束后,手中资源量排在前 6 名的智能体可以保留至下一代。

同时,下一代会产生 6 个新的智能体,这 6 个新智能体会从留下的 6 个智能体那里学习策略,但同时为了差异化也会引入随机变异。

包括初始的一代在内,基于每个模型产生的智能体,都会进行十轮迭代。

谷歌让

相关文章