Facebook和CMU的“超人”扑克AI击败了人类职业玩家

2022-02-20 20:16:01 来源: 网易 阅读量:10236   

它可以比任何人都更好地虚张声势。

人工智能在我们最喜欢的另一款游戏中彻底击败了人类由 Facebook 人工智能实验室和卡内基梅隆大学的研究人员设计的扑克机器人在一系列六人无限德州扑克游戏中击败了一些世界顶级玩家

在超过 12 天和 10,000 手的过程中,名为 Pluribus 的 AI 系统在两种不同的环境中与 12 位专业人士对抗一方面,人工智能与五名人类玩家并肩作战,在另一个版本中,五个版本的 AI 与一个人类玩家一起玩研究人员表示,Pluribus 平均每手赢了 5 美元,每小时赢了大约 1,000 美元——这是决定性的胜利

Facebook AI Research 的研究科学家兼 Pluribus 的共同创始人 Noam Brown 告诉The Verge说: 可以肯定地说,我们处于超人水平,而且不会改变。

我们处于超人水平,这不会改变。

Pluribus 是一个非常难对付的对手真的很难将他固定在任何类型的牌上,六次世界扑克系列赛冠军和 12 位针对 AI 选秀的职业选手之一的 Chris Ferguson 在一份新闻声明中说

在《科学》杂志上发表的一篇论文中,Pluribus 背后的科学家们表示,此次胜利是人工智能研究的一个重要里程碑尽管机器学习在象棋和围棋这样的棋盘游戏以及星际争霸 II 和Dota等电脑游戏中已经达到了超人的水平,但六人无限注德州扑克在某些方面代表了更高的难度基准

不仅获胜所需的信息对玩家隐藏,它还涉及多个玩家和复杂的胜利结果众所周知,围棋具有比可观测宇宙中的原子更多的棋盘组合,这使得 AI 绘制出下一步要走的棋子是一个巨大的挑战但是所有的信息都可以看到,而且游戏对玩家来说只有两种可能的结果:赢或输从某种意义上说,这使得训练 AI 变得更容易

信用:脸书

Pluribus 培训制度的时间表跛行是一些人类玩家使用的一种策略,但最终被人工智能抛弃了

早在 2015 年,机器学习系统就在两人德州扑克中击败了人类职业玩家,但将对手的数量增加到 5 名,这显着增加了复杂性为了创建一个能够应对这一挑战的程序,布朗和他的同事,CMU 教授 Tuomas Sandholm 部署了一些关键策略

PLURIBUS 在短短 8 天内接受了培训,估计成本仅为 150 美元

首先,他们通过让 Pluribus 与自己的副本对战来教 Pluribus 玩扑克——这个过程被称为自我对弈这是人工智能训练的常用技术,系统能够通过反复试验来学习游戏,与自己玩数十万手牌这个训练过程也非常高效:Pluribus 是使用配备不到 512GB RAM 的 64 核服务器在短短八天内创建的在云服务器上训练这个程序只需 150 美元,与其他最先进系统的 10 万美元价格相比,这是一个便宜的价格

然后,为了处理六名玩家的额外复杂性,Brown 和 Sandholm 想出了一种有效的方法,让 AI 在游戏中展望未来并决定采取什么行动,这种机制称为搜索功能Pluribus 并没有试图预测它的对手在游戏结束前的玩法,Pluribus 被设计为只看两三步布朗说,这种截断的方法是真正的突破

你可能认为 Pluribus 在这里为了短期收益而牺牲了长期战略,但在扑克中,事实证明,短期的敏锐性才是你真正需要的。

它可以比任何人都更好地虚张声势。

例如,Pluribus 非常擅长虚张声势,与它对抗的职业玩家称赞它无情的一致性,以及它从相对薄弱的手中榨取利润的方式可以预见,这是不可预测的:扑克玩家的出色品质它只是通过打牌来做到的,例如,Pluribus 中没有包含机器视觉或面部识别的元素来进行定位

布朗说这很自然我们经常认为虚张声势是人类独有的特征,依赖于我们撒谎和欺骗能力的东西但他说,这是一门艺术,仍然可以简化为数学上的最佳策略人工智能并不认为虚张声势具有欺骗性它只是看到了在这种特定情况下能赚到最多钱的决定,他说我们展示的是,人工智能可以虚张声势,而且它可以比任何人都更好地虚张声势

那么,AI 最终击败人类成为世界上最受欢迎的扑克游戏,这意味着什么好吧,正如我们在过去的 AI 胜利中看到的那样,人类当然可以向计算机学习一些玩家普遍怀疑的策略被 AI 采纳,这表明它们可能比之前想象的更有用每次玩机器人时,我都觉得我能将一些新东西融入到我的游戏中,扑克职业玩家 Jimmy Chou 说

也有希望用于创建 Pluribus 的技术可以转移到其他情况现实世界中的许多场景在最广泛的意义上类似于德州扑克——这意味着它们涉及多个玩家,隐藏的信息和众多双赢的结果

Brown 和 Sandholm 希望他们展示的方法因此可以应用于网络安全,欺诈预防和财务谈判等领域甚至像帮助自动驾驶汽车导航这样的事情,布朗说

那么我们现在可以认为扑克是一种被打败的游戏吗。

Brown 没有直接回答这个问题,但他确实说值得注意的是 Pluribus 是一个静态程序在最初的八天训练期之后,AI 从未更新或升级,因此它可以更好地匹配对手的策略在与职业选手相处的 12 天里,他们始终无法找到比赛中的一贯弱点没有什么可利用的从开始下注的那一刻起,Pluribus 就处于领先地位

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

精选 导读

大摩:苹果产量或超预期增长,预计Q1业绩有“惊喜”

摩根士丹利分析师KatyHuberty指出,苹果本季度iPhone产量可能超预期增长,因为交货周期正在下降到“更正常的水平”。该分析师预计苹...

发布时间: 2021-12-23 17:04
行情   2021-12-23

中金:维持石四药集团跑赢行业评级目标价5.8港元

中金发布研究报告称,维持石四药集团“跑赢行业”评级,保持2021/22年归母净利润预测7.9/11.64亿元不变,目标价5.8港元。报告中称...

发布时间: 2021-12-23 17:03
行情   2021-12-23

实探中装建设元宇宙合作方鸿蒙时代:与华为无关已搬离注册地

12月22日,深交所对中装建设发布关注函,要求说明公司是否存在“楼宇智能大数据信息处理、AI可视化、元宇宙应用、智能建造系统、区块链等技术”...

发布时间: 2021-12-23 17:02
行情   2021-12-23

“疫”线女将:眼里有光心中有爱

“疫”线女将:眼里有光心中有爱题:“疫”线女将:眼里有光心中有爱曾灯光璀璨、游人如织的边陲小城因新冠疫情的再次暴发按下“暂停键”。内蒙古自治...

发布时间: 2021-12-23 16:48
要闻   2021-12-23

联通网络智能运维产品研发招标:华为、中软等11家企业入围

中国联通日前正式公布网络智能运维产品研发招标结果,华为、中软、软通动力、亚信科技等11家企业入围。传统网络故障的被动处理方式,从故障感知到信...

发布时间: 2021-12-23 16:35
酷玩   2021-12-23

热点 推荐

小米12Pro自研智能动态刷新率演示视频公布:支持新技能“滑动变速”,更

今日上午,小米手机官方表示,小米自研智能动态刷新率,是第二代低功耗2K屏幕的创新体验,第一次让小米12Pro拥有了滑动变速的新技能。小米表示...

发布时间: 2021-12-23 16:31
酷玩   2021-12-23

增速惊人!鸿蒙用户量半年突破2.2亿

C114讯12月23日下午消息在今日举办的华为动机旗舰新品发布会上,华为常务董事、消费者BGCEO、智能汽车解决方案BUCEO余承东公布了鸿...

发布时间: 2021-12-23 16:26
酷玩   2021-12-23

用户群聊从线上走到线下他趣成年轻群体社交困境破局者

伴随当下工作和生活节奏越来越紧凑,婚恋、交友等社交需求逐渐成为年轻人的刚性需求。为满足日益提升的社交需求,他趣用户从线上延伸到线下,通过组织...

发布时间: 2021-12-23 14:59
机器人   2021-12-23

京东会展云“云上服贸会”项目入选中国信通院“2021年数字孪生城市典型案

近日,2022中国信通院ICT+深度观察报告会隆重举办,京东会展云技术支持的中国国际服务贸易交易会数字平台项目入选“2021年数字孪生城市典...

发布时间: 2021-12-23 14:56
机器人   2021-12-23

华为Mate9手机推送鸿蒙HarmonyOS2.0.0.140:新增桌面

华为Mate9手机开始推送鸿蒙HarmonyOS2.0.0.140更新。更新包1优化了音量等基础体验,并新增了桌面图标放大功能。更新包2修复...

发布时间: 2021-12-23 14:41
机器人   2021-12-23
bd9