AAAI2022大奖出炉:中科院德州扑克程序AlphaHoldem获奖,

2022-02-28 16:52:51 来源: IT之家 阅读量:6843   

最近几天,人工智能国际顶会 AAAI 2022 正在召开,大会论文奖也陆续公布。AI 科技评论获知,中国科学院自动化所的兴军亮教授团队获得 AAAI 2022 的卓越论文奖!

AAAI2022大奖出炉:中科院德州扑克程序AlphaHoldem获奖,

AAAI 的英文全称是Association for the Advance of Artificial Intelligence该协会是人工智能领域的主要学术组织之一,具有一定的学术权威性

兴军亮团队此次获奖的工作是他们所开发的轻量型德州扑克 AI 程序 ——AlphaHoldem据介绍,该系统的决策速度较 DeepStack 的速度提升超 1000 倍,与高水平德州扑克选手对抗的结果表明其已经达到了人类专业玩家水平

论文名称:《AlphaHoldem: High—Performance Artificial Intelligence for Heads—Up No—Limit Poker via End—to—End Reinforcement Learning》

1 德州扑克 AI 的意义

与围棋任务相比,德州扑克是一项更能考验基于信息不完备导致对手不确定的智能博弈技术。

德州扑克是国际上最为流行的扑克游戏,由于最早起源于 20 世纪初美国德克萨斯州而得名。

德州扑克的规则是使用去掉王牌的一副扑克牌,共 52 张牌,至少 2 人参与,至多 22 人,一般参与人数为两人和十人之间。按照规划,到2025年,一网通办网办率将达到90%,一网通管覆盖率达到80%,一网协同覆盖率达到90%。

游戏开始时,首先为每个玩家发两张私有牌作为各自的底牌,随后将五张公共牌依次按三张,一张,一张朝上发出在发完两张私有牌,三张共有牌,第四张公共牌,第五张公共牌后玩家都可以多次无限制押注,这四轮押注分别称为翻牌前,翻牌,转牌,河牌图 1 展示了一场德州扑克游戏的完整流程示意

图 1:两人无限注德州扑克一次游戏过程示意

经过四轮押注之后,若仍不能分出胜负,游戏进入摊牌阶段,所有玩家亮出各自底牌并与公共牌组合成五张牌,成牌最大者获胜图 2 给出了德州扑克不同组合的牌型解释和大小

图 2:德州扑克不同牌型大小说明和比较

德州扑克博弈的问题复杂度很大,两人无限注德州扑克的决策空间复杂度超过 10 的 161 次方,其次,德州扑克博弈过程属于典型的回合制动态博弈过程,游戏参与者每一步决策都依赖于上一步的决策结果,同时对后面的决策步骤产生影响,另外,德州扑克博弈属于典型的不完美信息博弈,博弈过程中玩家各自底牌信息不公开使得每个玩家信息都不完备,玩家在每一步决策时都要充分考虑对手的各种可能情况,这就涉及到对手行为与心理建模,欺诈与反欺诈等诸多问题。。

研究者认为,由于德州扑克游戏规则又非常简单且边界确定,特别适合作为一个虚拟实验环境对博弈的相关基础理论方法和核心技术算法进行深入探究。

最近几年来,国际研究者在德州扑克这一大规模不完美信息博弈问题的优化求解中也取得了长足进步。根据辽宁省“十四五”规划发展纲要,开幕会上还发布了数字辽宁发展规划0版,同步发布辽宁省“十四五”数字政府发展规划。

比如,之前加拿大阿尔伯特大学和美国卡内基梅隆大学的研究者就设计出 AI 程序 DeepStack 和 Libratus,并先后在两人无限注德州扑克中均战胜了人类专业选手,随后卡内基梅隆大学设计的 Pluribus 又在六人无限注德州扑克中战胜了人类专业选手。

但目前主流德州扑克 AI 背后的核心思想是利用反事实遗憾最小化算法逼近纳什均衡策略。

具体来说,首先利用抽象技术 压缩德扑的状态和动作空间,从而减小博弈树的规模,然后在缩减过的博弈树上进行 CFR 算法迭代。

这些方法严重依赖于人类专家知识进行博弈树抽象,并且 CFR 算法需要对博弈树的状态结点进行不断地采样遍历和迭代优化,即使经过模型缩减后仍需要耗费大量的计算和存储资源例如,DeepStack 使用了 153 万的 CPU 时以及 1.3 万的 GPU 时训练最终 AI,在对局阶段需要一个 GPU 进行 1000 次 CFR 的迭代过程,平均每个动作的计算需耗时 3 秒Libratus 消耗了大于 300 万的 CPU 时生成初始策略,每次决策需要搜索 4 秒以上

这样大量的计算和存储资源的消耗严重阻碍了德扑 AI 的进一步研究和发展,同时,CFR 框架很难直接拓展到多人德扑环境中,增加玩家数量将导致博弈树规模呈指数增长另外,博弈树抽象不仅需要大量的领域知识而且会不可避免地丢失一些对决策起到至关作用的信息

2 AlphaHoldem 是何方神圣。

这个问题也吸引了很多中国研究者,中科院自动化所的兴军亮教授团队便是其中之一去年 12 月,他领导的博弈学习研究组针对德州扑克任务,提出了一种高水平,轻量化的两人无限注德州扑克 AI 程序 ——AlphaHoldem

不同于已有的基于 CFR 算法的德州扑克 AI,中科院博弈学习研究组所提出的架构是基于端到端的深度强化学习算法。

图 4:端到端学习德州扑克 AI 学习框架

根据团队介绍,AlphaHoldem 采用 Actor—Critic 学习框架,其输入是卡牌和动作的编码,然后通过伪孪生网络提取特征,并将一种改进的深度强化学习算法与一种新型的自博弈学习算法相结合,在不借助任何领域知识的情况下,直接从牌面信息端到端地学习候选动作进行决策。并将以数字化赋能一流营商环境建设,实现政府治理全领域,全业务,全流程的数字化,网络化,智能化。

他们还指出,AlphaHoldem 的成功得益于其采用了一种高效的状态编码来完整地描述当前及历史状态信息,一种基于 Trinal—Clip PPO 损失的深度强化学习算法来大幅提高训练过程的稳定性和收敛速度,以及一种新型的 Best—K 自博弈方式来有效地缓解德扑博弈中存在的策略克制问题。

AlphaHoldem 使用了 1 台包含 8 块 GPU 卡的服务器,经过三天的自博弈学习后,战胜了 Slumbot 和 DeepStack每次决策时,AlphaHoldem 都仅用了不到 3 毫秒,比 DeepStack 速度提升超过了 1000 倍同时,AlphaHoldem 与四位高水平德州扑克选手对抗 1 万局的结果表明其已经达到了人类专业玩家水平

3 团队部分成员介绍

赵恩民,论文一作中国科学院自动化研究所模式识别与智能系统专业博士四年级研究生,2018 年于清华大学获得工学学士学位研究方向为计算机扑克和深度强化学习

兴军亮,中国科学院自动化研究所研究员,博士生导师,特聘青年骨干,中国科学院大学岗位教授,中国科学院人工智能创新研究院创新专家组专家兴教授 2012 年毕业于清华大学计算机科学与技术系,获工学博士学位

此外,他还是美国电器与电子工程学会高级会员,美国《科学》杂志中国官方公众号特邀评论员,中国计算机学会高级会员,计算机视觉专委会委员。

他的主要研究领域为计算机视觉和计算机博弈目前已在包括顶级国际期刊如 TPAMI,IJCV,AI 以及顶级国际会议上如 ICCV,CVPR,AAAI,IJCAI 上发表论文 100 多篇,谷歌学术引用超过 10000 次,出版计算机视觉译著 2 部,参与撰写深度学习领域著作 1 部,人工智能领域著作 1 部

曾获清华大学计算机系学术新秀,谷歌学者,多次顶级国际和国内会议最佳论文奖等荣誉和奖励,以及十余次在人脸识别,车辆识别,视频识别等国际和国内挑战赛中获奖。

目前作为项目和课题负责人承担多项国家重点项目,研发的视觉感知相关技术在国家广电总局,华为,微软等得到了多次验证应用和落地推广,取得了良好的经济效益和社会价值。

最近几年来主要围绕深度强化学习相关的智能感知和决策问题,研发了多款针对不同游戏的博弈决策 AI,其中研发的星际争霸 AI 曾获 2017 年 IEEE CIG 星际争霸 AI 第 2 名,研发的德州扑克 AI 程序 AlphaHoldem 胜率超过了目前公开的最好德州扑克 AI 程序 DeepStack,速度提升超过 1000 倍开放了学界首个大规模不完美信息博弈平台 OpenHoldem

4 AAAI 2022 其他获奖工作

杰出论文奖:

论文名称:Online Certification of Preference—Based Fairness for Personalized Recommender Systems

杰出学生论文奖:

论文名称:InfoLM: A New Metric to Evaluate Summarization amp, Data2Text Generation

卓越论文奖:

除了中科院兴军亮团队的 AlphaHoldem,还有 5 篇工作获得 AAAI 2022卓越论文奖。分别如下

论文名称:Certified Symmetry and Dominance Breaking for Combinatorial Optimisation

论文名称:Online Elicitation of Necessarily Optimal Matchings

论文名称:Sampling—Based Robust Control of Autonomous Systems with Non—Gaussian Noise

论文名称:Subset Approximation of Pareto Regions with Bi—objective A

论文名称:The SoftCumulative Constrain with Quadratic Penalty

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

精选 导读

大摩:苹果产量或超预期增长,预计Q1业绩有“惊喜”

摩根士丹利分析师KatyHuberty指出,苹果本季度iPhone产量可能超预期增长,因为交货周期正在下降到“更正常的水平”。该分析师预计苹...

发布时间: 2021-12-23 17:04
行情   2021-12-23

中金:维持石四药集团跑赢行业评级目标价5.8港元

中金发布研究报告称,维持石四药集团“跑赢行业”评级,保持2021/22年归母净利润预测7.9/11.64亿元不变,目标价5.8港元。报告中称...

发布时间: 2021-12-23 17:03
行情   2021-12-23

实探中装建设元宇宙合作方鸿蒙时代:与华为无关已搬离注册地

12月22日,深交所对中装建设发布关注函,要求说明公司是否存在“楼宇智能大数据信息处理、AI可视化、元宇宙应用、智能建造系统、区块链等技术”...

发布时间: 2021-12-23 17:02
行情   2021-12-23

“疫”线女将:眼里有光心中有爱

“疫”线女将:眼里有光心中有爱题:“疫”线女将:眼里有光心中有爱曾灯光璀璨、游人如织的边陲小城因新冠疫情的再次暴发按下“暂停键”。内蒙古自治...

发布时间: 2021-12-23 16:48
要闻   2021-12-23

联通网络智能运维产品研发招标:华为、中软等11家企业入围

中国联通日前正式公布网络智能运维产品研发招标结果,华为、中软、软通动力、亚信科技等11家企业入围。传统网络故障的被动处理方式,从故障感知到信...

发布时间: 2021-12-23 16:35
酷玩   2021-12-23

热点 推荐

小米12Pro自研智能动态刷新率演示视频公布:支持新技能“滑动变速”,更

今日上午,小米手机官方表示,小米自研智能动态刷新率,是第二代低功耗2K屏幕的创新体验,第一次让小米12Pro拥有了滑动变速的新技能。小米表示...

发布时间: 2021-12-23 16:31
酷玩   2021-12-23

增速惊人!鸿蒙用户量半年突破2.2亿

C114讯12月23日下午消息在今日举办的华为动机旗舰新品发布会上,华为常务董事、消费者BGCEO、智能汽车解决方案BUCEO余承东公布了鸿...

发布时间: 2021-12-23 16:26
酷玩   2021-12-23

用户群聊从线上走到线下他趣成年轻群体社交困境破局者

伴随当下工作和生活节奏越来越紧凑,婚恋、交友等社交需求逐渐成为年轻人的刚性需求。为满足日益提升的社交需求,他趣用户从线上延伸到线下,通过组织...

发布时间: 2021-12-23 14:59
机器人   2021-12-23

京东会展云“云上服贸会”项目入选中国信通院“2021年数字孪生城市典型案

近日,2022中国信通院ICT+深度观察报告会隆重举办,京东会展云技术支持的中国国际服务贸易交易会数字平台项目入选“2021年数字孪生城市典...

发布时间: 2021-12-23 14:56
机器人   2021-12-23

华为Mate9手机推送鸿蒙HarmonyOS2.0.0.140:新增桌面

华为Mate9手机开始推送鸿蒙HarmonyOS2.0.0.140更新。更新包1优化了音量等基础体验,并新增了桌面图标放大功能。更新包2修复...

发布时间: 2021-12-23 14:41
机器人   2021-12-23
bd9