人们发现,在规则明确的游戏中,即使是像《星际争霸》这样战况多变的即时战略游戏,人类也无法战胜拥有碾压性算力优势的计算机。 于是有人把希望寄托在德州扑克上,这涉及运气,需要大量的心理战。
德州扑克(Texas Hold'em,有时简称Hold'em或Holdem),简称德州扑克,是世界上最受欢迎的公共牌扑克衍生游戏之一橙光游戏,也是官方认可的扑克游戏之一。国际扑克比赛的比赛。 德州扑克是扑克衍生品之一,其位置顺序影响最大,因为所有轮次的下注顺序保持不变。 它也是美国大多数赌场中最受欢迎的扑克游戏,在美国以外也很受欢迎。 理论上一张桌子最多可以同时容纳22人(如果不卖牌则为23人),但一般每桌二到十人。
%E5%BE%B7%E5%B7%9E%E6%92%B2%E5%85%8B
赌神下凡:一小时赢7000元,一周成为百万富翁
扑克是一种典型的不完美信息游戏。 在德州扑克中,玩家无法知道已发生事件的所有信息。 一对一无限投注包含 10^160 个决策点。
根据玩家的理解,每个点都需要不同的路径。 这种信息不完全的特点,使得德州扑克成为一项难度远超其他游戏的人工智能挑战。
然而事实上,结局早已暗中注定。 40年来,科学家们一直没有停止对德克萨斯州的研究。
10年前,计算机首次在有限的德州扑克游戏中击败了顶级人类玩家; 4年前,加拿大阿尔伯塔大学的一个研究小组开发出了Cepheus,一种据说对人类无敌的计算机。 扑克机器人; 2年前,即2017年,来自加拿大和捷克的科学家在arXiv上发表论文,提出了一种名为DeepStack的算法,称它可以让人工智能在游戏中拥有“直觉”。
两天前,在卡内基梅隆大学科学家的努力下,人工智能在一场六人无限注德州扑克游戏中击败了所有人类顶级玩家。 只存在于电影电视剧中的赌神,现在却出现在现实世界了!
赌神Pluribus的“制作”与穷小子黑马突袭的故事非常相似:用来训练Pluribus的电脑成本不到1000元,运行在两个CPU上。
上图展示了Pluribus蓝图策略在64核CPU上训练时的改进过程。 性能是根据训练的最终快照来衡量的。
正是凭借如此简陋的设备,Pluribus在一小时内击败了人类近7000元。 按照这个速度,人工智能只需不到一周的时间就能通过德克萨斯州成为百万富翁。
上面的视频展示了 Pluribus 与几位职业玩家的扑克策略。 (卡片公开展示)
赌神是怎样炼成的?幕后科学家在线答疑
显然,赌神AI已经点燃了舆论。 技术人员最关心的,除了它能赢钱之外,恐怕就是它背后的运行机制了。
近日地图场景,“AI 赌神”Pluribus 背后的推动者、Facebook AI Research 研究科学家、CMU 计算机科学博士生 Noam Brown 和 CMU 教授 Tuomas Sandholm 在 Reddit 上联合发声,揭露了赌神AI的幕后花絮并解答网友提问。 。 大家都很热情,贡献了130多条回复。
会影响扑克网站吗?
德州扑克是世界上最受欢迎的扑克游戏之一,在美国和世界各地拥有大量玩家。 大家都非常关心AI赌神会不会在短时间内对在线德州扑克产生影响(言外之意:会不会有骗子利用人工智能冒充真实用户)? 此外,Reddit用户DlC3R还问了另一个大家都非常关心的问题:算法之间的博弈什么时候开始?
Noam认为,先进的机器人检测技术现在已经在主流扑克网站上使用,并且非常成熟。 使用机器人作弊的风险太高,根本不值得。 但对职业扑克(如选手、行业、俱乐部等)肯定会产生影响。 至少俱乐部可以利用人工智能来训练职业扑克玩家。
但诺姆也补充道:我们只专注于人工智能,而不是扑克(言下之意就是我们只是痴迷于技术研究的人,我们确实没有时间和精力去顾及其他很多事情!)
讲解如何使用AIVAT降低方差因子
Noam 表示,他们估计机器人的获胜率为 5bb/100,这意味着在 50 美元/100 美元的盲注和 10,000 美元的筹码下,如果每个筹码价值 1 美元,Pluribus 每手牌将平均赢得 5 美元。 ,这样的话,每小时可以赚1000美元(约等于7000人民币)。
德州扑克的盈利计算单位是“每100手大盲注盈利,BB/100(p值为0.021)”。 优秀的职业玩家可以达到3-7BB/100手。 显然AI的胜率已经很高了!
如果不减少方差,专业人士可能需要每周 5 天、每天 8 小时玩扑克,持续 4 个月才能获得有价值的样本量。
感谢阿尔伯塔大学和布拉格查尔斯大学的研究人员开发了一种名为AIVAT的扑克方差减少算法游戏开发中的人工智能pdf,最终将手牌数减少了约12.5倍。
AIVAT可以有效减少运气成分。 例如,如果机器人有一手非常强的牌,AIVAT会从奖金中减去一个基线值,以抵消运气的成分。
上面的视频显示了蒙特卡洛 CFR 算法通过评估实际和假设的动作值来更新遍历者的策略。 在 Pluribus 中,这种遍历实际上是出于优化目的以深度优先的方式完成的。
我应该从哪里开始学习 Pluribus 算法?
一个叫smoke_carrot的人显然是一个比较好学的人。 他想认真研究Pluribus背后的算法,却发现Pluribus使用的方法和他平时遇到的不一样。 他希望研究人员能够给予一些指导和建议,比如从哪里开始? 我应该读什么类型的书?
Tuomas教授证实了smoke_carrot的结论。 确实,Pluribus 的算法与强化学习和 MCTS 完全不同。 而且,目前还没有很好的解决不完美信息博弈的教材。 此外,该领域发展如此之快,以至于2010年至2015年的论文都已经过时了。
他建议有兴趣进行深入研究的同学应该阅读本研究的相关论文。 最新发表的论文仍然可以免费获取,这个需要仔细研究!
Tuomas教授随后精心挑选了一些相关论文和报告游戏开发中的人工智能pdf,方便大家学习和研究:
他还添加了 2008 年及之前关于不完全信息博弈计算解决方案的精选论文:
如果你对此感兴趣并想看到更多讨论,请前往 Reddit: