凯发娱乐城

注册游戏账号

新葡京娱乐城

进入游戏大厅

博天堂娱乐城

真人棋牌游戏开户

您现在的位置:电子游艺 > 赌场老虎机种类 > MG经典游戏 > 正文

求通释下bandit老虎机MG经典游戏到底是个什么东西

来源:http://www.2288yule.net 作者:MG经典游戏

真人棋牌游戏

博天堂

关于这个问题,我们想采用微软亚洲研究院资深研究员陈卫在中国理论计算机年会上的报告“在线组合学习”进行回答,解读多臂老虎机和组合在线学习之间的关系。

赌场的老虎机有一个绰号叫单臂强盗(single-armed bandit),因为它即使只有一只胳膊,也会把你的钱拿走。

而多臂老虎机(或多臂强盗)就从这个绰号引申而来。

假设你进入一个赌场,面对一排老虎机(所以有多个臂),由于不同老虎机的期望收益和期望损失不同,你采取什么老虎机选择策略来保证你的总收益最高呢?这就是经典的多臂老虎机问题。

这个经典问题集中体现了在线学习及更宽泛的强化学习中一个核心的权衡问题:我们是应该探索(exploration)去尝试新的可能性,还是应该守成(exploitation),坚持目前已知的最好选择?在多臂老虎机问题中,探索意味着去玩还没玩过的老虎机,但这有可能使你花太多时间和金钱在收益不好的机器上;而守成意味着只玩目前为止给你收益最好的机器,但这又可能使你失去找到更好机器的机会。

多臂老虎机的提出和研究最早可以追述到上世纪三十年代,其研究模型和方法已有很多。

其中一类重要的模型是随机多臂老虎机,即环境给予的反馈遵从某种随机但未知的分布,在线学习的过程就是要学出这个未知分布中的某些参数,

这其中最有名的一个方法是UCB(Upper Confidence Bound)方法,能够通过严格的理论论证说明UCB可达到接近理论最优的整体收益。

介绍了多臂老虎机问题,那组合在线学习和它之间有何关联呢?我们继续来看一下组合多臂老虎机(CMAB)问题。

在组合多臂老虎机问题中,你一次拉动的不是一个臂,而是多个臂组成的集合,我们称之为超臂(super arm),原来的每个臂我们称之为基准臂(base arm),以示区别。

拉完这个超臂后,超臂所包含的每个基准臂会给你一个反馈,而这个超臂整体也给你带来某种复合的收益。

那么如何解决组合多臂老虎机的问题呢?你可能首先想到的就是把每一个超臂看成是经典多臂老虎机问题中的一个臂。MG经典游戏

但是超臂是多个基准臂的组合,而这样组合的数目会大大超过问题本身的规模——组合问题中经典的组合爆炸现象,因此传统的方法并不适用。

所以在线学习不能在超臂这个层次进行,而需要在基准臂层次上进行,并需要与离线组合优化巧妙地结合。

我们在ICML2013的论文[2]中给出了组合多臂老虎机的一般框架和基于UCB方法的CUCB算法。

CUCB算法将组合优化和在线学习无缝对接实现了前面图示中的反馈回路。

较之前的涉及组合多臂老虎机的研究,我们的模型适用范围更广,尤其是我们通过给出收益函数的两个一般条件,能够涵盖非线性的收益函数,这是第一个能解决非线性多臂老虎机问题的方案。

我们的工作,包括之后我们和他人的后续工作,MG经典游戏都强调对在线学习部分和离线优化部分的模块化处理和无缝对接。

也即我们将离线优化部分作为一个黑盒子神谕(oracle),这部分可以由具有相关领域知识的专家来完成。MG经典游戏

而一旦离线优化问题可以精确解决或近似解决,我们就可以把这个离线算法当作黑盒子拿过来和我们在线学习方法相结合,达到有严格理论保证的组合在线学习效果。

这使得我们的方法可以适用于一大批已经有离线优化算法的组合在线学习问题,比如最短路径、最小生成树、最大匹配、最大覆盖等问题的在线学习版本,而不需要对每个问题单独再设计在线学习算法。

在论文binatorial Multi-Armed Bandit: GeneralFramework, Results and Applications”中,我们进一步将组合多臂老虎机模型扩展为允许有随机被触发臂的模型。

这一模型可以被用于在线序列推荐、社交网络病毒式营销等场景中,因为在这些场景中前面动作的反馈可能会触发更多的反馈。MG经典游戏

然而在其理论结果中,我们包含了一个和触发概率有关的项,造成在线学习效果不好。

在今年刚被录取的NIPS论文“ Improving Regret Bounds forbinatorial Semi-Bandits with Probabilistically Triggered Arms and Its Applications”中,MG经典游戏我们彻底解决了这个问题:一方面我们论证了序列推荐和病毒营销等满足某种特定条件的问题都不会有这个不好的项,另一方面我们指出在更一般的组合多臂老虎机中这个项又是不可避免的。

这是目前研究可触发臂的组合多臂老虎机中最好的一般结果。

除此之外,我们还在与组合多臂老虎机相关的方面做了若干工作,比如如何在反馈受限情况下达到好的学习效果;如何解决先探索再找到最佳方案的组合探索问题;当离线优化基于贪心算法时,MG经典游戏如果更好地将离线贪心算法和在线学习相结合;如何在有上下文的场景中解决组合序列推荐问题;以及当超臂的期望收益取决于每个基准臂的随机分布而不仅是每个基准臂的分布均值时,求通释下bandit老虎机MG经典游戏到底是个什么东西?如何同样有效地进行组合在线学习。

本账号为微软亚洲研究院的官方知乎账号。

本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。

微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。

请大家不要吝惜手里的“邀请”,让我们在分享中共同进步。

  • 原文标题:求通释下bandit老虎机MG经典游戏到底是个什么东西
  • xpj

    9you娱乐城

    特别推荐

    
  • 澳门网上赌场
  • 澳门威尼斯人赌场官网
  • 老挝赌场
  • 区块链百家乐游戏
  • 搜索留痕方法
  • 赌球地址
  • 澳门太阳城网址
  • 全球最大博彩公司
  • 网上买球网站
  • bbin平台直营
  • 博彩公司
  • 加密货币交易所
  • 欧易为什么不清退
  • 中币跑路
  • 亚洲博彩公司
  • 澳门在线赌场
  • 菲律宾马尼拉赌场
  • 正规博彩平台
  • 大陆博彩平台
  • 澳门新葡京娱乐场
  • 世界赌场名单
  • 全讯导航网
  • 菠菜论坛
  • 东南亚赌博网站
  • 虚拟币博彩游戏
  • 澳门百家乐网址
  • 网上博彩导航
  • 数字币博彩网站
  • 马来西亚博彩公司
  • 越南赌场
  • 香港赌场
  • 澳大利亚赌博网站
  • 足球赔率
  • 菲律宾网上赌场
  • 加密货币赌博平台
  • 足球投注网站
  • 网络博彩论坛
  • 皇冠最新网址
  • 博彩公司排名
  • 推广引流方法
  • 推广话术
  • 数字币赌场
  • 皇冠现金网
  • 世界杯博彩公司
  • 英国博彩公司
  • 泰国在线赌场
  • 新加坡赌场
  • 比特币博彩公司
  • 洗钱平台
  • 泰达币赌场
  • 世界杯网上赌球
  • 博彩推广方式
  • 印度尼西亚博彩平台
  • 棋牌包网
  • bbin官网
  • 体育博彩公司
  • 越南赌博平台
  • 百家乐路单
  • 澳门博彩有限公司
  • 体育博彩公司排名
  • 百家乐网址
  • 世界杯赌球网站
  • 皇冠现金网
  • 怎么洗钱
  • 买球平台
  • 欧洲杯赌球平台
  • 皇冠博彩网址
  • 外围赌球网站
  • 果敢赌场
  • 赌球技巧
  • 电子游艺平台
  • 电子游戏机
  • 赌大小怎样赢钱
  • 体育投注平台
  • 合法网上赌场
  • 缅甸赌场网址
  • 欧洲杯赌球网站
  • 赌场如何赢钱
  • 买球地址
  • 真人牌九游戏
  • 时时彩技巧
  • 六合彩官方网站
  • 威尼斯人网上赌场
  • 外围赌球
  • 赌博网址
  • 彩票游戏群
  • 微信赌博群
  • 韩国网上赌场
  • 网上赌钱游戏
  • 美国在线赌场
  • 沙巴体育官网
  • 博彩平台推荐
  • 哈希娱乐
  • 比特币赌场
  • 世界赌场排名
  • 美国赌场攻略
  • 菠菜论坛
  • 买球网站
  • 缅甸果敢赌场
  • 支持人民币的博彩网站
  • 纽约网上赌场
  • 缅甸赌博网站
  • 柬埔寨网上赌场
  • 柬埔寨赌博网站
  • 韩国博彩公司
  • 支持人民币的博彩公司