新闻
您现在的位置:首页 > 新闻 > OpenAI通过玩捉迷藏来教授AI团队合作
  • 腾讯创作者生态的前车之鉴,能否支撑《元梦之星》逐梦UGC?

    腾讯创作者生态的前车之鉴,能否支撑《元梦之星》逐梦UGC?

    发布时间:2023/09/24

    近期,腾讯以“天美乐园”的特别形式公布了新作《元梦之星》,宣告正式入主派对游戏赛道。过去,派对游戏在国内市场份额较小,直到《糖豆人》《香肠派对》《蛋仔派对》等作品引发用户和市场的高度关注,整个赛道才...

  • 普悦智能,专注净水,为渠道经销搭载新引擎!

    普悦智能,专注净水,为渠道经销搭载新引擎!

    发布时间:2023/08/28

    稳步推进:祝贺普悦智能(北京联营公司)第一轮股东入股签约圆满成功! 2023年8月18日,浙江普悦智能科技有限公司北京联营公司——北京普悦京允智能科技有限公司在总经理宋玉财的热忱推进下,成功签约了五名销售/服...

  • 新鸿基地产园区中心封面地标, 苏州环贸汇众盼而至

    新鸿基地产园区中心封面地标, 苏州环贸汇众盼而至

    发布时间:2021/12/28

    当苏州迈向全球都会序列之际,当苏州园区盛启一城想象之时。实力港企新鸿基地产携苏州首个超高层多业态综合体住宅——新鸿基地产苏州环贸汇澎湃而来,势将为苏州高净值投资人群挚献园区中心CBD地标之作,擎领苏州未...

  • 看图操作,三步即可开通微粒贷

    看图操作,三步即可开通微粒贷

    发布时间:2021/12/01

    ​微粒贷是由国内首家互联网银行微众银行推出的一款小额信贷产品,具有无抵押无担保、随借随还等特点,深受大家的喜欢。在此,小编结合官方资料,为想用微粒贷却不知怎么开通的朋友提供一些帮助。微粒贷开通 第一...

  • 英国与快速反应小组一起抗击冠状病毒

    英国与快速反应小组一起抗击冠状病毒

    发布时间:2020/04/01

      英国政府宣布了新的措施,以打击虚假的COVID-19在线信息的传播,包括建立专门的专家小组来处理错误信息。 新成立的快速反应小组将在英国内阁办公室内部运作,并将研究应对互联网上“有害叙述”的方法-解决“...

  • 微软即将吸引消费者-但Skype仍将保留

    微软即将吸引消费者-但Skype仍将保留

    发布时间:2020/03/31

      微软今天宣布,今年晚些时候,它将推出Teams的基本消费版,即类似于Slack的文本,音频和视频聊天应用程序。就像Microsoft所喜欢的,您的个人生活团队将使用许多工具,这些工具将使家庭和小组更轻松地组织...

  • 安全漏洞暴露了共和党选民公司的内部应用代码

    安全漏洞暴露了共和党选民公司的内部应用代码

    发布时间:2020/03/31

      一家专供共和党政治运动使用的选民联系和拉票公司,错误地在其网站上留下了未经保护的应用程序代码副本,供任何人找到。 Campaign Sidekick公司通过iOS和Android应用程序帮助共和党竞选活动布署其选区,这...

  • 在宾夕法尼亚州,州酒商店仍然关闭,人们越来越口渴

    在宾夕法尼亚州,州酒商店仍然关闭,人们越来越口渴

    发布时间:2020/03/31

      随着美国人渴望长时间的自我隔离,白酒业务的销量激增。根据尼尔森(Nielsen)的数据,到3月中旬,这一增长已经比去年同期高出26%以上。但是,联盟中至少有一个州与这种趋势背道而驰,而且与消费者的意愿无...

OpenAI通过玩捉迷藏来教授AI团队合作

发布时间:2019/09/19 新闻 浏览次数:630

 
这个古老的捉迷藏游戏可以揭示人工智能如何衡量其所面临的决策,更不用说为什么它在其影响范围内与其他AI相互作用的方式 – 或其接近度。这是总部位于旧金山的人工智能研究公司OpenAI的研究人员发表的一篇新论文的要点,该公司得到了LinkedIn联合创始人里德霍夫曼等人的支持。本文描述了大量的AI控制代理如何在虚拟环境中松散,学会了越来越复杂的隐藏和寻求对方的方法。测试结果表明,竞争中的双代理团队以比任何单一代理更快的速度进行自我改进,合作者称这表明可以利用其他人工智能领域的力量来提高效率。
今天在开源中提供的捉迷藏AI培训环境加入了无数其他OpenAI,DeepMind和DeepMind姊妹公司Google为人工智能的难题提供众包解决方案。 12月,OpenAI发布了CoinRun,旨在测试强化学习代理的适应性。最近,它推出了神经MMO,这是一个强大的强化学习模拟器,可以在类似RPG的世界中扮演代理人。 6月份谷歌的Google Brain部门开源研究足球环境,这是一个3D强化学习模拟器,用于训练AI掌握足球。 DeepMind上个月揭开了OpenSpiel的面纱,OpenSpiel是一系列用于视频游戏的AI培训工具。
“创建能够解决各种复杂的人类相关任务的智能人工智能代理一直是人工智能社区长期面临的挑战,”共同作者在最新的论文中写道。 “与人类特别相关的是能够感知和与物理世界中的物体互动的物质。”
隐藏代理人倾向于强化学习,这种技术利用奖励来推动软件政策实现目标,通过反复试验自我学习。近年来,强化学习与巨大的计算相结合取得了巨大的成功,但它有其局限性。指定奖励功能或收集演示以监督任务可能既耗时又昂贵。 (最先进的方法要求对专家演示数据进行监督性学习,并使用奖励来进一步提高绩效。)此外,单一任务强化任务中的学习技能受到任务描述的限制;一旦代理人学会解决任务,就没有太大的改进空间。
研究人员反而采用了他们称之为“无向探索”的政策,即代理人在对游戏世界的理解中自由发展,以制定创造性的制胜策略。它类似于DeepMind科学家去年倡导的多智能体学习方法,在一项研究中,多个AI系统经过训练,可以在Quake III Arena游戏中玩夺旗。与这项研究一样,人工智能代理人事先没有学过游戏规则,但他们随着时间的推移学会了基本策略,并最终超越了大多数人类技能。
微软的Suphx AI,OpenAI的OpenAI Five,DeepMind的AlphaStar和Facebook的Pluribus分别采用类似的策略来掌握麻将,Dota 2,星际争霸II和德州扑克。
在手头的捉迷藏目标中,几个特工 – 掠夺者 – 在短暂的阶段之后不得不避开竞争对手的视线,在这个阶段,这些竞争对手被固定,而寻求者则被指示密切关注躲藏者。 (在这种情况下,“视线”指的是个体经纪人面前的135度视锥细胞。)如果他们在游戏区域外冒险太远而被迫在随机生成的房间和墙壁上进行导航,他们就会受到惩罚。分散在整个环境中的物体(主要是盒子)无限期地锁定到位。
代理人在训练过程中发现了多达六种独特的策略,每种策略都迫使他们进入下一个游戏阶段。起初,躲猫猫和寻求者只是逃跑并互相追逐,但在大约2500万次捉迷藏之后,躲避者学会了通过将箱子移到一起并靠墙来建造隐蔽的庇护所。经过另外7500万场比赛后,寻求者们移动并使用坡道跳过箱子进入了庇护所的庇护所,随后又进行了1000万次比赛,躲藏者开始将舷梯带到游乐区的边缘并将其锁定到位阻止寻求者使用它们。最后,在总共3.8亿次比赛之后,求职者自学了将箱子带到游乐区的边缘,并有效地将它们“冲浪”到了游戏者的避难所,充分利用游戏空间允许他们随着盒子一起移动的事实。没有接触地面。
受过训练的代理人学会了协调劳动,例如分别将他们自己的箱子带到一个未经建造的避难所的地点。此外,他们作为一个团队相互保护,试图通过在准备阶段锁定箱子来抵御寻求者的箱子冲浪。
据研究人员称,规模在这方面发挥了关键作用。默认模型需要132.3百万集,超过34小时的训练才能达到技能进步的“斜坡防御”阶段,较大的批量大小通常会导致更快的训练时间。例如,将参数数量(从历史训练数据中学习的模型部分)从50万增加到580万,将样本效率提高了2.2倍。
基准稳健性
为了评估代理人的稳健性,研究人员设计了一套五个基准智力测试,分为两个领域:认知和记忆。所有测试都使用相同的操作空间,观察空间和对象类型作为隐藏和搜索环境:
对象计数任务测量代理是否具有对象持久性感(即使无法察觉,事物仍然存在的理解)。
第二个任务 – 锁定和返回 – 测量代理是否可以在执行新任务时记住其原始位置。
在顺序锁定中,四个盒子位于三个随机房间,没有门,但每个房间都有一个坡道。代理商必须按照之前未观察到的特定顺序锁定所有框。
在“从蓝图构建”任务中,代理必须在多达四个目标站点的顶部放置框 – 八个在开放的房间中。
在住房建设任务中,代理人必须在圆筒周围建造一个箱子的避难所。
在五个任务中的三个中,在捉迷藏环境中预先训练的特工学得更快,并且获得比两个基线更高的最终奖励。他们在“锁定和返回”,“顺序锁定”和“构建蓝图”方面做得稍微好一点,但是他们在对象计数和住房建设方面表现更差。
研究人员将这些混合的结果归咎于既“纠缠”又难以微调的技能表现。 “我们推测隐藏和寻找预训练优于基线的任务是由于重用学习的特征表示,而剩余任务的基线转移优于需要重用学习技能,这要困难得多,”他们中写道。 “该评估指标强调了开发技术的必要性,以便从一个环境中培训的政策到另一个环境有效地重用技能。”
那么从中得到了什么呢?简单的游戏规则,多智能体竞争和大规模的标准强化学习算法可以刺激代理人学习无人监督的复杂策略和技能。
研究人员写道:“这些环境的成功激发了人们对这些环境可能最终使代理商获得无限数量……技能的信心。” “[它]导致的行为集中在与其他自我监督的强化学习方法(如内在的)相关的更多人类相关技能上。”
这些进步不仅仅是推动游戏设计。研究人员声称,他们的工作是迈向可能产生“物理基础”和“人类相关”行为的技术的重要一步,并且可能支持诊断疾病,预测复杂蛋白质结构和分割CT扫描的系统。 “[我们的游戏人工智能]是我们通用人工智能的踏脚石,”Alphabet DeepMind联合创始人Demis Hassabis在之前的采访中告诉VentureBeat。 “我们测试自己和所有这些游戏的原因是……它们是我们开发算法的一个非常方便的试验场。 ……最终,[我们正在开发可以转化为真实世界的算法,以解决真正具有挑战性的问题……并帮助这些领域的专家。“

姓 名:
邮箱
留 言: