振东集团的”本草革命”：让中药材跳出药罐子，闯出大健康新天地

发布时间：2025/06/10

红球纷飞传三晋，大爱无边漫九州。5月25日，由中国红十字会总会主办，山西振东健康产业集团赞助的“红气球挑战赛”（晋中站）在山西省高校新区（山西大学城）鸣笛开赛。该赛事汇聚了来自全国各地及山西大学城高校的...
2025中美领衔世界级艺术名家 ——赵玉林精品展播

发布时间：2025/01/17

赵玉林,笔名三友,内蒙古包头市美术家协会副主席,草原书画院院长,中国美协内蒙古分会会员,台北故宫书画院名誉院长,中华国礼书画家,国家博物馆画廊特邀书画家。作品入选《中国当代国际书画家年鉴》,在中国书画研究...
腾讯创作者生态的前车之鉴，能否支撑《元梦之星》逐梦UGC？

发布时间：2023/09/24

近期，腾讯以“天美乐园”的特别形式公布了新作《元梦之星》，宣告正式入主派对游戏赛道。过去，派对游戏在国内市场份额较小，直到《糖豆人》《香肠派对》《蛋仔派对》等作品引发用户和市场的高度关注，整个赛道才...
普悦智能，专注净水，为渠道经销搭载新引擎！

发布时间：2023/08/28

稳步推进：祝贺普悦智能（北京联营公司）第一轮股东入股签约圆满成功！ 2023年8月18日，浙江普悦智能科技有限公司北京联营公司——北京普悦京允智能科技有限公司在总经理宋玉财的热忱推进下，成功签约了五名销售/服...

英国与快速反应小组一起抗击冠状病毒

发布时间：2020/04/01

英国政府宣布了新的措施，以打击虚假的COVID-19在线信息的传播，包括建立专门的专家小组来处理错误信息。新成立的快速反应小组将在英国内阁办公室内部运作，并将研究应对互联网上“有害叙述”的方法-解决“...
微软即将吸引消费者-但Skype仍将保留

发布时间：2020/03/31

微软今天宣布，今年晚些时候，它将推出Teams的基本消费版，即类似于Slack的文本，音频和视频聊天应用程序。就像Microsoft所喜欢的，您的个人生活团队将使用许多工具，这些工具将使家庭和小组更轻松地组织...
安全漏洞暴露了共和党选民公司的内部应用代码

发布时间：2020/03/31

一家专供共和党政治运动使用的选民联系和拉票公司，错误地在其网站上留下了未经保护的应用程序代码副本，供任何人找到。 Campaign Sidekick公司通过iOS和Android应用程序帮助共和党竞选活动布署其选区，这...
在宾夕法尼亚州，州酒商店仍然关闭，人们越来越口渴

发布时间：2020/03/31

随着美国人渴望长时间的自我隔离，白酒业务的销量激增。根据尼尔森(Nielsen)的数据，到3月中旬，这一增长已经比去年同期高出26%以上。但是，联盟中至少有一个州与这种趋势背道而驰，而且与消费者的意愿无...

OpenAI通过玩捉迷藏来教授AI团队合作

发布时间：2019/09/19 新闻 浏览次数：933

这个古老的捉迷藏游戏可以揭示人工智能如何衡量其所面临的决策，更不用说为什么它在其影响范围内与其他AI相互作用的方式 – 或其接近度。这是总部位于旧金山的人工智能研究公司OpenAI的研究人员发表的一篇新论文的要点，该公司得到了LinkedIn联合创始人里德霍夫曼等人的支持。本文描述了大量的AI控制代理如何在虚拟环境中松散，学会了越来越复杂的隐藏和寻求对方的方法。测试结果表明，竞争中的双代理团队以比任何单一代理更快的速度进行自我改进，合作者称这表明可以利用其他人工智能领域的力量来提高效率。
今天在开源中提供的捉迷藏AI培训环境加入了无数其他OpenAI，DeepMind和DeepMind姊妹公司Google为人工智能的难题提供众包解决方案。 12月，OpenAI发布了CoinRun，旨在测试强化学习代理的适应性。最近，它推出了神经MMO，这是一个强大的强化学习模拟器，可以在类似RPG的世界中扮演代理人。 6月份谷歌的Google Brain部门开源研究足球环境，这是一个3D强化学习模拟器，用于训练AI掌握足球。 DeepMind上个月揭开了OpenSpiel的面纱，OpenSpiel是一系列用于视频游戏的AI培训工具。
“创建能够解决各种复杂的人类相关任务的智能人工智能代理一直是人工智能社区长期面临的挑战，”共同作者在最新的论文中写道。 “与人类特别相关的是能够感知和与物理世界中的物体互动的物质。”
隐藏代理人倾向于强化学习，这种技术利用奖励来推动软件政策实现目标，通过反复试验自我学习。近年来，强化学习与巨大的计算相结合取得了巨大的成功，但它有其局限性。指定奖励功能或收集演示以监督任务可能既耗时又昂贵。 (最先进的方法要求对专家演示数据进行监督性学习，并使用奖励来进一步提高绩效。)此外，单一任务强化任务中的学习技能受到任务描述的限制;一旦代理人学会解决任务，就没有太大的改进空间。
研究人员反而采用了他们称之为“无向探索”的政策，即代理人在对游戏世界的理解中自由发展，以制定创造性的制胜策略。它类似于DeepMind科学家去年倡导的多智能体学习方法，在一项研究中，多个AI系统经过训练，可以在Quake III Arena游戏中玩夺旗。与这项研究一样，人工智能代理人事先没有学过游戏规则，但他们随着时间的推移学会了基本策略，并最终超越了大多数人类技能。
微软的Suphx AI，OpenAI的OpenAI Five，DeepMind的AlphaStar和Facebook的Pluribus分别采用类似的策略来掌握麻将，Dota 2，星际争霸II和德州扑克。
在手头的捉迷藏目标中，几个特工 – 掠夺者 – 在短暂的阶段之后不得不避开竞争对手的视线，在这个阶段，这些竞争对手被固定，而寻求者则被指示密切关注躲藏者。 (在这种情况下，“视线”指的是个体经纪人面前的135度视锥细胞。)如果他们在游戏区域外冒险太远而被迫在随机生成的房间和墙壁上进行导航，他们就会受到惩罚。分散在整个环境中的物体(主要是盒子)无限期地锁定到位。
代理人在训练过程中发现了多达六种独特的策略，每种策略都迫使他们进入下一个游戏阶段。起初，躲猫猫和寻求者只是逃跑并互相追逐，但在大约2500万次捉迷藏之后，躲避者学会了通过将箱子移到一起并靠墙来建造隐蔽的庇护所。经过另外7500万场比赛后，寻求者们移动并使用坡道跳过箱子进入了庇护所的庇护所，随后又进行了1000万次比赛，躲藏者开始将舷梯带到游乐区的边缘并将其锁定到位阻止寻求者使用它们。最后，在总共3.8亿次比赛之后，求职者自学了将箱子带到游乐区的边缘，并有效地将它们“冲浪”到了游戏者的避难所，充分利用游戏空间允许他们随着盒子一起移动的事实。没有接触地面。
受过训练的代理人学会了协调劳动，例如分别将他们自己的箱子带到一个未经建造的避难所的地点。此外，他们作为一个团队相互保护，试图通过在准备阶段锁定箱子来抵御寻求者的箱子冲浪。
据研究人员称，规模在这方面发挥了关键作用。默认模型需要132.3百万集，超过34小时的训练才能达到技能进步的“斜坡防御”阶段，较大的批量大小通常会导致更快的训练时间。例如，将参数数量(从历史训练数据中学习的模型部分)从50万增加到580万，将样本效率提高了2.2倍。
基准稳健性
为了评估代理人的稳健性，研究人员设计了一套五个基准智力测试，分为两个领域：认知和记忆。所有测试都使用相同的操作空间，观察空间和对象类型作为隐藏和搜索环境：
对象计数任务测量代理是否具有对象持久性感(即使无法察觉，事物仍然存在的理解)。
第二个任务 – 锁定和返回 – 测量代理是否可以在执行新任务时记住其原始位置。
在顺序锁定中，四个盒子位于三个随机房间，没有门，但每个房间都有一个坡道。代理商必须按照之前未观察到的特定顺序锁定所有框。
在“从蓝图构建”任务中，代理必须在多达四个目标站点的顶部放置框 – 八个在开放的房间中。
在住房建设任务中，代理人必须在圆筒周围建造一个箱子的避难所。
在五个任务中的三个中，在捉迷藏环境中预先训练的特工学得更快，并且获得比两个基线更高的最终奖励。他们在“锁定和返回”，“顺序锁定”和“构建蓝图”方面做得稍微好一点，但是他们在对象计数和住房建设方面表现更差。
研究人员将这些混合的结果归咎于既“纠缠”又难以微调的技能表现。 “我们推测隐藏和寻找预训练优于基线的任务是由于重用学习的特征表示，而剩余任务的基线转移优于需要重用学习技能，这要困难得多，”他们中写道。 “该评估指标强调了开发技术的必要性，以便从一个环境中培训的政策到另一个环境有效地重用技能。”
那么从中得到了什么呢?简单的游戏规则，多智能体竞争和大规模的标准强化学习算法可以刺激代理人学习无人监督的复杂策略和技能。
研究人员写道：“这些环境的成功激发了人们对这些环境可能最终使代理商获得无限数量……技能的信心。” “[它]导致的行为集中在与其他自我监督的强化学习方法(如内在的)相关的更多人类相关技能上。”
这些进步不仅仅是推动游戏设计。研究人员声称，他们的工作是迈向可能产生“物理基础”和“人类相关”行为的技术的重要一步，并且可能支持诊断疾病，预测复杂蛋白质结构和分割CT扫描的系统。 “[我们的游戏人工智能]是我们通用人工智能的踏脚石，”Alphabet DeepMind联合创始人Demis Hassabis在之前的采访中告诉VentureBeat。 “我们测试自己和所有这些游戏的原因是……它们是我们开发算法的一个非常方便的试验场。 ……最终，[我们正在开发可以转化为真实世界的算法，以解决真正具有挑战性的问题……并帮助这些领域的专家。“

上一篇: 三泰控股进军现代农业，开启双轮腾飞新时代

下一篇: Telstra将移动计划扩展到Google Nest设备

相关推荐