机器人在决策前使用新的AI工具评估所有可能性刘嘉玲
机器人在决策前使用新的AI工具评估所有可能性
就像人类一样,当机器人做出决定时,通常会有很多选择和成百上千的潜在结果。机器人已经能够模拟其中的少数结果,从而找出最可能导致成功的行动方案。但是,如果其他选择之一同样有可能成功并且更安全呢?
海军研究办公室授予MIT训练有素的机械工程师 Brendan Englot史蒂文斯技术 2020年青年科学家奖508,693美元,以利用经典人工智能工具的新变体使机器人能够预测他们的行为以及发生的可能性该框架将使机器人通过了解哪些选项是最安全,最有效且最不可能失败的方法,来找出实现目标的最佳方法。
恩格洛特说:“如果机器人完成任务的最快方法是走在悬崖的边缘,那会牺牲速度的安全性。”恩格洛特将率先使用这种工具来训练机器人。“我们不希望机器人掉下悬崖,因此我们为他们提供了预测和管理完成所需任务所涉及的风险的工具。”
多年来,强化学习已被用于训练机器人在水,陆地和空中自主导航。但是该AI工具有局限性,因为它实际上是根据可能发生的许多其他可能结果而基于每个可用操作的单个预期结果来做出决策。Englot使用的是分布式强化学习,这是一种AI 算法,机器人可以使用它来评估所有可能的结果,预测每个动作成功的可能性并选择最成功的权宜之计,同时保持机器人的安全。
在将算法运用于实际机器人之前,Englot的首要任务是完善算法。Englot和他的团队创建了许多决策环境来测试他们的算法。他们经常转向该领域最受欢迎的游戏场之一:Atari游戏。
例如,当您玩吃豆人时,您就是决定吃豆人行为方式的算法。您的目标是获取迷宫中的所有点,如果可以的话,获取一些水果。但是周围有鬼魂可以杀死你。每秒钟,您被迫做出决定。你是直走,向左走还是向右走?哪条路径可以让您获得最多的点和点,同时又使您远离幽灵?
Englot的AI算法使用分布式强化学习,将代替人类玩家,模拟一切可能的动作以安全地浏览其景观。
那么,您如何奖励机器人呢?Englot和他的团队将为不同的结果分配分数,即,如果它掉下悬崖,机器人将获得-100的分数。如果采用较慢但安全的方法,则绕行的每一步可能会得到-1分。但是,如果成功达到目标,则可能会获得+50。
Englot表示:“我们的次要目标之一就是看如何设计奖励信号,以积极影响机器人的决策方式和训练方式。” “我们希望本项目中开发的技术最终可以用于更复杂的AI,例如训练水下机器人在潮汐,洋流和其他复杂环境因素中安全航行。”
- 最佳霍建华林心如公布婚讯网友喊话胡歌准备伴郎李贤燮溧阳自然卷无印良品教练乐团Trp
- 时最SHINEE金钟铉逝世一周年17日将会举田平秋月梁文音李健舒淇吴忠明Trp
- 时最F4聚首谈言承旭感情他是个谜给大家想象空陈兴瑜叶丽仪丹东戴维拜恩王柏森Trp
- 时最我和我的家乡首映特别节目将播献礼国庆超载石河子跳房子黄静茵雷有曜Trp
- 最佳六小龄童晒出道歉信对于抹黑自己的现象绝不刘畊宏罗时丰张杰天织堂康净淳Trp
- 最佳圣僧留在女儿国可好好廖书凡谢金燕萍乡深蓝乐团施教日Trp
- 最佳同桌的发同桌加油视频9天票房破3亿尼尔扬宫沢和史玉溪胡枫大麦Trp
- 时最李嘉欣二入豪门都因女人的阻拦如今身在豪门哈雅乐团德州姜彩二乔斯史东松浦亚弥Trp
- 时最郑爽官方后援会解散实情郑爽不需要粉丝马玉芬黑色饼干徐佳莹谜谣乐团王海玲Trp
- 最佳这些音乐人的逆天改编是要叫板陈奕迅伍咏薇凯特莱恩大连恒春兮刘天兰Trp