释放强化学习的潜能

O’Reilly数据秀播客：听Danny Lange讲述强化学习是如何加速软件开发以及如何让这一技术为更多人使用

Ben Lorica, 2018年3月1日

编者注：Danny Lange在2018年4月10-13日举办的人工智能北京大会上做了题为《民主化深度强化学习》的主题演讲，并做了题为《在定制化的3D游戏环境里进行机器学习的研究》的报告。

订阅O’Reilly数据播客秀可以更好地探索驱动大数据、数据科学和人工智能的机遇与技术。可以在Stitcher、 TuneIn、 iTunes、 SoundCloud、RSS找到我们。

在本期数据播客秀里我采访了Unity Technologies公司的人工智能和机器学习副总裁Danny Lange。Lange曾经在微软、亚马逊和Uber公司任职，并领导着数据和机器学习团队，致力于构建公司内部开发和分析人员使用的数据科学工具。当我听说他加入了Unity的时候，我就很好奇地想知道他为什么决定加入一个主要面向游戏开发者的公司。

就如你从我们的对话里能了解到的，Unity正处于一些最令人激动的、实用的深度学习和强化学习的应用领域的最前沿。具有现实感的景色和画面对于现在的游戏而言是至关重要的。通过让艺术家更加快速地制作逼真的图像，GAN和相关的准监督学习技术可以让内容的创建更加容易。在之前的一篇博客里，Lange讲述了在游戏开发里强化学习是如何开启了训练/学习的可能性，而不再是像通常那样的硬编码。

Lange解释了为什么对人工智能开发者而言模拟环境将会成为重要的工具。我们依然处于机器智能的早期，我期待着出现更多的能民主化人工智能研究的工具（包括有Lange和他在Unity的团队未来会发布的）。

下面是本次采访的一些重点内容。

为什么强化学习是如此令人激动

我是强化学习的超级粉丝。我认为不仅仅是对于游戏开发，强化学习在很多领域都有极大的潜力。我们在Unity所做基本上是让强化学习能为大众所用。我们在GitHub上发布了Unity ML Agents的开源软件，其中包括了可让大家进行强化学习试验的基本框架。强化学习真正地构建了机器学习驱动的反馈回路。想想我在之前写的文章里所说的小鸡穿马路的例子。小鸡被路上的车撞了几百万次。但每被撞一次，小鸡就学到了这太糟了；每次拿到一个礼物，小鸡就学到了这是很好。

渐渐地，小鸡就获得了超越人类玩家的过马路的能力。这太神奇了！因为没有写任何一行代码来让小鸡完成这一切。所有都是通过强化学习的方法来模拟出来的：小鸡学到了穿越马路的方法。这可以被应用于非常多不同的游戏场景里。同样也有非常多的不同的训练方式。你可以放进去两只小鸡，它们能相互合作来共同完成一些事情吗？我们正在研究一种叫做多代理的环境——其中，两个或更多个通过强化学习训练的代理一起动作来完成一个目标。

…我希望能有上百万的开发人员开始致力于此。我想看到更多的创新，更多特立独行的想法出现。这就是我们把强化学习工具和平台开放给Unity社区想获得的东西。这里就讲一件事。很多人认为在游戏世界或是类似游戏的场景里的强化学习就是所谓的“路径寻找”。“路径寻找”的意思是游戏里的一个人物穿过一些场景，这很容易被理解。有很多不错的算法可以解决这个问题。不过向前看，我一直在思考一些不一样的决策。例如，一个人物应该把什么样的武器或是工具带入游戏？这是一个非常非常难的决策，它是一个更高层面的策略问题。

Unity的机器学习和人工智能的情况

如果思考一下我们的智能是从哪里来的，你就会发现智能是起源于动物和人类为了在现实世界里生存和繁衍。我们为了要生存，就要寻找食物，就要躲避敌人，就会跌倒，因为重力在我们的世界里扮演着非常重要的角色。按这个逻辑去看Unity的游戏引擎，你就会发现它创建了一个按照物理定律规范的虚拟的三维环境。因此其中就会有重力、惯性、摩擦力。也就是说你基本上得到了一个三维的世界。

Unity为探索机器学习提供了一个梦幻般的实验室，因此也提供了人工智能在这个虚拟世界中的基本元素。不再只是使用机器学习于报表，或是用来在亚马逊上卖更多的商品，或是让你叫的Uber出租车来的更快，现在你可以开始运行有关现实世界多个方面的模拟，并且可以探索诸如视觉、触觉、路径寻找等内容。