由于大量的标记数据集、面向数据科学家的语言(R、Julia、Python)、诸如scikit-learn、PyTorch、TensorFlow等的框架以及用于构建支持端到端应用的基础架构工具越来越多地出现,机器学习正在被加速采用。虽然无监督学习的一些有趣应用开始出现,但当前大多数的机器学习应用依然依赖于监督学习。在最近的一系列博文中,Ben Recht说明了为什么一些最有趣的问题可能实际上属于强化学习(RL)的范畴。特别是那些能够根据过去的数据采取行动的系统,使用强化学习能让它们以更安全、鲁棒和可靠的方式运行。
但是,首先我们要能有从业人员可用的强化学习的工具。不像监督学习,在过去一段时间里,并没有一个开源工具可以让大家很容易地尝试大规模强化学习。我认为现在不同了。我非常幸运地被邀请参加首次专门针对Ray的聚会。Ray是RISE实验室开发的高性能分布式的计算引擎,专门针对新出现的人工智能应用,也包括那些依赖强化学习的应用。这个聚会是由OpenAI组织的一个小型、只邀请参加的聚会。大部分与会人员都对强化学习非常感兴趣。
下面是这次聚会的一个简要概述。
- Robert Nishihara和Philipp Moritz对Ray项目做了简单的概述和进展更新。也讲述了Ray项目近期路线图里的一些项目的情况。
- Eric Liang和Richard Liaw针对构建于Ray上的两个库做了简要的教学讲解。这两个库是RLib(针对可扩展的强化学习)和Tune(一个超参数调优框架)。他们也介绍了最近一篇关于RLib的ICML的论文。这两个库对于熟悉Python的人而言都很容易使用,而且会在数据科学家群体内变的流行起来。
图1 RLib和强化学习。图片由RISE实验室友情提供
- Eugene Vinitsky展示了一些不错的视频。它们讲述了Ray是如何帮助他们实时地理解和预测交通流量模型,以及Ray是如何帮助研究人员研究大型交通网络的。这些视频是我所见过的整合IoT、传感器网络和强化学习的最好的例子。
- 来自蚂蚁金服的Alex Bao讲述了他们找到的应用Ray的三个场景。我不太确定我是否可以在这里透露这些场景。但是它们都是非常有趣和重要的场景。这个夜晚最重要的收获是蚂蚁金服已经在三个场景中的两个的生产系统里使用了Ray。而且他们也已经即将在第三个场景里部署Ray了。鉴于蚂蚁金服是世界上最大的独角兽公司,这可以说是对Ray的最佳背书。
根据这个夜晚的演讲人所提供的信息以及已经出现的生产系统里的早期案例,我认为本次Ray聚会将点燃其他地区对Ray的热情。我们尚处于采用机器学习技术的早期阶段。本次聚会的演讲验证了:一个类似Ray这样可获取和可扩展的平台可以激发出很多强化学习和在线学习的应用。
想更多了解Ray:
- 访问Ray项目在GitHub上的网页
- 参加在2018年9月5日在旧金山(或10月9日在伦敦)召开的人工智能大会上3小时长的教学议程“用Ray来构建强化学习应用”。
- 《RLib库简介:一个可组合和可扩展的强化学习的库》
- Robert Nishihara和Philipp Moritz的O’Reilly数据播客秀《Ray是如何让持续学习可触及和更容易扩展》