评估自动化技术的进展

人工智能

评估自动化技术的进展

在现有任务和工作流程的自动化方面，您无需采取“要么全盘接受，要么全盘拒绝”的态度。

Ben Lorica, 2018年12月6日

编者注：敬请查看 2019年4月15日至18日在纽约市举行的人工智能会议上的“机器学习”议题。最惠价格将于1月25日结束。

2019年6月18-21日在北京举行的人工智能大会议题征集已经开始。

在这篇文章中，我分享了Roger Chen和我在2018年10月伦敦人工智能会议上发表的主题演讲中的幻灯片和笔记。我们概述了自动化技术的现状：我们试图聚焦于关键组件模块的现状，并描述了这些工具在不久的将来会向什么方向自我进化。

为了评估机器学习和人工智能的受接纳状况，我们最近进行了一项调查，收集了超过11,000名受访者的答案。正如我在之前的帖子中指出的，我们了解到，许多公司仍处于部署机器学习算法的早期阶段：

Figure1-2b4c459356780f5db284b8ab6337e134

公司认为“缺乏数据”和“缺乏技术人才”是阻碍接纳机器学习的主要因素。在许多情况下，“缺乏数据”实际上就是事实情况：公司尚未收集和存储他们训练机器学习模型所需要的数据。 “技能差距”是真实存在的、长期的问题。开发者们已经注意到需求的增长。在我们自己的在线学习平台中，我们看到人工智能主题内容使用量大幅增长，其中，与深度学习有关的内容消费增长了77％：

Figure2-113d0e70df4ac00ce38cc23c31da8841

我们也看到，对PyTorch和强化学习等新工具和问题的兴趣在强劲增长。在强化学习的场景下，类似Ray等新工具已经促使公司研究多步决策问题的替代解决方案，其中的模型如果用监督学习来构建可能会很难。

决策者还在投资人工智能和自动化技术。最近对 84个国家近4,000名IT领导者进行的调查发现，越来越多的公司开始投资人工智能和自动化技术：

投资水平取决于公司。已经认为自己是数字化领导者的公司，倾向于呈现出更高比例的人工智能和自动化投资。
位置也很重要。鉴于中国竞争激烈的商业环境，那里的公司也倾向于以更高的利率进行投资。这与李开复在今年9月在旧金山召开的人工智能会议上对中国人工智能的最新概述是一致的。

数据的增长以及计算和模型的改进推动了人工智能技术的进步。让我们简要分析一下其中的每一个元素。

深度学习模型

深度学习的兴起始于2011/2012年，此时语音识别和计算机视觉领域产生了突破精度记录的模型。当我在2013年开始深入学习时，社区规模小而紧凑。最佳实践在几个小组之间流传，很多知识都是以“口头”的形式分享的。今天，社区规模要大得多。

Figure3-d82dcdbae461a33d175b7f424d619daa

通过以下方面的稳步改进，使得研究取得了进展：（1）数据集，（2）硬件和软件工具，以及（3）通过arXiv等会议和网站的分享、开放的文化。新手和非专家在机器学习领域也从易于使用的开源库中获益。

Figure4-064e78456cd73175176a791baef3aa00

这些开源机器学习库提供了公平竞争的场地，并使非专业开发人员能够构建有趣的应用程序。事实上，在2017年，我们在AI会议上展示了几位才华横溢的青少年（Kavya Kopparapu和Abu Qader）。他们都是自学成才，并且都能够通过引入深度学习，构建有潜力的高影响力的原型产品。

公司已经注意到并希望将机器学习和人工智能构建到他们的系统和产品中。 2015年，LinkedIn开展了一项研究，发现美国拥有数据科学技能的人才。今天不再是这样了：

美国主要城市地区的需求非常高。
人工智能和机器学习等尖端技能可能会在未来传播到其他行业和地区。

数据

因此，仅仅拥有厉害的模型是不够的。至少就目前而言，我们依赖的许多模型 – 包括深度学习和强化学习 – 都迫切地需要数据。由于它们有能力扩展到服务许多用户，最大的国家中最大的公司比我们其他人有优势。特别是中国，被称为“数据方面的沙特阿拉伯”。由于人工智能研究依赖于获取大量数据集，我们已经看到更多来自美国和中国大公司的尖端研究。NIPS曾经是一个沉寂已久的学术会议。现在它的门票在几分钟内售罄，而且我们看到更多来自美国和中国大公司的论文。

好消息是，有一些新工具可以帮助其他人获得更多数据。用于生成标记数据集的服务越来越多地使用AI技术。那些依赖人类标注的人开始使用机器学习工具进行扩展，用来帮助人类工作者，提高标注的准确性，并使训练数据成本更加经济实惠。在某些领域，GAN和仿真平台等新工具能够提供可用于训练机器学习模型的十分真实的合成数据。

除了数据生成以外，另一个重要方向是数据共享。还有一些新的创业公司正在构建开源工具来改善数据流动性。这些初创公司正在使用加密，区块链和安全通信等工具来构建数据网络，使组织机构之间能够安全地共享数据。

计算

机器学习研究人员不断探索新算法。对于深度学习而言，这通常意味着尝试新的神经网络架构，改进参数或探索新的优化技术。正如图灵奖获得者大卫帕特森所描述的那样，“训练的胃口是无限的！”

实验可能需要很长时间才能完成：数小时，数天甚至数周，这就是一个重大挑战。计算也会花费很多资金。这意味着研究人员不能随便进行如此漫长而复杂的实验，即使他们有耐心等待他们完成也不行。

我们对人工智能和深度学习产生了新的兴趣，已经来到了第七个年头。在这个阶段，公司知道他们所涉及的计算形态，并且他们开始看到足够的需求来证明构建专用硬件以加速这些计算是存在合理性的。硬件公司，包括我们的合作伙伴英特尔，继续发布用于AI的硬件产品套件（包括计算，内存，主机带宽和I / O带宽）。需求如此之大，以至于其他公司 – 包括那些以处理器闻名的公司 – 开始加入竞争。

Figure5-1a53d36dba9044c1a3c059f9231ef69c

更多帮助正在赶来。我们看到许多新公司致力于专业硬件。您拥有数据中心的硬件，通常会使用大型数据集来训练大型模型。我们也正进入一个数十亿端设备将要执行推理任务的时代，这些任务包括图像识别等。这些端设备的硬件需要节能，且价格合理。

许多硬件初创公司都瞄准中国和美国的深度学习。旧金山湾区尤其是经验丰富的硬件工程师和企业家的温床，其中许多人正在从事与AI相关的创业公司。如下所示，许多硬件初创公司都瞄准端设备：

Figure6-48bd92c3f621c419e2a1ee5518da3edc

结尾的思考

我们主要在传统绩效指标的背景下谈论数据，模型和计算：即优化机器学习甚至业务指标。现实情况是，还有许多其他需要考虑的因素。例如，在某些领域（包括健康和金融），系统需要可以解释性。其他方面包括公平、隐私、安全，以及，可靠性和安全性也是重要的考虑因素，使得机器学习和人工智能算法得到更广泛的部署。这是公司真正关注的问题。在最近的一项调查中，我们发现数据科学家和数据工程师对这些问题有很强的认知和关注。

考虑可靠性和安全性。虽然我们今天可以开始构建计算机视觉应用程序，但我们需要记住它们可能很脆弱。在某些领域，我们需要了解安全隐患，并且需要优先考虑可靠性，而不是自动化提供的效率提升。 Mobileye的创始人描述得最好：自动驾驶汽车竞赛的主要参数不是谁将拥有第一辆上路的汽车。

开发安全、可解释、公平和安全的人工智能应用将分阶段进行。在现有任务和工作流程的自动化方面，您无需采取“要么全盘接纳，要么全盘否定”的态度。其中许多技术已经可以用于工作流的基本自动化和部分自动化。

Figure7-0ffd4b81a4df3a76b1d3e0f0cbdc3658

Ben Lorica

Ben Lorica是O'Reilly Media, Inc. 的首席数据科学家，也是Strata数据会议和人工智能会议的日程主管。他在各种场景中应用了商业智能、数据挖掘、机器学习和统计分析，这些场景包括：直销，消费者和市场研究，精准广告，文本挖掘和金融工程。他的背景涵盖了投资管理公司，互联网创业公司和金融服务公司。