人工智能的构建模块:鸡蛋、鸡和培根
数据、算法和更好的业务结果是发展人工智能的关键

当我在世界经济论坛上阅读文章《这就是为什么中国在人工智能方面具有优势》时,让我感到震惊的不是中国在人工智能方面是否有优势,真正令我震惊的是文中认为人工智能发展所需要的五个基本构建模块:

  • 海量数据
  • 自动数据标注系统
  • 顶尖科学家
  • 定义清晰的行业需求
  • 高效的计算能力

这让我思考,这些因素对于建立一个坚实的人工智能基础至关重要吗?这些领域做的好是否会给人工智能项目带来优势?总体来说我的答案是:有一点,但是具有误导性。让我来一个一个分析一下:

  • 海量的数据。恕我直言,这是人工智能里分散注意力的东西。太多人相信“谁有的数据最多谁就赢”。数据绝对是有价值的,但数量本身不会带来价值。数据量很大,可能是有通用的或冗余的数据。因此,海量的数据只有在区分对待使用后才有价值,确切地说,你才可能从这些数据中获得更好的结果。同时,定义大数据有三个V:多样性(Variety)、速度(Velocity)和准确性(Veracity)。多样性和速度都不需要“海量”。至于准确性,你懂得,“海量的”垃圾数据是没有价值的。最后,我想补充一点。海量的数据可能会迅速导致暴政流行(即数据获多的就会赢的那些例子)。但我们都有一些例子表明信息里的金块才是关键,有时小数据就可以赢。底线:大数据是一个构建基础;但是海量的数据这个概念则是误导。
  • 自动数据标注系统。自动化的标注系统本身就是人工智能。如果我们把它作为一个构建模块,就会陷入无限循环的困境。底线:自动数据标注系统是子组件,而不是构建模块。
  • 顶尖的科学家。首先,没有科研,这一切就没有可能,没有!从HT到Bengio(s)、LeCun、Ng、Hinton等人(都是顶尖科学家)。世界经济论坛的文章呼吁科学家和工程师的组合,但是更多的是用一种瀑布式方法去和基于需求的比对。问题必须是,你想要构建什么?以及对你来说,自己创建算法还是使用他人构思或创造的算法?你需要为你的业务做出决定——是科学重要,还是落地实现更重要?这两个是不同的模块,两者都很重要。而且,你可能对问题的不同部分有不同的答案。底线:顶尖科学家和/或经验丰富的工程师创建模块,但不是模块本身。
  • 定义清晰的行业需求。需求是我们让人工智能会失败的地方。我最近作为行业里有影响力的人受邀参加英特尔的AI Day。技术议题相当丰富。但商业议题——很棒——其实商业议题参与者门可罗雀。我们作为技术专家,对技术进步感到兴奋。但我们忘记了我们需要这些进步的原因。我们沉醉于我们的技术。我会反对行业的需求,更倾向于业务需求。虽然业务需求会和行业需求有重叠,但关键是把人工智能专注在你的业务、你的客户、你的运营上。底线:清晰定义的业务需求是构建模块; 清晰定义的行业需求是误导。
  • 高效的计算能力。尽管我甚至不确定我是否要点评这一条,但我还是要驳斥一下这一观点,就这样。高效的计算能力是地基或是我要在上面进行建设的地方,而不是建筑物。这是常识的核心。为什么我认为这是一个值得点评一下的问题?是因为它比别的点更不好区分。或者可以这么看,对于大多数应用而言,把它看成一个可以商品化的东西。底线:高效的计算能力是地基,而不是构建模块,因此这一点是误导。

我提出以下三个人工智能开发的关键组成部分,我称之为鸡蛋、鸡和培根:

  • 鸡蛋。数据是鸡蛋。我们还没有看到一个客户是没有足够的数据来开始使用人工智能为自己或他们的客户做得更好。通过客户对数据想法,我们观察到的两个最大的挑战是:

• 数据孤岛。企业会围绕着数据制定疯狂和不切实际的规划,但各个部门对于“他们自己”的数据却像封建领主一样行事。

• 非结构化数据。Gartner估计,企业数据的80%是非结构化的。根据我们的经验,这些数据是尚未被开发的资源,可以带来价值。

你的重点不应该放在数据量上,而应该放在可被用来解决有明确定义的问题的可用数据上。实际上,在测试时尽可能使用最少量的数据。这样你和你的团队就有更好的机会在早期发现数据里的问题和依赖关系。底线:专注于自己独特的业务问题的数据质量,而不是数量。

  • 鸡。算法是鸡。我经常在TensorFlow Playground中展示算法和数据之间相互作用的可执行的例子。根据自己的目标和可用数据,你需要选择不同的算法。根据可用的算法,你可能需要寻找不同的数据。因此,鸡和鸡蛋的悖论可供参考。底线:你不能把数据和算法分开;它们互相依赖。
  • 培根。什么是业务里的培根?那就是更好的业务成果。这必须是最先思考和最后交付的内容。必须要根据需要的结果来定义项目,然后进行测量以确保能达到结果。精炼结果,再重复进行。我在新加坡的Strata + Hadoop World大会做了如何“雇佣”人工智能的演讲。第一步就是撰写职位描述——工作要求是什么?之后,需要根据你定义的需求来评估工作是否完成。底线:不要忘了培根!

这些构建模块高度相互依赖。类似于乐高积木,它们有许多不同的组合方式,但仍然需要被设计成可以契合起来。是的,你可以用“人工智能会给我们带来更多培根”来结束你的争论。

相关资源:

Jana Eggers

Jana Eggers是数学和计算机极客,但选择商业路线来作为自己的职业路径。今天她是Nara Logics的CEO。Nara Logics是一家受神经科学启发的人工智能公司,为企业提供支持推荐和决策的平台。Jana的职业生涯从只有3个人的小公司开始,发展到在有50000名员工的企业里工作。作为美国航空公司的一部分,她开设了欧洲物流软件办事处。并于1996年进入互联网行业,在Lycos创立了Intuit公司的创新实验室,帮助了Spreadshirt完成大规模的定制化。她还曾在洛斯阿拉莫斯国家实验室研究导电聚合物。她非常喜欢和团队一起定义和交付客户喜爱的产品、算法和智能,并鼓舞团队去做超越自我的事情。

Lego tower. (source: Pixabay)