实现对话人工智能的6条实践指导建议

企业机构如何才能创建更加流畅的人和机器间的交互

Susan Etlinger, 2017年8月21日

编者注：想了解更多关于如何实现人工智能的内容，请查看在2017年9月17-20日举行的旧金山人工智能大会的内容。
更多人工智能内容请关注2018年4月10-13日人工智能北京大会。

Apple发布Siri已经有几年了。受Star Trek电影的启发，Jeff Bezos引入和发布Alexa也有3年了。但是由人工智能赋能的对话性界面的想法已经存在几十年了。在1966年，麻省理工的教授Joseph Weizenbaum提出了ELIZA。一般都把它看成今天的对话人工智能的最初原型。

几十年之后，在《连线》杂志的一篇文章里，Andrew Leonard正式宣布“机器人已经大热了”，并进一步推测在不久的将来“（机器人）能帮助我找到某个CD的最好的价钱，为我妈妈订花，并能持续地提供给我莫桑比克的最新发展的消息。”不过里面提到CD暴露了这个文章是写在1996年。

现在诸如Slack、Starbucks、Mastercard和Macy’s这样的公司已经在尝试和使用对话性的界面做所有的事，从客服到控制和家里相关的事情，比如给我妈订花。如果你怀疑这一技术的价值和持续时间，你可以看看Gartner的预测。Gartner认为到2019年，虚拟个人助理“将会改变用户和设备的交互方式，并被广泛地接受，成为每天生活的一部分。”

不是所有的对话人工智能都被平等地创建，同时也不应该平等。对话人工智能的形式可以是一个虚拟的个人助理（比如Alexa、Siri、Cortana、Google Home等）或是专业助理（比如X.ai和Skipflag等）。它们可以是构建在一个规则引擎或是机器学习技术之上。它的用户场景可以是短时间和具体的（像Taco Bell的TacoBot）到通用的和理论上无限长时的（比如Alexa、Siri、Cortana、Google Home等）。

一个企业或机构想实现对话型界面（不管是个人还是专业场景），一般会依赖于合作伙伴的技术能力，但是技术之外需要考虑的事情还有很多。尽管现在对于宣称“最佳实践”依然太早，但还是有一些企业或机构想去尝试和实现对话人工智能的指导建议供大家参考。

从一个清晰专注的使用场景开始

Slack的开发人员关系主管Amir Shevat说：“一个产品或是品牌的专注点不应该被想成‘我在构建一个机器人’；它应该被想成‘我想交付的服务是什么？’”在此之后，Shevat以及其他人说，最好的开始是找到一个能由（非常多的）数据处理和解决的棘手的问题。这并不是意味着所有成功的机器人都只能做一件事情。但从一个相对小的、有明确答案的问题集开始是非常关键的，设计一个用户通常不知道什么可以问什么不能问的体验场景。

目标决定了交互的模式

一些对话场景让它们能适合交谈性的交互，比如在车里或是家里通过命令打开加热器。其他场景里（比如查询银行余额）则可能要求有保密性和/或精确的文字输入。其实还有其他机器人可以和人交互的方式。图1展示了两种成功的交互案例。

Figure_1-63316ab29f36f851e1dab90b18b45573

图1 Susan Etlinger做的截屏

来自微软的Chris Mullins说：“很多人对于机器人还是有一些误解，以为机器人只能通过说话和打字来交互。”事实上，有很多不同的方法（或叫做形态）可以被机器人用来交互并传递信息：

语音（如Alexa、Siri、Google Home）
打字（如消息应用里的机器人）
键盘支持，来提供缩小输入选择的线索
能可视化展示信息的卡片

Mullins说：“在大部分的成功场景里，我们看到的是组合的形态获得成功。在正确的时间，语音输入是完美的。但在另外一个时间，打字可能是最好的。有时你会希望有卡片和键盘支持。对话建模是一个明显困难的问题。目前没有人能完全解决它。”

多种上下文场景需要小心的计划和清晰的选择

如果一个客户问售货员一个问题，比如“离我近的店里，哪里可以找到机械钻？”开发人员必须要考虑到这个问题里客户所在的位置这一上下文。她人是在这个商店里吗？还是她是打电话问的，或是在家里的电脑旁边？开发人员必须要能针对不同的场景和体验进行设计。

这一过程是非常有挑战性的，因为这要求在设定范围的过程时加入不同的交互模式。Mullins说：“和人的交互是非常复杂的，这种对话建模很困难。”为了能做到最好，项目团队必须在项目的最开始就做出选择。

可持续的交互需要有可持续的上下文理解

回应一个简单的命令（比如“播放Beyonce的Lemonade”和“查看我的银行账户余额”）和构建一个可持续的人和机器的交互是不同的。这就是为什么需要人机间的多次转换（“回合”）的对话是很复杂和难以构建的。因为转换需要能理解上下文的变化。

图2里来自Kasisko的例子展示了一个很简单的付款的交易中所包含的复杂性。

Figure_2-39eaebe314f1f7ee54280acf75a50947

图2 Susan Etlinger做的截屏

回合1：

用户让Kai（机器人）给Emily转账5美元。
Kai在用户的联系人里找到了两个叫Emily的人，并问用户是哪个。

回合2：

用户变换了话题，她想问她的支票账户里还有多少钱
Kai回答了用户的问题，并接着说“现在我们怎么办？”来继续最初的给Emily转账5美元的问题。

猛地一看，这像是一个非常简单的交易过程。但是从工程化的角度来看，实现这一切需要非常多的语言和场景的理解：

首先，Kai必须能识别和跟踪用户的目标：她想给某人转账。
其次，Kai必须能识别出她想转给谁，并发现用户有两个叫Emily的朋友，需要用户澄清一下她究竟想转给哪位。
第三，Kai必须能理解用户输入的单词“Neubig”是前一个交互里所指的汇款人Emily Neubig。
第四，Kai必须能理解“我支票账户里还有多少钱”是一个和前面两个交互无关（切换场景）的新问题。
最后，它必须要回答这个新问题，然后再回到最初的交互，实现最初的请求：给Emily转5美元。

这个对话展示了为什么清楚的目地、一个相对窄的答案集和深度的专业知识在对话机器人开发里是非常重要的。因为理解用户自然表述的企图是非常复杂的，但这对交付一个有效的体验是非常关键的。

EQ和IQ一样重要

智能和清晰意图不是成功的机器人唯一的特性。能理解情感，用合适的词汇和口吻来回应，这对于满足用户的对话体验来说也是非常关键的。现在很多的研究机构和创业公司正在构建能够通过图片、语言、文字或是视频理解用户情绪状态的软件。

SRI国际的语音技术和研究（STAR）实验室已经开发出了SenSay Analytics。这个平台宣称能从语音信号里感知出说话人的情绪。对于理解用户是否沮丧并是否需要转接到人类客服，或是在一种更愿意接受的氛围下想了解其他类似的选择，这都是非常关键的。

构建品牌的机会很小但是会很有效

构建品牌是一个机器人（和品牌）的成功非常关键的一个方面。表现很差的机器人会毁掉名声，而成功的品牌呈现则能支持机器人的成功。Adobe的Lars Trieloff说：“我认为一个对话界面里构建品牌的机会是相对小的。因此要通过每日的交互来提升品牌。确保机器人能把一件事情做得非常好，而且是通过用户喜欢的方式被唤醒。”

我们依然处于用一个有意义的方式来使用对话界面的最早期的阶段，还有很长的路要走。如果你曾经花时间重新访问这些早期的网站，你就能知道我们现在处在什么位置。

但是，让机器能用一种更加人性的方式和人类交互的对话人工智能已经发展到了现在的阶段。尽管现在它可能看着很原始，但数据科学、自然语言处理、机器学习和其他领域的进步最终可以创造出必要的条件，让人机交互从基于形式的转变到更加流畅的沟通。

对话交互最终会和人类有相同水平，甚至超越人类吗？某些形式的对话将永远不会容易地转换为机器交互。但是对于某些应用场景，它们将会是可能的。我们已经看到了很多的创新，而且现在我们仅仅只是触及了问题的表面。不过有一件事情是很清楚的，就如未来学家和创新策略家Monika Bielskyte所预测的：“我们将会进入一个没有屏幕的未来。在未来，世界就是我们的桌面。”

This article originally appeared in English: "6 practical guidelines for implementing conversational AI".

Susan Etlinger

Susan Etlinger是Altimeter（Prophet的一个分支）的一名行业分析师。她的研究专注于人工智能、数据、商业和文化里前沿技术的影响。她的研究被世界上不少大学的课程大纲里采用。Susan的TED演讲《我们用所有这些大数据都做了什么？》已经被翻译成了25种语言，并被观看了一百多万次。她是一个广受欢迎的主题演讲者。她的观点已经被包括Wall Street Journal、BBC、New York Times在内的许多媒体所引用。

RYB color chart from George Field's 1841 "Chromatography; or, A treatise on colours and pigments: and of their powers in painting" (source: Wikimedia Commons)