人机协作是如何自动化分类数据

为了将企业数据文档化，机器必须学习人们留下的明显的反馈和不明显的信号

Aaron Kalb, 2016年3月9日

人工智能的倡导者与以人为中心的方法的支持者之间的争论其实是一个错误的二分法。机器当然可以帮助人们解决面对的问题，但是它们很少能单独完成任务。为了更有效，机器必须向人类学习与人相关的知识。创建和实现准确的人工智能系统要求人的知识的输入。

这并不意味着我们不能从自动化和人工智能上得到应有的效率优势。人类的输入并不需要很多的时间及精力的投入就可以收集到。换句话说，让机器不通过直接询问人类问题，但进而回答与人类有关的问题是可能的。比如，谷歌通过观察人们点击哪些页面来学习哪些网页是人们喜欢的。当将这些作为PageRank算法的输入的链接推荐时，这些在线信息的产生者不是有意与谷歌电脑交互，他们是与人类观众交流。谷歌只是简单地进行“偷听”，就像宝宝通过反复的听到许多成年进行的对话来学习她的语言。学习人们的自然模式和被动信号是计算机获取有用的知识的最有效的途径之一。

智能“窃听”计算机的角色

在一个组织中，有大量的消息来源，可以让一个智能窃听计算机能够学习数据分析师如何与他们的数据库进行交互，以及它们应该怎么做：

查询日志

许多查询“对话”都会被存储在查询日志中。一个查询日志中的一条记录可能展示了用户Jdoe写了一个查询用来从一个客户表与一个事务表的连接中选取一些列，并通过时间进行过滤。这一事件暗示了Jdoe可能知道并且对那两个表感兴趣，以及那些表可以以此种方式进行连接。如果许多不同的用户针对这些表中的一个进行查询时，那表示那个表在组织中十分重要。这类信息对于一个需要加紧熟悉数据环境的新员工以及需要优先排序数据文档的处理是有用的。如果Jdoe针对事务表写了格外多的查询，那么这意味着她可能是这方面的专家。并且如果许多在事务表上执行的查询包含数据过滤器（并且如果所有不需要几百小时来运行的查询会经常被取消），这就是一个明显的信号，说明未来的查询应该包含这个过滤器。日志包含了丰富的知识，说明重要的是什么，对谁重要，谁是专家，以及数据应该怎样优化地被过滤、连接和使用。但前提是你知道如何阅读这些信号。

商业智能工具

另外一种人们与他们的数据进行对话的记录可以在商业智能工具中发现。如果我在Tableau的工作簿中制作了一个图表，其中y轴叫做“收入”，并且我使用事务表中的数量列的总和来计算该值，我就有效地提供了我对收入的定义。一个计算机能够将这个定义与其他标记为“收入”的轴进行对比，并且应用各种技术来评估这些定义在逻辑上是否等价。

数据血缘继承

在没有许多人类输入的情况下，计算机可以绘制出一个组织中所有数据资产的来源和出处图，从基本表到产生的报告，以及之间的ETL脚本和SQL创建语句。那个图可以用来放大人类的效用。例如，由于腐败变质是顺流而下的，一个重要的来源表报告的数据质量问题能够成为一个数据质量告警向下传播到上千个表和报告指标上。

自然语言语料库

难以理解的字段名能够代表数据分析部门面临的一个主要挑战。例如Cmply_bin中的bin代表的是什么？inis_bin 或者 bin_nbr里又是什么意思？通过在内部维基或者商业智能工具中扫描已完成的文档，计算机可以构建一个语言模型，包含可能的候选项：“bin”在A/B测试中是桶的同义词，或者也可以是单词“binary”的缩写，也可以是“Buy it Now”的首字母缩写。在学习“成人”（与婴儿的比喻对应）的语法之后，计算机可以生成一个消歧引擎，基于词的排列搭配和上下文线索。拼写规则和自然语言处理技术都可以对已有的组织文档中存在的语料库进行处理。

数据的值

数据的值本身也可以提供丰富的信号。某些文档中的九位字符串看上去可能是社保号码，特别是那些名字为soc_sec_num, ssn或者scl_scrty_nbr的字段。通过上面所述的数据的传承和连接，这些值可以追溯到其他有不太明显的标签的字段。因此，放置在其中一个包含敏感信息的字段上的标志可以传播到其余部分，提高了整个数据集的安全性。

有知识的人类训练师的角色

对于所有的文档来说，从一个可能敏感的信息的分类到一个字段名的英语翻译，再到一个计算（如求和）或一个度量指标（如收入）的映射，计算机可以提供具有相当置信度的猜测，之后具有相关知识的人可以进行确认。这种确认不仅仅是另一个人对其进行标注从而增加可信度，更是在教计算机，使得它对自己未来的猜测更为自信。

许多现代的数据驱动的组织都在积极地生成数据目录，这是一种综合性的存储，包括一个组织中的所有的数据资产，它们的质量和来源，以及它们应该如何使用。只通过人力来试图建立这种工件在有限的资源下是很难完成的。而完全自动化的项目（例如让计算机自行抓取数据，不需要人为输入）通常会带来不准确和可信度不高的结果。

结论

人类在查询日志、BI工具、维基、谱系、数据值这些场景里，以及它们之间的各种连接时留下了大量的隐藏信号。通过从中提炼出知识，计算机可以学习一个数据环境，它是如何工作的，以及它过去是如何工作和应该如何工作等等重要信息，并由此自动化地填充一个数据目录分类。通过具有相关知识的人的显式反馈，计算机可以提高数据目录分类的广度和精度。

计算机猜测，专家确认，而后计算机再学习，更好的猜测，人类受益。当人与计算机进行协作，我们人类的需要花费的力气可以被最小化，而我们得到的收益被最大化。这在人和计算机的世界都是最好不过的结果。

Aaron Kalb

Aaron Kalb的职业生涯致力于改进人机交互，特别是通过自然语言接口。在以符号系统学士和硕士学位毕业离开斯坦福之后，他在苹果公司从事iOS和Siri的相关工作（做工程、研究和设计先进的开发组-Advanced Development Group）。Aaron是Alation公司的共同创始人，他目前担任产品主管。Alation提供了第一个企业数据目录，由机器学习与人协作相结合来进行生成和更新，这目前正帮助像eBay和Safeway这样的组织来做更多的数据驱动的决策。