在企业里管理机器学习:来自银行和医疗行业的经验 
了解受到高度监管的行业中的规范,可以帮助规划你的机器学习策略。
编者注:读者可查看“2020年3月15日至18日举办的Strata圣何塞数据大会”来获取更多相关内容。

随着企业在更广泛的产品和服务组件中使用机器学习(ML)和人工智能技术,对新的工具、最佳实践和新的组织结构的需求变得越来越清晰。在最近的一些文章中,我们介绍了在企业和机构内支撑机器学习实践所需的基础技术,以及在机器学习中用于模型开发、模型管理和模型运维/测试/监控的专用工具

为了适应机器学习以及人工智能的兴起,需要进行哪些文化和组织变革?在这篇文章中,我们将从一个受到高度监管的行业(金融服务业)的视角来分析这个问题。金融服务业公司拥有悠久的作为许多新技术的早期采用者的传统。当然人工智能也不例外:

Figure1-4498eaf55b7905f15ae962b3d63d54ae

图1 人工智能技术被采用的阶段(按行业分)。图片来源:Ben Lorica

与医疗行业类似,在另一个受到严格监管的行业(金融服务业)里,长时间以来企业必须在它们的一些算法(例如,信用评分)中建立可解释性和透明性。根据我们的经验,大部分最受欢迎的关于模型可解释性和可理解性的会议发言是来自金融行业的人士。

Figure2-d71740e0aef3aa8728d3fd2e0048119c

图2 在金融和医疗行业里的人工智能项目。图片来源:Ben Lorica

在2008年金融危机之后,美联储发布了一套新的监管模型指南——SR 11-7:《模型风险管理指南》。SR 11-7的目标是对一些早期规范进行扩展,并主要侧重于模型验证。虽然SR 11-7中没有任何令人惊讶的事情,但一旦企业和机构开始使用模型为重要的产品和服务提供能力,它就会提供出重要的需要考虑的因素。在本文的其余部分,我们将列出SR 11-7中涵盖的关键领域和建议,并解释它们如何与机器学习的最新发展相关。请注意,SR 11-7关注的重点是风险管理。

模型风险的来源

我们应该澄清的是SR 11-7还涵盖了未基于机器学习的模型,如“使用统计、经济、金融或数学理论、技术和假设来处理输入数据以进行定量估计的定量工具、系统或方法。”鉴于这一点,SR 11-7强调对模型的错误或不恰当使用就会导致很多潜在的模型风险来源,以及基本错误。机器学习开发人员正在开始关注更广泛的风险因素。在之前的文章中,我们列出了机器学习工程师和数据科学家可能需要管理的事情,例如歧视、隐私、安全性(包括针对模型的攻击)、可解释性,以及安全性和可靠性

Figure3_2-fe131cc4a1a96995987b4b609f77eef3

图3 模型风险管理。图片来源:Ben Lorica和Harish Doddi

模型开发和实施

SR 11-7的作者强调了有一个明确的意图说明的重要性,这样才能保证模型与其预期用途相一致。这与机器学习开发人员早已了解的理念是一致的:为特定应用构建和训练的模型很少可被(直接)用于其他场景。SR 11-7背后的监管机构也强调了数据的重要性,特别是数据质量、相关性和文档化。虽然各种模型在新闻报道里的覆盖率最高,但实际情况是数据仍然是大多数机器学习项目的主要瓶颈。鉴于到这些重要的因素,研究机构和初创公司正在开发构建专用于数据质量治理和血缘的工具。开发人员还在构建可以实现模型复现性、协作和部分自动化的工具。

模型验证

SR 11-7对如何进行模型验证有一些具体的对企业和机构的建议。它的基本原则是:企业和机构需要由能够识别模型的局限性的合格团队进行批判性分析。首先,模型验证团队应该由不负责模型开发的人员组成。这与The Future of Privacy Forum和Immuta最近发布的报告中提出的建议类似(他们的报告是专门针对机器学习的)。其次,考虑到一般会倾向于展示和奖励模型构建者的工作而不是模型验证者的工作,应该有适当的权力、激励和补偿政策来奖励执行模型验证的团队。特别的,SR 11-7中引入了“有效挑战”的概念:

进行验证工作的员工应有明确的权力来挑战开发人员和用户,并向上级报告他们的发现,包括问题和缺陷。 ……有效挑战依赖于激励、能力和影响力的结合。

最后,SR 11-7建议制定流程来选择和验证第三方开发的模型。鉴于SaaS的兴起和开源研究原型的激增,这是一个与使用机器学习的企业和机构非常相关的问题。

模型监控

一旦把模型部署到生产环境中后,SR 11-7的作者强调了向决策者提供监控工具和有针对性的报告的重要性。这与我们最近提出的一些建议相一致,机器学习运维团队需要为所有的利益相关方(运维团队、机器学习工程师、数据科学家和管理者)提供可自定义视图的仪表盘。SR 11-7的作者还列举了需要建立独立的风险监控团队的另一个重要原因。作者指出,在某些情况下,挑战特定模型的动机可能是不对称的。根据企业和机构通常的奖励结构,某些团队不太可能挑战那些有助于提升其自身特定关键绩效指标(KPI)的模型。

管理、策略和控制

SR 11-7强调了维护一个模型的目录的重要性。该目录应该包含所有模型的完整信息,包括当前部署的、最近退役的和正在开发的模型。作者还强调文档应该足够详细,以便“不熟悉模型的各方可以理解模型如何运作,其局限性和关键假设”。这些内容是针对于机器学习的。同时对于机器学习生命周期开发和模型管理的早期工具和开源项目,需要补充有助于创建适当文档的工具。

对于已经开始在产品和服务中使用机器学习的企业和机构,SR 11-7的一部分还对可能有用的角色提出了具体建议:

  • 模型所有者:他们会确保正确开发、部署和使用模型。在机器学习的世界中,这些人是数据科学家、机器学习工程师或其他专家。
  • 风控人员:他们关注风险的测量、限制、监控和独立验证。在机器学习的语境里,他们可能是一个由领域专家、数据科学家和机器学习工程师组成的独立团队。
  • 合规人员:他们确保有现成的具体流程供模型所有者和风控人员使用。
  • 外部监管者:他们负责确保法规里的要求都被所有的商业机构正确地遵循了。

总体呈现

在许多案例里,看似做好准备的金融机构,由于没有恰当地考虑到模型的风险,从而没能及时发现一些流氓部门或流氓交易员。为此,SR 11-7建议金融机构不仅需要考虑单个模型的风险,还要考虑源于模型间交互和依赖性所带来的总体风险。许多机器学习团队还没有开始考虑用于管理同时部署多个模型所带来的风险的工具和流程,但很明显许多应用需要这种规划和思考。依赖于许多不同数据源、管道和模型(例如,自动驾驶汽车、智能建筑和智能城市)的新兴应用的创建者将需要有总体上的风险管理。新的数字原生公司(媒体、电子商务、金融等)非常依赖数据和机器学习,更需要有系统来单独和集成地监控多个机器学习模型

医疗和其他行业

虽然这篇文章专注于为金融机构编写指南,但所有行业里的企业都将需要开发和制定管理模型风险的工具和流程。许多企业已经受到现有(GDPR)的和即将发布的(CCPA)的隐私法规的影响。而且如前所述,机器学习团队也已经开始构建工具来帮助检测歧视、保护隐私、防范针对模型的攻击以及确保模型的安全性和可靠性

医疗行业是另一个受到高度监管的行业,这个行业里的人工智能正在迅速变化。今年早些时候,通过发布《基于人工智能/机器学习的软件作为医疗设备的修改建议监管框架》,美国FDA针对监管向前迈出了一大步。该文件开篇就指出“传统的医疗设备监管模式没有被设计用于自适应的人工智能/机器学习技术,这些技术有可能实时适应和优化设备性能,以持续改善患者的医疗保健。”

该文件接着提出了发展此类基于人工智能/机器学习的系统的风险管理框架和最佳实践。作为第一步,作者列出了那些会对用户产生影响的修改,以及由此带来的需要进行管理的内容:

  • 对分析性能的修改(例如,模型的重新训练)
  • 更改软件的输入
  • 改变软件的预期用途。

FDA提出了一种需要不同监管机构批准的总的产品生命周期方法。对于上市前的系统,需要对安全性和有效性进行上市前认证。对于运行中的实时性能,必须要进行监控,以及做日志、跟踪和支持质量文化的其他流程,但不是每个变更都需要监管部门的批准。

该监管框架是相当新的,并已公示,以便在全面实施之前收集公众的反馈意见。不过它仍然缺乏对安全性和有效性的本地化测量要求,以及评估和消除歧视的要求。然而,这是通过明确的监管框架为医疗和生物技术开发快速增长的人工智能产业所迈出的重要的第一步,我们建议从业者在这个监管框架的演进过程中持续保持关注。

总结

每一个重要的新技术浪潮都会带来益处和挑战。管理机器学习中的风险是企业和机构需要越来越多解决的问题。来自美联储的SR 11-7包含许多建议和指南。这些建议和指南很好地对应着那些希望将机器学习集成到产品和服务中的企业的需求。

相关资源

Ben Lorica

Ben Lorica是O’Reilly Media公司的首席数据科学家,同时也是Strata数据会议和O’Reilly人工智能会议的内容日程主管。他曾在多种场景下应用商业智能、数据挖掘、机器学习和统计分析技术,这些场景包括直销、消费者与市场研究、定向广告、文本挖掘和金融工程。他的背景包括在投资管理公司、互联网初创企业和金融服务公司就职。
Harish Doddi是Datatron Technologies的联合创始人兼首席执行官。在此之前,他先在Oracle任职。后来在推特从事开源技术方面的工作,包括Apache Cassandra和Apache Hadoop,并建立了推特的照片存储平台Blobstore。在Snapchat,他关注于Snapchat的后端。他还在Lyft研究了激增定价模型。Harish拥有斯坦福大学的计算机科学硕士学位,专业方向是系统和数据库,他还拥有海德拉巴得国际信息技术学院的计算机科学学士学位。
David Talby是Pacific AI的首席技术官。他正在帮助各类快速发展的公司应用大数据和数据科学技术来解决医疗保健、生命科学和相关领域的实际问题。David在构建和运营互联网规模的数据科学和业务平台以及构建世界一流的敏捷分布的团队方面拥有丰富的经验。在加入Pacific AI前,他曾在微软的Bing Group工作,负责Bing Shopping在美国和欧洲的业务运营。他还在在西雅图和英国为亚马逊工作。在那里他建立并管理分布的团队,帮助扩展亚马逊财务系统。David拥有计算机科学博士学位和计算机科学与工商管理硕士学位。

Monument in Bydgoszcz (source: Krzysztof Mizera on Wikimedia Commons)