巨大的科学难题需要大数据解决方案
劳伦斯伯克利国家实验室的超级计算中心是如何解决10个科学界的数据分析问题的

在劳伦斯伯克利国家实验室的超级计算中心,我领导国家能源研究科学计算中心(NERSC)的数据和分析小组。在这个角色上,我追踪需要大数据分析来解决的前沿科学问题。超过6000个用户使用了NERSC的超级计算平台来解决各类科学问题,从天文学到有机生物学,从分子一直到亚原子物理。典型的数据集从十万兆字节到帕字节不等。

尽管NERSC已经有先进的计算和存储资源可以处理复杂逻辑,但是真正的挑战是在于选择可扩展的分析方法和软件框架。在本文中,我的科研合作者和我评论了在科学数据分析中最难的一些问题,希望能够邀请更多的数据科学社区参加到正在发展中的的科学研究工作中。

问题一:为宇宙中所有的天体创建目录

problem_1-4ebf790beb51ebd3db349a366321c845

智利帕拉纳尔天文台所与银河系,这是世界上最先进的地面天文观测站
来源:欧洲南方天文台/约翰·科洛西莫,Flickr

每一天,世界各地的天文望远镜都在进行“巡天”以收集图像数据集。这些数据集包含关于大量恒星、星系和类星体等宇宙天体的位置和结构的有价值信息。不幸的是,这些数据集不便于科学家们进行访问或者共享。

由劳伦斯伯克利国家实验室的天体物理学家、统计学家和计算机科学家组成的团队为了寻求这一他们认为科学界最大的图模型问题的解决方案,正在开发一个全新的、完全可生成的宇宙模型,称为“塞莱斯”(Celeste)。通过对庞大的图形模型使用复杂的变分推理(一个高可扩展的算法)以及分布式蒙特卡洛马尔科夫链推理(MCMC-Markov Chain Monte Carlo),塞莱斯项目旨在为所有在可见宇宙中的天体创建统一的目录。这意味着从500万亿字节的图像数据或是约一万亿像素数据中推理O(1000亿)数量级的参数。

主要合作者:大卫·施莱格尔(David Schlegel,劳伦斯伯克利国家实验室),乔恩•麦考利夫(Jon McAuliffe,加州大学伯克利分校),以瑞恩·亚当斯(Ryan Adams,哈佛大学)

问题二:确定宇宙学的基本常量

problem2-0ca0ae23c09ca6fc70d7e9c69bd1b1a6

NyX code产生的宇宙模拟,用来在大规模并行计算器上进行大规模宇宙学模拟
来源:由普拉伯特(Prabhat)和博伦·洛林(Burlen Loring)完成的数据可视化,劳伦斯伯克利国家实验室,经许可使用

如今宇宙中的物质结构自从宇宙大爆炸开始便受到将物质牵引到一起的重力的引力作用以及暗物质的“负压力”膨胀的影响。为了理解宇宙的组成(例如,那里有多少物质,以及暗物质是由什么组成的),宇宙学家研究了从天文调查中得出的星系分布。随后,他们的观察结果与涉及几万亿粒子的理论模拟的预测结果进行了比较。但是,这里就有一个分析问题:由于数据集的大小从30到300万亿字节不等,用于特征化物质结构的统计数据计算起来太过密集,他们包含了星系的集群、2度关联计算以及3度关联计算。

最近我们开发了BD-CATS系统,这是一个数据集群算法DBSCAN的高可扩展版本,它可以在超级计算平台上完整聚集数万亿粒子数据集。BD-CATS正在帮助理解在等离子物理(关于带电粒子和流体与电场和磁场相互作用的研究)中粒子加速背后的机制,并在宇宙学的数据聚合能力方面呈现出优越的性能。

主要合作者:黛比·巴德(Debbie Bard,劳伦斯伯克利国家实验室),泽里亚·卢基奇(Zarija Lukic,劳伦斯伯克利国家实验室),莫斯托法·帕特瓦里(Mostofa Patwary,英特尔)

问题三:特征化变化气候中的极端天气

problem_3-70290f3c7389ffcec13a74a9a51482bb

CAM5 0.25度模拟中水蒸气的可视化图形
来源:由普拉伯特(Prabhat)和迈克尔·魏纳(Michael Wehner)完成的数据可视化,劳伦斯伯克利国家实验室,经许可使用

气候变化问题是人类最为紧迫的问题之一。在NERSC,我们对于研究未来全球变暖会如何影响气候的各种方式均深感兴趣(远远不止是平均海平面上升和全球平均温度上升)。我们还感兴趣的是,在极端天气事件的统计数据中检测是否将会有气候变化。比如飓风,在未来我们认为飓风会变得更弱还是更强?我们认为四级和五级飓风会更频繁的登陆吗?天气数据分析中的一个很大的挑战性问题是涉及到因果推理:我们是否可以识别异常事件并将它们和一些机制建立因果关系?这些机制在未来会怎样变化?

通过分析大量数据集来识别极端天气模式与视频数据中的语音检测相类似,我们不仅需要处理一百万个网格点,每个点又有一大堆变量。解决这样的挑战需要我们开发出高可扩展的模式识别能力,让我们可以挖掘100万亿字节到1帕字节的大规模时空数据集。我们已经成功应用了MapReduce框架(在极端天气分析工具包(Toolkit for Extreme Climate Analysis)中实现),并且正在积极探索使用深度学习来解决这一问题。

主要合作者:普拉伯特(Prabhat,劳伦斯伯克利国家实验室),迈克尔·魏纳(Michael Wehner,劳伦斯伯克利国家实验室),威廉·德鲁·科林斯(William D. Collins,劳伦斯伯克利国家实验室)

问题四:从科学文献中抽取知识

problem_4-7804de06d85f9080df51d5900d33c991

位于纽约约克高地的沃森系统,由IBM公司开发来源:由Clockready提供于公共维基多媒体

在互联网的时代,对于我们来说在一瞬间发布、交流以及共享结果变得十分平凡。然而,对海量信息的便捷访问带来了独有的问题:对于个人而言,对在一般科学以及特定主题的最新进展进行追踪变得难以管理。此外,所有的信息来源并不是同等可信的,我们需要在得出重要的结论之前考虑的信息的数量和质量。最后,科学界迫切需要对科学文献进行自动整理、挖掘和质量评估。

与这个问题关联的数据分析的挑战很大程度上与处理出版物中的非结构化数据有关。比如说文本、表格、图表、图像、原理图、等式以及引用。每一个科学领域都有一个约定的分类法,可能编写成文也可能没有。因此,关键的挑战是要从出版物中根据主题(比如说疾病或者疗法)抽取科学实体,以知识图谱的形式建立实体之间的关系,并且基于多条线索为实体和关系进行加权。最后,支持基于知识图谱反馈的流利问答功能,并要具有相当置信度和关联推理,这将对改进更广泛的科学界的生产力十分关键。许多有发展前景的技术眼下正在开发之中:IBM 沃森系统庆祝了广为人知的胜利,它在Jeopardy!(一个美国人机智能问答)大赛中战胜了人类专家。而由斯坦福开发的DeepDive数据管理系统在一些科学领域展示了令人期待的结果。未来随着这些技术以及类似技术的更多的定制化开发,征服更多的科学领域只是时间问题。

主要合作者:亚当·阿金(Adam Arkin,劳伦斯伯克利国家实验室),安纳博阿夫·贾恩(Anubhav Jain,劳伦斯伯克利国家实验室),普拉伯特(Prabhat,劳伦斯伯克利国家实验室)

问题五:研究关于语言生成的大脑皮层机制

problem_5-a88d560ad3c25ed72a240abd5ed5004c

DARPA的基于系统的神经技术新兴疗法项目旨在通过开发记录和分析大脑活动的近实时神经模拟的疗法来降低神经性疾病的影响程度
来源:由马萨诸塞州总医院和德雷珀实验室在维基公共对媒体上提供

数十年间,人类一直试图理解人类大脑的神经活动是如何看似毫不费力地生成语音的。大脑的哪一部分功能性组织负责计算并生成语音?功能独立的大脑区域是如何互相沟通来产生协调模式并进而产生语音?从语言的组织到发音在大脑皮层上有哪些交互?在这个独特的人类能力上的深入理解对于语音修复学的发展的是十分重要的,语音修复学旨在为失去语音能力的人恢复该能力。

理解大脑皮层生成语音的过程要求记录大面积皮质上高时空分辨率的神经活动。记录人类的这一活动只能通过侵入性脑电图技术来完成,这使得数据非常稀有。我们最初的调查旨在将大脑活动的时空模式“翻译”成有意连续的语音。然而这些数据有长时间的时间依赖性、大量的噪声并且受到样本数的限制。当前的数据集大小约在10兆字节。此外,将来自多个发言人样本的数据组合起来是具有挑战性的,但是也是最后成功的关键所在。

我们使用深度神经网络在对感觉运动皮质上的数据基于57个元音辅音音节的分类上取得了最前沿的结果。此外,为了实现一个混合式连续分类系统,我们正在调研递归网络。对于最终为人们开发的发声器来说,用于语音生成相关的神经分析的计算组件必须是实时的且非常低能耗的。

主要合作者:克里斯·布沙尔(Kris Bouchard,劳伦斯伯克利国家实验室),爱德华·昌(Eddward Chang,加大旧金山分校),彼得·徳内斯(Peter Denes,劳伦斯伯克利国家实验室)

问题六:为生物成像而实现的谷歌地图

problem_6-173fc35f17ad79be3f47812f7a30011a

耐甲氧西林金黄色葡萄球菌(MRSA)以及一个死人的中性粒细胞的扫描电子显微图
来源:由NIAID_Flickr在公共维基多媒体上提供

生命是以多尺度的形式组织和持续的,从单个蛋白质到细胞器,细胞,以及微生物群到组织,器官到生物有机体。捕获这些数据在规模上有巨大差异,从宏观和中观到微观和纳米级,这要求多模态成像。然而,没有一个单独的成像技术可以捕获整个范围。此外,每一种技术提供的在不同长度、时间、分辨率上有些许互补的数据

这一特定问题的数据分析挑战包括分割技术、生物实体分类技术的开发,以及实现一个以地图为中心的数据库用以执行量化分析。这项工作的最终目标是整合所有的相关时空信息(一个大小约在100兆字节到1万亿字节的数据集)到一个通用的坐标系,从而得到统计上有意义的定量的地理信息量(例如计算一个形状的表面积或者体积),并且将生物实体分类到一个可视化数据库,使得它们可以通过这些地理信息的模式进行查询。这使得生物学家可以使用定量的信息,通过三维结构标识、分子/代谢组成以及核心高分子成分(如蛋白质)的本地化等,来区分不同的疾病的状态和发展情况。

主要合作者:曼弗·雷德奥尔(Manfred Auer,劳伦斯伯克利国家实验室),华金·科雷亚(Joaquin Correa,劳伦斯伯克利国家实验室)

问题七:执行极大规模基因组序列拼接

problem_7-977f58ccaa6068e3b74d89f022e4aa1b

脱氧核糖核酸(DNA)的双螺旋链。
来源:Pixabay

从头测序序列拼接是现在基因学中最重要的计算之一。这个过程涉及到将短小的、随机抽样的“鸟枪”基因序列转化成一个连续的、准确的复杂基因组的重构。复杂基因组的重拼接要求大量序列数据。因此,由于海量的计算需求以及拼接大规模基因组和宏基因组的算法复杂度,从头拼接已经不能跟上洪水般的数据(大约在1到10万亿字节)的步伐。例如,高重复度的小麦基因组比人类的大五倍,从结合复杂度和规模来看,这样的拼接、映射是特别具有挑战的。

在从头测序基因组拼接中,起始处理和数据约简(K-mer分析法)是受到带宽约束的,随后的徳布鲁金图(de Bruijn graph)的构造和遍历是受到延迟约束的,序列对齐是受到计算量限制的。许多针对低直径图开发的图处理技术不适用于徳布鲁金图,因为它有非常低的度和大直径。我们通过HipMer系统来解决这一挑战。这是一个高性能、端对端的基因序列拼接器,通过并行地在一个超级计算机的多集群上同时执行代码,从而简化和加速基因组拼接以及映射。以前需要花费数月的处理过程,比如拼接整个人类的基因组,现在能在大约8分钟之内完成。

主要合作者:伊万格洛斯·乔格纳斯(Evangelos Georganas,加州大学伯克利分校),艾登·布拉克(Aydin Buluc,加州大学伯克利分校),丹·洛克萨(Dan Rokhsar,加州大学伯克利分校),凯西·伊列克(Kathy Yelick,劳伦斯伯克利国家实验室)

问题八:采用精确的毒理学

problem8-43d154f6d71b59d8ea9900f294f19c92

淡水加壳水蚤被用于研究化学物质对生态的影响,最近也被用于研究对人类的影响
来源:由基尔大学的简·米歇尔斯(Jan Michels)博士提供,经允许使用

大约80%的新药因为不可预期的对人体的毒性而失败。此外,每年有超过500种的基础工业用化学品被开发,其中的大部分将不会接受任何种类的毒性检测。毒理学是一种我们所依赖的科学原理,来保护我们不受癌症、出生缺陷、心血管以及神经退化性疾病的侵害。对它们的风险评估仍然依赖于一个较小集合的模型物种,每种化合物要花费超过五年的时间以及超过150万美元。通过风险评估,我们了解到了致命剂量,以及在一些情况下的最小致病剂量。但是我们对于毒理机制一无所知。

我们每个人有独特的生活史、遗传基因、微生物以及生理特征,它们相互作用产生我们个性化的对周边环境挑战的易受影响的部分和适应恢复的能力。毒物对于胎儿的影响与成人完全不同,在一个基因背景下有效的药物可能对于另外一个人来说极少的剂量都是致命的。

尽管我们不能在每一种遗传基因背景,甚至是每一种最终的受众物种上测试每一种化合物,但是我们可以通过可得到的、性价比高的数据将毒物与毒理画像以及中毒后的分子状态关联起来。我们可以认识个体易受性的基础,并将我们的易得的疾病和毒性反应映射到整个生命树上。利用生物科学的潜力来达到准确的毒理学测试将使得在产品的开发前期就可以进行精确的分析和风险评估,有助于减少开发的开销。

这个问题天生就是一个计算问题,并对我们的社会和星球是一个巨大的挑战。我们对于这一挑战的最主要的解决方案是分子系统毒理学在多物种环境下暴露生物体):我们以一小群易驯服的生物为模型进行测试,然后使用定量的生物进化工具(包括针对多物种分析的新形式的张量回归、应用量子计算的路径发现、深度学习以及基于随机森林的回顾学习机)来对公共祖先和所有的现存物种做出预测。这一方案是通过映射和利用大约18万亿字节的高容量数据集来完成的。在两年之内,我们预期这些数据集的大小将会增长到1帕字节。

主要合作者:本·布朗(Ben Brown,劳伦斯伯克利国家实验室),约翰·科尔伯恩(John Colbourne,英国伯明翰大学)以及环境学和毒理学协会

问题九:寻找新设计材料

problem_9-3a26f3a24b0799d07136458fc2f76b2a

部分被孔雀石覆盖的铜矿石和赤铜矿
来源:由Didier Descouens在公共维基多媒体上提供

技术创新很大程度上受新材料的发现所驱动。我们经常被给到一组理想中的材料属性(例如:硬度、透明度、电导率、可承受电压等),并要求发现具有这些属性的材料的挑战。如今的计算机模型可以近似可靠地预测材料的属性,并且有收集了上千种这类预测的数据库可供使用。例如,Materials Project 是一个公开可访问的数据库,该数据库在NERSC收集了成千上万种材料的信息。下一步是分析这一庞大的数据集(大约100万亿字节),测试和发现新的解释材料行为的科学原理,展现复杂的数据(例如,周期性三维水晶),并将发现和开发新材料所需要的时间从现在的大约20年减少到很短的时间。

材料的自动化分析要求我们解决两个关键问题:自动化特征学习以及高维回归。一旦这些问题被解决了,那么我们可以想像一个在线系统,它能自适应地探索材料部分选定的设计空间来决定最有前景的值得模拟和制造的材料。

主要合作者:安纳博阿夫·贾恩(Anubhav Jain,劳伦斯伯克利国家实验室),克里斯丁·佩尔松(Kristin Persson,劳伦斯伯克利国家实验室)

问题十:决定物质的基本成分

problem_10-be7db2a828cf173daee1736fc1d62ef3

欧洲粒子物理研究的大型强子对撞机(LHC)的CMS检测器内部视图,大型强子对撞机是一个粒子加速器和碰撞器。人们希望大型强子对撞机成为世界上最大的能量最高的粒子加速器。
来源:由Tighef在公共维基多媒体上提供

高能粒子物理旨在从最基本的亚原子层面了解宇宙的秘密。尽管我们的了解已经进步了不少,并在最近发现希格斯玻色子后达到一个高峰,但是我们知道仍然有许多关键的未解之谜需要解决,比如暗物质的来源以及重力在万物理论中扮演怎样的角色。探索这些未解之谜需要最庞大最复杂的实验设施。比如,大亚湾反应堆中微子实验就是这样一个例子,它旨在推进我们对于中微子的了解。中微子是由衰减中的放射性元素生成的,比亚原子粒子少一个电子。另外一个例子是大型强子对撞机,它有所有粒子加速器中的最高能量,旨在发现从未见过的粒子和相互作用。

这些设备使用了数十亿管道的模式和异常检测器,以纳秒的精确度收集数据,产生了极大规模的数据管道。其数据集大小从上百万亿字节到上百帕字节,快速而准确的分析是很有必要的。这一领域已经应用“模式检测”技术有一段时间了,但是用它们直接对物理事件在原始数据的规模下进行分类仍然是一个挑战。我们目前使用深度神经网络来学习新的数据的高层次表达方式。转化后的数据将会被用于快速的数据分析,包括信号和背景源的可视化和特征化。

主要合作者:克雷格·塔尔(Craig Tull,劳伦斯伯克利国家实验室),瓦希德·佩姆奇(Wahid Bhimji,劳伦斯伯克利国家实验室),彼得·萨多夫斯基(Peter Sadowski,加州大学欧文分校)

普拉伯特(Prabhat)

普拉伯特在劳伦斯伯克利国家实验室以及美国能源部经营的国家能源研究科学计算中心(NERSC)带领数据和分析服务小组。他的研究方向包括数据分析(统计学、机器学习)、数据管理(并行读写、数据格式、数据模型)、科学可视化以及高性能计算。普拉伯特在2001年获得布朗大学计算机科学硕士学位,1999年在印度新德里理工学院所获得计算机科学与工程学士学位。他目前在加州大学伯克利分校的地球与行星科学系就读博士学位。

Interior of StorageTek tape library at NERSC. (source: By Derrick Coetzee on Wikimedia Commons.).