《Spark全栈数据分析》—

Spark全栈数据分析

王道远译

出版时间：2018年11月

页数：344

数据科学团队在寻求把科研成果转化为有意义的数据科学应用时，不仅仅需要使用合适的工具，还应该使用合适的方法，才能获得成功。有了这本修订过的基于Spark的实战指南，初出茅庐的数据科学家们将学到如何使用敏捷数据科学的开发方法论，使用Python、Apache Spark、Kafka及其他工具构建数据应用。
作者Russell Jurney展示了如何使用Apache Kafka、Apache Spark、MongoDB、ElasticSearch、D3.js、scikit-learn以及Apache Airflow组合成的数据平台，构建、部署、完善分析型应用程序。你会学到一种迭代的方法，让你能够根据数据所示快速改变分析类型，把数据科学工作以网络应用程序的形式发布，对所在机构产生有价值的影响。
● 在一系列敏捷冲刺中根据数据价值金字塔模型从数据中创造价值。
● 从多个数据集中提取特征构建统计模型。
● 通过图表进行数据可视化，通过交互式报表展示数据的各种维度。
● 通过分类和回归，使用历史数据预测未来。
● 把预测结果带入实际行动。
● 在每个冲刺结束后收集用户反馈，让项目始终向正确的方向发展。