《基于PySpark的高级数据分析》—

基于PySpark的高级数据分析

Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills 著

张紫熙译

出版时间：2024年11月

页数：243

时至今日产生的数据量达到了一个惊人的地步，而且还在不断增长。Apache Spark已经成为分析大数据的实际工具，并且也是数据科学工具箱的关键部分。本书针对Spark最新版本进行了更新，将Spark、统计方法和真实数据集结合在一起，教你如何运用PySpark、Spark Python APl和Spark编程中的其他最佳实践来解决分析问题。
数据科学家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wils介绍了Spark生态系统，然后深入研究将常用技术（包括分类、聚类、协同过滤和异常检测）应用于以下领域:基因组学、安全工作和金融。此更新版本还涵盖图像处理和Spark NLP库。
如果你对机器学习和统计学有基本的了解，并且能够使用Python进行编程，那么本书将帮助你开始进行大规模的数据分析。
● 熟悉Spark的编程模型和生态系统。
● 学习数据科学的一般方法。
● 检查分析大型公共数据集执行步骤的完整性。
● 发现哪些机器学习工具对特定问题有帮助。
● 探索可适应多种用途的代码。

目录
产品信息
关于作者
封面介绍

前言
第1章大数据分析
1.1 使用大数据
1.2 Apache Spark和PySpark
1.2.1 组件
1.2.2 PySpark
1.2.3 生态系统
1.3 Spark 3.0
1.4 PySpark处理数据科学问题
1.5 本章小结
第2章 PySpark数据分析简介
2.1 Spark架构
2.2 安装PySpark
2.3 设置我们的数据
2.4 使用DataFrame API分析数据
2.5 DataFrames的快速汇总统计
2.6 DataFrame的透视和重塑
2.7 关联DataFrame并选择特征
2.8 评分和模型评估
2.9 本章小结
第3章音乐推荐和音频编码器的数据集
3.1 设置数据
3.2 我们对推荐系统的要求
3.3 数据准备
3.4 构建第一个模型
3.5 算法筛查推荐
3.6 推荐质量评估
3.7 计算AUC
3.8 选择超参数
3.9 给出推荐
3.10 本章小结
第4章使用决策树和决策森林进行预测
4.1 决策树和决策森林
4.2 准备数据
4.3 第一颗决策树
4.4 决策树超参数
4.5 调试决策树
4.6 重温分类特征
4.7 随机森林
4.8 进行预测
4.9 本章小结
第5章异常检测与K-means聚类算法
5.1 K-means聚类
5.2 识别异常网络流量
5.3 初次尝试聚类
5.4 选择K值
5.5 利用SparkR实现可视化
5.6 特征归一化
5.7 分类变量
5.8 使用熵（Entropy）标签
5.9 聚类实战
5.10 本章小结
第6章通过LDA、Spark NLP了解维基百科
6.1 隐含狄利克雷分布
6.2 获取数据
6.3 Spark NLP
6.4 解析数据
6.5 使用Spark NLP准备数据
6.6 TF-IDF
6.7 计算TF-IDF
6.8 创建LDA模型
6.9 本章小结
第7章基于出租车行程数据的时空序列数据分析
7.1 数据准备
7.1.1 将日期格式字符串转换为时间戳
7.1.2 处理无效记录
7.2 地理空间分析
7.2.1 介绍GeoJSON
7.2.2 GeoPandas
7.3 PySpark 会话化
7.4 本章小结
第8章金融风险评估
8.1 金融术语
8.2 VaR的计算方法
8.2.1 方差与协方差
8.2.2 历史模拟法
8.2.3 蒙特卡罗模拟
8.3 我们的模型
8.4 获取数据
8.5 准备数据
8.6 决定因子权重
8.7 抽样
8.8 试验运行
8.9 可视化收益分布
8.10 本章小结
第9章分析基因组学数据和BDG项目
9.1 从建模中解耦存储
9.2 设置ADAM
9.3 介绍如何使用ADAM处理基因组数据
9.3.1 使用ADAM CLI进行文件格式转换
9.3.2 使用PySpark和ADAM采集基因组学数据
9.4 预测转录因子结合位点
9.5 本章小结
第10章基于深入学习和PySpark LSH的图像相似度检测
10.1 PyTorch
10.2 准备数据
10.3 图像矢量表示的深度学习模型
10.3.1 图像嵌入
10.3.2 将图像嵌入导入 PySpark
10.4 使用PySpark LSH进行图像相似搜索
10.5 本章小结
第11章使用MLflow管理机器学习生命周期
11.1 机器学习生命周期
11.2 MLflow
11.3 实验跟踪
11.4 管理和服务ML模型
11.5 创建并使用MLflow项目
11.6 本章小结

书名：基于PySpark的高级数据分析

作者：Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills 著

译者：张紫熙译

国内出版社：中国电力出版社

出版时间：2024年11月

页数：243

书号：978-7-5198-9186-2

原版书书名：Advanced Analytics with PySpark

原版书出版商：O'Reilly Media

Akash Tandon

Akash Tandon是Looppanel 的联合创始人兼首席技术官。曾在Atlan担任高级数据工程师。

查看Akash Tandon更多信息

Sandy Ryza

Sandy Ryza是Cloudera公司数据科学家，Apache Spark项目的活跃代码贡献者。领导了Cloudera公司的Spark开发工作。他还是Hadoop项目管理委员会委员。

查看Sandy Ryza更多信息

Uri Laserson

Uri Laserson是Cloudera公司数据科学家，专注于Hadoop生态系统中的Python部分。

查看Uri Laserson更多信息

Sean Owen

Sean Owen是Cloudera公司EMEA地区的数据科学总监，也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx（之前称为Myrrix）。

查看Sean Owen更多信息

Josh Wills

Josh Wills是Cloudera公司的高级数据科学总监，Apache Crunch项目的发起者和副总裁。

查看Josh Wills更多信息

本书的封面动物是一只大西洋弹涂鱼（学名：Periophthalmus barbarus），这是一种两栖鱼类，常见于非洲西海岸的红树林沼泽和泥滩。
这只弹涂鱼呈橄榄褐色，通常有蓝色斑纹。强壮的胸鳍可以在陆地和水中轻松移动。它的眼睛像青蛙一样可以让它在大部分时间淹没在泥浆或水中进行狩猎。
大西洋弹涂鱼是埋伏型捕食者，它们利用头部扩张产生的吸力来捕食小型昆虫和甲壳类动物。该物种的雄性成员具有领土意识，并创造泥脊来划分大约 10 平方英尺的区域。
虽然大西洋弹涂鱼被 IUCN 列为无危物种，但 O’Reilly 封面上的许多动物都濒临灭绝；所有这些都对世界很重要。

购买选项

定价：78.00元

书号：978-7-5198-9186-2

出版社：中国电力出版社

联系出版社邮购