大规模数据分析和建模:基于Spark与R
Javier Luraschi, Kevin Kuo, Edgar Ruiz
魏博 译
出版时间:2020年07月
页数:260
“从编写了流行的sparklyr库的发明者身上,学习如何在R项目中利用分布式计算的力量。这是成为R高级用户的进阶之道。”
——Bryan Jonas
美国军事科学院数学系讲师

如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深入理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。
作者会展示如何将Spark和R结合起来进行大数据分析。本书涵盖相关的数据科学话题、聚类计算,以及高级用户会感兴趣的问题。
● 在Apache Spark环境下,使用R来分析、探索、转换、可视化数据。
● 构建统计模型来提取信息并预测输出,自动化生产级的工作流程。
● 使用分布式计算技术在多台机器上进行分析和建模。
● 轻松使用Spark处理多个数据源和格式的大规模数据。
● 学习其他用于大规模图处理、地理空间分析和基因组学分析的建模框架。
● 深入高级话题,包括定制转换、实时数据处理和创建定制化Spark扩展。
  1. 序言
  2. 前言
  3. 第1章 引言
  4. 1.1 概述
  5. 1.2 Hadoop
  6. 1.3 Spark
  7. 1.4 R
  8. 1.5 sparklyr
  9. 1.6 小结
  10. 第2章 开始
  11. 2.1 概述
  12. 2.2 预备操作
  13. 2.2.1 安装sparklyr
  14. 2.2.2 安装Spark
  15. 2.3 连接
  16. 2.4 使用Spark
  17. 2.4.1 网络接口
  18. 2.4.2 分析
  19. 2.4.3 建模
  20. 2.4.4 数据
  21. 2.4.5 扩展
  22. 2.4.6 分布式R
  23. 2.4.7 流式数据
  24. 2.4.8 日志
  25. 2.5 断开连接
  26. 2.6 使用RStudio
  27. 2.7 资源
  28. 2.8 小结
  29. 第3章 分析
  30. 3.1 概述
  31. 3.2 数据导入
  32. 3.3 数据整理
  33. 3.3.1 内置函数
  34. 3.3.2 相关性
  35. 3.4 可视化
  36. 3.4.1 使用ggplot2
  37. 3.4.2 使用dbplot
  38. 3.5 建模
  39. 3.6 沟通
  40. 3.7 小结
  41. 第4章 建模
  42. 4.1 概述
  43. 4.2 探索性数据分析
  44. 4.3 特征工程
  45. 4.4 监督式学习
  46. 4.4.1 广义线性回归
  47. 4.4.2 其他模型
  48. 4.5 非监督式学习
  49. 4.5.1 数据准备
  50. 4.5.2 主题建模
  51. 4.6 小结
  52. 第5章 管道操作
  53. 5.1 概述
  54. 5.2 创建工作
  55. 5.3 用例
  56. 5.4 操作模式
  57. 5.5 交互性
  58. 5.6 部署
  59. 5.6.1 批打分
  60. 5.6.2 实时打分
  61. 5.7 小结
  62. 第6章 集群
  63. 6.1 概述
  64. 6.2 本地化
  65. 6.2.1 管理器
  66. 6.2.2 发行版
  67. 6.3 云端
  68. 6.3.1 亚马逊
  69. 6.3.2 Databricks
  70. 6.3.3 谷歌
  71. 6.3.4 IBM
  72. 6.3.5 微软
  73. 6.3.6 Qubole
  74. 6.4 Kubernetes
  75. 6.5 工具
  76. 6.5.1 RStudio
  77. 6.5.2 Jupyter
  78. 6.5.3 Livy
  79. 6.6 小结
  80. 第7章 连接
  81. 7.1 概述
  82. 7.1.1 边缘节点
  83. 7.1.2 Spark主目录
  84. 7.2 本地模式
  85. 7.3 单机模式
  86. 7.4 YARN
  87. 7.4.1 YARN客户端
  88. 7.4.2 YARN集
  89. 7.5 Livy
  90. 7.6 Mesos
  91. 7.7 Kubernetes
  92. 7.8 云模式
  93. 7.9 批量模式
  94. 7.10 工具
  95. 7.11 多次连接
  96. 7.12 故障排除
  97. 7.12.1 记录日志
  98. 7.12.2 Spark Submit
  99. 7.12.3 Windows
  100. 7.13 小结
  101. 第8章 数据
  102. 8.1 概述
  103. 8.2 读取数据
  104. 8.2.1 路径
  105. 8.2.2 模式
  106. 8.2.3 内存
  107. 8.2.4 列
  108. 8.3 写入数据
  109. 8.4 复制数据
  110. 8.5 文件格式
  111. 8.5.1 CSV
  112. 8.5.2 JSON
  113. 8.5.3 Parquet
  114. 8.5.4 其他
  115. 8.6 文件系统
  116. 8.7 存储系统
  117. 8.7.1 Hive
  118. 8.7.2 Cassandra
  119. 8.7.3 JDBC
  120. 8.8 小结
  121. 第9章 调试
  122. 9.1 概述
  123. 9.1.1 计算图
  124. 9.1.2 时间线
  125. 9.2 配置
  126. 9.2.1 连接设置
  127. 9.2.2 提交设置
  128. 9.2.3 运行时设置
  129. 9.2.4 sparklyr设置
  130. 9.3 分区
  131. 9.3.1 隐式分区
  132. 9.3.2 显式分区
  133. 9.4 缓存
  134. 9.4.1 检查点
  135. 9.4.2 内存
  136. 9.5 重洗
  137. 9.6 序列化
  138. 9.7 配置文件
  139. 9.8 小结
  140. 第10章 扩展
  141. 10.1 概述
  142. 10.2 H2O
  143. 10.3 图模型
  144. 10.4 XGBoost
  145. 10.5 深度学习
  146. 10.6 基因组学
  147. 10.7 空间数据
  148. 10.8 故障排除
  149. 10.9 小结
  150. 第11章 分布式R
  151. 11.1 概述
  152. 11.2 用例
  153. 11.2.1 定制解析器
  154. 11.2.2 分区建模
  155. 11.2.3 网格搜索
  156. 11.2.4 Web API
  157. 11.2.5 模拟
  158. 11.3 分区
  159. 11.4 分组
  160. 11.5 列
  161. 11.6 context参数
  162. 11.7 函数
  163. 11.8 程序包
  164. 11.9 集群需求
  165. 11.9.1 安装R
  166. 11.9.2 Apache Arrow
  167. 11.10 故障排除
  168. 11.10.1 工作节点日志
  169. 11.10.2 解决超时
  170. 11.10.3 检查分区
  171. 11.10.4 调试工作节点
  172. 11.11 小结
  173. 第12章 数据流
  174. 12.1 概述
  175. 12.2 转换
  176. 12.2.1 分析
  177. 12.2.2 建模
  178. 12.2.3 管道
  179. 12.2.4 分布式R
  180. 12.3 Kafka
  181. 12.4 Shiny
  182. 12.5 小结
  183. 第13章 社区贡献
  184. 13.1 概述
  185. 13.2 Spark API
  186. 13.3 Spark扩展
  187. 13.4 使用Scala代码
  188. 13.5 小结
  189. 附录A 补充参考代码
书名:大规模数据分析和建模:基于Spark与R
译者:魏博 译
国内出版社:机械工业出版社
出版时间:2020年07月
页数:260
书号:978-7-111-66101-6
原版书书名:Mastering Spark with R
原版书出版商:O'Reilly Media
Javier Luraschi
 
Javier Luraschi是诸多大规模数据科学库的发明者,包括sparklyr、r2d3、pins和cloudml。
 
 
Kevin Kuo
 
Kevin Kuo构建了机器学习库,并领导了Kasa AI的开放保险研究。
 
 
Edgar Ruiz
 
Edgar Ruiz构建了企业级的数据解决方案工具,包括dbplot、tidypredict和modeldb。
 
 
购买选项
定价:89.00元
书号:978-7-111-66101-6
出版社:机械工业出版社