数据科学入门(第2版)
Joel Grus
岳冰, 高蓉, 韩波 译
出版时间:2020年12月
页数:526
无论你身处哪个行业,数据都能成为你的好帮手。善于从凌乱的数据中提取有用的信息,你就能在面对业务难题时游刃有余,用 数据说话,为决策找到有力的支撑。
欢迎进入数据科学世界!在本书中,你将化身为虚构公司DataSciencester的员工,从零开始数据科学工作,亲手构建工具、实现算法,最终从数据科学新手蜕变为全能的数据科学家。在第1版的基础上,本书升级了所有代码示例,并新增了深度学习、统计学、自然语言处理等相关内容。
● 学到一堂Python速成课。
● 学习线性代数、统计学和概率论的基础知识,并能将其灵活地用于数据科学项目。
● 掌握如何获取、探索、清洗、处理和调整数据。
● 深入理解机器学习概念,尤其是深度学习概念。
● 运用k最近邻法、朴素贝叶斯、线性回归、逻辑回归、决策树、神经网络和聚类等算法实现数据模型。
● 探索自然语言处理、网络分析、推荐系统、数据库与SQL、MapReduce。
  1. 第2版前言 
  2. 第1版前言
  3. 第1章 导论 
  4. 1.1 数据的崛起 
  5. 1.2 什么是数据科学
  6. 1.3 激励假设:DataSciencester 
  7. 第2章 Python速成 
  8. 2.1 Python之禅 
  9. 2.2 获取Python 
  10. 2.3 虚拟环境 
  11. 2.4 空白格式 
  12. 2.5 模块 
  13. 2.6 函数 
  14. 2.7 字符串 
  15. 2.8 异常 
  16. 2.9 列表 
  17. 2.10 元组 
  18. 2.11 字典 
  19. 2.12 计数器 
  20. 2.13 集 
  21. 2.14 控制流 
  22. 2.15 真和假 
  23. 2.16 排序 
  24. 2.17 列表解析 
  25. 2.18 自动化测试和断言 
  26. 2.19 面向对象编程 
  27. 2.20 迭代器和生成器 
  28. 2.21 随机性
  29. 2.22 正则表达式 
  30. 2.23 函数式编程 
  31. 2.24 压缩和参数拆分 
  32. 2.25 args和kwargs 
  33. 2.26 类型注释 
  34. 2.27 欢迎来到DataSciencester
  35. 2.28 进一步探索 
  36. 第3章 数据可视化
  37. 3.1 matplotlib
  38. 3.2 条形图 
  39. 3.3 线图 
  40. 3.4 散点图 
  41. 3.5 延伸学习 
  42. 第4章 线性代数 
  43. 4.1 向量 
  44. 4.2 矩阵 
  45. 4.3 延伸学习
  46. 第5章 统计学 
  47. 5.1 描述单个数据集 
  48. 5.2 相关 
  49. 5.3 辛普森悖论 
  50. 5.4 相关系数的其他注意事项 
  51. 5.5 相关与因果 
  52. 5.6 延伸学习 
  53. 第6章 概率 
  54. 6.1 依赖和独立 
  55. 6.2 条件概率 
  56. 6.3 贝叶斯定理 
  57. 6.4 随机变量 
  58. 6.5 连续分布 
  59. 6.6 正态分布 
  60. 6.7 中心极限定理 
  61. 6.8 延伸学习 
  62. 第7章 假设和推论 
  63. 7.1 统计假设检验 
  64. 7.2 实例:掷硬币 
  65. 7.3 p值 
  66. 7.4 置信区间 
  67. 7.5 p-Hacking 
  68. 7.6 实例:运行A/B测试 
  69. 7.7 贝叶斯推断 
  70. 7.8 延伸学习 
  71. 第8章 梯度下降
  72. 8.1 梯度下降的思想 
  73. 8.2 估算梯度 
  74. 8.3 使用梯度 
  75. 8.4 选择正确步长 
  76. 8.5 使用梯度下降拟合模型 
  77. 8.6 小批次梯度下降和随机梯度下降 
  78. 8.7 延伸学习 
  79. 第9章 获取数据 
  80. 9.1 stdin和stdout 
  81. 9.2 读取文件 
  82. 9.3 网络抓取 
  83. 9.4 使用API 
  84. 9.5 实例:使用Twitter API 
  85. 9.6 延伸学习 
  86. 第10章 数据工作 
  87. 10.1 探索数据 
  88. 10.2 使用NamedTuple 
  89. 10.3 数据类 
  90. 10.4 清洗和修改 
  91. 10.5 数据处理 
  92. 10.6 数据调整 
  93. 10.7 题外话:tqdm 
  94. 10.8 降维 
  95. 10.9 延伸学习 
  96. 第11章 机器学习 
  97. 11.1 建模 
  98. 11.2 什么是机器学习 
  99. 11.3 过拟合与欠拟合 
  100. 11.4 正确性 
  101. 11.5 偏差–方差权衡 
  102. 11.6 特征提取与选择 
  103. 11.7 延伸学习 
  104. 第12章 k*近邻法 
  105. 12.1 模型 
  106. 12.2 实例:鸢尾花数据集 
  107. 12.3 维数灾难 
  108. 12.4 进一步探索 
  109. 第13章 朴素贝叶斯算法 
  110. 13.1 一个简易的垃圾邮件过滤器 
  111. 13.2 一个复杂的垃圾邮件过滤器 
  112. 13.3 算法实现 
  113. 13.4 测试模型 
  114. 13.5 使用模型 
  115. 13.6 延伸学习 
  116. 第14章 简单线性回归 
  117. 14.1 模型 
  118. 14.2 使用梯度下降法 
  119. 14.3 *大似然估计 
  120. 14.4 延伸学习 
  121. 第15章 多元回归 
  122. 15.1 模型 
  123. 15.2 *小二乘模型的进一步假设 
  124. 15.3 拟合模型 
  125. 15.4 解释模型 
  126. 15.5 拟合优度 
  127. 15.6 题外话:Bootstrap 
  128. 15.7 回归系数的标准误差 
  129. 15.8 正则化 
  130. 15.9 延伸学习 
  131. 第16章 逻辑回归 
  132. 16.1 问题 
  133. 16.2 logistic函数 
  134. 16.3 应用模型 
  135. 16.4 拟合优度 
  136. 16.5 支持向量机 
  137. 16.6 延伸学习 
  138. 第17章 决策树 
  139. 17.1 什么是决策树 
  140. 17.2 熵 
  141. 17.3 分割的熵 
  142. 17.4 创建决策树 
  143. 17.5 综合运用 
  144. 17.6 随机森林 
  145. 17.7 延伸学习 
  146. 第18章 神经网络 
  147. 18.1 感知器 
  148. 18.2 前馈神经网络 
  149. 18.3 反向传播 
  150. 18.4 实例:Fizz Buzz 
  151. 18.5 延伸学习 
  152. 第19章 深度学习 
  153. 19.1 张量
  154. 19.2 层抽象 
  155. 19.3 线性层
  156. 19.4 把神经网络作为层序列 
  157. 19.5 损失函数与优化器 
  158. 19.6 实例:重新设计异或网络 
  159. 19.7 其他激活函数 
  160. 19.8 实例:重新解决Fizz Buzz问题 
  161. 19.9 softmax函数和交叉熵 
  162. 19.10 丢弃 
  163. 19.11 实例:MNIST 
  164. 19.12 保存和加载模型 
  165. 19.13 延伸学习 
  166. 第20章 聚类分析 
  167. 20.1 原理 
  168. 20.2 模型 
  169. 20.3 实例:聚会 
  170. 20.4 选择聚类数目k 
  171. 20.5 实例:色彩聚类 
  172. 20.6 自下而上的分层聚类 
  173. 20.7 延伸学习 
  174. 第21章 自然语言处理 
  175. 21.1 词云 
  176. 21.2 n-gram语言模型 
  177. 21.3 语法 
  178. 21.4 题外话:吉布斯采样 
  179. 21.5 主题建模 
  180. 21.6 词向量 
  181. 21.7 递归神经网络 
  182. 21.8 实例:使用字符级RNN 
  183. 21.9 延伸学习 
  184. 第22章 网络分析 
  185. 22.1 中介中心性 
  186. 22.2 特征向量中心性 
  187. 22.3 有向图与PageRank 
  188. 22.4 延伸学习 
  189. 第23章 推荐系统 
  190. 23.1 人工管理 
  191. 23.2 推荐流行事务 
  192. 23.3 基于用户的协同过滤 
  193. 23.4 基于项目的协同过滤 
  194. 23.5 矩阵分解 
  195. 23.6 延伸学习 
  196. 第24章 数据库与SQL 
  197. 24.1 CREATE TABLE与INSERT 
  198. 24.2 UPDATE 
  199. 24.3 DELETE 
  200. 24.4 SELECT 
  201. 24.5 GROUP BY 
  202. 24.6 ORDER BY 
  203. 24.7 JOIN 
  204. 24.8 子查询 
  205. 24.9 索引 
  206. 24.10 查询优化 
  207. 24.11 NoSQL 
  208. 24.12 延伸学习 
  209. 第25章 MapReduce 
  210. 25.1 实例:单词计数 
  211. 25.2 为什么是MapReduce 
  212. 25.3 更一般化的MapReduce 
  213. 25.4 实例:状态分析更新 
  214. 25.5 实例:矩阵乘法 
  215. 25.6 题外话:组合器 
  216. 25.7 延伸学习 
  217. 第26章 数据伦理 
  218. 26.1 什么是数据伦理 
  219. 26.2 讲真的,什么是数据伦理 
  220. 26.3 是否应该关注数据伦理 
  221. 26.4 建立不良数据产品 
  222. 26.5 *确与公平之间的较量 
  223. 26.6 合作 
  224. 26.7 可解释性 
  225. 26.8 推荐 
  226. 26.9 异常数据 
  227. 26.10 数据保护 
  228. 26.11 小结 
  229. 26.12 延伸学习
  230. 第27章 数据科学前瞻 
  231. 27.1 IPython 
  232. 27.2 数学 
  233. 27.3 不从零开始 
  234. 27.4 寻找数据 
  235. 27.5 从事数据科学工作 
  236. 关于作者 
  237. 关于封面 
书名:数据科学入门(第2版)
作者:Joel Grus
译者:岳冰, 高蓉, 韩波 译
国内出版社:人民邮电出版社
出版时间:2020年12月
页数:526
书号:978-7-115-55276-1
原版书书名:Data Science from Scratch, 2nd Edition
原版书出版商:O'Reilly Media
Joel Grus
 
乔尔·格鲁斯(Joel Grus),Capital Group公司的首席机器学习工程师, 担任过艾伦研究所的人工智能研发工程师以及谷歌公司的软件工程师,还曾在多家创业公司担任数据科学家。