数据之魅:基于开源工具的数据分析
Philipp K. Janert
黄权, 陆昌辉, 邹雪梅, 费柳凤 译
出版时间:2012年07月
页数:509
“ Google,Facebook,Amazon和Netflix,更别说华尔街和制造业、零售业到保健行业的企业,他们的成功越来越得益于选择正确的工具从海量数据中抽取和挖掘出有意义、有价值的信息。现在,‘数据科学家’是硅谷最抢手的人物。”
—— Tim O’Reilly

“一本通俗易懂的参考书,有助于理解如何征服海量数据。”
——Austin King,
Mozilla资深Web开发人员

“造就数据科学家的必读工具书。”
——Michael E. Driscoll,
Dataspora的CEO兼创始人

数据收集很容易,但将原始信息转换为足以满足具体需求的有用信息并不简单。通过这本充满真知灼见的实践指南,对数据分析感兴趣的中高级程序员将学会如何充分利用商业环境中的数据;了解如何观察数据,从而洞察数据的本质;学会如何通过概念模型来捕捉有价值的想法,进而使自己的见解更好地为商业计划、质量评价体系和其他应用做出贡献。
在本书阅读过程中,读者将通过每章最后的“工作坊”对概念进行实践。尤其重要的是,读者将学会如何以更好的思维方式来看待所获得的结果,而不是依赖于让工具来帮自己思考。

本书主题:
· 使用单变量、双变量或多变量图来描述数据
· 使用粗略推算、缩放及概率论来建立概念模型
· 使用模拟和聚类等大量计算方法来进行数据挖掘
· 通过报表、仪表盘和其他度量体系来得到更直观的结果
· 理解金融计算,包括货币的时间价值
· 使用降维或预测分析等技术来应对复杂领域的数据分析挑战
· 熟练掌握不同开源编程环境下的数据分析方法

本书作者Philipp K. Janert凭借着自己多年来担任物理学家和软件工程师的经验,为数据分析和数学建模提供咨询服务。他是Gnuplot in Action: Understanding Data with Graphs(Manning出版)的作者,也为O’Reilly Network、IBM developerWorks和IEEE Software撰写过文章。他拥有华盛顿大学理论物理学博士学位。
  1. 《数据之魅:基于开源工具的数据分析》
  2. 第1章 导论
  3. 数据分析
  4. 本书内容
  5. 关于讲习班
  6. 关于数学
  7. 需要具备的知识
  8. 本书不涉及的内
  9. 第ⅰ部分 图表:观察数据
  10. 第2章 单一变量:形状和
  11. 分布
  12. 数据点和抖动图
  13. 直方图和核密度估计
  14. 直方图
  15. 核密度估计
  16. (选学)如何选择最优带宽
  17. 累积分布函数
  18. (选学)概率图分布和qq图
  19. 分布的对比
  20. 秩序图和上升图
  21. 仅用于适当时机:汇总统计量
  22. 和箱形图
  23. 汇总统计量
  24. box-and-whisker图
  25. (讲习班)numpy
  26. numpy 实践
  27. numpy 详解
  28. 扩展阅读 45
  29. 第3章 两个变量:建立关系
  30. 散点图
  31. 克服噪声:平滑
  32. 样条
  33. loess
  34. 示例
  35. 残差
  36. 其他观点及提醒
  37. 对数图
  38. 倾斜
  39. 线性回归以及诸如此类的方法
  40. 描述重要信息
  41. 图形分析与图形演示
  42. (讲习班)matplotlib
  43. 交互式使用matplotlib
  44. 案例学习:matplotlib与loess
  45. 控制属性
  46. matplotlib对象模型及结构
  47. 零碎知识
  48. 扩展阅读
  49. 第4章 以时间为变量:时序分析
  50. 示例
  51. 任务
  52. 需求和现实
  53. 平滑处理
  54. 移动平均法
  55. 指数平滑法
  56. 不要忽视显而易见的东西
  57. 相关函数
  58. 示例
  59. 实现上的问题
  60. (选学)过滤器和卷积
  61. (讲习班)scipy.signal
  62. 扩展阅读
  63. 第5章 多变量:图形的多变量
  64. 分析
  65. 假色图
  66. 概览:多值图
  67. 散点图矩阵
  68. 协作图
  69. 变种
  70. 组成问题.
  71. 组成的改变
  72. 多维组成:树形图和马赛克图
  73. 新颖的曲线类型
  74. 标识符
  75. 平行坐标图
  76. 交互式探索
  77. 查询和缩放
  78. 连接和涂层
  79. 大游览与投影寻踪
  80. 工具
  81. (讲习班)多变量图形工具
  82. 实验工具
  83. python的chaco库
  84. 扩展阅读
  85. 第6章 插曲:数据分析会话
  86. 数据分析会话
  87. (讲习班)gnuplot软件
  88. 扩展阅读
  89. 第ⅱ部分 分析:数据建模
  90. 第7章 推算和粗略计算
  91. 推算的原理
  92. 估计大小
  93. 建立关联
  94. 使用数字
  95. 10的幂
  96. 小扰动
  97. 对数
  98. 更多示例
  99. 我所知道的一些常见事(物)的相关数字
  100. 这些数字是否足够好?
  101. 准备工作:可行性和成本
  102. 完成之后:引用和 呈现数字
  103. (选学)进一步探索摄动理论和误差传播
  104. 误差传播
  105. (讲习班)gnu科学库(gsl)
  106. 扩展阅读
  107. 第8章 缩放参数模型
  108. 模型
  109. 建模
  110. 模型的运用和误用
  111. 参数的缩放
  112. 缩放参数
  113. 示例:维度参数
  114. 示例:优化问题
  115. 示例:成本模型
  116. (选学)缩放参数与量纲分析
  117. 其他理论
  118. 平均场近似
  119. 背景知识和其他示例
  120. 常见的时间演变方案
  121. 无限增长和衰减现象
  122. 约束增长:逻辑斯谛方程
  123. 振荡
  124. 案例学习:多少台服务器才是最好的?
  125. 为什么要建模?
  126. (讲习班)sage
  127. 扩展阅读
  128. 第9章 关于概率模型的讨论
  129. 二项分布和伯努利试验精确的结果
  130. 利用伯努利试验建立平均场模型
  131. 高斯分布和中心极限定理
  132. 中心极限定理
  133. 中心项与尾项
  134. 为什么高斯分布如此实用?
  135. (选学)高斯积分.
  136. 幂律分布和非常规统计学
  137. 幂律分布的用法
  138. (选学)期望值为无限时的
  139. 分布
  140. 接下来的研究
  141. 其他分布
  142. 几何分布
  143. 泊松分布
  144. 对数正态分布
  145. 特殊用途的分布
  146. (选学)案例学习——随时间变化的单一访问者数量
  147. (讲习班)幂律分布
  148. 扩展阅读
  149. 第10章 你真正需要了解的经典统计学知识
  150. 起源
  151. 统计学的定义
  152. 从统计学角度解释
  153. 示例:公式测验
  154. vs图解法
  155. 控制实验vs观察研究
  156. 实验设计
  157. 前景
  158. (选学)贝叶斯统计——另一种观点
  159. 用频率论来解释概率
  160. 用贝叶斯方法来理解概率
  161. 贝叶斯数据分析: 一个实际有效的例子
  162. 贝叶斯推理:总结与讨论
  163. (讲习班)语言
  164. 扩展阅读
  165. 第11章 插叙:数学大搜捕——大脚怪和最小二乘等
  166. 11.1 如何平均均值
  167. 辛普森(simpson)悖论
  168. 标准差
  169. 如何计算
  170. (选学)应该选择哪一个
  171. (选学)标准误差
  172. 最小二乘
  173. 统计参数估计
  174. 函数逼近
  175. 扩展阅读
  176. 第ⅲ部分 计算:数据挖掘
  177. 第12章 模拟
  178. 热身问题
  179. 蒙特卡洛模拟
  180. 组合问题
  181. 获得结果分布
  182. 优点和缺点
  183. 重新采样方法
  184. 拔靴法
  185. 拔靴法适用于哪些情况?
  186. 拔靴变量
  187. (讲习班)simpy离散事件模拟
  188. simpy简介
  189. 最简单的排队过程
  190. (选学)排队理论
  191. 运行simpy模拟
  192. 小结
  193. 扩展阅读
  194. 第13章 找出簇
  195. 簇由什么组成?
  196. 一种不同的观点
  197. 距离计算和相似度计算
  198. 常见的距离和相似度计算方法
  199. 聚类方法
  200. 中心探索法
  201. 树形构造器
  202. 邻居生长器
  203. 前期处理和后期处理
  204. 规模的规范化
  205. 类的属性和评估
  206. 其他想法
  207. 具体案例:超市购物篮的分析
  208. 提醒
  209. (讲习班)pycluster和c聚类库
  210. 扩展阅读
  211. 第14章 一木见林:找出重要属性
  212. 主成分分析法
  213. 动机
  214. (选学)理论
  215. 解释
  216. 计算
  217. 实用观点
  218. 双标图
  219. 可视化技术
  220. 多元尺度法
  221. 网络图
  222. 柯霍南图
  223. (讲习班)用r进行pca
  224. 扩展阅读
  225. 线性代数
  226. 第15章 插曲:当数据不成
  227. 比例地增长时
  228. 一个真实的故事
  229. 一些建议
  230. map/reduce如何
  231. (讲习班)生成排列
  232. 扩展阅读
  233. 第ⅳ部分 应用:数据的使用
  234. 第16章 报表、商务智能和
  235. 仪表板
  236. 商务智能
  237. 报表
  238. 企业指标和仪表板
  239. 关于指标计划的建议
  240. 数据的质量问题
  241. 数据的可用性
  242. 数据的一致性
  243. (讲习班)berkeley db和sqlite
  244. berkeley db
  245. sqlite
  246. 扩展阅读
  247. 第17章 金融计算与建模
  248. 货币的时间价值
  249. 一次性支付:未来值和现值
  250. 多笔付款:复利
  251. 复利的计算技巧
  252. 概览:现金流分析和 净现值
  253. 计划成本和机会成本中的不确定性
  254. 用账户的期望值来考虑 不确定性
  255. 机会成本
  256. 成本概念及贬值
  257. 直接成本和间接成本
  258. 固定成本和可变成本
  259. 资本开支与运营成本
  260. 是否应该加以关注?
  261. 这些就是全部吗?
  262. (讲习班)报纸经销商问题
  263. (选学)精确解
  264. 扩展阅读
  265. 报纸经销商问题
  266. 第18章 预测分析
  267. 预测分析的主题
  268. 一些分类术语
  269. 分类算法
  270. 基于实例的分类和最近邻分类算法
  271. 贝叶斯分类器
  272. 回归
  273. 支持向量机
  274. 决策树和基于规则的分类器
  275. 其他分类算法
  276. 流程
  277. 集成方法:bagging和boosting
  278. 估计预测误差
  279. 类不平衡问题
  280. 私家秘诀
  281. 统计学习的本质
  282. (讲习班)自己编写的两个分类器
  283. 扩展阅读
  284. 第19章 结语:事实并非
  285. 现实
  286. 附录a 科学计算与数据分析的
  287. 编程环境
  288. 附录b 应用:微积分
  289. 附录c 使用数据
  290. 索引
书名:数据之魅:基于开源工具的数据分析
作者:Philipp K. Janert
译者:黄权, 陆昌辉, 邹雪梅, 费柳凤 译
国内出版社:清华大学出版社
出版时间:2012年07月
页数:509
书号:978-7-302-29098-8
原版书书名:Data Analysis with Open Source Tools
原版书出版商:O'Reilly Media
Philipp K. Janert
 
After previous careers in physics and software development, Philipp K. Janert currently
provides consulting services for data analysis, algorithm development, and mathematical
modeling. He has worked for small start-ups and in large corporate environments, both in
the U.S. and overseas. He prefers simple solutions that work to complicated ones that
don’t, and thinks that purpose is more important than process. Philipp is the author of
“Gnuplot in Action: Understanding Data with Graphs” (Manning Publications), and has
written for the O’Reilly Network, IBM developerWorks, and IEEE Software. He is named
inventor on a handful of patents, and is an occasional contributor to CPAN. He holds a
Ph.D. in theoretical physics from the University of Washington. Visit his company website
at www.principal-value.com.