面向数据科学家的实用统计学
盖磊 译
出版时间:2018年10月
页数:220
统计学方法是数据科学的重要组成部分,但极少有数据科学家接受过正规的统计学教育或培训,而关于统计学基础的课程和教材也很少从数据科学的角度进行讲解。本书专门从数据科学的角度阐释重要且实用的统计学概念,重点介绍如何将各种统计学方法应用于数据科学。
● 为什么探索性数据分析是数据科学关键的第一步
● 随机抽样如何降低偏差、生成高质量数据集
● 实验设计原则如何针对问题生成确定性答案
● 如何使用回归方法估计结果并检测异常
● 用于预测记录所属类别的主要分类方法
● 从数据中“学习”的统计机器学习方法
● 从未标记数据中提取有意义信息的无监督学习方法
- 前言
- 第1章 探索性数据分析
- 1.1 结构化数据的组成
- 1.2 矩形数据
- 1.3 位置估计
- 1.4 变异性估计
- 1.5 探索数据分布
- 1.6 探索二元数据和分类数据
- 1.7 相关性
- 1.8 探索两个及以上变量
- 1.9 小结
- 第2章 数据和抽样分布
- 2.1 随机抽样和样本偏差
- 2.2 选择偏差
- 2.3 统计量的抽样分布
- 2.4 自助法
- 2.5 置信区间
- 2.6 正态分布
- 2.7 长尾分布
- 2.8 学生t分布
- 2.9 二项分布
- 2.10 泊松分布及其相关分布
- 2.11 小结
- 第3章 统计实验与显著性检验
- 3.1 A/B测试
- 3.2 假设检验
- 3.3 重抽样
- 3.4 统计显著性和p值
- 3.5 t检验
- 3.6 多重检验
- 3.7 自由度
- 3.8 方差分析
- 3.9 卡方检验
- 3.10 多臂老虎机算法
- 3.11 检验效能和样本规模
- 3.12 小结
- 第4章 回归与预测
- 4.1 简单线性回归
- 4.2 多元线性回归
- 4.3 使用回归做预测
- 4.4 回归中的因子变量
- 4.5 解释回归方程
- 4.6 检验假设:回归诊断
- 4.7 多项式回归和样条回归
- 4.8 小结
- 第5章 分类
- 5.1 朴素贝叶斯算法
- 5.2 判别分析
- 5.3 逻辑回归
- 5.4 评估分类模型
- 5.5 不平衡数据的处理策略
- 5.6 小结
- 第6章 统计机器学习
- 6.1 K最近邻算法
- 6.2 树模型
- 6.3 Bagging和随机森林
- 6.4 Boosting
- 6.5 小结
- 第7章 无监督学习
- 7.1 主成分分析
- 7.2 K-Means聚类
- 7.3 层次聚类
- 7.4 基于模型的聚类
- 7.5 变量的缩放和分类变量
- 7.6 小结
书名:面向数据科学家的实用统计学
译者:盖磊 译
国内出版社:人民邮电出版社
出版时间:2018年10月
页数:220
书号:978-7-115-49366-8
原版书书名:Practical Statistics for Data Scientists
原版书出版商:O'Reilly Media
彼得·布鲁斯
彼得·布鲁斯(Peter Bruce),知名统计学家,Statistics.com统计学教育学院的创立者兼院长,重采样统计软件的开发者。曾在美国马里兰大学和各种短训班教授重采样统计课程。
安德鲁·布鲁斯
安德鲁·布鲁斯(Andrew Bruce),华盛顿大学统计学博士,拥有30多年的统计学和数据科学经验,在多家知名学术期刊上发表过多篇论文。