机器学习常用算法速查手册
Matt Harrison
杜春晓 译
出版时间:2020年11月
页数:303
本书以详细的授课笔记、表格和示例,帮助你掌握Python机器学习基础知识,学习建模处理结构化数据。你参加相关培训,可将这份宝贵的学习指南作为补充材料,你开始下一个机器学习项目,可将其作为便捷的参考资源。
本书适合程序员、数据科学家和AI工程师,它不仅综述机器学习的全过程,还带你了解结构化数据处理的全过程。从本书中,你将学到分类、回归、降维和聚类等多个主题的相关方法。
本书涵盖以下主题:
● 用泰坦尼克号数据集讲解分类。
● 度量标准和分类评估。
● 清洗数据和处理缺失数据。
● 多种回归分析技术。
● 探索数据分析。
● 评估回归结果的度量标准。
● 数据预处理的常用方法。
● 聚类算法。
● 选择对模型有用的特征。
● 降维技术。
● 模型选择。
● scikit-learn流水线。
  1. 前言
  2. 主要内容
  3. 目标读者
  4. 排版约定
  5. 使用代码示例
  6. O’Reilly Online Learning
  7. 联系方式
  8. 致谢
  9. 第1章 机器学习入门
  10. 本书使用的库
  11. 用pip安装库
  12. 用conda安装库
  13. 第2章 机器学习流程概览
  14. 第3章 数据分类工作流:泰坦尼克号数据集
  15. 项目布局建议
  16. 导入
  17. 提出问题
  18. 数据术语
  19. 获取数据
  20. 清洗数据
  21. 创建特征
  22. 数据采样
  23. 数据插值
  24. 规范数据
  25. 重构
  26. 基准模型
  27. 不同算法族
  28. 模型堆叠
  29. 建模
  30. 评估模型
  31. 优化模型
  32. 混淆矩阵
  33. ROC曲线
  34. 学习曲线
  35. 部署模型
  36. 第4章 数据缺失
  37. 检查数据缺失情况
  38. 删除缺数据的行或列
  39. 插值
  40. 添加标识列
  41. 第5章 清洗数据
  42. 处理列名
  43. 替换缺失值
  44. 第6章 探索数据
  45. 数据大小
  46. 汇总统计
  47. 直方图
  48. 散点图
  49. Joint Plot图
  50. Pair Grid图
  51. 箱形图和小提琴图
  52. 比较两个序数型特征
  53. 相关性
  54. RadViz图
  55. 平行坐标图
  56. 第7章 预处理数据
  57. 标准化
  58. 调整取值范围
  59. 虚拟变量
  60. 标签编码
  61. 频数编码
  62. 从字符串抽取类别型数据
  63. 类别型数据的其他编码方法
  64. 日期特征的处理方法
  65. 添加col_na特征
  66. 特征工程
  67. 第8章 特征选择
  68. 共线列
  69. 套索回归
  70. 递归特征消除
  71. 互信息
  72. 主成分分析
  73. 特征重要性
  74. 第9章 类别不平衡
  75. 采用不同度量标准
  76. 树模型和集成方法
  77. 惩罚模型
  78. 对小众类别上采样
  79. 生成小众数据
  80. 对大众类别下采样
  81. 先上采样,再下采样
  82. 第10章 分类
  83. 对数概率回归
  84. 朴素贝叶斯
  85. 支持向量机
  86. k近邻
  87. 决策树
  88. 随机森林
  89. XGBoost
  90. LightGBM
  91. TPOT
  92. 第11章 模型选择
  93. 验证曲线
  94. 学习曲线
  95. 第12章 度量标准和分类评估
  96. 混淆矩阵
  97. 度量标准
  98. 准确率
  99. 召回率
  100. 精准率
  101. f1值
  102. 分类报告
  103. ROC曲线
  104. 精准率-召回率曲线
  105. 累积增益图
  106. lift曲线
  107. 类别平衡
  108. 类别预测错误
  109. 判别阈值
  110. 第13章 解释模型
  111. 回归系数
  112. 特征重要性
  113. LIME包
  114. 解释树模型
  115. 部分依赖图
  116. 替代模型
  117. Shapley值
  118. 第14章 回归
  119. 基准模型
  120. 线性回归
  121. 支持向量机
  122. k近邻
  123. 决策树
  124. 随机森林
  125. XGBoost回归
  126. LightGBM回归
  127. 第15章 度量标准和回归模型的评估
  128. 度量标准
  129. 残差图
  130. 异方差性
  131. 残差正态性
  132. 预测误差图
  133. 第16章 解释回归模型
  134. Shapley值
  135. 第17章 降维技术
  136. PCA方法
  137. UMAP方法
  138. t-SNE方法
  139. PHATE方法
  140. 第18章 聚类
  141. k-means算法
  142. 层次聚类
  143. 理解簇
  144. 第19章 流水线
  145. 分类流水线
  146. 回归流水线
  147. PCA流水线
  148. 作者介绍
  149. 封面介绍
书名:机器学习常用算法速查手册
作者:Matt Harrison
译者:杜春晓 译
国内出版社:中国电力出版社
出版时间:2020年11月
页数:303
书号:978-7-5198-4948-1
原版书书名:Machine Learning Pocket Reference
原版书出版商:O'Reilly Media
Matt Harrison
 
Matt Harrison经营着一家叫作MetaSnake的公司,为客户提供Python和数据科学培训和咨询服务。他自2000年起一直使用Python,期间涉足多个领域:数据科学、BI、存储、自动化测试、开源软件技术栈管理、金融和搜索。
Matt Harrison经营着一家叫作MetaSnake的公司,为客户提供Python和数据科学培训和咨询服务。
 
 
本书封面上的动物是冠北螈(学名:Triturus cristatus)。这是一种两栖动物,从英国直到俄罗斯西部,包括欧洲大陆在内的广大地区,均有分布。它们喜欢生活在积水地带。
冠北螈背部呈灰棕色,有黑色斑点,腹部为黄褐色,有白色斑点。交配季节,雄性身体生出锯齿状冠。雌性尾巴生有橙色条纹。
冠北螈冬季在淤泥或岩石下冬眠。其他季节,它们在水中捕食其他螈类、蝌蚪、幼蛙、蠕虫、昆虫的幼虫和水蜗牛,它们在陆地捕食昆虫、蠕虫和其他无脊椎动物。它们的寿命长达27年,体长可到7英寸。
尽管当前冠北螈的保护级别为低危级(Least Concern),但是O’Reilly图书封面上的很多动物都是濒危物种,它们对全世界都很重要。
封面的图片是Karen Montgomery根据Meyers Kleines Lexicon百科全书中的黑白版画绘制而成的。