基于Python的无监督学习
Ankur A. Patel
孙立超 译
出版时间:2020年12月
页数:366
“研究人员、工程师和学生将会欣赏这本书,书中充满了实用的无监督学习技术、通俗易懂并非常实用的Python示例,学习起来快速并且有效。”
——SarahNagy
Edison资深数据科学家
很多业内专家认为无监督学习是人工智能的下一个前沿,可能把握着进入通用人工智能的钥匙。因为世界上绝大部分数据是无标签的,传统的监督学习不能使用到它们。无监督学习通过另外的方法可以使用到这些无标签的数据集从而发现数据深层的有价值的数据模型,这些模型可能是人类自身也无法发现的。
作者Ankur Patel通过两个简单的、可应用于生产的Python框架向您展示了如何应用无监督学习:Scikit-learn和包含Keras的TensorFlow。通过代码和亲身操作的实例,数据科学家将发现数据中难以发现的模型:检测数据中的异常、进行自动特征工程和选择、生成合成数据集等,并获得更深层次的业务洞察力。您所需要的只是一些编程和机器学习经验就可以开始学习本书。

● 比较不同机器学习方法的优缺点:监督学习、无监督学习和强化学习
● 从头到尾的建立和管理机器学习项目
● 建立一个异常检测系统,以捕捉信用卡交易的欺诈
● 将用户集群到不同的同构组中
● 执行半监督学习
● 使用受限制玻尔兹曼机开发电影推荐系统
● 使用生成对抗网络生成合成图像
  1. 前言
  2. 第一部分 无监督学习基础
  3. 第1章 机器学习生态系统中的无监督学习
  4. 机器学习基本术语
  5. 基于规则(Rules-Based)与机器学习
  6. 监督学习与无监督学习
  7. 监督学习的优缺点
  8. 无监督学习的优缺点
  9. 使用无监督学习改进机器学习的解决方案
  10. 了解监督学习算法
  11. 线性算法
  12. 基于邻域的算法
  13. 基于树的算法
  14. 支持向量机
  15. 神经网络
  16. 了解无监督学习算法
  17. 降维
  18. 聚类
  19. 特征提取
  20. 无监督深度学习
  21. 使用无监督学习解决序列数据问题
  22. 利用无监督学习的强化学习
  23. 半监督学习
  24. 无监督学习的成功应用
  25. 结论
  26. 第2章 完整机器学习项目
  27. 环境设置
  28. 版本控制:Git
  29. 克隆本书的Git存储库
  30. 科学库:Anaconda发行版Python
  31. 神经网络:TensorFlow和Keras
  32. 梯度提升算法,版本1: XGBoost
  33. 梯度提升算法,版本2: LightGBM
  34. 聚类算法
  35. 交互式计算环境:Jupyter Notebook
  36. 数据概述
  37. 数据准备
  38. 数据采集
  39. 数据研究
  40. 生成特征矩阵和标签数组
  41. 特征工程与特征选择
  42. 数据可视化(Data Visualization)
  43. 模型准备
  44. 分离出训练和测试数据集
  45. 选择成本函数
  46. 创建k 折交叉验证集
  47. 机器学习模型(第一部分)
  48. 评估指标
  49. 混淆矩阵(Confusion Matrix)
  50. 精确率召回率曲线(Precision-Recall Curve)
  51. 观察者操作特征曲线(receiver operating characteristic)
  52. 机器学习模型(第二部分)
  53. 模型2:随机森林(Random Forests)
  54. 模型3:XGBoost梯度提升机(gradient boosting machine)
  55. 模型4:LightGBM梯度提升机
  56. 使用测试集对四个模型评估
  57. 集成(Ensembles)
  58. 最终算法选择
  59. 完整生产系统
  60. 结论
  61. 第二部分 使用SciKit-Learn进行无监督学习
  62. 第3章 降维
  63. 降维的动因
  64. 降维算法
  65. 主成分分析(principal component analysis,PCA)
  66. PCA概念
  67. PCA练习
  68. 增量PCA
  69. 稀疏PCA
  70. 核PCA
  71. 奇异值分解
  72. 随机投影
  73. 等距映射
  74. 多维标度法
  75. 局部线性嵌入
  76. t-分布随机邻域嵌入
  77. 其他降维方法
  78. 字典学习
  79. 独立成分分析
  80. 结论
  81. 第4章 异常检测
  82. 信用卡欺诈检测
  83. 准备数据
  84. 定义异常评分函数
  85. 定义评估指标
  86. 定义绘图函数
  87. 普通PCA异常检测
  88. PCA成分数量等于原始特征的数量
  89. 寻找最优主成分数
  90. 稀疏PCA异常检测
  91. 核PCA异常检测
  92. 高斯随机投影异常检测
  93. 稀疏随机投影异常检测
  94. 非线性异常检测
  95. 字典学习异常检测
  96. ICA异常检测
  97. 在测试数据集上运行欺诈检测解决方案
  98. 测试数据集上的普通PCA异常检测
  99. 测试集上的ICA异常检测
  100. 测试集上使用字典学习异常检测
  101. 结论
  102. 第5章 聚类
  103. MNIST数字集
  104. 聚类算法
  105. k均值
  106. k均值惯性
  107. 评估聚类结果
  108. k均值精度
  109. k均值和主成分的数量
  110. 原始数据集上的k均值
  111. 层次聚类
  112. 层次聚类方法
  113. 树状图
  114. 评估聚类结果
  115. 密度聚类(DBSCAN)
  116. DBSCAN算法
  117. HDBSCAN
  118. 结论
  119. 第6章 分组分割
  120. 借贷俱乐部数据
  121. 数据准备
  122. 将字符串格式转换为数字格式
  123. 输入缺失值
  124. 特征工程
  125. 选择最终特征集并执行缩放
  126. 指定用来评估的标签
  127. 聚类的好处
  128. k均值应用
  129. 分层聚类应用
  130. HDBSCAN应用程序
  131. 结论
  132. 第三部分 使用TensorFlow和Keras
  133. 无监督学习
  134. 第7章 自动编码器
  135. 神经网络
  136. TensorFlow
  137. Keras
  138. 自动编码器:编码器和解码器
  139. 欠完备自动编码器
  140. 过完备自动编码器
  141. 密集与稀疏自动编码器
  142. 降噪自动编码器
  143. 变分自动编码器
  144. 结论
  145. 第8章 自动编码器实践
  146. 数据准备
  147. 自动编码器的组成部分
  148. 激活函数
  149. 我们的第一台自动编码器
  150. 损失函数
  151. 优化器
  152. 训练模型
  153. 对测试集进行评估
  154. 具有线性激活函数的两层欠完备自动编码器
  155. 增加节点数
  156. 添加更多隐藏层
  157. 非线性自动编码器
  158. 具有线性激活的过完备自动编码器
  159. 具有线性激活、随机失活的过完备自动编码器
  160. 具有稀疏、线性激活、随机失活的过完备自动编码器
  161. 具有稀疏、线性激活、随机失活功能的过完备自动编码器
  162. 使用噪声数据集
  163. 降噪自动编码器
  164. 二层、降噪、具备线性激活的欠完备自动编码器
  165. 两层、降噪、具备线性激活的过完备自动编码器
  166. 两层、降噪、ReLu激活的过完备自动编码器
  167. 结论
  168. 第9章 半监督学习
  169. 数据准备
  170. 监督模型
  171. 无监督模型
  172. 半监督模型
  173. 监督和无监督的合力
  174. 结论
  175. 第四部分 使用TensorFlow和Keras
  176. 进行深度无监督学习
  177. 第10章 使用受限玻尔兹曼机器的推荐系统
  178. 玻尔兹曼机器
  179. 推荐系统
  180. 协同过滤
  181. Netflix奖
  182. MovieLens数据集
  183. 数据准备
  184. 定义成本函数:均方误差
  185. 进行基线实验
  186. 矩阵分解
  187. 一个潜在因子
  188. 三个潜在因子
  189. 五个潜在因子
  190. 使用RBM的协同过滤
  191. RBM神经网络结构
  192. 构建RBM类的组件
  193. 训练RBM推荐系统
  194. 结论
  195. 第11章 基于深度信念网络的特征检测
  196. 深层信念网络详述
  197. MNIST图像分类
  198. 受限波尔兹曼机
  199. 构建RBM类的组件
  200. 使用RBM模型生成图像
  201. 查看中间特征检测器
  202. 为DBN训练三个RBM
  203. 检查特征检测器(Examine Feature Detectors)
  204. 查看生成的图像
  205. 完整DBN
  206. DBN训练的工作原理
  207. 训练DBN
  208. 无监督学习如何帮助监督学习
  209. 使用LightGBM的图像分类器
  210. 监督学习
  211. 无监督和监督的解决方案
  212. 结论
  213. 第12章 生成对抗网络
  214. 生成对抗网络概念
  215. 深度卷积生成对抗网络
  216. 卷积神经网络
  217. 重新思考DCGAN
  218. DCGAN生成器
  219. DCGAN的鉴别器
  220. 鉴别器和对抗模型
  221. MNIST数据集的DCGAN
  222. 在MNIST数据集执行DCGAN
  223. 结论
  224. 第13章 时间序列聚类
  225. 心电数据
  226. 走进时间序列聚类
  227. 心电图k形时间序列聚类
  228. 数据准备
  229. 训练和评估
  230. 在ECG5000上使用k形进行时间序列聚类
  231. 数据准备
  232. 训练和评估
  233. 基于k均值的ECG5000时间序列聚类
  234. 基于ECG5000的分层DBSCAN时间序列聚类
  235. 比较时间序列聚类算法
  236. k形
  237. k均值
  238. HDBSCAN
  239. 比较所有三种时间序列聚类方法
  240. 结论
  241. 第14章 尾声
  242. 监督学习
  243. 无监督学习
  244. SciKit-Learn
  245. TensorFlow和Keras
  246. 强化学习
  247. 今天最有希望的无监督学习领域
  248. 无监督学习的未来
  249. 结语
书名:基于Python的无监督学习
作者:Ankur A. Patel
译者:孙立超 译
国内出版社:中国电力出版社
出版时间:2020年12月
页数:366
书号:978-7-5198-4949-8
原版书书名:Hands-On Unsupervised Learning Using Python
原版书出版商:O'Reilly Media
Ankur A. Patel
 
Ankur A. Patel是7Park data数据科学部门的副总裁(隶属于Vista Equity Partners投资组合公司)。在7Park data, Ankur和他的数据科学团队使用替代数据为对冲基金和企业构建数据产品,并为企业客户开发机器学习服务(MLaaS)。
Ankur A. Patel是Glean和Mellow的联合创始人。Glean使用自然语言处理技术生成供应商的支出情报信息,Mellow为程序员提供自然语言处理的API。此前,Ankur曾领导过7Park Data、ThetaRay、RSquared Macro、Bridgewater Associates(桥水联合基金) 和JPMorgan(摩根大通)的团队。他也是Hands-On Unsupervised Learning Using Python一书的作者。
 
 
购买选项
定价:98.00元
书号:978-7-5198-4949-8
出版社:中国电力出版社