《基于Python的无监督学习》—

基于Python的无监督学习

孙立超译

出版时间：2020年12月

页数：366

“研究人员、工程师和学生将会欣赏这本书，书中充满了实用的无监督学习技术、通俗易懂并非常实用的Python示例，学习起来快速并且有效。”
——SarahNagy
Edison资深数据科学家
很多业内专家认为无监督学习是人工智能的下一个前沿，可能把握着进入通用人工智能的钥匙。因为世界上绝大部分数据是无标签的，传统的监督学习不能使用到它们。无监督学习通过另外的方法可以使用到这些无标签的数据集从而发现数据深层的有价值的数据模型，这些模型可能是人类自身也无法发现的。
作者Ankur Patel通过两个简单的、可应用于生产的Python框架向您展示了如何应用无监督学习:Scikit-learn和包含Keras的TensorFlow。通过代码和亲身操作的实例，数据科学家将发现数据中难以发现的模型：检测数据中的异常、进行自动特征工程和选择、生成合成数据集等，并获得更深层次的业务洞察力。您所需要的只是一些编程和机器学习经验就可以开始学习本书。

● 比较不同机器学习方法的优缺点：监督学习、无监督学习和强化学习
● 从头到尾的建立和管理机器学习项目
● 建立一个异常检测系统，以捕捉信用卡交易的欺诈
● 将用户集群到不同的同构组中
● 执行半监督学习
● 使用受限制玻尔兹曼机开发电影推荐系统
● 使用生成对抗网络生成合成图像

目录
产品信息
关于作者

前言
第一部分无监督学习基础
第1章机器学习生态系统中的无监督学习
机器学习基本术语
基于规则（Rules-Based）与机器学习
监督学习与无监督学习
监督学习的优缺点
无监督学习的优缺点
使用无监督学习改进机器学习的解决方案
了解监督学习算法
线性算法
基于邻域的算法
基于树的算法
支持向量机
神经网络
了解无监督学习算法
降维
聚类
特征提取
无监督深度学习
使用无监督学习解决序列数据问题
利用无监督学习的强化学习
半监督学习
无监督学习的成功应用
结论
第2章完整机器学习项目
环境设置
版本控制：Git
克隆本书的Git存储库
科学库：Anaconda发行版Python
神经网络：TensorFlow和Keras
梯度提升算法，版本1: XGBoost
梯度提升算法，版本2: LightGBM
聚类算法
交互式计算环境：Jupyter Notebook
数据概述
数据准备
数据采集
数据研究
生成特征矩阵和标签数组
特征工程与特征选择
数据可视化（Data Visualization）
模型准备
分离出训练和测试数据集
选择成本函数
创建k 折交叉验证集
机器学习模型（第一部分）
评估指标
混淆矩阵（Confusion Matrix）
精确率召回率曲线（Precision-Recall Curve）
观察者操作特征曲线（receiver operating characteristic）
机器学习模型（第二部分）
模型2：随机森林(Random Forests)
模型3：XGBoost梯度提升机（gradient boosting machine）
模型4：LightGBM梯度提升机
使用测试集对四个模型评估
集成（Ensembles）
最终算法选择
完整生产系统
结论
第二部分使用SciKit-Learn进行无监督学习
第3章降维
降维的动因
降维算法
主成分分析（principal component analysis，PCA）
PCA概念
PCA练习
增量PCA
稀疏PCA
核PCA
奇异值分解
随机投影
等距映射
多维标度法
局部线性嵌入
t-分布随机邻域嵌入
其他降维方法
字典学习
独立成分分析
结论
第4章异常检测
信用卡欺诈检测
准备数据
定义异常评分函数
定义评估指标
定义绘图函数
普通PCA异常检测
PCA成分数量等于原始特征的数量
寻找最优主成分数
稀疏PCA异常检测
核PCA异常检测
高斯随机投影异常检测
稀疏随机投影异常检测
非线性异常检测
字典学习异常检测
ICA异常检测
在测试数据集上运行欺诈检测解决方案
测试数据集上的普通PCA异常检测
测试集上的ICA异常检测
测试集上使用字典学习异常检测
结论
第5章聚类
MNIST数字集
聚类算法
k均值
k均值惯性
评估聚类结果
k均值精度
k均值和主成分的数量
原始数据集上的k均值
层次聚类
层次聚类方法
树状图
评估聚类结果
密度聚类（DBSCAN）
DBSCAN算法
HDBSCAN
结论
第6章分组分割
借贷俱乐部数据
数据准备
将字符串格式转换为数字格式
输入缺失值
特征工程
选择最终特征集并执行缩放
指定用来评估的标签
聚类的好处
k均值应用
分层聚类应用
HDBSCAN应用程序
结论
第三部分使用TensorFlow和Keras
无监督学习
第7章自动编码器
神经网络
TensorFlow
Keras
自动编码器：编码器和解码器
欠完备自动编码器
过完备自动编码器
密集与稀疏自动编码器
降噪自动编码器
变分自动编码器
结论
第8章自动编码器实践
数据准备
自动编码器的组成部分
激活函数
我们的第一台自动编码器
损失函数
优化器
训练模型
对测试集进行评估
具有线性激活函数的两层欠完备自动编码器
增加节点数
添加更多隐藏层
非线性自动编码器
具有线性激活的过完备自动编码器
具有线性激活、随机失活的过完备自动编码器
具有稀疏、线性激活、随机失活的过完备自动编码器
具有稀疏、线性激活、随机失活功能的过完备自动编码器
使用噪声数据集
降噪自动编码器
二层、降噪、具备线性激活的欠完备自动编码器
两层、降噪、具备线性激活的过完备自动编码器
两层、降噪、ReLu激活的过完备自动编码器
结论
第9章半监督学习
数据准备
监督模型
无监督模型
半监督模型
监督和无监督的合力
结论
第四部分使用TensorFlow和Keras
进行深度无监督学习
第10章使用受限玻尔兹曼机器的推荐系统
玻尔兹曼机器
推荐系统
协同过滤
Netflix奖
MovieLens数据集
数据准备
定义成本函数：均方误差
进行基线实验
矩阵分解
一个潜在因子
三个潜在因子
五个潜在因子
使用RBM的协同过滤
RBM神经网络结构
构建RBM类的组件
训练RBM推荐系统
结论
第11章基于深度信念网络的特征检测
深层信念网络详述
MNIST图像分类
受限波尔兹曼机
构建RBM类的组件
使用RBM模型生成图像
查看中间特征检测器
为DBN训练三个RBM
检查特征检测器（Examine Feature Detectors）
查看生成的图像
完整DBN
DBN训练的工作原理
训练DBN
无监督学习如何帮助监督学习
使用LightGBM的图像分类器
监督学习
无监督和监督的解决方案
结论
第12章生成对抗网络
生成对抗网络概念
深度卷积生成对抗网络
卷积神经网络
重新思考DCGAN
DCGAN生成器
DCGAN的鉴别器
鉴别器和对抗模型
MNIST数据集的DCGAN
在MNIST数据集执行DCGAN
结论
第13章时间序列聚类
心电数据
走进时间序列聚类
心电图k形时间序列聚类
数据准备
训练和评估
在ECG5000上使用k形进行时间序列聚类
数据准备
训练和评估
基于k均值的ECG5000时间序列聚类
基于ECG5000的分层DBSCAN时间序列聚类
比较时间序列聚类算法
k形
k均值
HDBSCAN
比较所有三种时间序列聚类方法
结论
第14章尾声
监督学习
无监督学习
SciKit-Learn
TensorFlow和Keras
强化学习
今天最有希望的无监督学习领域
无监督学习的未来
结语

书名：基于Python的无监督学习

作者：Ankur A. Patel 著

译者：孙立超译

国内出版社：中国电力出版社

出版时间：2020年12月

页数：366

书号：978-7-5198-4949-8

原版书书名：Hands-On Unsupervised Learning Using Python

原版书出版商：O'Reilly Media

Ankur A. Patel

Ankur A. Patel是7Park data数据科学部门的副总裁（隶属于Vista Equity Partners投资组合公司）。在7Park data, Ankur和他的数据科学团队使用替代数据为对冲基金和企业构建数据产品，并为企业客户开发机器学习服务（MLaaS）。
Ankur A. Patel是Glean和Mellow的联合创始人。Glean使用自然语言处理技术生成供应商的支出情报信息，Mellow为程序员提供自然语言处理的API。此前，Ankur曾领导过7Park Data、ThetaRay、RSquared Macro、Bridgewater Associates（桥水联合基金）和JPMorgan（摩根大通）的团队。他也是Hands-On Unsupervised Learning Using Python一书的作者。

查看Ankur A. Patel更多信息

购买选项

定价：98.00元

书号：978-7-5198-4949-8

出版社：中国电力出版社

联系出版社邮购