《基于Spark NLP的自然语言处理》—

基于Spark NLP的自然语言处理

唐晓, 胡乔林, 陈新译

出版时间：2022年09月

页数：386

“这是一本写得很好的书，它将带你从语法和语言模型的基础知识开始，并利用当今可用的最佳深度学习和迁移学习技术，构建现实世界的生产级AI应用程序。”
——David Talby
John Snow 实验室CTO

如果你想构建一个使用自然语言文本的企业级应用程序，但不确定从哪里开始或使用什么工具，本书将帮助你入门。Wisecube的首席数据科学家Alex Thomas向软件工程师和数据科学家展示了如何使用深度学习和Apache Spark NLP库，来构建可扩展的自然语言处理（NLP）应用程序。
通过在Spark处理框架上使用NLP的具体示例、实践，进行理论解释和动手练习，本书将会介绍从基本语言学和写作系统到情感分析和搜索引擎的所有内容。你还将探索一些开发基于文本的应用程序会遇到的特殊问题，例如性能等。在下面四个部分中，你将学习NLP基础知识和构建模块，然后再深入研究应用程序和系统构建：
● 基础知识：了解自然语言处理、Apache Spark上的NLP和深度学习的基础知识。
● 构建模块：学习构建 NLP 应用程序的技术（包括标记化、句子分割和命名实体识别），并了解它们的工作方式和原因。
● 应用程序：探索构建你自己的NLP应用程序的设计、开发和实验过程。
● 构建NLP系统：考虑生产和部署NLP模型的选项，包括支持哪些人类语言。

目录
产品信息
关于作者
封面介绍

前言
第一部分基础知识
第1章快速入门
1.1 简介
1.2 其他工具
1.3 建立你自己的开发环境
1.3.1 前置条件
1.3.2 启动Apache Spark
1.3.3 检查代码
1.4 熟悉Apache Spark
1.4.1 使用Spark NLP启动Apache Spark
1.4.2 在Apache Spark中加载和查看数据
1.5 Spark NLP的Hello World示例
第2章自然语言基础知识
2.1 什么是自然语言
2.1.1 语言的起源
2.1.2 口头语言和书面语言
2.2 语言学
2.2.1 语音学和音系学
2.2.2 词法学（形态学）
2.2.3 语法
2.2.4 语义学
2.3 社会语言学：方言、语域和其他变体
2.3.1 礼节
2.3.2 语境
2.4 语用学
2.4.1 罗曼·雅各布森
2.4.2 如何运用语用学
2.5 书写系统
2.5.1 起源
2.5.2 字母
2.5.3 辅音音素文字
2.5.4 元音附标文字
2.5.5 音节表
2.5.6 标识象形符
2.6 编码
2.6.1 ASCII
2.6.2 Unicode
2.6.3 UTF-8
2.7 练习：分词
2.7.1 英语分词
2.7.2 希腊语分词
2.7.3 Ge'ez（阿姆哈拉语）分词
2.8 资源
第3章 Apache Spark上的NLP
3.1 并行性、并发性、分布式计算
3.1.1 Apache Hadoop之前的并行化
3.1.2 MapReduce和 Apache Hadoop
3.1.3 Apache Spark
3.2 Apache Spark架构
3.2.1 物理架构
3.2.2 逻辑架构
3.3 Spark SQL和Spark MLlib
3.3.1 Transformer（转换器）
3.3.2 评估器和模型
3.3.3 预测结果评估
3.4 NLP库
3.4.1 功能库
3.4.2 注释库
3.4.3 其他库中的自然语言处理功能
3.5 Spark NLP
3.5.1 注释库
3.5.2 阶段
3.5.3 预训练管道
3.5.4 Finisher
3.6 练习：构建主题模型
3.7 资源
第4章深度学习基础知识
4.1 梯度下降
4.2 反向传播
4.3 卷积神经网络CNN
4.3.1 滤波器
4.3.2 池化
4.4 循环神经网络RNN
4.4.1 通过时间的反向传播
4.4.2 Elman网络
4.4.3 LSTM
4.5 练习1
4.6 练习2
4.7 资源
第二部分构建模块
第5章文字处理
5.1 分词
5.2 词表缩减
5.2.1 词干提取
5.2.2 词形还原
5.2.3 词干提取对比词形还原
5.2.4 拼写校对
5.2.5 标准化
5.3 bag-of-words模型
5.4 CountVectorizer
5.5 N-Gram
5.6 可视化：Word和文档分发
5.7 练习
5.8 资源
第6章信息检索
6.1 倒排索引
6.2 向量空间模型
6.2.1 删除停用词
6.2.2 逆向文件频率
6.2.3 使用Spark
6.3 练习
6.4 资源
第7章分类和回归
7.1 bag-of-word模型特征
7.2 正则表达式特征
7.3 特征选择
7.4 模型
7.4.1 朴素贝叶斯算法
7.4.2 线性模型
7.4.3 决策/回归树
7.4.4 深度学习算法
7.5 迭代
7.6 练习
第8章使用Keras的序列模型
8.1 语句划分
8.2 段落划分
8.3 词性标注
8.4 条件随机场
8.5 分块和语法分析
8.6 语言模型
8.7 循环神经网络
8.8 练习：字符 N-Grams模型
8.9 练习：词义语言模型
8.10 资源
第9章信息提取
9.1 命名实体识别
9.2 共指消解
9.3 断言状态检测
9.4 关系提取
9.5 小结
9.6 练习
第10章主题建模
10.1 K-Means
10.2 潜在语义索引
10.3 非负矩阵分解
10.4 隐含狄利克雷分布模型
10.5 练习
第11章词嵌入
11.1 Word2vec
11.2 GloVe
11.3 fastText
11.4 Transformer
11.5 ELMo、BERT和XLNet
11.6 Doc2vec
11.7 练习
第三部分应用
第12章情感分析与情绪检测
12.1 问题陈述与约束
12.2 规划项目
12.3 设计解决方案
12.4 实施解决方案
12.5 测试并衡量解决方案
12.5.1 业务指标
12.5.2 以模型为中心的指标
12.5.3 基础设施指标
12.5.4 过程指标
12.5.5 离线与在线模型测量
12.6 审查
12.6.1 初始部署
12.6.2 回退计划
12.6.3 下一步
12.7 结论
第13章建立知识库
13.1 问题陈述与约束
13.2 规划项目
13.3 设计解决方案
13.4 实施解决方案
13.5 测试并衡量解决方案
13.5.1 业务指标
13.5.2 以模型为中心的指标
13.5.3 基础设施指标
13.5.4 过程指标
13.6 审查
13.7 结论
第14章搜索引擎
14.1 问题陈述与约束
14.2 规划项目
14.3 设计解决方案
14.4 实施解决方案
14.5 测试并衡量解决方案
14.5.1 业务指标
14.5.2 以模型为中心的指标
14.6 审查
14.7 结论
第15章聊天机器人
15.1 问题陈述与约束
15.2 规划项目
15.3 设计解决方案
15.4 实施解决方案
15.5 测试并衡量解决方案
15.5.1 业务指标
15.5.2 以模型为中心的指标
15.6 审查
15.7 结论
第16章目标字符识别
16.1 OCR任务的种类
16.1.1 印刷文本的图像和PDF识别成文本
16.1.2 手写文本图像识别成文本
16.1.3 日常环境中的文本图像识别成文本
16.1.4 文本图像识别成目标
16.1.5 关于不同书写系统的说明
16.2 问题陈述与约束
16.3 规划项目
16.4 实施解决方案
16.5 测试并衡量解决方案
16.6 以模型为中心的指标
16.7 审查
16.8 结论
第四部分构建NLP系统
第17章支持多种语言
17.1 语言类型学
17.2 场景：学术论文分类
17.3 不同语言中的文本处理
17.3.1 合成词
17.3.2 形态复杂性
17.4 迁移学习与多语言深度学习
17.5 跨语种搜索
17.6 检查清单
17.7 结论
第18章人工标注
18.1 指南
18.2 场景：学术论文分类
18.3 标注员内部一致性
18.4 标注迭代
18.5 标注文本
18.5.1 分类
18.5.2 标注
18.6 检查清单
18.7 结论
第19章 NLP应用程序的产品化
19.1 Spark NLP模型缓存
19.2 Spark NLP与TensorFlow集成
19.2.1 Spark优化基础
19.2.2 设计级优化
19.2.3 分析工具
19.2.4 监视
19.2.5 管理数据资源
19.2.6 测试基于NLP的应用程序
19.2.7 单元测试
19.2.8 集成测试
19.2.9 冒烟测试与健全测试
19.2.10 性能测试
19.2.11 可用性测试
19.2.12 演示基于NLP的应用程序
19.3 检查清单
19.3.1 模型部署清单
19.3.2 扩展和性能检查表
19.3.3 测试检查清单
19.4 结论
术语表

书名：基于Spark NLP的自然语言处理

作者：Alex Thomas 著

译者：唐晓, 胡乔林, 陈新译

国内出版社：中国电力出版社

出版时间：2022年09月

页数：386

书号：978-7-5198-6967-0

原版书书名：Natural Language Processing with Spark NLP

原版书出版商：O'Reilly Media

Alex Thomas

Alex Thomas是Wisecube的首席数据科学家。他将自然语言处理和机器学习与临床数据、身份数据、雇主和求职者数据，以及现在的生物化学数据结合使用。Alex从Apache Spark 0.9版就开始使用，并使用过NLP库和框架，其中包括UIMA和OpenNLP。

查看Alex Thomas更多信息

本书封面上的动物是叫隼（学名：Milvago chimango），属于隼科的猛禽。
叫隼生活在南美洲灌木丛中，通常在水边，靠近城镇和田野。它们成群结队地生活，具有侵略性和领地意识。它们经常追逐较大的猛禽。
雄性和雌性叫隼都会筑巢并保护巢穴，孵化和喂养幼鸟。这些鸟吃昆虫、脊椎动物和腐肉，它们还可以在水面上捕鱼。
叫隼在其栖息地是比较常见的。O’Reilly封面上的许多动物濒临灭绝，所有这些对世界都很重要。

购买选项

定价：128.00元

书号：978-7-5198-6967-0

出版社：中国电力出版社

联系出版社邮购