自然语言处理实战:从入门到项目实践
Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana
吴进操, 黄若星 译
出版时间:2022年09月
页数:292
“很多图书侧重于机器学习的算法基础,这本书则全面剖析了从电子商务应用程序到虚拟助理等现实世界中的各种系统。对于热衷于构建和部署自然语言处理系统的专业人士,这本书是非常宝贵的参考资料。”
——Zachary Lipton
卡内基–梅隆大学助理教授
亚马逊人工智能科学家
《动手学深度学习》合著者

许多介绍自然语言处理(NLP)的书通过精心设计的示例和定义良好的数据集来展示如何解决NLP问题。但是,构建生产级NLP系统不能仅靠纸上谈兵。如果你想跨越理论与实践的鸿沟,在真实的业务环境中构建、迭代和扩展NLP系统,那么这就是为你而写的指南。
本书凝集了作者在微软、谷歌等头部公司的实践经验,详细阐释了NLP在文本分类、信息提取、聊天机器人、搜索和信息检索、主题建模、文本摘要、文本推荐、机器翻译、问答系统等常见场景中的应用,内容覆盖电商、社交媒体、医疗、金融、法律等垂直应用领域。通过阅读本书,你将为从0到1开发切实可用的NLP系统奠定牢固的知识基础。
● 了解NLP领域的问题、任务和解决方法
● 使用深度学习方法实现并评估不同的NLP应用程序
● 根据具体的业务问题和垂直应用领域调整NLP解决方案
● 掌握与NLP相关的各种算法和方法
● 遵循NLP系统的发布和部署实践
● 从产品角度理解NLP项目的机会和路线图
  1. 本书赞誉
  2. 前言
  3. 第一部分 基础
  4. 第1章 自然语言处理概要
  5. 1.1 真实世界中的自然语言处理
  6. 1.2 什么是语言
  7. 1.2.1 语言的基本模块
  8. 1.2.2 为什么自然语言处理很困难
  9. 1.3 机器学习、深度学习和自然语言处理:概述
  10. 1.4 自然语言处理方法
  11. 1.4.1 基于启发式的自然语言处理
  12. 1.4.2 用于自然语言处理的机器学习
  13. 1.4.3 用于自然语言处理的深度学习
  14. 1.4.4 为什么深度学习还不是自然语言处理的灵丹妙药
  15. 1.5 自然语言处理演练:会话智能体
  16. 1.6 小结
  17. 第2章 自然语言处理流水线
  18. 2.1 数据获取
  19. 2.2 文本提取和清洗
  20. 2.2.1 HTML解析和清洗
  21. 2.2.2 Unicode规范化
  22. 2.2.3 拼写更正
  23. 2.2.4 特定于系统的错误更正
  24. 2.3 预处理
  25. 2.3.1 预备步骤
  26. 2.3.2 常用步骤
  27. 2.3.3 其他预处理步骤
  28. 2.3.4 高级处理
  29. 2.4 特征工程
  30. 2.4.1 经典自然语言处理/ 机器学习流水线
  31. 2.4.2 深度学习流水线
  32. 2.5 建模
  33. 2.5.1 从简单的启发式开始
  34. 2.5.2 建立自己的模型
  35. 2.5.3 建立最终模型
  36. 2.6 评估
  37. 2.6.1 内在评估
  38. 2.6.2 外在评估
  39. 2.7 建模之后的阶段
  40. 2.7.1 部署
  41. 2.7.2 监控
  42. 2.7.3 模型更新
  43. 2.8 使用其他语言
  44. 2.9 案例研究
  45. 2.10 小结
  46. 第3章 文本表示
  47. 3.1 向量空间模型
  48. 3.2 基本的向量化方法
  49. 3.2.1 独热编码
  50. 3.2.2 词袋
  51. 3.2.3 n-gram袋
  52. 3.2.4 TF-IDF
  53. 3.3 分布式表示
  54. 3.3.1 词嵌入
  55. 3.3.2 词语之上
  56. 3.4 词和字符之上的分布式表示
  57. 3.5 通用文本表示
  58. 3.6 可视化嵌入
  59. 3.7 人工特征表示
  60. 3.8 小结
  61. 第二部分 核心
  62. 第4章 文本分类
  63. 4.1 应用程序
  64. 4.2 文本分类流水线
  65. 4.2.1 不使用文本分类流水线的简单分类器
  66. 4.2.2 使用现成的文本分类API
  67. 4.3 一个流水线,多个分类器
  68. 4.3.1 朴素贝叶斯分类器
  69. 4.3.2 逻辑回归
  70. 4.3.3 SVM
  71. 4.4 在文本分类中使用神经嵌入
  72. 4.4.1 词嵌入
  73. 4.4.2 子词嵌入和fastText
  74. 4.4.3 文档嵌入
  75. 4.5 用于文本分类的深度学习
  76. 4.5.1 用于文本分类的CNN
  77. 4.5.2 用于文本分类的LSTM
  78. 4.5.3 使用大型预训练语言模型进行文本分类
  79. 4.6 解释文本分类模型
  80. 4.7 无数据或少数据学习和新领域适应
  81. 4.7.1 无训练数据
  82. 4.7.2 少训练数据:主动学习和领域适应
  83. 4.8 案例研究:企业工单系统
  84. 4.9 实用建议
  85. 4.10 小结
  86. 第5章 信息提取
  87. 5.1 信息提取应用程序
  88. 5.2 信息提取任务
  89. 5.3 信息提取的通用流水线
  90. 5.4 关键词提取
  91. 5.4.1 实现关键词提取
  92. 5.4.2 实用建议
  93. 5.5 命名实体识别
  94. 5.5.1 构建命名实体识别系统
  95. 5.5.2 命名实体识别:使用现有库
  96. 5.5.3 命名实体识别:使用主动学习
  97. 5.5.4 实用建议
  98. 5.6 命名实体消歧与链接
  99. 5.7 关系提取
  100. 5.7.1 关系提取的方法
  101. 5.7.2 关系提取:使用IBM沃森API
  102. 5.8 其他高级信息提取任务
  103. 5.8.1 时间信息提取
  104. 5.8.2 事件提取
  105. 5.8.3 模板填充
  106. 5.9 案例研究
  107. 5.10 小结
  108. 第6章 聊天机器人
  109. 6.1 聊天机器人的应用
  110. 一个简单的FAQ机器人
  111. 6.2 聊天机器人的分类
  112. 6.2.1 目标导向对话式
  113. 6.2.2 闲聊式
  114. 6.3 构建对话系统的流水线
  115. 6.4 对话系统原理
  116. 6.5 深入对话系统的组件
  117. 6.5.1 对话行为分类
  118. 6.5.2 识别插槽
  119. 6.5.3 生成响应
  120. 6.5.4 带有代码演练的对话示例
  121. 6.6 其他对话流水线
  122. 6.6.1 端到端方法
  123. 6.6.2 用于对话生成的深度强化学习
  124. 6.6.3 人工监督
  125. 6.7 Rasa NLU
  126. 6.8 案例研究:食谱推荐
  127. 6.8.1 利用现有框架
  128. 6.8.2 开放式生成聊天机器人
  129. 6.9 小结
  130. 第7章 主题简介
  131. 7.1 搜索和信息检索
  132. 7.1.1 搜索引擎组件
  133. 7.1.2 常见企业搜索流水线
  134. 7.1.3 一个配置搜索引擎的例子
  135. 7.1.4 案例研究:书店搜索
  136. 7.2 主题建模
  137. 7.2.1 一个构建主题模型的例子
  138. 7.2.2 下一步是什么
  139. 7.3 文本摘要
  140. 7.3.1 摘要用例
  141. 7.3.2 一个设置摘要器的示例
  142. 7.3.3 实用建议
  143. 7.4 文本推荐系统
  144. 7.4.1 一个图书推荐系统示例
  145. 7.4.2 实用建议
  146. 7.5 机器翻译
  147. 7.5.1 一个使用机器翻译API的示例
  148. 7.5.2 实用建议
  149. 7.6 问答系统
  150. 7.6.1 开发自定义问答系统
  151. 7.6.2 寻找更有深度的答案
  152. 7.7 小结
  153. 第三部分 应用
  154. 第8章 社交媒体
  155. 8.1 应用
  156. 8.2 独特的挑战
  157. 8.3 用于社交平台数据的自然语言处理
  158. 8.3.1 词云
  159. 8.3.2 用于SMTD的分词器
  160. 8.3.3 热门话题
  161. 8.3.4 理解Twitter的情绪
  162. 8.3.5 SMTD的预处理
  163. 8.3.6 SMTD的文本表示
  164. 8.3.7 社交媒体渠道的客户支持
  165. 8.4 模因与虚假新闻
  166. 8.4.1 识别模因
  167. 8.4.2 虚假新闻
  168. 8.5 小结
  169. 第9章 电子商务与零售
  170. 9.1 电子商务目录
  171. 9.1.1 评论分析
  172. 9.1.2 产品搜索
  173. 9.1.3 产品推荐
  174. 9.2 电子商务中的搜索
  175. 9.3 构建电子商务目录
  176. 9.3.1 属性提取
  177. 9.3.2 产品分类与分类树
  178. 9.3.3 产品浓缩
  179. 9.3.4 产品除重和匹配
  180. 9.4 评论分析
  181. 9.4.1 情感分析
  182. 9.4.2 方面级情感分析
  183. 9.4.3 将总体评分与“方面”联系起来
  184. 9.4.4 理解“方面”
  185. 9.5 电子商务推荐
  186. 9.6 小结
  187. 第10章 医疗、金融和法律
  188. 10.1 医疗
  189. 10.1.1 健康和医疗记录
  190. 10.1.2 患者优先级和计费
  191. 10.1.3 药物安全监视
  192. 10.1.4 临床决策支持系统
  193. 10.1.5 健康助理
  194. 10.1.6 电子健康记录
  195. 10.1.7 心理健康监测
  196. 10.1.8 医疗信息提取与分析
  197. 10.2 金融与法律
  198. 10.2.1 自然语言处理在金融领域中的应用
  199. 10.2.2 自然语言处理与法律行业
  200. 10.3 小结
  201. 第四部分 综合
  202. 第11章 端到端自然语言处理过程
  203. 11.1 重温自然语言处理流水线:部署自然语言处理软件
  204. 11.2 构建和维护成熟的系统
  205. 11.2.1 寻找更好的特征
  206. 11.2.2 迭代现有模型
  207. 11.2.3 代码和模型再现性
  208. 11.2.4 故障排除和可解释性
  209. 11.2.5 监控
  210. 11.2.6 尽量减少技术债务
  211. 11.2.7 自动化机器学习
  212. 11.3 数据科学过程
  213. 11.3.1 KDD过程
  214. 11.3.2 微软TDSP
  215. 11.4 让人工智能在组织中取得成功
  216. 11.4.1 团队
  217. 11.4.2 正确的问题和正确的期望
  218. 11.4.3 数据和时间
  219. 11.4.4 好的流程
  220. 11.4.5 其他方面
  221. 11.5 展望未来
  222. 11.6 结语
书名:自然语言处理实战:从入门到项目实践
译者:吴进操, 黄若星 译
国内出版社:人民邮电出版社
出版时间:2022年09月
页数:292
书号:978-7-115-59789-2
原版书书名:Practical Natural Language Processing
原版书出版商:O'Reilly Media
Sowmya Vajjala
 
Sowmya Vajjala拥有德国图宾根大学计算语言学博士学位,曾就职于微软研究院,拥有跨学术界和工业界的自然语言处理经验。
 
 
Bodhisattwa Majumder
 
Bodhisattwa Majumder曾在谷歌和微软研究院构建自然语言处理系统,为数百万用户提供产品服务。
 
 
Anuj Gupta
 
Anuj Gupta为《财富》100强公司和多家创业公司孵化和组建了机器学习团队。
 
 
Harshit Surana
 
Harshit Surana是DeepFlux公司的联合创始人兼CTO,曾在卡内基–梅隆大学和麻省理工学院媒体实验室研究自然语言处理和机器学习。
 
 
本书封面上的动物是折衷鹦鹉(Eclectus roratus)。折衷鹦鹉原产于大洋洲的低地雨林。从澳大利亚的东北部到印度尼西亚的摩鹿加群岛,到处都可以找到折衷鹦鹉。几个世纪以来,折衷鹦鹉在印度尼西亚和新几内亚被驯化,它们的羽毛被用来制作精美的头饰,用来显示一个人的地位或与鸟类的亲属关系。
折衷鹦鹉雄鸟的羽毛是亮绿色的,翅膀下有红色和蓝色的点缀,而雌鸟有红色的头部和紫蓝色的胸部。这种鹦鹉的雄鸟和雌鸟是鹦鹉家族中不同性别外形差异最大的,早期生物学家甚至将它们归类为不同的物种。折衷鹦鹉和其他鹦鹉的另一个区别是实行多配偶制。这使得雌鸟可以安全筑巢长达11 个月而不用经常外出觅食,因为它们可以依靠多只雄鸟为它们觅食。
购买选项
定价:109.80元
书号:978-7-115-59789-2
出版社:人民邮电出版社