基于PyTorch的自然语言处理
刘彦君, 周骏萧, 李思雨, 吴豪 译
出版时间:2020年07月
页数:248
“这是一本应用PyTorch探索NLP和深度学习很棒的书。本书作者做了十分卓越的工作,不仅清晰地解释了NLP概念,而且在每一章的代码中进行了演示,从而让我们使用PyTorch来解决实际的NLP任务。”
——Liling Tan
一位来自Rakuten的科学家
自然语言处理(NLP)为解决人工智能问题提供了无限的机会,从而使诸如Amazon Alexa和Google Translate之类的产品成为可能。如果你是初次接触NLP和深度学习的开发人员或数据科学家,本实用指南将向你展示如何使用PyTorch(基于Python的深度学习库)应用这些方法。
两位研究员为你提供了NLP和深度学习算法的坚实基础。他们还演示了如何使用PyTorch来构建应用程序,这些应用程序包含了你所遇到问题的丰富文本表示形式,并且每章都包含多个代码示例和说明。
● 探索计算图和监督学习范式。
● 掌握PyTorch优化张量库的基础。
● 概述传统的NLP概念和方法。
● 学习构建神经网络的基本思想。
● 检查前馈神经网络,例如多层感知器。
● 使用嵌入方式来表示单词、句子、文档等。
● 了解如何使用递归神经网络对序列数据建模。
● 探索序列预测并生成sequence-to-sequence模型。
● 学习用于构建NLP系统的设计模式。
- 前言
- 第1章 概述
- 监督学习范式
- 样本和目标编码
- 独热表示(one-hot)
- 词频表示(TF)
- TF-IDF表示
- 目标编码
- 计算图
- PyTorch基础
- 安装PyTorch
- 创建张量
- 张量的类型和大小
- 张量操作
- 索引、切片、连接
- 张量和计算图
- CUDA张量
- 练习题
- 答案
- 小结
- 参考文献
- 第2章 自然语言处理
- 语料库、词和类型
- 一元,二元,三元,…,n元模型
- 词形还原和词干提取
- 文档分类
- 单词分类:词性标注
- 广度分类:分块和命名实体识别
- 句子结构
- 词义与语义
- 小结
- 参考文献
- 第3章 神经网络基础
- 感知器:最简单的神经网络
- 激活函数
- 损失函数
- 深入监督训练
- 辅助训练的概念
- 案例:餐馆评论分类
- 小结
- 参考文献
- 第4章 用于自然语言处理的前馈网络
- 多层感知器
- 示例:用MLP进行姓氏分类
- 卷积神经网络
- 示例:使用CNN对姓氏进行分类
- CNN中的杂项主题
- 小结
- 参考文献
- 第5章 嵌入单词和类型
- 为什么学习嵌入?
- 示例:连续词袋模型的嵌入
- 示例:使用预先训练的嵌入进行文档分类
- 小结
- 参考文献
- 第6章 自然语言处理的序列建模
- 递归神经网络简介
- 示例:使用字符RNN对姓氏国籍进行分类
- 小结
- 参考文献
- 第7章 自然语言处理的中级序列建模
- 普通RNN(或Elman RNN)的问题
- 用门控方法解决普通RNN存在的问题
- 示例:用于生成姓氏的字符RNN
- 训练序列模型的技巧和窍门
- 参考文献
- 第8章 自然语言处理的高级序列建模
- 序列到序列模型,编码器-解码器模型和条件生成
- 从序列中捕获更多信息:双向递归模型
- 从序列中捕获更多信息:注意力
- 评估序列生成模型
- 示例:神经机器翻译
- 小结
- 参考文献
- 第9章 经典,前沿与下一步发展
- 到目前为止,我们学到了什么?
- NLP中的永恒主题
- NLP前沿
- 生产NLP系统的设计模式
- 接下来呢?
- 参考文献
书名:基于PyTorch的自然语言处理
译者:刘彦君, 周骏萧, 李思雨, 吴豪 译
国内出版社:中国电力出版社
出版时间:2020年07月
页数:248
书号:978-7-5198-4598-8
原版书书名:Natural Language Processing with PyTorch
原版书出版商:O'Reilly Media
Delip Rao
Delip Rao是Joostware的创始人。Joostware是一家总部位于旧金山的咨询公司,专门从事机器学习和NLP研究。他还是“假新闻挑战”的联合创始人,该倡议旨在将黑客和AI研究人员召集在一起,共同研究新闻媒体中与事实检查相关的问题。Delip之前曾在Twitter和Amazon(Alexa)从事NLP相关产品和研究的工作。
Brian McMahan
Brian McMahan是Wells Fargo的NLP研究科学家。在此之前,他曾在Joostware从事NLP研究。
本书封面的动物是戴菊(学名:Regulus goodfellowi),生活在高山的针叶林中。从鸣叫声,外貌和习性上看,这种鸟与亚洲大陆上的其他雀类最为相近。它的物种名称(Goodfellowi)是为了纪念英国野生动植物收藏家和鸟类学家Walter Goodfellow,是他最早对这种鸟进行了科学描述。
戴菊是一种高效的食虫猎手,虽然它只有3~5英寸长,重量仅为四分之一盎司,但它们在树上飞舞时仍保持近乎恒定的运动,在树枝间跳来跳去捕食小昆虫。戴菊的头顶有黑色条纹,顶部有橙黄色的斑点;眼睛周围覆盖着白色羽毛,像戴了面具一样;鸟身侧面为黄色,翅膀则是橄榄色。雄性鸟的橙色羽毛斑块较大,当它们由于领土或繁殖纠纷而发生冲突时,这些羽毛会升起,醒目的火焰色簇也是这种鸟英文命名的来源(Flamecrest)。戴菊不会迁徙,一年四季都留在一个地方,只会根据季节从一个海拔转移到另一个海拔。也许是由于它们栖息的山区较为偏僻,这种鸟类的繁殖习性鲜为人知,仍需研究。
尽管戴菊在其栖息范围内很常见,并且不算是受到威胁的物种,但其栖息范围仅限于受自然保护法保护的山区。山区的自然保护区(仅公园就覆盖了近3000平方英里的面积),不仅使戴菊之类的鸟类受到保护,而且广受登山爱好者和远足爱好者的欢迎。
O’Reilly封面上的许多动物都已濒临灭绝,每一个物种都是这个世界重要的一份子。如果你想了解更多信息,并为它们做些什么的话,请访问:animals.oreilly.com。