Transformer自然语言处理实战
叶伟民, 叶志远 译
出版时间:2024年01月
页数:342
“本书是介绍Transformers库的典范,内容清晰明了。”
——Jeremy Howard
fast.ai联合创始人,昆士兰大学教授
“一本能为现代自然语言处理提供清晰指导的精彩指南,强烈推荐!”
——Christopher Manning
斯坦福大学计算机科学系机器学习领域首任Thomas M. Siebel教授
自Transformer在2017年发布以来,自然语言处理领域就迈入了一个全新的时代。以Transformer为基础的模型,不断推动着自然语言处理技术的进步与革新。如今随着ChatGPT的发布与流行,Transformer也被越来越多的人所了解和使用。
本书以Hugging Face Transformers库为基础,旨在向读者介绍Transformer模型的基础知识和快速入门方式,帮助读者完成训练和扩展。三位作者都是Hugging Face Transformers的创建者,深谙Transformer的原理与架构,将通过实际案例“手把手”地帮助读者构建各种自然语言处理任务,并不断挖掘Transformer的无限潜力,从而实现更广泛的应用和创新。
通过本书,你将:
● 以NLP领域最具代表性的任务(文本分类、命名实体识别和问答系统)为例,学习构建、调试和优化Transformer模型。
● 了解Transformer如何应用于跨语言迁移学习。
● 学习如何在标注数据稀缺的场景中应用Transformer。
● 使用蒸馏、剪枝和量化等技术优化Transformer。
● 学习如何对Transformer做分布式并行训练。
- 序
- 前言
- 第1章 欢迎来到Transformer的世界
- 1.1 编码器-解码器框架
- 1.2 注意力机制
- 1.3 NLP的迁移学习
- 1.4 Hugging FaceTransformers库:提供规范化接口
- 1.5 Transformer应用概览
- 1.6 Hugging Face生态系统
- 1.7 Transformer的主要挑战
- 1.8 本章小结
- 第2章 文本分类
- 2.1 数据集
- 2.2 将文本转换成词元
- 2.3 训练文本分类器
- 2.4 本章小结
- 第3章 Transformer架构剖析
- 3.1 Transformer架构
- 3.2 编码器
- 3.3 解码器
- 3.4 认识Transformer
- 3.5本章小结
- 第4章 多语言命名实体识别
- 4.1 数据集
- 4.2 多语言Transformer
- 4.3 多语言词元化技术
- 4.4 命名实体识别中的Transformers
- 4.5 自定义Hugging Face Transformers库模型类
- 4.6 NER的词元化
- 4.7 性能度量
- 4.8 微调XLM-RoBERTa
- 4.9 错误分析
- 4.10 跨语言迁移
- 4.11 用模型小部件进行交互
- 4.12 本章小结
- 第5章 文本生成
- 5.1 生成连贯文本的挑战
- 5.2 贪婪搜索解码
- 5.3 束搜索解码
- 5.4 采样方法
- 5.5 top-k和核采样
- 5.6 哪种解码方法最好
- 5.7 本章小结
- 第6章 文本摘要
- 6.1 CNN/DailyMail数据集
- 6.2 文本摘要pipeline
- 6.3 比较不同的摘要
- 6.4 度量生成文本的质量
- 6.5 在CNN/DailyMail数据集上评估PEGASUS
- 6.6 训练摘要模型
- 6.7 本章小结
- 第7章 构建问答系统
- 7.1 构建基于评论的问答系统
- 7.2 评估并改进问答pipeline
- 7.3 生成式问答
- 7.4 本章小结
- 第8章 Transformer模型调优
- 8.1 以意图识别为例
- 8.2 创建性能基准
- 8.3 通过知识蒸馏减小模型大小
- 8.4 利用量化技术使模型运算更快
- 8.5 基准测试量化模型
- 8.6 使用ONNX和ONNX Runtime进行推理优化
- 8.7 使用权重剪枝使模型更稀疏
- 8.8 本章小结
- 第9章 零样本学习和少样本学习
- 9.1 构建GitHub issue标记任务
- 9.2 基线模型—朴素贝叶斯
- 9.3 零样本学习
- 9.4 少样本学习
- 9.5 利用无标注数据
- 9.6 本章小结
- 第10章 从零训练Transformer模型
- 10.1 如何寻找大型数据集
- 10.2 构建词元分析器
- 10.3 从零训练一个模型
- 10.4 结果与分析
- 10.5 本章小结
- 第11章 未来发展趋势
- 11.1 Transformer的扩展
- 11.2 其他应用领域
- 11.3 多模态的Transformer
- 11.4 继续前行的建议
书名:Transformer自然语言处理实战
译者:叶伟民, 叶志远 译
国内出版社:机械工业出版社
出版时间:2024年01月
页数:342
书号:978-7-111-74192-3
原版书书名:Natural Language Processing with Transformers
原版书出版商:O'Reilly Media
Lewis Tunstall
Lewis Tunstall是Hugging Face机器学习工程师,致力于为NLP社区开发实用工具,并帮助人们更好地使用这些工具。
Leandro von Werra
Leandro von Werra是Hugging Face机器学习工程师,致力于代码生成模型的研究与社区推广工作。
Thomas Wolf
Thomas Wolf是Hugging Face首席科学官兼联合创始人,他的团队肩负着促进AI研究和普及的使命。
本书封面上的动物是虹彩吸蜜鹦鹉(Coconut Lorikeet,学名Trichoglossus haematodus)。它是长尾小鹦鹉和鹦鹉的近亲,也被称为绿颈鹦鹉,原产于大洋洲。
虹彩吸蜜鹦鹉的羽毛融入了热带和亚热带丰富多彩的环境,它的脖子上有黄绿色环带,头部为深蓝色,头部末端是橙红色的喙,眼睛是橙色的,胸部羽毛是红色的。虹彩吸蜜鹦鹉是七种吸蜜鹦鹉中尖尾最长的,从上往下看是绿色,从下往上看是黄色。它身长为10~12in(或25~30cm),重为3.8~4.8oz(或108~136g)。
虹彩吸蜜鹦鹉实行一夫一妻制,一次会排出两颗卵。它们在80ft(约24m)高的桉树上筑巢,在野外能生活15~20年。虹彩吸蜜鹦鹉因其美丽的羽毛而被当成宠物进行交易。由于被大范围捕获和人为破坏栖息地,它曾一度被列为濒危物种。
O'Reilly出版社的图书封面上的许多动物都濒临灭绝,它们对世界都很重要。