自然语言处理实战:预训练模型应用及其产品化
王书鑫, 李锐, 丁舶洋, 罗远飞 译
出版时间:2022年07月
页数:276
“本书富有启发性。作者带领你遨游于自然语言处理的复杂世界。每一章都让你有所收获。”
——Benjamin Muskalla
高级软件工程师
在过去几年中,自然语言处理技术的受欢迎程度呈现“爆炸式”增长。尽管Google、Facebook、OpenAI等前沿公司继续发布着规模更大的语言模型,但许多开发团队仍在努力构建与时俱进的自然语言处理应用程序。本书将帮助你快速了解自然语言处理的新
技术及未来发展趋势。
通过阅读本书,你将学习如何为组织中的实际应用程序构建、训练和部署模型。作者使用突出现代自然语言处理最佳实践的代码和示例指导你完成整个过程。
本书的主要内容包括:
● 使用先进的自然语言处理模型(如BERT和GPT3)来解决命名实体识别、文本分类、语义搜索和阅读理解等自然语言处理任务。
● 开发性能可媲美甚至优于开箱即用系统的自然语言处理模型。
● 了解Transformer架构和现代技巧,比如席卷整个自然语言处理世界的迁移学习。
● 熟悉自然语言处理的工具和框架,包括spaCy、Hugging Face和fast.ai。
● 使用Python和PyTorch从头开始构建自然语言处理任务流水线的核心部分,包括分词器、向量嵌入和语言模型。
● 将你的模型从Jupyter Notebook中产品化,并学习如何在生产环境中部署、监控和维护它们。
- 前言
- 第一部分 浮光掠影
- 第1章 自然语言处理介绍
- 1.1 什么是自然语言处理
- 1.2 基本的自然语言处理
- 1.3 总结
- 第2章 Transformer和迁移学习
- 2.1 利用fast.ai库进行训练
- 2.2 利用Hugging Face系列库进行推理
- 2.3 总结
- 第3章 NLP任务和应用程序
- 3.1 预训练语言模型
- 3.2 迁移学习和微调
- 3.3 NLP任务
- 3.4 自然语言数据集
- 3.5 NLP任务1:命名实体识别
- 3.6 NLP任务2:文本分类
- 3.7 总结
- 第二部分 纲举目张
- 第4章 分词
- 4.1 一个极简的分词器
- 4.2 Hugging Face的分词器
- 4.3 搭建自己的分词器
- 4.4 总结
- 第5章 向量嵌入:计算机如何“理解”单词
- 5.1 理解文本与读取文本
- 5.2 词向量
- 5.3 词向量嵌入实践
- 5.4 非词条的嵌入
- 5.5 总结
- 第6章 循环神经网络和其他序列模型
- 6.1 循环神经网络
- 6.2 长短期记忆网络
- 6.3 门控循环单元
- 6.4 总结
- 第7章 Transformer
- 7.1 从头开始构建Transformer
- 7.2 注意力机制
- 7.3 计算机视觉Transformer
- 7.4 总结
- 第8章 BERT方法论:博采众长创新篇
- 8.1 ImageNet
- 8.2 通往NLP“ImageNet时刻”之路
- 8.3 预训练的词向量嵌入
- 8.4 序列模型
- 8.5 循环神经网络
- 8.6 注意力机制
- 8.7 Transformer架构
- 8.8 NLP的“ImageNet时刻”
- 8.9 总结
- 第三部分 经世致用
- 第9章 工欲善其事,必先利其器
- 9.1 深度学习框架
- 9.2 可视化与实验跟踪
- 9.3 AutoML
- 9.4 机器学习基础设施和计算
- 9.5 边缘/终端侧推理
- 9.6 云推理和机器学习即服务
- 9.7 持续集成和持续交付
- 9.8 总结
- 第10章 可视化
- 10.1 我们的第一个Streamlit应用程序
- 10.2 总结
- 第11章 产品化
- 11.1 数据科学家、工程师和分析师
- 11.2 Databricks:你的统一数据分析平台
- 11.3 Databricks的安装
- 11.4 机器学习作业
- 11.5 MLflow
- 11.6 Databricks的替代品
- 11.7 总结
- 第12章 归纳提升
- 12.1 最后十课
- 12.2 最后的话
- 附录A 大规模训练
- 附录B CUDA
书名:自然语言处理实战:预训练模型应用及其产品化
译者:王书鑫, 李锐, 丁舶洋, 罗远飞 译
国内出版社:机械工业出版社
出版时间:2022年07月
页数:276
书号:978-7-111-70791-2
原版书书名:Applied Natural Language Processing in the Enterprise
原版书出版商:O'Reilly Media
Ankur A. Patel
Ankur A. Patel是7Park data数据科学部门的副总裁(隶属于Vista Equity Partners投资组合公司)。在7Park data, Ankur和他的数据科学团队使用替代数据为对冲基金和企业构建数据产品,并为企业客户开发机器学习服务(MLaaS)。
Ankur A. Patel是Glean和Mellow的联合创始人。Glean使用自然语言处理技术生成供应商的支出情报信息,Mellow为程序员提供自然语言处理的API。此前,Ankur曾领导过7Park Data、ThetaRay、RSquared Macro、Bridgewater Associates(桥水联合基金) 和JPMorgan(摩根大通)的团队。他也是Hands-On Unsupervised Learning Using Python一书的作者。
Ajay Uppili Arasanipalai
Ajay Uppili Arasanipalai是美国伊利诺伊大学的一名学生,也是人工智能研究机构Landskape AI的联合创始人。作为伊利诺伊大学的ACM SIGAI分会的联合主席,他为本科生组织了教育研讨会和项目。Ajay撰写了许多热门文章,讨论了最先进的深度学习技术。
本书封面上的鸟是南山八哥(Gracula indica)。椋鸟家族的这个成员原产于印度西南部(西高止山脉)和斯里兰卡的森林。
这种有光泽的、彩虹色的黑色八哥头上有亮黄色的垂饰,其独特的图案和大小使这种鸟区别于其他山八哥。它还有橙色的喙、腿和脚,翅膀上有小白斑。成虫平均身长9英寸(1英寸大约为2.54厘米),包括它的短尾巴。与其他椋鸟一样,南山八哥常与同类结伴
而行,无论是成对还是成群,都以其尖锐的自然声音发声。
它们的食物主要是水果和花蜜,包括无花果和萨普浆果。它们是杂食性的,也会吃昆虫和其他小型猎物。
在野外,这些八哥有各种各样的叫声,其中一些是从其他鸟群成员那里学来的。一直以来,山八哥都被认为能很好地模仿人类的声音,正因为如此,山八哥被人类饲养,但也经常被从野外捕捉(有时每年数千只),用于国际笼养鸟类贸易。