弱监督学习实用指南:用更少的数据做更多的事情
任艳杰, 吴楚仪, 耿飚, 刘伟翼, 曹俊, 张祥 译
出版时间:2022年12月
页数:196
“弱监督和数据编程是软件2.0的基础。《弱监督实用指南》很好地介绍了该领域的技术、工具、挑战和实践专业知识。对于利用数据和AI构建现代应用程序的开发人员来说,这是一本必读之书。”
——Vijay K. Narayanan
ServiceNow公司首席人工智能官
如今,绝大多数数据科学家和数据工程师基于高质量的标签数据集训练学习模型。但是,人工构建训练集既耗时又十分昂贵,以至于很多公司的机器学习项目无法完成。在本书中,有一种更为实用的方法,由Wee Hyong Tok、Amit Bahree和Senja Filipi展示如何使用弱监督学习模型创建产品。
你将学习如何通过使用Snorkel(斯坦福大学人工智能实验室的一个衍生产品),在弱标签数据集上建立自然语言处理和计算机视觉项目。因为很多公司研究的机器学习项目从未走出他们的实验室,所以本书还提供了如何在真实案例中使用构建的深度学习模型的指南。
● 了解弱监督领域的最新进展,包括将其用在数据科学过程中的方法
● 使用Snorkel AI进行弱监督和数据编程
● 获取使用Snorkel标记文本和图像数据集的代码示例
● 使用弱标签数据集进行文本和图像分类
● 了解使用 Snorkel 处理大型数据集和使用 Spark 集群扩展标签的注意事项
- 黄学东序
- Alex Ratner序
- 前言
- 第1章 弱监督介绍
- 什么是弱监督?
- Snorkel弱监督实例
- 弱监督的基本方法
- 数据编程
- 获取训练数据
- 总结
- 第2章使用Snorkel框架深入数据编程
- Snorkel数据编程框架
- 从标签函数开始
- 使用LabelModel达成标签一致性
- 改进标签功能的策略
- 使用Snorkel Transformers进行数据增强
- 总结
- 第3章 标记行为
- 标记文本数据集:识别假新闻
- 标记图像数据集:识别室内与室外图像
- 总结
- 第4章 使用Snorkel标记的数据集进行文本分类
- 自然语言处理(NLP)入门
- 硬性标签与概率性标签
- 使用ktrain进行文本分类
- 使用Hugging Face和Transformers
- 总结
- 第5章 使用Snorkel标注的数据集进行图像分类
- 视觉目标识别概述
- 使用PyTorch进行图像分类
- 总结
- 第6章 扩展性和分布式训练
- 可扩展性的需求
- 分布式训练
- Apache Spark引言
- 用Azure Databricks实现扩展
- Databricks上的假新闻检测数据集
- 总结
书名:弱监督学习实用指南:用更少的数据做更多的事情
译者:任艳杰, 吴楚仪, 耿飚, 刘伟翼, 曹俊, 张祥 译
国内出版社:东南大学出版社
出版时间:2022年12月
页数:196
书号:978-7-5766-0263-0
原版书书名:Practical Weak Supervision
原版书出版商:O'Reilly Media
Wee Hyong Tok
Wee Hyong Tok是微软AzureCAT团队的成员。他拥有丰富的领导经验,领导着由工程师和数据科学家组成的多学科团队,致力于研究将注入产品和服务的最前沿的人工智能功能。他极富技术远见,拥有产品管理、机器学习/深度学习以及处理复杂客户关系的背景。多年来,他展示了早期关于技术趋势的思想领导力白皮书已经成为现实,并已深入地集成到很多产品当中。他能制定战略并将战略转化为行动,另外能积极推进客户加以应用,这些能力使他参与的很多项目都获得了成功。他一直在推动机器学习和深度学习产品的发展。他的团队大量使用了深度学习框架,包括TensorFlow、CNTK、Keras和PyTorch。在他的职业生涯中,曾担任过很多角色,包括开发人员、程序/产品经理、数据科学家、研究员和战略家,他的丰富经验为他赋予了独特的超能力,能够很好地领导高效的数据和人工智能创新团队并定义发展战略。从财富500强企业到初创企业,他一直是企业高层信赖的顾问。
Amit Bahree
Amit Bahree是一位成就卓著的工程和技术领导者,拥有25年的经验,同时有组建和发展多个产品和团队的能力。
Senja Filipi
Senja Filipi拥有十多年的软件工程师经验,其中一半时间从事全栈机器学习应用程序工作。
封面上的动物是黄林莺(Setophaga petechia)。这些引人注目的黄色鸟类在北美各地随处可见,尤其是在河流和湿地附近。一年中的大部分时间,它们生活在柳树、桤木和棉白杨等树上,而在冬季则迁移到墨西哥、秘鲁和巴西的红树林。
黄林莺体型娇小、比例匀称,尾巴细直,头部呈圆形。正如它的名字一样,黄林莺身体呈蛋黄色,下面有红色的条纹,完美无瑕的脸上的鲜明色彩,凸显了它又大又黑的眼睛。这种明亮的鸟在不同地区之间只有细微的差别。在世界上的其他地方,如中美洲和南美洲的红树林,黄林莺亚种的头上有一个明亮的栗色冠,因此被称为“金色”黄莺。
它们的露天的、杯状的鸟巢通常筑在高灌木和矮树木的顶部。在它们的巢里,北美产的燕八哥也可能在这里产卵。为了阻止燕八哥,黄林莺会在燕八哥的蛋上面新筑造一层巢底,并且在这一层上产卵。它们继续创造尽可能多的巢底,就像燕八哥返回产卵以阻止它们一样。黄林莺的食物通常包括昆虫和树叶,它们通过在小树枝上快速跳跃来觅食。
黄林莺也可以通过它们独特而甜美的鸣叫声来辨别。这是柳树和林地边缘常见的声音,雄性会唱各种各样的歌,其中一些声音类似于木兰莺鸟或栗色边莺。目前,黄林莺的保护状况最不受关注,因为它们对次生林的亲和性使它们不容易受到栖息地丧失的影响。O’Reilly封面上的许多动物都濒临灭绝。这些动物对我们的世界都很重要。