面向机器学习的自然语言标注
James Pustejovsky, Amber Stubbs
邱立坤, 金澎, 王萌 译
出版时间:2017年02月
页数:293
创建读者自己的面向机器学习的自然语言训练语料库。无论是以英文、中文,还是以其他任何自然语言为处理对象,这本实践型专著都可以引导读者完成整个标注的开发:向训练语料库中添加元数据信息以帮助机器学习算法更有效地工作。学习本书时不需要读者具备任何编程或语言学经验。
通过各步骤的详细示例,可以学习到MATTER标注开发过程如何帮助读者建模、标注、训练、测试、评价和修改训练语料库。同时,读者还可以亲自实践一个实际的标注项目,了解其完整流程。

● 在收集数据集(语料库)前确定清晰的标注目标。
● 学习用于分析语料库语言内容的工具。
● 为标注项目建立模型和规格说明。
● 从基本的XML到语言标注框架,考查各种标注格式。
● 创建可用于训练和测试机器学习算法的黄金标准语料库。
● 选择用于处理标注数据的机器学习算法。
● 评价测试结果并修改标注任务。
● 学习使用轻量级软件来标注文本及审核标注结果。

“语言标注是自然语言处理的一个关键部分,但是现有的计算语言学课程却少有涉及。本书是难得的一本从实践角度讨论自然语言标注,并且以服务于机器学习算法为目的来考察标注规格与设计的专著。它必将成为本科生和研究生计算语言学课程的一个标准。”
——Nancy Ide
瓦萨学院计算机科学系教授
  1. 前言
  2. 第1章 基础知识
  3. 1.1 语言标注的重要性
  4. - 1.1.1 语言学描述的层次
  5. - 1.1.2 什么是自然语言处理
  6. 1.2 语料库语言学简史
  7. - 1.2.1 什么是语料库
  8. - 1.2.2 语料库的早期应用
  9. - 1.2.3 当今的语料库
  10. - 1.2.4 标注类型
  11. 1.3 语言数据和机器学习
  12. - 1.3.1 分类
  13. - 1.3.2 聚类
  14. - 1.3.3 结构化模式归纳
  15. 1.4 标注开发循环
  16. - 1.4.1 现象建模
  17. - 1.4.2 按照规格说明进行标注
  18. - 1.4.3 在语料库上训练和测试算法
  19. - 1.4.4 对结果进行评价
  20. - 1.4.5 修改模型和算法
  21. 总结
  22. 第2章 确定目标与选择数据
  23. 2.1 定义目标
  24. - 2.1.1 目标陈述
  25. - 2.1.2 提炼目标:信息量与正确性
  26. 2.2 背景研究
  27. - 2.2.1 语言资源
  28. - 2.2.2 机构与会议
  29. - 2.2.3 自然语言处理竞赛
  30. 2.3 整合数据集
  31. - 2.3.1 理想的语料库:代表性与平衡性
  32. - 2.3.2 从因特网上收集数据
  33. - 2.3.3 从人群中获取数据
  34. 2.4 语料库的规模
  35. - 2.4.1 现有语料库
  36. - 2.4.2 语料库内部的分布
  37. 总结
  38. 第3章 语料库分析
  39. 3.1 语料库分析中的基本概率知识
  40. - 3.1.1 联合概率分布
  41. - 3.1.2 贝叶斯定理
  42. 3.2 计算出现次数
  43. - 3.2.1 齐普夫定律(Zip's Law)
  44. - 3.2.2 n元语法
  45. 3.3 语言模型
  46. 总结
  47. 第4章 建立模型与规格说明
  48. 4.1 模型和规格说明示例
  49. - 4.1.1 电影题材分类
  50. - 4.1.2 添加命名实体
  51. - 4.1.3 语义角色
  52. 4.2 采用(或不采用)现有模型
  53. - 4.2.1 创建模型和规格说明:一般性与特殊性
  54. - 4.2.2 使用现有模型和规格说明
  55. - 4.2.3 使用没有规格说明的模型
  56. 4.3 各种标准
  57. - 4.3.1 ISO标准
  58. - 4.3.2 社区驱动型标准
  59. - 4.3.3 影响标注的其他标准
  60. 总结
  61. 第5章 选择并应用标注标准
  62. 5.1 元数据标注:文档分类
  63. - 5.1.1 单标签标注:电影评论
  64. - 5.1.2 多标签标注:电影题材
  65. 5.2 文本范围标注:命名实体
  66. - 5.2.1 内嵌式标注
  67. - 5.2.2 基于词例的分离式标注
  68. - 5.2.3 基于字符位置的分离式标注
  69. 5.3 链接范围标注:语义角色
  70. 5.4 ISO标准和你
  71. 总结
  72. 第6章 标注与审核
  73. 6.1 标注项目的基本结构
  74. 6.2 标注规格说明与标注指南
  75. 6.3 准备修改
  76. 6.4 准备用于标注的数据
  77. - 6.4.1 元数据
  78. - 6.4.2 数据预处理
  79. - 6.4.3 为标注工作分割文件
  80. 6.5 撰写标注指南
  81. - 6.5.1 例1:单标签标注——电影评论
  82. - 6.5.2 例2:多标签标注——电影题材
  83. - 6.5.3 例3:范围标注——命名实体
  84. - 6.5.4 例4:链接范围标注——语义角色
  85. 6.6 标注人员
  86. 6.7 选择标注环境
  87. 6.8 评价标注结果
  88. - 6.8.1 Cohen的Kappa(κ)算法
  89. - 6.8.2 Fleiss的Kappa(κ)算法
  90. - 6.8.3 解释Kappa系数
  91. - 6.8.4 在其他上下文中计算κ值
  92. 6.9 创建黄金标准(审核)
  93. 总结
  94. 第7章 训练:机器学习
  95. 7.1 何谓学习
  96. 7.2 定义学习任务
  97. 7.3 分类算法
  98. - 7.3.1 决策树学习
  99. - 7.3.2 朴素贝叶斯学习
  100. - 7.3.3 最大熵分类器
  101. - 7.3.4 其他需要了解的分类器
  102. 7.4 序列归纳算法
  103. 7.5 聚类和无监督学习
  104. 7.6 半监督学习
  105. 7.7 匹配标注与算法
  106. 总结
  107. 第8章 测试与评价
  108. 8.1 测试算法
  109. 8.2 评价算法
  110. - 8.2.1 混淆矩阵
  111. - 8.2.2 计算评价得分
  112. - 8.2.3 解释评价得分
  113. 8.3 可能影响算法评价的问题
  114. - 8.3.1 数据集太小
  115. - 8.3.2 算法过于适合开发数据
  116. - 8.3.3 标注中的信息过多
  117. 8.4 最后测试得分
  118. 总结
  119. 第9章 修改与报告
  120. 9.1 修改项目
  121. - 9.1.1 语料库分布和内容
  122. - 9.1.2 模型和规格说明
  123. - 9.1.3 标注
  124. - 9.1.4 训练和测试
  125. 9.2 报告工作
  126. - 9.2.1 关于语料库
  127. - 9.2.2 关于模型和规格说明
  128. - 9.2.3 关于标注任务和标注人员
  129. - 9.2.4 关于ML算法
  130. - 9.2.5 关于修改
  131. 总结
  132. 第10章 标注:TimeML
  133. 10.1 TimeML的设计目标
  134. 10.2 相关研究
  135. 10.3 建设语料库
  136. 10.4 模型:初步的标注规格说明
  137. - 10.4.1 时间
  138. - 10.4.2 信号
  139. - 10.4.3 事件
  140. - 10.4.4 链接
  141. 10.5 标注:最初的尝试
  142. 10.6 模型:TimeBank中的TimeML标注规格说明
  143. - 10.6.1 时间表达式
  144. - 10.6.2 事件
  145. - 10.6.3 信号
  146. - 10.6.4 链接
  147. - 10.6.5 可信度
  148. 10.7 标注:TimeBank的产生
  149. 10.8 TimeML成为ISO-TimeML
  150. 10.9 对未来建模:TimeML的发展方向
  151. - 10.9.1 叙事容器
  152. - 10.9.2 将TimeML扩展到其他领域
  153. - 10.9.3 事件结构
  154. 总结
  155. 第11章 自动标注:生成TimeML
  156. 11.1 TARSQI组件
  157. - 11.1.1 GUTime:时间标志识别
  158. - 11.1.2 EVITA:事件识别及分类
  159. - 11.1.3 GUTenLINK
  160. - 11.1.4 Slinket
  161. - 11.1.5 SputLink
  162. - 11.1.6 TARSQI组件中的机器学习
  163. 11.2 TTK的改进
  164. - 11.2.1 结构变化
  165. - 11.2.2 时间实体识别改进:BTime
  166. - 11.2.3 时间关系识别
  167. - 11.2.4 时间关系验证
  168. - 11.2.5时间关系可视化
  169. 11.3 TimeML竞赛:TempEval-2
  170. - 11.3.1 TempEval-2:系统概述
  171. - 11.3.2 成果综述
  172. 11.4 TTK的未来
  173. - 11.4.1 新的输入格式
  174. - 11.4.2 叙事容器/叙事时间
  175. - 11.4.3 医学文档
  176. - 11.4.4 跨文档分析
  177. 总结
  178. 第12章 后记:标注的未来发展趋势
  179. 12.1 众包标注
  180. - 12.1.1 亚马逊土耳其机器人
  181. - 12.1.2 有目的的游戏
  182. - 12.1.3 用户生成内容
  183. 12.2 处理大数据
  184. - 12.2.1 Boosting算法
  185. - 12.2.2 主动学习
  186. - 12.2.3 半监督学习
  187. 12.3 NLP在线和在云端
  188. - 12.3.1 分布式计算
  189. - 12.3.2 语言资源共享
  190. - 12.3.3 语言应用共享
  191. 结语
  192. 附录A 可利用的语料库与标注规格说明列表
  193. 附录B 软件资源列表
  194. 附录C MAE用户指南
  195. 附录D MAI用户指南
  196. 附录E 参考文献
书名:面向机器学习的自然语言标注
译者:邱立坤, 金澎, 王萌 译
国内出版社:机械工业出版社
出版时间:2017年02月
页数:293
书号:978-7-111-55515-5
原版书书名:Natural Language Annotation for Machine Learning
原版书出版商:O'Reilly Media
James Pustejovsky
 
James Pustejovsky是布兰迪斯大学计算机科学系教授,从事人工智能和计算语言学领域的教学和研究工作。
James Pustejovsky teaches and does research in Artificial Intelligence and Computational Linguistics in the Computer Science Department at Brandeis University. His main areas of interest include: lexical meaning, computational semantics, temporal and spatial reasoning, and corpus linguistics. He is active in the development of standards for interoperability between language processing applications, and lead the creation of the recently adopted ISO standard for time annotation, ISO-TimeML. He is currently heading the development of a standard for annotating spatial information in language. More information on publications and research activities can be found at his webpage: pusto.com.
 
 
Amber Stubbs
 
Amber Stubbs博士于2013年在布兰迪斯大学计算机科学系取得博士学位,其博士论文的主题是自然语言标注方法论。之后Amber Stubbs博士任纽约州立大学阿尔巴尼分校博士后研究员,目前是波士顿西蒙斯学院图书馆与信息科学学院及计算机科学专业的助理教授。
Amber Stubbs recently completed her Ph.D. in Computer Science at Brandeis University, and is currently a Postdoctoral Associate at SUNY Albany. Her dissertation focused on creating an annotation methodology to aid in extracting high-level information from natural language files, particularly biomedical texts. Her website can be found at http://pages.cs.brandeis.edu/~astubbs/