社交网站的数据挖掘与分析(原书第3版)
Matthew A. Russell, Mikhail Klassen
苏统华, 郭勇, 潘巍 译
出版时间:2021年01月
页数:347
“基于认知计算技术,数据可以为你带来无限活力。对于那些希望使用现代数据科学方法动手挖掘当前庞大的社交网站数据的人来说,本书是必不可少的。”
——Rohan Khairnar
北卡罗来纳大学夏洛特分校
高级数据和知识发现学院
分析师和数据科学家
“在这个数字时代,从社交网站的虚拟世界中获得真知灼见已成为一项必不可少的技能。对于任何想使用神奇的挖掘和分析技术来善用社交数据的人而言,本书都是完整而简明的指南。”
——Stuthi Parameshwara Rao
北卡罗来纳大学夏洛特分校
信息技术学院数据分析师
本书指导你挖掘隐藏在Twitter、Facebook、LinkedIn、Instagram和GitHub等流行社交网站上的丰富数据。通过这本畅销指南,数据科学家、分析师和程序员将学习如何在Jupyter Notebook或者Docker容器中使用Python代码分析社交媒体中的真知灼见——哪些人正在通过社交媒体进行联系?他们正在谈论什么?他们目前身在何处?
在本书的第一部分,每一章都聚焦社交网站生态的某个具体方面,囊括了各大主流社交网站,也包括了网页、博客和订阅源、邮箱、GitHub以及新增加的Instagram的内容。第二部分提供了实用指南,其中包括超过20个供挖掘Twitter数据之用的简短代码解决方案。
通过阅读本书,你将能够:
● 极速鸟瞰社交网站生态。
● 将每章的代码打包为Jupyter Notebook,并使用Docker轻松运行。
● 借用并活用开源GitHub代码库。
● 了解如何使用Python 3工具对收集的数据条分缕析。
● 使用先进的数据挖掘技术,如TF-IDF、余弦相似度、共现分析、团检测和图像识别。
● 借助Python和JavaScript工具包构建漂亮的数据可视化。
  1. 前言
  2. 第一部分 社交网站导引
  3. 序幕
  4. 第1章 挖掘Twitter:探索热门话题、发现人们的谈论内容等
  5. 1.1 概述
  6. 1.2 Twitter风靡一时的原因
  7. 1.3 探索Twitter API
  8. 1.3.1 基本的Twitter术语
  9. 1.3.2 创建一个Twitter API连接
  10. 1.3.3 探索热门话题
  11. 1.3.4 搜索推文
  12. 1.4 分析140字(或更多)的推文
  13. 1.4.1 提取推文实体
  14. 1.4.2 使用频率分析技术分析推文和推文实体
  15. 1.4.3 计算推文的词汇丰富性
  16. 1.4.4 检视转推模式
  17. 1.4.5 使用直方图将频率数据可视化
  18. 1.5 本章小结
  19. 1.6 推荐练习
  20. 1.7 在线资源
  21. 第2章 挖掘Facebook:分析粉丝页面、查看好友关系等
  22. 2.1 概述
  23. 2.2 探索Facebook的图谱API
  24. 2.2.1 理解图谱API
  25. 2.2.2 理解开放图协议
  26. 2.3 分析社交图谱联系
  27. 2.3.1 分析Facebook页面
  28. 2.3.2 使用pandas作数据
  29. 2.4 本章小结
  30. 2.5 推荐练习
  31. 2.6 在线资源
  32. 第3章 挖掘Instagram:计算机视觉、神经网络、对象识别和人脸检测
  33. 3.1 概述
  34. 3.2 探索Instagram API
  35. 3.2.1 建立Instagram API请求
  36. 3.2.2 获取你自己的Instagram订阅源
  37. 3.2.3 通过主题标签检索媒体
  38. 3.3 Instagram帖子的剖析
  39. 3.4 人工神经网络速成
  40. 3.4.1 训练神经网络“看”图片
  41. 3.4.2 手写数字识别
  42. 3.4.3 使用预训练的神经网络在照片中识别物体
  43. 3.5 神经网络在Instagram帖子中的应用
  44. 3.5.1 标记图像内容
  45. 3.5.2 在图像中检测人脸
  46. 3.6 本章小结
  47. 3.7 推荐练习
  48. 3.8 在线资源
  49. 第4章 挖掘LinkedIn:分组职位、聚类同行等
  50. 4.1 概述
  51. 4.2 探索LinkedIn API
  52. 4.2.1 发起LinkedIn API请求
  53. 4.2.2 下载LinkedIn的联系人并保存为CSV文件
  54. 4.3 数据聚类速成
  55. 4.3.1 对数据进行规范化处理以便进行分析
  56. 4.3.2 测量相似度
  57. 4.3.3 聚类算法
  58. 4.4 本章小结
  59. 4.5 推荐练习
  60. 4.6 在线资源
  61. 第5章 挖掘文本文件:计算文档相似度、提取搭配等
  62. 5.1 概述
  63. 5.2 文本文件
  64. 5.3 TF-IDF简介
  65. 5.3.1 词频
  66. 5.3.2 逆文档频率
  67. 5.3.3 TF-IDF
  68. 5.4 用TF-IDF查询人类语言数据
  69. 5.4.1 自然语言工具包概述
  70. 5.4.2 对人类语言使用TF-IDF
  71. 5.4.3 查找相似文档
  72. 5.4.4 分析人类语言中的二元文法
  73. 5.4.5 分析人类语言数据的反思
  74. 5.5 本章小结
  75. 5.6 推荐练习
  76. 5.7 在线资源
  77. 第6章 挖掘网页:使用自然语言处理理解人类语言、总结博客内容等
  78. 6.1 概述
  79. 6.2 抓取、解析和爬取网页
  80. 6.3 通过解码语法来探索语义
  81. 6.3.1 一步步讲解自然语言处理
  82. 6.3.2 人类语言数据中的句子检测
  83. 6.3.3 文档摘要
  84. 6.4 以实体为中心的分析:范式转换
  85. 6.5 人类语言数据处理分析的质量
  86. 6.6 本章小结
  87. 6.7 推荐练习
  88. 6.8 在线资源
  89. 第7章 挖掘邮箱:分析谁和谁说什么以及说的频率等
  90. 7.1 概述
  91. 7.2 获取和处理邮件语料库
  92. 7.2.1 Uni邮箱指南
  93. 7.2.2 获得Enron数据
  94. 7.2.3 将邮件语料转换为Uni邮箱
  95. 7.2.4 将Uni邮箱转换为pandas DataFrame
  96. 7.3 分析Enron语料库
  97. 7.3.1 根据日期/时间范围查询
  98. 7.3.2 发件人/收件人通信的分析模式
  99. 7.3.3 根据关键词查找邮件
  100. 7.4 分析你自己的邮件数据
  101. 7.4.1 通过OAuth访问你的Gmail
  102. 7.4.2 获取和解析邮件
  103. 7.4.3 Immersion对电子邮件的可视化模式
  104. 7.5 本章小结
  105. 7.6 推荐练习
  106. 7.7 在线资源
  107. 第8章 挖掘GitHub:检查软件协同习惯、构建兴趣图谱等
  108. 8.1 概述
  109. 8.2 探索GitHub的API
  110. 8.2.1 建立GitHub API连接
  111. 8.2.2 建立GitHub API请求
  112. 8.3 使用属性图为数据建模
  113. 8.4 分析GitHub兴趣图谱
  114. 8.4.1 初始化一个兴趣图谱
  115. 8.4.2 计算图的中心度度量
  116. 8.4.3 为用户添加“关注”边来扩展兴趣图谱
  117. 8.4.4 以节点为中心获得更高效的查询
  118. 8.4.5 兴趣图谱的可视化
  119. 8.5 本章小结
  120. 8.6 推荐练习
  121. 8.7 在线资源
  122. 第二部分 Twitter数据挖掘与分析实用指南
  123. 第9章 Twitter数据挖掘与分析
  124. 9.1 访问Twitter的API(开发目的)
  125. 9.2 使用OAuth访问Twitter的API(产品目的)
  126. 9.3 探索流行话题
  127. 9.4 查找推文
  128. 9.5 构造方便的函数调用
  129. 9.6 使用文本文件存储JSON数据
  130. 9.7 使用MongoDB存储和访问JSON数据
  131. 9.8 使用信息流API对Twitter数据管道抽样
  132. 9.9 采集时序数据
  133. 9.10 提取推文实体
  134. 9.11 在特定的推文范围内查找流行的推文
  135. 9.12 在特定的推文范围内查找流行的推文实体
  136. 9.13 对频率分析制表
  137. 9.14 查找转推了状态的用户
  138. 9.15 提取转推的属性
  139. 9.16 创建健壮的Twitter请求
  140. 9.17 获取用户档案信息
  141. 9.18 从任意的文本中提取推文实体
  142. 9.19 获得用户的所有好友和关注者
  143. 9.20 分析用户的好友和关注者
  144. 9.21 获取用户的推文
  145. 9.22 爬取好友关系图
  146. 9.23 分析推文内容
  147. 9.24 提取链接目标摘要
  148. 9.25 分析用户收藏的推文
  149. 9.26 本章小结
  150. 9.27 推荐练习
  151. 9.28 在线资源
  152. 第三部分 附录
  153. 附录A 关于本书虚拟机体验的信息
  154. 附录B OAuth入门
  155. 附录C Python和Jupyter tebook的使用技巧
书名:社交网站的数据挖掘与分析(原书第3版)
译者:苏统华, 郭勇, 潘巍 译
国内出版社:机械工业出版社
出版时间:2021年01月
页数:347
书号:978-7-111-67404-7
原版书书名:Mining the Social Web, 3rd Edition
原版书出版商:O'Reilly Media
Matthew A. Russell
 
马修·罗塞尔(Matthew A. Russell),Digital Reasoning Systems公司的技术副总裁和Zaffra公司的负责人,是热爱数据挖掘、开源和Web应用技术的计算机科学家。他也是《Dojo: The Definitive Guide》(O’Reilly出版社)的作者。在Linkedin上联系他或在Twitter关注@ptwobrussell,可随时了解他的最新动态。
 
 
Mikhail Klassen
 
Mikhail Klassen是Paladin AI公司的联合创始人和首席数据科学家,该公司坐落于蒙特利尔,是面向航空领域提供数据分析服务的初创公司。他的工作是借助数据挖掘和机器学习技术为飞行员设计下一代基于数据驱动的自适应培训方案。