社交网站的数据挖掘与分析
Matthew A. Russell
师蓉 译
出版时间:2012年02月
页数:301
“本书是《Programming Collective Intelligence》一书的深入篇,它介绍通过Python从社交网站中采集数据的一种实践方法。”
  ——Jeff Hammerbacher,Cloudera首席科学家
“对于探索结构化和非结构化数据的一系列工具、技术和理论,本书给出了丰富、紧凑并实用的介绍。”
  ——Alex Martelli, Google高级主管工程师,《Python in a Nutshell》的作者

Facebook、Twitter和LinkedIn产生了大量宝贵的社交数据,但是怎样才能找出谁通过社交媒介正在进行联系?他们在讨论些什么?或者他们在哪儿?本书简洁而且具有可操作性,它将揭示如何回答这些问题甚至更多的问题。你将学到如何组合社交网站数据、分析技术,如何通过可视化找到你一直在社交世界中寻找的内容,以及你闻所未闻的有用信息。
本书每章都介绍了在社交网络的不同领域挖掘数据的技术,这些领域包括博客和电子邮件。你所需要具备的就是一定的编程经验和学习基本的Python工具的意愿。

· 获得对社交网络世界的直观认识。
· 使用GitHub上灵活的脚本来获取Twitter、Facebook和LinkedIn等社交网络API中的数据。
· 学习如何应用便捷的Python工具来交叉分析你所收集的数据。
· 通过XFN探讨基于微格式的社交联系。
· 应用诸如TF-IDF、余弦相似性、搭配分析、文档摘要、派系检测之类的先进挖掘技术。
· 通过基于HTML 5和JavaScript工具包的网络技术建立交互式可视化。

马修·罗塞尔(Matthew A. Russell),Digital Reasoning Systems公司的技术副总裁和Zaffra公司的负责人,是热爱数据挖掘、开源和Web应用技术的计算机科学家。他也是《Dojo: The Definitive Guide》(O’Reilly出版社)的作者。在LinkedIn上联系他或在Twitter上关注@ptwobrussell,可随时看到他的最新动态。
  1. 前言
  2. 第1章 绪论:Twitter数据的处理
  3. Python开发工具的安装
  4. Twitter数据的收集和处理
  5. 小结
  6. 第2章 微格式:语义标记和常识碰撞
  7. XFN和朋友
  8. 使用XFN来探讨社交关系
  9. 地理坐标:兴趣爱好的共同主线
  10. (以健康的名义)对菜谱进行交叉分析
  11. 对餐厅评论的搜集
  12. 小结
  13. 第3章 邮箱:虽然老套却很好用
  14. mbox: Unix的入门级邮箱
  15. mbox+CouchDB=随意的Email分析
  16. 将对话线程化到一起
  17. 使用SIMILE Timeline将邮件“事件”可视化
  18. 分析你自己的邮件数据
  19. 小结
  20. 第4章 Twitter:朋友、关注者和Setwise操作 REST风格的和OAuth-Cladded API
  21. 干练而中肯的数据采集器
  22. 友谊图的构建
  23. 小结
  24. 第5章 Twitter:tweet,所有的tweet,只有tweet
  25. 笔PK剑:和tweet PK机枪(?!?)
  26. 对tweet的分析(每次一个实体)
  27. 并置潜在的社交网站(或#JustinBieber VS #TeaParty)
  28. 对大量tweet的可视化
  29. 小结
  30. 第6章 LinkedIn:为了乐趣(和利润?)
  31. 将职业网络聚类
  32. 聚类的动机
  33. 按职位将联系人聚类
  34. 获取补充个人信息
  35. 从地理上聚类网络
  36. 小结
  37. 第7章 Google Buzz:TF-IDF、余弦相似性和搭配
  38. Buzz=Twitter+博客(???)
  39. 使用NLTK处理数据
  40. 文本挖掘的基本原则
  41. 查找相似文档
  42. 在二元语法中发Buzz
  43. 利用Gmail
  44. 在中断之前试着创建一个搜索引擎……
  45. 小结
  46. 第8章 博客及其他:自然语言处理(等)
  47. NLP:帕累托式介绍
  48. 使用NLTK的典型NLP管线
  49. 使用NLTK检测博客中的句子
  50. 对文件的总结
  51. 以实体为中心的分析:对数据的深层了解
  52. 小结
  53. 第9章 Facebook:一体化的奇迹
  54. 利用社交网络数据
  55. 对Facebook数据的可视化
  56. 小结
  57. 第10章 语义网:简短的讨论
  58. 发展中的变革
  59. 人不可能只靠事实生活
  60. 期望
书名:社交网站的数据挖掘与分析
作者:Matthew A. Russell
译者:师蓉 译
国内出版社:机械工业出版社
出版时间:2012年02月
页数:301
书号:978-7-111-36960-8
原版书书名:Mining the Social Web
原版书出版商:O'Reilly Media
Matthew A. Russell
 
马修·罗塞尔(Matthew A. Russell),Digital Reasoning Systems公司的技术副总裁和Zaffra公司的负责人,是热爱数据挖掘、开源和Web应用技术的计算机科学家。他也是《Dojo: The Definitive Guide》(O’Reilly出版社)的作者。在Linkedin上联系他或在Twitter关注@ptwobrussell,可随时了解他的最新动态。
 
 
本书封面上的动物是土拨鼠(学名Marmota monax),又称美洲旱獭(woodchuck:该名字源自其Algonquin叫法“wuchak”)。土拨鼠与美国/加拿大2月2日的土拨鼠节相关。民俗认为,如果这一天土拨鼠从它的洞里出来,而且能看到它的影子的话,那么冬天还会持续6周。该说法的支持者说,啮齿动物预测的准确性为75%~90%。很多城市中都有著名的土拨鼠天气预报员,包括美国庞克瑟托克小镇上的菲尔(比尔·默瑞于1993年在电影《土拨鼠节》中所扮演的主角)。
这个传说可能源于土拨鼠是整个冬季都冬眠的少数几种物种之一。作为食草动物,土拨鼠主要依靠植物、浆果、坚果、昆虫和人类园林作物在夏天贮存脂肪,这也导致很多人认为它是害虫的原因。然后,它们会在冬天挖一个洞穴,从10月到来年的3月它们都会一直呆在那里(虽然在温带地区,或者假设,如果它们是与它们齐名的节日的关注重心,它们可能会更早出现)。
土拨鼠是松鼠家族中最大的成员,大约为16~26英寸长,4~9磅重。它们都有弯曲、厚厚的爪子作为理想的挖掘工具,而且有两层皮毛:密集的灰色绒毛和较长毛发的浅色外层,二者提供了对自身的保护。
土拨鼠遍及加拿大的大部分地区和美国北部地区,生活在开阔的空间和林地富足的地方。它们能爬树和游泳,但经常生活在离洞穴不远的地面上,洞穴用来睡觉、养育后代并保护自己。这些洞穴通常有2~5个入口,长达46英尺的地道。
封面图片来自于Wood的电影《Animate Creatures》。
购买选项
定价:59.00元
书号:978-7-111-36960-8
出版社:机械工业出版社