社交网站的数据挖掘与分析
师蓉 译
出版时间:2012年02月
页数:301
“本书是《Programming Collective Intelligence》一书的深入篇,它介绍通过Python从社交网站中采集数据的一种实践方法。”
——Jeff Hammerbacher,Cloudera首席科学家
“对于探索结构化和非结构化数据的一系列工具、技术和理论,本书给出了丰富、紧凑并实用的介绍。”
——Alex Martelli, Google高级主管工程师,《Python in a Nutshell》的作者
Facebook、Twitter和LinkedIn产生了大量宝贵的社交数据,但是怎样才能找出谁通过社交媒介正在进行联系?他们在讨论些什么?或者他们在哪儿?本书简洁而且具有可操作性,它将揭示如何回答这些问题甚至更多的问题。你将学到如何组合社交网站数据、分析技术,如何通过可视化找到你一直在社交世界中寻找的内容,以及你闻所未闻的有用信息。
本书每章都介绍了在社交网络的不同领域挖掘数据的技术,这些领域包括博客和电子邮件。你所需要具备的就是一定的编程经验和学习基本的Python工具的意愿。
· 获得对社交网络世界的直观认识。
· 使用GitHub上灵活的脚本来获取Twitter、Facebook和LinkedIn等社交网络API中的数据。
· 学习如何应用便捷的Python工具来交叉分析你所收集的数据。
· 通过XFN探讨基于微格式的社交联系。
· 应用诸如TF-IDF、余弦相似性、搭配分析、文档摘要、派系检测之类的先进挖掘技术。
· 通过基于HTML 5和JavaScript工具包的网络技术建立交互式可视化。
马修·罗塞尔(Matthew A. Russell),Digital Reasoning Systems公司的技术副总裁和Zaffra公司的负责人,是热爱数据挖掘、开源和Web应用技术的计算机科学家。他也是《Dojo: The Definitive Guide》(O’Reilly出版社)的作者。在LinkedIn上联系他或在Twitter上关注@ptwobrussell,可随时看到他的最新动态。
- 前言
- 第1章 绪论:Twitter数据的处理
- Python开发工具的安装
- Twitter数据的收集和处理
- 小结
- 第2章 微格式:语义标记和常识碰撞
- XFN和朋友
- 使用XFN来探讨社交关系
- 地理坐标:兴趣爱好的共同主线
- (以健康的名义)对菜谱进行交叉分析
- 对餐厅评论的搜集
- 小结
- 第3章 邮箱:虽然老套却很好用
- mbox: Unix的入门级邮箱
- mbox+CouchDB=随意的Email分析
- 将对话线程化到一起
- 使用SIMILE Timeline将邮件“事件”可视化
- 分析你自己的邮件数据
- 小结
- 第4章 Twitter:朋友、关注者和Setwise操作 REST风格的和OAuth-Cladded API
- 干练而中肯的数据采集器
- 友谊图的构建
- 小结
- 第5章 Twitter:tweet,所有的tweet,只有tweet
- 笔PK剑:和tweet PK机枪(?!?)
- 对tweet的分析(每次一个实体)
- 并置潜在的社交网站(或#JustinBieber VS #TeaParty)
- 对大量tweet的可视化
- 小结
- 第6章 LinkedIn:为了乐趣(和利润?)
- 将职业网络聚类
- 聚类的动机
- 按职位将联系人聚类
- 获取补充个人信息
- 从地理上聚类网络
- 小结
- 第7章 Google Buzz:TF-IDF、余弦相似性和搭配
- Buzz=Twitter+博客(???)
- 使用NLTK处理数据
- 文本挖掘的基本原则
- 查找相似文档
- 在二元语法中发Buzz
- 利用Gmail
- 在中断之前试着创建一个搜索引擎……
- 小结
- 第8章 博客及其他:自然语言处理(等)
- NLP:帕累托式介绍
- 使用NLTK的典型NLP管线
- 使用NLTK检测博客中的句子
- 对文件的总结
- 以实体为中心的分析:对数据的深层了解
- 小结
- 第9章 Facebook:一体化的奇迹
- 利用社交网络数据
- 对Facebook数据的可视化
- 小结
- 第10章 语义网:简短的讨论
- 发展中的变革
- 人不可能只靠事实生活
- 期望
书名:社交网站的数据挖掘与分析
译者:师蓉 译
国内出版社:机械工业出版社
出版时间:2012年02月
页数:301
书号:978-7-111-36960-8
原版书书名:Mining the Social Web
原版书出版商:O'Reilly Media
Matthew A. Russell
马修·罗塞尔(Matthew A. Russell),Digital Reasoning Systems公司的技术副总裁和Zaffra公司的负责人,是热爱数据挖掘、开源和Web应用技术的计算机科学家。他也是《Dojo: The Definitive Guide》(O’Reilly出版社)的作者。在Linkedin上联系他或在Twitter关注@ptwobrussell,可随时了解他的最新动态。
本书封面上的动物是土拨鼠(学名Marmota monax),又称美洲旱獭(woodchuck:该名字源自其Algonquin叫法“wuchak”)。土拨鼠与美国/加拿大2月2日的土拨鼠节相关。民俗认为,如果这一天土拨鼠从它的洞里出来,而且能看到它的影子的话,那么冬天还会持续6周。该说法的支持者说,啮齿动物预测的准确性为75%~90%。很多城市中都有著名的土拨鼠天气预报员,包括美国庞克瑟托克小镇上的菲尔(比尔·默瑞于1993年在电影《土拨鼠节》中所扮演的主角)。
这个传说可能源于土拨鼠是整个冬季都冬眠的少数几种物种之一。作为食草动物,土拨鼠主要依靠植物、浆果、坚果、昆虫和人类园林作物在夏天贮存脂肪,这也导致很多人认为它是害虫的原因。然后,它们会在冬天挖一个洞穴,从10月到来年的3月它们都会一直呆在那里(虽然在温带地区,或者假设,如果它们是与它们齐名的节日的关注重心,它们可能会更早出现)。
土拨鼠是松鼠家族中最大的成员,大约为16~26英寸长,4~9磅重。它们都有弯曲、厚厚的爪子作为理想的挖掘工具,而且有两层皮毛:密集的灰色绒毛和较长毛发的浅色外层,二者提供了对自身的保护。
土拨鼠遍及加拿大的大部分地区和美国北部地区,生活在开阔的空间和林地富足的地方。它们能爬树和游泳,但经常生活在离洞穴不远的地面上,洞穴用来睡觉、养育后代并保护自己。这些洞穴通常有2~5个入口,长达46英尺的地道。
封面图片来自于Wood的电影《Animate Creatures》。