数据之美
数据之美
Toby Segaran, Jeff Hammerbacher 编
祝洪凯, 李妹芳, 段炼 译
出版时间:2010年10月
页数:354
“数据实际上已经是下一代计算机应用的真正核心。本书中,各位业界精英描述了在他们的项目中如何以全新的方式来驾驭数据的力量。对于任何对数据的未来和问题的解决感兴趣的读者来说,本书都是一部必读之作。”
——Tim O’Reilly,O’Reilly Media公司创始人兼CEO

本书揭示了数据发现可以是多么广泛和美丽!在本书中,39位业内最佳数据实践者揭秘了他们如何为各种项目开发简单优雅的解决方案,例如火星着陆探测器、Radiohead视频的制作等。在本书中,你将:
· 探索在海量的在线数据集中所固有的机遇和挑战
学习如何使用地图和数据“混搭”(mashup)来对都市犯罪趋势进行可视化
· 发现“开放来源”(crowdsourcing)和透明化如何改善药物研究的现状
· 理解新的数据可能会覆盖已有数据时,如何向用户报警
· 了解DNA数据处理所需要的大规模的基础设施

本书的作者包括(按每一章的作者划分):
Nathan Yau
Jonathan Follett和Matthew Holm
J.M. Hughes
Brian F. Cooper、Raghu Ramakrishnan和Utkarsh Srivastava
Jeff Hammerbacher
Jason Dykes和Jo Wood
Jeff Jonas和Lisa Sokol
Jud Valeski
Alon Halevy和Jayant Madhavan
Aaron Koblin和Valdean Klump
Michal Migurski
Jeffrey Heer
Coco Krumme
Peter Norvig
Matt Wood和Ben Blackburne
Jean-Claude Bradley、Rajarshi Guha、
Andrew Lang、Pierre Lindenbaum、Cameron Neylon、Antony Williams
和Egon Willighagen
Brendan O’Connor和Lukas Biewald
Hadley Wickham、Deborah F. Swayne
和David Poole
Andrew Gelman、Jonathan P. Kastellec
和Yair Ghitza
Toby Segaran
  1. 前言
  2. 第1章 在数据中观察生活
  3. 个人环境影响报告(PEIR)
  4. your.flowingdata (YFD)
  5. 个人数据收集
  6. 数据存储
  7. 数据处理
  8. 数据可视化
  9. 要点
  10. 如何参与
  11. 第2章 美丽的人们:设计数据收集方法时牢记用户
  12. 简介:用户共鸣正当其时
  13. 项目:关于一个新奢侈品的用户调查
  14. 数据收集面临的特殊挑战
  15. 设计解决方案
  16. 结论和反思
  17. 第3章 火星上的嵌入式图像数据处理
  18. 摘要
  19. 简介
  20. 一些背景
  21. 数据是否打包
  22. 三个任务
  23. 对图像切槽
  24. 传递图像:三个任务间的通信
  25. 获取图片:图像下载和处理
  26. 图像压缩
  27. “下行”或一切都从这里向下传输
  28. 结束语
  29. 第4章 PNUTShell中的云存储设计
  30. 简介
  31. 更新数据
  32. 复杂查询
  33. 和其他系统的比较
  34. 结论
  35. 致谢
  36. 参考文献
  37. 第5章 信息平台和数据科学家的兴起
  38. 图书馆和大脑
  39. Facebook具有了“自知之明”
  40. 商业智能系统
  41. 数据仓库的消亡和重起
  42. 超越数据仓库
  43. “猎豹”和“大象”
  44. 不合理的数据有效性
  45. 新工具和应用研究
  46. MAD技术和Cosmos
  47. 作为数据空间的信息平台
  48. 数据科学家
  49. 结论
  50. 第6章 照片档案的地理之美
  51. 数据之美:Geograph项目
  52. 可视化、美丽和树形图
  53. Geograph在使用条款上的观点
  54. 发现之美
  55. 反思和结论
  56. 致谢
  57. 参考文献
  58. 第7章 数据发现数据
  59. 简介
  60. 实时发现的好处
  61. 赌桌上的舞弊
  62. 企业的可发现性
  63. 目录:无价之宝
  64. 相关性:什么是重要的以及对谁重要
  65. 各个组件及特殊考虑
  66. 隐私考虑
  67. 结束语
  68. 第8章 实时的可移动数据
  69. 简介
  70. 前沿技术
  71. 社交数据规范化
  72. 结束语:通过Gnip思考
  73. 第9章 探寻Deep Web
  74. Alon Halevy和Jayant Madhaven
  75. 什么是Deep Web
  76. 提供Deep Web访问的其他可选方案
  77. 结论
  78. 参考文献
  79. 第10章 构建Radiohead的“House of Cards”
  80. 这一切是如何开始的
  81. 数据捕捉设备
  82. 两种数据捕捉系统的优点
  83. 数据
  84. 捕捉数据,即“拍摄”
  85. 处理数据
  86. 后期数据处理
  87. 发布视频
  88. 结束语
  89. 第11章 都市数据可视化
  90. 引言
  91. 背景
  92. 解决棘手问题
  93. 公开数据
  94. 重新回顾
  95. 结束语
  96. 第12章 Sense.us的设计
  97. 可视化和社会数据分析
  98. 数据
  99. 可视化
  100. 协作
  101. “向导”和“偷窥”
  102. 结论
  103. 参考文献
  104. 第13章 数据所做不到的
  105. 何时数据无法驱动
  106. 结束语
  107. 参考文献
  108. 第14章 自然语言语料库数据
  109. 分词
  110. 密码
  111. 拼写纠正
  112. 其他任务
  113. 讨论和结论
  114. 致谢
  115. 第15章 数据中的生命:DNA漫谈
  116. 用DNA存储数据
  117. DNA作为数据源
  118. 搏击数据洪流
  119. DNA的未来
  120. 致谢
  121. 第16章 美化真实世界中的数据
  122. 关于真实数据的问题
  123. 提供可以追溯到记录本的原始数据
  124. 验证开放来源数据
  125. 在线发布数据
  126. 结束循环:采用可视化技术启发新实验
  127. 在开放数据和免费服务下建立数据网络
  128. 致谢
  129. 参考文献
  130. 第17章 数据浅析:探索形形色色的社会定型
  131. 引言
  132. 预处理数据
  133. 探索数据
  134. 年龄、魅力和性别
  135. 观察标签
  136. 哪些单词具有性别化
  137. 聚类
  138. 结论
  139. 致谢
  140. 参考文献
  141. 第18章 旧金山海湾区之殇:次贷危机的影响
  142. 引言
  143. 我们是如何获取数据的
  144. 地理编码
  145. 数据检查
  146. 分析
  147. 通货膨胀的影响
  148. 富者更富,穷者更穷
  149. 地理区别
  150. 人口普查信息
  151. 探索旧金山
  152. 结论
  153. 参考文献
  154. 第19章 美丽的政治数据
  155. 实例1:重新划分选区和党派偏好
  156. 实例2:估计的时间序列
  157. 实例3:年龄和选举
  158. 实例4:关于最高法院被提名人的公众舆论和参议院选票
  159. 实例5:宾夕法尼亚州的本地党派
  160. 结论
  161. 参考文献
  162. 第20章 连接数据
  163. 实际上到底存在哪些公共数据
  164. 连接数据的可能性
  165. 企业内部
  166. 连接数据的障碍
  167. 可能的解决方案
  168. 集体调解
  169. 结论
  170. 附录 作者简介
书名:数据之美
作者:Toby Segaran, Jeff Hammerbacher 编
译者:祝洪凯, 李妹芳, 段炼 译
国内出版社:机械工业出版社
出版时间:2010年10月
页数:354
书号:978-7-111-31512-4
原版书出版商:O'Reilly Media
Toby Segaran
 
Toby Segaran是Genstruct公司的软件开发主管,这家公司涉足计算生物领域,他本人的职责是设计算法,并利用数据挖掘技术来辅助了解药品机理。Toby Segaran还为其他几家公司和数个开源项目服务,帮助它们从收集到的数据当中分析并发掘价值。除此以外,Toby Segaran还建立了几个免费的网站应用,包括流行的tasktoy和Lazybase。他非常喜欢滑雪与品酒,其博客地址是blog.kiwitobes.com,现居于旧金山。
Toby Segaran is a director of software development at Genstruct, a computational
biology company, where he designs algorithms and applies data-mining techniques
to help understand drug mechanisms. He also works with other companies and
open source projects to help them analyze and find value in their collected datasets.
In addition, he has built several free web applications including the popular tasktoy
and Lazybase. He enjoys snowboarding and wine tasting. His blog is located at
blog.kiwitobes.com. He lives in San Francisco.
 
 
Jeff Hammerbacher