敏捷数据科学:用Hadoop创建数据分析应用
Russell Jurney
冯文中, 朱洪波 译
出版时间:2014年06月
页数:165
“在目前“数据科学”被大肆宣传的环境下,读到一本构建数据产品的实践指南让我耳目一新。Russell向我们逐步介绍了他利用数据来解决问题的敏捷哲学。”
——Mat Kelcey,matpalm.com 博主

对大数据的挖掘需要投入大量的人力和时间。怎么才能确保构建的是一个正确的模型?通过这本实践指南,你可以学到一套灵活的工具和方法论,在Hadoop上构建数据分析应用。
使用诸如Python、Apache Pig和D3.js等轻量级工具,你的团队能够创建一个敏捷环境来探索数据。我们会开发一个样例应用程序,挖掘你自己的电子邮箱数据。你也会学习到一种迭代式的开发方法,使得你能根据数据中的信息快速切换,进行不同类型的数据分析。书中所有的代码样例都可以在Heroku中以App形式运行。

· 用敏捷式大数据开发方法论创建分析应用
· 用数据-价值栈,在一系列敏捷周期中创建价值
· 用多种数据结构从单个数据集中提取特征,获取洞察
· 用图表可视化数据,通过交互性报表从不同角度展示数据
· 用历史数据进行预测,将预测转化为行动
· 在每个迭代周期过后获取用户反馈,确保项目方向正确

Russsel Jurney在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个Web应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在Ning和LinkedIn开始构建可扩展的数据分析应用。
  1. 前言
  2. 第1部分起步
  3. 第1章 理论
  4. 敏捷大数据
  5. big words定义
  6. 敏捷大数据团队
  7. 认识机遇和问题
  8. 敏捷大数据流程
  9. 代码检查和结对编程
  10. 敏捷的场所:开发的效率
  11. 协作空间
  12. 私人空间
  13. 个人空间
  14. 用大幅打印件明确表达想法
  15. 第2章 数据
  16. 电子邮件
  17. 处理原始数据
  18. 原始的电子邮件
  19. 结构化与半结构化数据
  20. sql
  21. nosql
  22. 序列化
  23. 从演变的模式中抽取和展示特征
  24. 数据流水线
  25. 数据透视
  26. 社交网络
  27. 时间序列
  28. 自然语言
  29. 概率
  30. 小结
  31. 第3章 敏捷开发工具
  32. 可扩展性=简洁
  33. 敏捷大数据处理
  34. 设置运行python的虚拟环境
  35. 使用avro对事件进行序列化
  36. 在python中使用avro
  37. 收集数据
  38. 使用pig处理数据
  39. 安装pig
  40. 使用mongodb发布数据
  41. 安装mongodb
  42. 安装mongodb的java驱动程序
  43. 安装mongo-hadoop
  44. 用pig 向mongodb推送数据
  45. 使用elasticsearch搜索数据
  46. 安装
  47. 使用wonderdog整合elasticsearch和pig
  48. 对工作流程的反思
  49. 轻量级的web应用
  50. python和flask
  51. 展示数据
  52. 安装bootstrap
  53. 启用bootstrap
  54. 使用d3js和nvd3js可视化数据
  55. 小结
  56. 第4章 在云端
  57. 引言
  58. github
  59. dotcloud
  60. dotcloud echo服务
  61. python工作者服务
  62. amazon web services
  63. simple storage service
  64. elastic mapreduce
  65. mongodb即服务
  66. 辅助工具(instrumentation)
  67. google analytics
  68. mortar data
  69. 第2部分 登上金字塔
  70. 第5章 收集和展示数据
  71. 整合软件栈
  72. 收集并序列化收件箱
  73. 处理和发布邮件数据
  74. 在浏览器中显示邮件
  75. 用flask和pymongo处理邮件数据
  76. 使用jinja2渲染html5页面
  77. 敏捷检查点
  78. 生成电子邮件清单
  79. 用mongodb显示邮件
  80. 对数据展示的分析
  81. 搜索邮件
  82. 使用pig,elasticsearch和wonderdog构建索引
  83. 在网页中搜索邮件数据
  84. 结论
  85. 第6章 使用图表可视化数据
  86. 优秀的图表
  87. 抽取实体:邮件地址
  88. 抽取邮件
  89. 对时间进行可视化
  90. 结论
  91. 第7章 利用报表探索数据
  92. 为数据添加联系
  93. 用tf-idf 从邮件中提取关键字
  94. 小结
  95. 第8章 预测
  96. 预测电子邮件的回复率
  97. 个性化
  98. 小结
  99. 第9章 驱动行动
  100. 好邮件的属性
  101. 使用朴素贝叶斯方法进行更好的预测
书名:敏捷数据科学:用Hadoop创建数据分析应用
作者:Russell Jurney
译者:冯文中, 朱洪波 译
国内出版社:电子工业出版社
出版时间:2014年06月
页数:165
书号:978-7-121-23619-8
原版书书名:Agile Data Science: Building Data Analytics Applications wit
原版书出版商:O'Reilly Media
Russell Jurney
 
Russsel Jurney在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个Web应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在Ning和LinkedIn开始构建可扩展的数据分析应用。