数据科学(影印版)
Rachel Schutt, Cathy O'Neil 著
出版时间:2014年06月
页数:408
现在人们已经意识到数据可以让选举或者商业模式变得不同,数据科学作为一项职业正在不断发展。但是你应该如何在这样一个广阔而又错综复杂的交叉学科领域中开展工作呢?这本书将会告诉你所需要了解的一切。它富有深刻见解,是根据哥伦比亚大学的数据科学课程的讲义整理而成。
在大多数一章长度的讲稿中,来自如Google、Microsoft和eBay这样的公司的数据科学家通过展示案例研究和他们使用的代码分享了新的算法、方法和模型。如果你熟悉线性代数、概率论和统计学并且具备编程经验,那么这本书就是绝佳的数据科学介绍读本。

主题包括:
· 统计推断、探索性数据分析和数据科学处理
· 算法
· 垃圾邮件过滤、朴素贝叶斯和数据转化
· 逻辑回归
· 金融建模
· 推荐引擎和因果关系
· 数据可视化
· 社交网络和数据新闻
· 数据工程、MapReducing、Pregel和Hadoop

Rachel Schutt,新闻集团数据科学高级副总裁,是哥伦比亚大学的统计学兼职教授,也是数据科学和工程学院教育委员会的创始会员。
Cathy O’Neil,Johnson研究实验室的高级数据科学家,具有哈佛大学的数学博士学位,是麻省理工学院数学系的博士后,曾经是巴纳德学院的教授。
  1. preface
  2. 1. introduction: what is data science
  3. big data and data science hype
  4. getting past the hype
  5. why now
  6. datafication
  7. the current landscape (with a little history)
  8. data science lobs
  9. a data science profile
  10. thought experiment: meta-definition
  11. ok, so what is a data scientist, really
  12. in academia
  13. in industry
  14. 2. statistical inference, exploratory data analysis, and the data science
  15. process
  16. statistic.a1 thinking in the age of big data
  17. statistical inference
  18. populations and samples
  19. populations and samples of big data
  20. big data can mean big assumptions
  21. modeling
  22. exploratory data analysis
  23. philosophy of exploratory data analysis
  24. exercise: eda
  25. the data science process
  26. a data scientist's role in this process
  27. thought experiment: how would you simulate chaos
  28. case study: realdirect
  29. how does realdirect make money
  30. exercise: realdirect data strategy
  31. 3. algorithms
  32. machine learning algorithms
  33. three basic algorithms
  34. linear regression
  35. k-nearest neighbors (k-nn)
  36. k-means
  37. exercise: basic machine learning algorithms
  38. solutions
  39. summing it all up
  40. thought experiment: automated statistician
  41. 4. spare filters, naive bayes, and wrangling
  42. thought experiment: learning by example
  43. why won't linear regression work for filtering spare
  44. how about k-nearest neighbors
  45. naive bayes
  46. bayes law
  47. a spare filter for individual words
  48. a spam filter that combines words: naive bayes
  49. fancy it up: laplace smoothing
  50. comparing naive bayes to k-nn
  51. sample code in bash
  52. scraping the web: apis and other tools
  53. jake's exercise: naive bayes for article classification
  54. sample r code for dealing with the nyt api
  55. 5. logistic regression
  56. thought experiments
  57. classifiers
  58. runtime
  59. you
  60. interpretability
  61. scalability
  62. m6d logistic regression case study
  63. chck models
  64. the underlying math
  65. 6.1ime stamps and financial modeling
  66. 7.extracting meaning from data
  67. 8.recommendation engines:building a user-facing data product at scale
  68. 9.data visualization and fraud detection
  69. 10.sociai networks and data journalism
  70. 11.causality
  71. 12.epidemiology
  72. 13.lessons learned from data competitions:data leakage and model evaluation
  73. 14.data engineering:mapreduce,pregel,and hadoop
  74. 15.the students speak
  75. 16.next-generation data scientists,hubris,and ethics
  76. index
书名:数据科学(影印版)
作者:Rachel Schutt, Cathy O'Neil 著
国内出版社:东南大学出版社
出版时间:2014年06月
页数:408
书号:978-7-5641-4984-0
原版书书名:Doing Data Science
原版书出版商:O'Reilly Media
Rachel Schutt
 
美国新闻集团旗下数据科学部门高级副总裁、哥伦比亚大学统计系兼职教授、约翰逊实验室高级研究科学家,同时也是哥伦比亚大学数据科学及工程研究所教育委员会的发起人之一。她曾在谷歌研究院工作数年,负责设计算法原型并通过建模理解用户行为。
 
 
Cathy O'Neil