机器学习:实用案例解析
Drew Conway, John Myles White
陈开江, 刘逸哲, 孟晓楠 译
出版时间:2013年04月
页数:288
“这本书为机器学习技术提供了一些非常棒的案例研究。它并不是一本关于机器学习的工具书或者理论书籍,而是对学习过程的指南,因而适合任何具有编程背景和定量思维的人。”
——Max Shron,OkCupid
机器学习是计算机科学和人工智能中非常重要的一个研究领域,近年来,机器学习不但在计算机科学的众多领域中大显身手,而且成为一些交叉学科的重要支撑技术。本书比较全面系统地介绍了机器学习的方法和技术,不仅详细阐述了许多经典的学习方法,而且讨论了一些有生命力的新理论、新方法。
全书案例既有分类问题,也有回归问题;既包含监督学习,也涵盖无监督学习。本书讨论的案例涉及分类、回归、聚类、降维、最优化问题等。这些案例包括:垃圾邮件识别、智能收件箱、预测网页访问量、文本回归、密码破译、构建股票市场指数、用投票记录对美国参议员聚类、给用户推荐R语言包、分析社交图谱、给问题找到最佳算法等。各章对原理的叙述力求概念清晰、表达准确,突出理论联系实际,富有启发性,易于理解。在探索这些案例的过程中用到的基本工具就是R编程语言。
本书主要内容:
· 开发一个朴素贝叶斯分类器,仅仅根据邮件的文本信息来判断邮件是否是垃圾邮件;
· 使用线性回归来预测互联网排名前1000网站的PV;
· 利用文本回归理解图书中词与词之间的关系;
· 通过尝试破译一个简单的密码来学习优化技术;
· 利用无监督学习构建股票市场指数,用于衡量整体市场行情;
· 根据美国参议院的投票情况,从统计学的角度对美国参议员聚类;
· 通过k近邻算法向用户推荐R语言包;
· 利用Twitter数据构建一个“你可能感兴趣的人”的推荐系统;
· 模型比较:给问题找到最佳算法。
  1. 前言
  2. 第1章 使用r语言
  3. r与机器学习
  4. 第2章 数据分析
  5. 分析与验证
  6. 什么是数据
  7. 推断数据的类型
  8. 推断数据的含义
  9. 数值摘要表
  10. 均值、中位数、众数
  11. 分位数
  12. 标准差和方差
  13. 可视化分析数据
  14. 列相关的可视化
  15. 第3章 分类:垃圾过滤
  16. 非此即彼:二分类
  17. 漫谈条件概率
  18. 试写第一个贝叶斯垃圾分类器
  19. 第4章 排序:智能收件箱
  20. .次序未知时该如何排序
  21. 按优先级给邮件排序
  22. 实现一个智能收件箱
  23. 第5章 回归模型:预测网页访问量
  24. 回归模型简介
  25. 预测网页流量
  26. 定义相关性
  27. 第6章 正则化:文本回归
  28. 数据列之间的非线性关系:超越直线
  29. 避免过拟合的方法
  30. 文本回归
  31. 第7章 优化:密码破译
  32. 优化简介
  33. 岭回归
  34. 密码破译优化问题
  35. 第8章 pca:构建股票市场指数
  36. 无监督学习
  37. 主成分分析
  38. 第9章 mds:可视化地研究参议员相似性
  39. 基于相似性聚类
  40. 如何对美国参议员做聚类
  41. 第10章 knn:推荐系统
  42. k近邻算法
  43. r语言程序包安装数据
  44. 第11章 分析社交图谱
  45. 社交网络分析
  46. 用黑客的方法研究twitter的社交关系图数据
  47. 分析twitter社交网络
  48. 第12章 模型比较
  49. svm:支持向量机
  50. 算法比较
  51. 参考文献
书名:机器学习:实用案例解析
译者:陈开江, 刘逸哲, 孟晓楠 译
国内出版社:机械工业出版社
出版时间:2013年04月
页数:288
书号:978-7-111-41731-6
原版书书名:Machine Learning for Hackers
原版书出版商:O'Reilly Media
Drew Conway
 
Drew Conway 机器学习专家,拥有丰富的数据分析、处理工作经验。目前主要利用数学、统计学和计算机技术研究国际关系、冲突和恐怖主义等。他拥有纽约大学博士学位,曾为多种杂志撰写文章,是机器学习领域的著名学者。
 
 
John Myles White
 
John Myles White 机器学习专家,拥有丰富的数据分析、处理工作经验。目前主要从理论和实验的角度来研究人类如何做出决定,同时还是ProjectTemplate和log4r等流行R语言程序包的主要维护者。他拥有普林斯顿大学博士学位,发表过许多关于机器学习的论文,并在众多国际会议上发表演讲。