利用Python进行数据分析
Wes McKinney
唐学韬 等译
出版时间:2013年10月
页数:451
“科学计算和数据分析社区已经等待这本书很多年了:大量具体的实践建议,以及大量综合应用方法。本书在未来几年里肯定会成为Python领域中技术计算的权威指南。”
——Fernando Pérez
加州大学伯克利分校研究科学家,
IPython的创始人之一
还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题。
由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。
· 将IPython这个交互式Shell作为你的首要开发环境。
· 学习NumPy(Numerical Python)的基础和高级知识。
· 从pandas库的数据分析工具开始。
· 利用高性能工具对数据进行加载、清理、转换、合并以及重塑。
· 利用matplotlib创建散点图以及静态或交互式的可视化结果。
· 利用pandas的groupby功能对数据集进行切片、切块和汇总操作。
· 处理各种各样的时间序列数据。
· 通过详细的案例学习如何解决Web分析、社会科学、金融学以及经济学等领域的问题。
Wes McKinney 资深数据分析专家,对各种Python库(包括NumPy、pandas、matplotlib以及IPython等)都有深入研究,并在大量的实践中积累了丰富的经验。撰写了大量与Python数据分析相关的经典文章,被各大技术社区争相转载,是Python和开源技术社区公认的权威人物之一。开发了用于数据分析的著名开源Python库——pandas,广获用户好评。在创建Lambda Foundry(一家致力于企业数据分析的公司)之前,他曾是AQR Capital Management的定量分析师。
  1. 前言
  2. 第1章 准备工作
  3. 本书主要内容
  4. 为什么要使用Python进行数据分析
  5. 重要的Python库
  6. 安装和设置
  7. 社区和研讨会
  8. 使用本书
  9. 致谢
  10. 第2章 引言
  11. 来自bit.ly的1.usa.gov数据
  12. MovieLens 1M数据集
  13. 1880—2010年间全美婴儿姓名
  14. 小结及展望
  15. 第3章 IPython:一种交互式计算和开发环境
  16. IPython基础
  17. 内省
  18. 使用命令历史
  19. 与操作系统交互
  20. 软件开发工具
  21. IPython HTML Notebook
  22. 利用IPython提高代码开发效率的几点提示
  23. 高级IPython功能
  24. 致谢
  25. 第4章 NumPy基础:数组和矢量计算
  26. NumPy的ndarray:一种多维数组对象
  27. 通用函数:快速的元素级数组函数
  28. 利用数组进行数据处理
  29. 用于数组的文件输入输出
  30. 线性代数
  31. 随机数生成
  32. 范例:随机漫步
  33. 第5章 pandas入门
  34. pandas的数据结构介绍
  35. 基本功能
  36. 汇总和计算描述统计
  37. 处理缺失数据
  38. 层次化索引
  39. 其他有关pandas的话题
  40. 第6章 数据加载、存储与文件格式
  41. 读写文本格式的数据
  42. 二进制数据格式
  43. 使用HTML和Web API
  44. 使用数据库
  45. 第7章 数据规整化:清理、转换、合并、重塑
  46. 合并数据集
  47. 重塑和轴向旋转
  48. 数据转换
  49. 字符串操作
  50. 示例:USDA食品数据库
  51. 第8章 绘图和可视化
  52. matplotlib API入门
  53. pandas中的绘图函数
  54. 绘制地图:图形化显示海地地震危机数据
  55. Python图形化工具生态系统
  56. 第9章 数据聚合与分组运算
  57. GroupBy技术
  58. 数据聚合
  59. 分组级运算和转换
  60. 透视表和交叉表
  61. 示例:2012联邦选举委员会数据库
  62. 第10章 时间序列
  63. 日期和时间数据类型及工具
  64. 时间序列基础
  65. 日期的范围、频率以及移动
  66. 时区处理
  67. 时期及其算术运算
  68. 重采样及频率转换
  69. 时间序列绘图
  70. 移动窗口函数
  71. 性能和内存使用方面的注意事项
  72. 第11章 金融和经济数据应用
  73. 数据规整化方面的话题
  74. 分组变换和分析
  75. 更多示例应用
  76. 第12章 NumPy高级应用
  77. ndarray对象的内部机理
  78. 高级数组操作
  79. 广播
  80. ufunc高级应用
  81. 结构化和记录式数组
  82. 更多有关排序的话题
  83. NumPy的matrix类
  84. 高级数组输入输出
  85. 性能建议
  86. 附录A Python语言精要
书名:利用Python进行数据分析
作者:Wes McKinney
译者:唐学韬 等译
国内出版社:机械工业出版社
出版时间:2013年10月
页数:451
书号:978-7-111-43673-7
原版书书名:Python for Data Analysis
原版书出版商:O'Reilly Media
Wes McKinney
 
Wes McKinney是纽约的一名数据分析高手和企业主。在2007年获得MIT的数学学士学位之后,他到位于康涅狄格州格林威治市(Greenwich,CT)的AQR Capital Management公司从事定量金融方面的工作。由于不满那些数据分析工具的各种不好用,他开始学习Python,并于2008年开始构建pandas项目。他目前是Python科学计算社区的活跃分子,而且积极倡导在数据分析、金融以及统计应用中使用Python。
 
 
本书封面上的那只动物是一只笔尾树鼩(拉丁名为Ptilocercus lowii)。笔尾树鼩是笔尾树鼩科(Ptilocercidae)笔尾树鼩属(Ptilocercus)中的唯一物种,其他树鼩都属于树鼩科(Tupaiidae)。树鼩的特征是长长的尾巴和柔软的红棕色皮毛。从名字上就能看出来,笔尾树鼩有一条形如羽毛笔的尾巴。树鼩是杂食性动物,以昆虫、水果、种子以及小型脊椎动物为主要食物。
主要分布于印度尼西亚、马来西亚和泰国,这些野生哺乳动物以惯于长期饮酒而著称。马来西亚树鼩每天要花费数小时食用天然发酵的玻淡棕榈花蜜,相当于大约10到12杯酒精含量为3.8%的酒。尽管如此,从来也没有一只笔尾树鼩喝醉过,这得归功于它们那令人印象深刻的乙醇降解能力,包括一种人类所没有的酒精代谢方式。跟其他哺乳动物相比(包括人类?),它们还有另外一个令人印象深刻的特点——大脑跟身体的质量比。
虽然这种野生动物的名字叫笔尾树鼩(pen-tailed tree-shrew),但它们并不是真正的鼠类(shrew),而是更接近于灵长类(primates)。因此,树鼩在近视、心理社会应激、肝炎等医学实验中成为灵长类动物的一种替代品。