利用Python进行数据分析 (原书第3版)
陈松 译
出版时间:2023年10月
“本书是学习Python和pandas相关数据分析知识的首选。我郑重向读者推荐此书!”
——Paul Barry
Head First Python一书(O’Reilly出版)的作者兼讲师
阅读本书可以学习使用Python对数据集进行操作、处理、清洗和规整。第3版针对Python 3.10和pandas 1.4进行了更新,并通过实操讲解和实际案例向读者展示了如何高效地解决一系列数据分析问题。读者将在阅读过程中学习新版本的pandas、NumPy、IPython和Jupyter。
本书作者Wes McKinney是Python pandas项目的创始人。本书对Python数据科学工具的介绍既贴近实战又内容新颖,非常适合刚开始学习Python的数据分析师或刚开始学习数据科学和科学计算的Python程序员阅读。读者可以从GitHub获取数据文件和相关资料。
学完本书,你将能够:
● 使用Jupyter notebook和IPython shell进行探索性计算。
● 掌握NumPy的基础功能和高级功能。
● 掌握pandas库中的数据分析工具。
● 使用灵活的工具对数据进行加载、清洗、转换、合并和重塑。
● 使用matplotlib进行信息可视化。
● 使用pandas的groupBy功能对数据集进行切片、切块和汇总。
● 分析并处理规则的时间序列数据和不规则的时间序列数据。
● 利用完整、详细的示例学习如何解决现实中的数据分析问题。
- 前言
- 第1章 准备工作
- 1.1 本书内容
- 1.2 为什么使用Python进行数据分析
- 1.3 重要的Pytho 库
- 1.4 安装和设置
- 1.5 社区和会议
- 1.6 本书导航
- 第2章 Python语法基础、IPython和Jupyter notebook
- 2.1 Python解释器
- 2.2 IPython基础
- 2.3 Python语法基础
- 2.4 总结
- 第3章 Python的数据结构、函数和文件
- 3.1 数据结构和序列
- 3.2 函数
- 3.3 文件和操作系统
- 3.4 总结
- 第4章 NumPy基础:数组和向量化计算
- 4.1 NumPy的ndarray:多维数组对象
- 4.2 生成伪随机数
- 4.3 通用函数:快速的元素级数组函数
- 4.4 利用数组进行面向数组编程
- 4.5 使用数组进行文件输入和输出
- 4.6 线性代数
- 4.7 示例:随机漫步
- 4.8 总结
- 第5章 pandas入门
- 5.1 pandas的数据结构介绍
- 5.2 基本功能
- 5.3 描述性统计的汇总和计算
- 5.4 总结
- 第6章 数据加载、存储与文件格式
- 6.1 读写文本格式的数据
- 6.2 二进制数据格式
- 6.3 与Web API交互
- 6.4 与数据库交互
- 6.5 总结
- 第7章 数据清洗和准备
- 7.1 处理缺失数据
- 7.2 数据转换
- 7.3 扩展数据类型
- 7.4 字符串操作
- 7.5 分类数据
- 7.6 总结
- 第8章 数据规整:连接、联合和重塑
- 8.1 层次化索引
- 8.2 联合与合并数据集
- 8.3 重塑和透视
- 8.4 总结
- 第9章 绘图和可视化
- 9.1 matplotlib API入门
- 9.2 使用pandas和seaborn绘图
- 9.3 其他Python可视化工具
- 9.4 总结
- 第10章 数据聚合与分组操作
- 10.1 GroupBy机制
- 10.2 数据聚合
- 10.3 Apply:通用的“拆分-应用-联合”范式
- 10.4 分组转换和“展开式”GroupBy运算
- 10.5 透视表和交叉表
- 10.6 总结
- 第11章 时间序列
- 11.1 日期和时间数据的类型及工具
- 11.2 时间序列基础知识
- 11.3 日期的范围、频率以及移位
- 11.4 时区处理
- 11.5 周期及其算术运算
- 11.6 重采样及频率转换
- 11.7 移动窗口函数
- 11.8 总结
- 第12章 Python建模库介绍
- 12.1 pandas与模型代码的接口
- 12.2 用Patsy创建模型描述
- 12.3 statsmodels介绍
- 12.4 scikit-learn介绍
- 12.5 总结
- 第13章 数据分析案例
- 13.1 来自1.USA.gov的Bitly数据
- 13.2 MovieLens 1M数据集
- 13.3 1880—2010年间全美婴儿姓名
- 13.4 USDA食品数据库
- 13.5 2012年联邦选举委员会数据库
- 13.6 总结
- 附录A 高阶NumPy
- 附录B 更多关于IPython的内容
书名:利用Python进行数据分析 (原书第3版)
译者:陈松 译
国内出版社:机械工业出版社
出版时间:2023年10月
书号:978-7-111-72672-2
原版书书名:Python for Data Analysis, 3rd Edition
原版书出版商:O'Reilly Media
Wes McKinney
Wes McKinney是纽约的一名数据分析高手和企业主。在2007年获得MIT的数学学士学位之后,他到位于康涅狄格州格林威治市(Greenwich,CT)的AQR Capital Management公司从事定量金融方面的工作。由于不满那些数据分析工具的各种不好用,他开始学习Python,并于2008年开始构建pandas项目。他目前是Python科学计算社区的活跃分子,而且积极倡导在数据分析、金融以及统计应用中使用Python。