Python数据处理:如何又快又好
爱飞翔 译
出版时间:2024年01月
页数:378
“Susan E. McGregor给各种水平的学生都讲授过数据新闻学,她的经验在本书中很好地展示了出来。她通过各种现实示例,详细告诉大家如何用切实可行的方式获取、审查和分析数据。”
——Joanna S. Kao
《金融时报》视觉与数据新闻团队技术主管
数据无处不在,它们蕴含着独特的信息和有价值的故事,本书将帮助你发掘它们。无论你已经开始处理数据,还是想要学习如何处理数据,都能通过本书中的示例与技术,学会更好地清洗、评估并分析数据,以形成有意义的洞见,并制作出有说服力的可视化图表。
作者既讲解了基本概念,也给出了专业建议,并且提供了相应的资源来帮助大家学会提取、评估并分析各种数据源和数据格式。另外,作者还讲解了相应的工具,让你能够有效地与他人交流,让对方了解自己通过分析这些数据所得到的观点。本书没有艰深的术语,适合各种水平的数据从业者阅读,无论你是纯粹的新手还是有经验的专业人士,都可以通过本书学会如何驾驭数据。
通过学习本书,你将:
● 使用Python 3.8以上的版本读写和转换各种来源的数据。
● 理解并使用基本的Python编程技术来处理大规模的数据。
● 使用各种经验法则来组织代码的结构并为其撰写文档。
● 从结构化数据文件、网页和API中收集数据。
● 执行基本的统计分析,以便从数据集中得出有意义的结论。
● 用清晰且具有说服力的方式可视化和展示数据。
- 前言
- 第1章 数据整理与数据质量简介
- 1.1 什么是数据整理
- 1.2 什么是数据质量
- 1.3 为什么选用Python语言整理数据
- 1.4 编写并运行Python代码
- 1.5 如何在自己的设备上编写Python代码
- 1.6 在网页版的开发环境中编写Python代码
- 1.7 编写“Hello World!”程序
- 1.8 添加代码
- 1.9 运行代码
- 1.10 撰写文档、保存工作资料和管理不同版本的资料
- 1.11 小结
- 第2章 Python入门
- 2.1 词性
- 2.2 用循环结构与条件结构控制程序的走向
- 2.3 代码中可能出现的各种错误
- 2.4 用Citi Bike数据来演示如何编写数据整理程序
- 2.5 小结
- 第3章 了解数据质量
- 3.1 判断数据是否合适
- 3.2 判断数据是否完整
- 3.3 提升数据的质量
- 3.4 小结
- 第4章 用Python处理基于文件与基于feed的数据
- 4.1 结构化的数据与非结构化的数据
- 4.2 处理结构化的数据
- 4.3 以了解失业情况为例来整理现实数据
- 4.4 处理非结构化的数据
- 4.5 小结
- 第5章 访问网络数据
- 5.1 联网访问在线的XML与JSON数据
- 5.2 API 简介
- 5.3 以搜索引擎为例讲解如何调用基本的API
- 5.4 如何调用带有基本身份认证机制的API
- 5.5 阅读API文档
- 5.6 使用Python时保护你的API密钥
- 5.7 如何调用带有OAuth认证机制的API
- 5.8 调用API时所应遵循的行为准则
- 5.9 获取数据的最后一招:网页抓取
- 5.10 小结
- 第6章 评估数据质量
- 6.1 流行病与PPP
- 6.2 评估数据的完整程度
- 6.3 评估数据的适合程度
- 6.4 小结
- 第7章 清洗、转换和增强数据
- 7.1 如何从Citi Bike数据中选取一部分内容
- 7.2 把数据文件清洗干净
- 7.3 把Excel表格中的日期处理好
- 7.4 把定宽数据转换成真正的CSV文件
- 7.5 修正拼写不一致的现象
- 7.6 为了找到简单方案而走过的弯路
- 7.7 一些容易出错的地方
- 7.8 增强数据
- 7.9 小结
- 第8章 调整并重构代码
- 8.1 重新思考自定义的函数
- 8.2 什么是作用域
- 8.3 为函数设计参数
- 8.4 返回值
- 8.5 以嵌套的形式调用函数
- 8.6 既有趣又有用的重构
- 8.7 用pydoc给自定义的脚本与函数撰写文档
- 8.8 让Python脚本支持命令行参数
- 8.9 命令行脚本与notebook的区别
- 8.10 小结
- 第9章 数据分析入门
- 9.1 情境很重要
- 9.2 常规与反常
- 9.3 评估集中趋势
- 9.4 另辟蹊径:识别异常值
- 9.5 数据分析可视化
- 9.6 这些200万美元的贷款记录是怎么回事
- 9.7 注意按比例计算
- 9.8 小结
- 第10章 展示数据
- 10.1 视觉说服力
- 10.2 把整理数据后形成的观点表达出来
- 10.3 如何选择图表
- 10.4 视觉说服力要素
- 10.5 通过seaborn与matplotlib库自定义更好的可视化图表
- 10.6 提高设计水平
- 10.7 小结
- 第11章 Python以外的工具
- 11.1 查看数据的其他工具
- 11.2 分享并展示数据的其他工具
- 11.3 考虑原则问题
- 11.4 小结
- 附录A 其他Python编程资源
- 附录B 再讲一讲Git
- 附录C 获取数据的渠道
- 附录D 与可视化及信息设计有关的资源
书名:Python数据处理:如何又快又好
译者:爱飞翔 译
国内出版社:机械工业出版社
出版时间:2024年01月
页数:378
书号:978-7-111-74115-2
原版书书名:Practical Python Data Wrangling and Data Quality
原版书出版商:O'Reilly Media
Susan E. McGregor
Susan E. McGregor是哥伦比亚大学数据科学研究所的研究员,也是该研究所数据、媒体和社会中心的联合主管。十多年来,她一直在向非理工科的专业人士、研究生及本科生讲授编程与数据分析课程,并不断完善自己的教学方式。
本书封面上的动物是马蹄鞭蛇,学名为Hemorrhois hippocrepis。
这种蛇原产自欧洲西南部与北非,它栖息于各种环境中,例如,灌木丛、岩质与沙质法岸、牧场、种植场、乡村的田园以及城市的某些区域。成年的马蹄鞭蛇总长可达1.5米。它的鳞片较为光滑,身体呈黄色或红色,有一系列黑色或深棕色的大斑点,一直延伸至背部。这种蛇之所以叫马蹄鞭蛇,是因为其颈部与后脑勺有马蹄形的淡色印记。
马蹄鞭蛇善于攀爬,能够在树顶、屋顶或岩石峭壁上捕捉鸟类、小型爬行动物和小型哺乳动物。虽然它在受到触摸时容易发怒并用力咬人,但这种蛇没有毒,对人来说不是特别危险。
马蹄鞭蛇的适应能力很强,它目前的受保护状态是“LeastConcern”,即它属于无危物种。O'Reilly封面上的许多动物都濒临灭绝,它们对世界都很重要。