Python网络爬虫权威指南(第2版)
Ryan Mitchell
神烦小宝 译
出版时间:2019年04月
页数:241
作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要。而编写简单的自动化程序(网络爬虫),一次就可以自动抓取上百万个网页中的信息,实现高效的数据采集和处理,满足大量数据需求应用场景。
本书采用简洁强大的Python语言,全面介绍网页抓取技术,解答诸多常见问题和误解,是掌握从数据爬取到数据清洗全流程的系统实践指南。书中内容分为两部分。第一部分深入讲解网页抓取的基础知识,重点介绍BeautifulSoup、Scrapy等Python库的应用。第二部分介绍网络爬虫编写相关的主题,以及各种数据抓取工具和应用程序,帮你深入互联网的每个角落,分析原始数据,获取数据背后的故事,轻松解决遇到的各类网页抓取问题。第2版全面更新,新增网络爬虫模型、Scrapy和并行网页抓取相关章节。
● 解析复杂的HTML页面
● 使用Scrapy框架开发爬虫
● 学习存储数据的方法
● 从文档中读取和提取数据
● 清洗格式糟糕的数据
● 自然语言处理
● 通过表单和登录窗口抓取数据
● 抓取JavaScript及利用API抓取数据
● 图像识别与文字处理
● 避免抓取陷阱和反爬虫策略
● 使用爬虫测试网站
  1. 前言
  2. 第一部分 创建爬虫
  3. 第1章 初见网络爬虫
  4. 1.1 网络连接
  5. 1.2 BeautifulSoup简介
  6. 1.2.1 安装BeautifulSoup
  7. 1.2.2 运行BeautifulSoup
  8. 1.2.3 可靠的网络连接以及异常的处理
  9. 第2章 复杂HTML解析
  10. 2.1 不是一直都要用锤子
  11. 2.2 再端一碗BeautifulSoup
  12. 2.2.1 BeautifulSoup的find()和find_all()
  13. 2.2.2 其他BeautifulSoup对象
  14. 2.2.3 导航树
  15. 2.3 正则表达式
  16. 2.4 正则表达式和BeautifulSoup
  17. 2.5 获取属性
  18. 2.6 Lambda表达式
  19. 第3章 编写网络爬虫
  20. 3.1 遍历单个域名
  21. 3.2 抓取整个网站
  22. 3.3 在互联网上抓取
  23. 第4章 网络爬虫模型
  24. 4.1 规划和定义对象
  25. 4.2 处理不同的网站布局
  26. 4.3 结构化爬虫
  27. 4.3.1 通过搜索抓取网站
  28. 4.3.2 通过链接抓取网站
  29. 4.3.3 抓取多种类型的页面
  30. 4.4 关于网络爬虫模型的思考
  31. 第5章 Scrapy
  32. 5.1 安装Scrapy
  33. 5.2 创建一个简易爬虫
  34. 5.3 带规则的抓取
  35. 5.4 创建item
  36. 5.5 输出item
  37. 5.6 item管线组件
  38. 5.7 Scrapy日志管理
  39. 5.8 更多资源
  40. 第6章 存储数据
  41. 6.1 媒体文件
  42. 6.2 把数据存储到CSV
  43. 6.3 MySQL
  44. 6.3.1 安装MySQL
  45. 6.3.2 基本命令
  46. 6.3.3 与Python整合
  47. 6.3.4 数据库技术与最佳实践
  48. 6.3.5 MySQL里的“六度空间游戏”
  49. 6.4 Email
  50. 第二部分 高级网页抓取
  51. 第7章 读取文档
  52. 7.1 文档编码
  53. 7.2 纯文本
  54. 7.3 CSV
  55. 7.4 PDF
  56. 7.5 微软Word和.docx
  57. 第8章 数据清洗
  58. 8.1 编写代码清洗数据
  59. 8.2 数据存储后再清洗
  60. 第9章 自然语言处理
  61. 9.1 概括数据
  62. 9.2 马尔可夫模型
  63. 9.3 自然语言工具包
  64. 9.3.1 安装与设置
  65. 9.3.2 用NLTK做统计分析
  66. 9.3.3 用NLTK做词性分析
  67. 9.4 其他资源
  68. 第10章 穿越网页表单与登录窗口进行抓取
  69. 10.1 Python Requests库
  70. 10.2 提交一个基本表单
  71. 10.3 单选按钮、复选框和其他输入
  72. 10.4 提交文件和图像
  73. 10.5 处理登录和cookie
  74. 10.6 其他表单问题
  75. 第11章 抓取JavaScript
  76. 11.1 JavaScript简介
  77. 11.2 Ajax和动态HTML
  78. 11.2.1 在Python中用Selenium执行JavaScript
  79. 11.2.2 Selenium的其他webdriver
  80. 11.3 处理重定向
  81. 11.4 关于JavaScript的最后提醒
  82. 第12章 利用API抓取数据
  83. 12.1 API概述
  84. 12.1.1 HTTP方法和API
  85. 12.1.2 更多关于API响应的介绍
  86. 12.2 解析JSON 数据
  87. 12.3 无文档的API
  88. 12.3.1 查找无文档的API
  89. 12.3.2 记录未被记录的API
  90. 12.3.3 自动查找和记录API
  91. 12.4 API与其他数据源结合
  92. 12.5 再说一点API
  93. 第13章 图像识别与文字处理
  94. 13.1 OCR库概述
  95. 13.1.1 Pillow
  96. 13.1.2 Tesseract
  97. 13.1.3 NumPy
  98. 13.2 处理格式规范的文字
  99. 13.2.1 自动调整图像
  100. 13.2.2 从网站图片中抓取文字
  101. 13.3 读取验证码与训练Tesseract
  102. 13.4 获取验证码并提交答案
  103. 第14章 避开抓取陷阱
  104. 14.1 道德规范
  105. 14.2 让网络机器人看着像人类用户
  106. 14.2.1 修改请求头
  107. 14.2.2 用JavaScript处理cookie
  108. 14.2.3 时间就是一切
  109. 14.3 常见表单安全措施
  110. 14.3.1 隐含输入字段值
  111. 14.3.2 避免蜜罐
  112. 14.4 问题检查表
  113. 第15章 用爬虫测试网站
  114. 15.1 测试简介
  115. 15.2 Python单元测试
  116. 15.3 Selenium单元测试
  117. 15.4 单元测试与Selenium单元测试的选择
  118. 第16章 并行网页抓取
  119. 16.1 进程与线程
  120. 16.2 多线程抓取
  121. 16.2.1 竞争条件与队列
  122. 16.2.2 threading模块
  123. 16.3 多进程抓取
  124. 16.3.1 多进程抓取
  125. 16.3.2 进程间通信
  126. 16.4 多进程抓取的另一种方法
  127. 第17章 远程抓取
  128. 17.1 为什么要用远程服务器
  129. 17.1.1 避免IP地址被封杀
  130. 17.1.2 移植性与扩展性
  131. 17.2 Tor代理服务器
  132. 17.3 远程主机
  133. 17.3.1 从网站主机运行
  134. 17.3.2 从云主机运行
  135. 17.4 其他资源
  136. 第18章 网页抓取的法律与道德约束
  137. 18.1 商标、版权、专利
  138. 18.2 侵害动产
  139. 18.3 计算机欺诈与滥用法
  140. 18.4 robots.txt和服务协议
  141. 18.5 3个网络爬虫
  142. 18.5.1 eBay起诉Bidder’s Edge侵害其动产
  143. 18.5.2 美国政府起诉Auernheimer与《计算机欺诈与滥用法》
  144. 18.5.3 Field起诉Google:版权和robots.txt
  145. 18.6 勇往直前
书名:Python网络爬虫权威指南(第2版)
作者:Ryan Mitchell
译者:神烦小宝 译
国内出版社:人民邮电出版社
出版时间:2019年04月
页数:241
书号:978-7-115-50926-0
原版书书名:Web Scraping with Python, 2nd Edition
原版书出版商:O'Reilly Media
Ryan Mitchell
 
Ryan Mitchell是数据科学家、软件工程师,目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前,曾在Abine公司构建网络爬虫和网络机器人。她经常做网络数据采集项目的咨询工作,主要面向金融和零售业。另著有Instant Web Scraping with Java。
 
 
购买选项
定价:79.00元
书号:978-7-115-50926-0
出版社:人民邮电出版社