SQL数据分析
Cathy Tanimura
王薇, 时畅 译
出版时间:2023年08月
页数:370
“虽然我已经在数据分析领域工作超过20年,也对不同的SQL环境无比熟悉,在阅读本书的过程中仍有无数个令我惊喜的‘啊哈’时刻。我会将此书买给我当前以及未来团队中的每一位成员。”
—— Stuart Kim-Brown PhD
B2C和SaaS产品分析专家
“终于有一本专门为想从事数据分析相关工作的人所写的介绍SQL的书籍出版了。任何一位热爱数据的分析师或数据科学家都会从中受益,学会运用SQL进行各类数据分析的方法。详细的示例和代码也帮助读者更快地学习运用SQL进行数据分析。”
—— Dan Voorhies
Zillow数据分析部总监

随着数据、算力和云数据仓库的激增,对于有经验的分析师或数据科学家来说,SQL已经成为一个更加不可或缺的工具。本书展示了提高SQL技能、解决问题,以及在工作流程中充分利用SQL新的和隐藏的方法。
你将学习如何以创新的方式使用常用的和特殊的SQL函数(如连接、窗口函数、子查询和正则表达式),以及如何用可理解的代码,通过组合SQL技术更快地完成目标。如果你在平常工作中也会用到SQL数据库,本书会是必备的参考资料。
● 学习准备分析数据的关键步骤。
● 使用SQL的日期和时间操作进行时间序列分析。
● 使用同期群分析研究群体如何随时间变化。
● 使用SQL的强大功能和操作符进行文本分析。
● 检测数据中的异常值,并用代替值替换它们。
● 使用实验分析建立因果关系,也称为A/B测试。
  1. 前言
  2. 第1章 用SQL来做数据分析
  3. 1.1 什么是数据分析
  4. 1.2 为什么用SQL
  5. 1.2.1 SQL是什么
  6. 1.2.2 SQL的优势
  7. 1.2.3 SQL与R和Python的对比
  8. 1.2.4 SQL作为数据分析流程中的一部分
  9. 1.3 数据库类型以及如何使用
  10. 1.3.1 行存储数据
  11. 1.3.2 列存储数据
  12. 1.3.3 其他的数据结构类型
  13. 1.4 总结
  14. 第2章 为数据分析做准备
  15. 2.1 数据类型
  16. 2.1.1 数据库的数据类型
  17. 2.1.2 结构化和非结构化数据
  18. 2.1.3 定量和定性数据
  19. 2.1.4 第一方、第二方和第三方数据
  20. 2.1.5 稀疏数据
  21. 2.2 SQL查询结构
  22. 2.3 数据剖析:分布
  23. 2.3.1 直方图和频率
  24. 2.3.2 分箱
  25. 2.3.3 n-Tiles
  26. 2.4 数据剖析:数据质量
  27. 2.4.1 检测重复数据
  28. 2.4.2 用GROUP BY和DISTINCT来处理重复数据
  29. 2.5 准备:数据清理
  30. 2.5.1 通过CASE转换来清理数据
  31. 2.5.2 数据类型转换
  32. 2.5.3 处理空值:coalesce, nulliff, nvl函数
  33. 2.5.4 缺失的数据
  34. 2.6 准备:数据构形
  35. 2.6.1 你需要怎样的输出:BI,可视化,统计,机器学习
  36. 2.6.2 用CASE语句进行数据透视
  37. 2.6.3 用UNION语句来取消数据透视
  38. 2.6.4 pivot(透视)和unpivot(取消透视)函数
  39. 2.7 总结
  40. 第3章 时间序列分析
  41. 3.1 日期、日期时间和时间操作
  42. 3.1.1 时区转换
  43. 3.1.2 日期和时间戳的格式转换
  44. 3.1.3 日期相关的计算
  45. 3.1.4 时间相关的计算
  46. 3.1.5 连接不同来源的数据
  47. 3.2 零售销售数据集
  48. 3.3 对数据进行趋势分析
  49. 3.3.1 简单的趋势
  50. 3.3.2 比较时间序列的组成部分
  51. 3.3.3 计算占总数的百分比
  52. 3.3.4 运用索引以查看随时间变化的百分比
  53. 3.4 滚动时间窗口
  54. 3.4.1 计算滚动时间窗口
  55. 3.4.2 稀疏数据的滚动时间窗口
  56. 3.4.3 计算累计值
  57. 3.5 季节性分析
  58. 3.5.1 同期比较:YoY和MoM
  59. 3.5.2 同期比较:与去年的同月进行对比
  60. 3.5.3 与多个以前的周期做对比
  61. 3.6 总结
  62. 第4章 同期群分析
  63. 4.1 同期群:一种有用的分析框架
  64. 4.2 立法者数据集
  65. 4.3 留存
  66. 4.3.1 基本留存曲线的 SQL
  67. 4.3.2 调整时间序列以提高留存率的准确性
  68. 4.3.3 从时间序列数据构建同期群
  69. 4.3.4 从单独的表构建同期群
  70. 4.3.5 处理稀疏同期群
  71. 4.3.6 用除第一个日期以外的其他日期定义同期群
  72. 4.4 相关同期群分析
  73. 4.4.1 生存
  74. 4.4.2 返回或重复购买行为
  75. 4.4.3 累积计算
  76. 4.5 透过同期群看横断面分析
  77. 4.6 总结
  78. 第5章 文本分析
  79. 5.1 为什么使用SQL进行文本分析
  80. 5.1.1 什么是文本分析
  81. 5.1.2 为什么SQL是文本分析的好选择
  82. 5.1.3 什么情况下SQL不是一个好的选择
  83. 5.2 UFO目击数据集
  84. 5.3 文本特征
  85. 5.4 解析文本
  86. 5.5 文本转换
  87. 5.6 在较大的文本块中查找元素
  88. 5.6.1 通配符匹配:LIKE,ILIKE
  89. 5.6.2 精确匹配:IN,NOT IN
  90. 5.6.3 正则表达式
  91. 5.7 构建与重塑文本
  92. 5.7.1 拼接
  93. 5.7.2 重塑文本
  94. 5.8 总结
  95. 第6章 异常检测
  96. 6.1 SQL异常检测的能力和限制
  97. 6.2 数据集
  98. 6.3 检测异常值
  99. 6.3.1 通过排序查找异常
  100. 6.3.2 通过计算百分比和标准偏差发现异常
  101. 6.3.3 通过作图可视化查找异常
  102. 6.4 异常的形式
  103. 6.4.1 异常值
  104. 6.4.2 异常的计数或频率
  105. 6.4.3 数据缺失引起的异常
  106. 6.5 处理异常
  107. 6.5.1 探查
  108. 6.5.2 删除
  109. 6.5.3 替代值替换
  110. 6.5.4 缩放
  111. 6.6 总结
  112. 第7章 实验分析
  113. 7.1 用SQL进行实验分析的优势与局限性
  114. 7.2 数据集
  115. 7.3 实验的类型
  116. 7.3.1 二元结果实验:卡方检验
  117. 7.3.2 具有连续结果的实验:t检验
  118. 7.4 实验的挑战和拯救有缺陷的实验的方法 312
  119. 7.4.1 变体分配
  120. 7.4.2 异常值
  121. 7.4.3 时间盒
  122. 7.4.4 重复暴露实验
  123. 7.5 当无法进行控制实验时:替代分析
  124. 7.5.1 前/后分析
  125. 7.5.2 自然实验分析
  126. 7.5.3 阈值附近的群体分析
  127. 7.6 总结
  128. 第8章 创建用于分析的复杂数据集
  129. 8.1 何时对复杂数据集使用SQL
  130. 8.1.1 使用SQL的优点
  131. 8.1.2 什么时候构建ETL
  132. 8.1.3 何时将逻辑放入其他工具中
  133. 8.2 代码组织
  134. 8.2.1 注释
  135. 8.2.2 大写,缩进,括号和其他格式技巧
  136. 8.2.3 存储代码
  137. 8.3 组织计算
  138. 8.3.1 理解SQL子句的计算顺序
  139. 8.3.2 子查询
  140. 8.3.3 临时表
  141. 8.3.4 公共表表达式
  142. 8.3.5 grouping sets
  143. 8.4 管理数据集大小和隐私问题
  144. 8.4.1 使用% 、mod进行抽样
  145. 8.4.2 降低维数
  146. 8.4.3 PII和数据隐私
  147. 8.5 总结
  148. 第9章 结论
  149. 9.1 漏斗分析
  150. 9.2 流失、中止和其他离开的定义
  151. 9.3 购物篮分析
  152. 9.4 资源
  153. 9.4.1 书籍和博客
  154. 9.4.2 数据集
  155. 9.5 最终的想法
书名:SQL数据分析
作者:Cathy Tanimura
译者:王薇, 时畅 译
国内出版社:中国电力出版社
出版时间:2023年08月
页数:370
书号:978-7-5198-7951-8
原版书书名:SQL for Data Analysis
原版书出版商:O'Reilly Media
Cathy Tanimura
 
Cathy Tanimura热衷于将人们和组织与他们需要的数据联系起来,以产生价值和影响。20多年来,她一直在分析各种行业的数据,从金融到B2B软件,再到消费者服务。她有在大多数主流的专有和开源数据库中使用SQL分析数据的经验。她在多家领先的科技公司建立并管理数据团队和数据基础设施。Cathy还经常在顶级会议上发表演讲,主题包括构建数据文化、数据驱动产品开发和包容性数据分析。
 
 
本书封面上的动物是一只绿鹊(学名:Cissa chinensis)。它们通常被称为普通绿鹊,这种宝石色的鸟是乌鸦科的一员。这种鸟分布于印度东北部、泰国中部、马来西亚、苏门答腊和婆罗洲西北部的低地常绿和竹林中,它们一般很吵闹,且高度群居社交性强。在野外,可以通过翡翠色的羽毛来识别它们,这与它们的红色喙和沿着眼睛延伸的黑色条纹形成了优雅的对比。它们也有白色的尾巴和淡红色的翅膀。
绿喜鹊社交性强又噪音大,可以通过它刺耳的尖叫声和空洞而果断的“扑通”声来识别。它们通常也很难被发现,因为它们在森林的中上层从一棵树滑向另一棵树。它们在树、大灌木和各种攀援藤蔓的缠结中筑巢。有时被称为狩猎绿鹊,它们主要是食肉动物,食用各种无脊椎动物,以及幼鸟和蛋、小型爬行动物和哺乳动物。
绿鹊因其变色能力而迷人。虽然它们在野外呈翡翠绿色,但据观察,它们在圈养时会变成明显的绿松石色。它们的绿色来自两种来源的组合:一种特殊的羽毛结构,由于羽毛折射光而产生蓝色,以及类胡萝卜素——来自鸟类饮食的黄色、橙色和红色色素。长时间暴露在强烈的阳光下会破坏类胡萝卜素,从而使鸟看起来呈青绿色。
绿鹊的种类范围非常大,虽然种群数量似乎呈下降趋势,但下降速度还不足以将该物种归入易危类别。因此,它们目前的保护状态是“低关注度物种(或无危物种)”。
封面插图由Karen Montgomery根据English Cyclopedia的一幅黑白雕刻绘制而成。
购买选项
定价:128.00元
书号:978-7-5198-7951-8
出版社:中国电力出版社