大数据湖最佳实践
Alex Gorelik
傅建庆, 崔齐挺, 郑伟杰, 许闹 译
出版时间:2020年07月
页数:240
“Alex是位富有远见的数据人。他把他的实践见解融入到本书,探讨了过渡到数据驱动型企业涉及的技术因素、对公司整体的影响以及由此产生的对业务的影响。”
——Keyur Desai
TD Ameritrade首席数据官
“本书很好地阐述了各类数据湖的架构,包括它们提供了什么价值,带来了哪些挑战,以及如何应对这些挑战。”
——Jari Koister
FICO产品和技术副总裁
加州大学伯克利分校的数据科学教授

数据湖利用大数据技术为企业提供便捷的数据自助服务能力,这是一项别具一格的创新。但这适合每一个公司吗?本书基于与100多个组织的从业者和高管的讨论,涉及的组织类型包括Google、LinkedIn和Facebook这类数据驱动型公司以及政府和传统企业。通过本书,你将了解什么是数据湖,为什么企业需要它,以及如何使用本书中的最佳实践成功地构建数据湖。
本书作者是Waterline Data的首席技术官兼创始人,他解释了为什么旧系统、旧流程无法再支持企业的数据需求。在关于数据湖实施的一系列文章中,他介绍了来自各行业数据专家的数据湖方案、分析项目、经验以及最佳实践。
● 数据仓库、大数据、数据科学的简单介绍。
● 了解企业建立数据湖的各种途径。
● 探索如何构建自助服务模型,以及如何让分析师便捷访问数据的最佳实践。
● 使用不同的方法来构建数据湖。
● 了解不同行业专家实现数据湖的方法。
  1. 前言
  2. 第1章 数据湖概述
  3. 数据湖的成熟度
  4. 创建成功的数据湖
  5. 成功实施数据湖的路线图
  6. 构建数据湖
  7. 小结
  8. 第2章 历史背景
  9. 数据自助服务驱动——数据库的诞生
  10. 分析必要性驱动——数据仓库的诞生
  11. 数据仓库生态系统
  12. 小结
  13. 第3章 大数据和数据科学概述
  14. Hadoop引领大数据的历史性转变
  15. 数据科学
  16. 你的分析机构应该关注什么?
  17. 机器学习
  18. 小结
  19. 第4章 建立数据湖
  20. 为什么是Hadoop
  21. 防止数据水洼扩散
  22. 利用大数据的优势
  23. 小结
  24. 第5章 从数据池/大数据仓库到数据湖
  25. 数据仓库的基本功能
  26. 迁移至数据池
  27. 数据池演化为数据湖——加载数据仓库中未包含的数据
  28. 实时数据湖
  29. Lambda架构
  30. 数据转换
  31. 目标系统
  32. 小结
  33. 第6章 自助服务优化
  34. 自助服务起源
  35. 业务分析师
  36. 数据湖数据整理
  37. 分析和可视化
  38. 自助式商业智能的新世界
  39. 小结
  40. 第7章 数据湖架构
  41. 规划数据湖
  42. 多数据湖
  43. 云上数据湖
  44. 虚拟数据湖
  45. 小结
  46. 第8章 数据湖元数据
  47. 组织数据
  48. 打标
  49. 逻辑数据管理
  50. 连接分散的数据
  51. 建立血缘关系
  52. 数据预置
  53. 创建目录的工具
  54. 数据洋
  55. 小结
  56. 第9章 数据访问控制
  57. 授权与访问控制
  58. 基于标签的控制策略
  59. 数据脱敏
  60. 自助服务访问管理
  61. 小结
  62. 第10章 行业案例
  63. 金融服务大数据
  64. 数据湖为金融服务领域带来的价值
  65. 保险行业中的数据湖
  66. 智慧城市
  67. 医疗大数据
书名:大数据湖最佳实践
作者:Alex Gorelik
译者:傅建庆, 崔齐挺, 郑伟杰, 许闹 译
国内出版社:中国电力出版社
出版时间:2020年07月
页数:240
书号:978-7-5198-4590-2
原版书书名:The Enterprise Big Data Lake
原版书出版商:O'Reilly Media
Alex Gorelik
 
Alex Gorelik最近30年一直从事开发和部署最先进的数据相关技术,致力于帮助BAE (Eurofighter)、Unilever、IBM、Royal Caribbean、Kaiser和Goldman Sachs等大公司以及其他几十个公司解决棘手的相关数据问题。
Alex是一家ETL公司(即Acta,被Gartner认为是一家有远见的公司,已被Business Objects/ SAP收购)的联合创始人兼CTO,他在大型分析和数据仓库领域进行过数年的实践咨询,拥有数据仓库建设方面的第一手经验。他的第二家公司Exeros(已被IBM收购)专注于帮助大型企业理解并管理数据。作为IBM的杰出工程师以及Informatica的高级副总裁和总经理,他领导了Hadoop技术的开发和运用。最后,作为常驻Menlo Ventures的企业家以及Waterline的创始人兼CTO,他曾与管理大数据湖以及从事数据科学的权威专家们一起合作,这些专家普遍来自于Google、LinkedIn、大型银行、政府机构这样的大型企业。Alex拥有哥伦比亚大学的计算机科学硕士学位和斯坦福大学的计算机科学博士学位,他现在与妻子和四个孩子住在旧金山。
 
 
本书封面的动物是一只红胸秋沙鸭(学名:Mergus serrator),一种在北美、欧洲和亚洲各地均有发现的锯齿鸭。它是一种候鸟,春季会向北迁徙至淡水湖泊和河流进行繁殖,冬季向南迁徙至沿海地区。名称中的“serrator”指的是其喙的锯齿状边缘,它有助于捕食鱼类、青蛙、水生昆虫和甲壳类动物,这种鸭子擅长潜水以及水下寻找食物。
红胸秋沙鸭具有鲜明的性别特征。雄性具有红色胸部、深绿色头部和黑色背部,颈部和腹部则为白色。雌性(如本书封面所示)的色彩则较为柔和,具有红色头部和灰色身体。两者都有尖尖的羽毛。红胸秋沙鸭可以长到50~60cm。在繁殖季节,雄性会在多个雌性面前通过求爱表演来赢得雌性的青睐,雌性会在靠近水边的地面上筑巢。
红胸秋沙鸭拥有鸭类的最快飞行记录:160km/h(在试图躲避飞机时)。
O’Reilly图书封面上的许多动物都濒临灭绝,它们对这个世界都很重要。要了解更多关于如何提供帮助,请访问animals.oreilly.com。
购买选项
定价:68.00元
书号:978-7-5198-4590-2
出版社:中国电力出版社