《大数据项目管理：从规划到实现》—

大数据项目管理：从规划到实现

薛命灯译

出版时间：2019年12月

页数：139

许多公司会在大数据项目的实施细节上下很多功夫，例如研究分布式处理引擎和数据分析算法。这并没有错，但不要因为一棵树而错过整片森林。本书将为你打开更广阔的视野，展示如何从大数据项目的规划阶段开始，一步步走向成功。无论是首席信息官、首席技术官、项目经理，还是架构师和开发人员，都能通过本书得到启迪。
● 开始规划：思考大数据项目的主要类型
● 评估和选择数据管理解决方案
● 降低与技术、团队、需求相关的风险
● 探索良好的接口设计模式
● 为项目选择合适的分布式存储系统
● 规划和实施元数据收集
● 使用数据管道确保数据完整性
● 根据并行处理引擎的特征评估处理框架

目录
产品信息
关于作者

前言
第1章　数据项目的主要类型及考虑因素
1.1　数据项目的主要类型
1.2　数据管道和数据暂存
1.2.1　主要考虑因素和风险管理
1.2.2　数据管道和数据暂存团队的人员组成
1.3　数据的处理和分析
1.3.1　主要考虑因素和风险管理
1.3.2　数据处理和分析团队的人员组成
1.4　应用程序开发
1.4.1　主要考虑因素和风险管理
1.4.2　应用程序开发团队的人员组成
1.5　小结
第2章　评估和选择数据管理解决方案
2.1　开源项目的阶段
2.1.1　孵化阶段
2.1.2　发布阶段
2.1.3　“治愈癌症”阶段
2.1.4　打破承诺阶段
2.1.5　强化阶段
2.1.6　企业阶段
2.1.7　终结阶段
2.2　开源项目的常见生命周期
2.2.1　使产品起死回生
2.2.2　追随者
2.3　评估基准测试
2.4　技术选型的考虑因素
2.4.1　了解构建块
2.4.2　寻求建议
2.4.3　从分析师那里获得见解
2.4.4　研究市场趋势
2.5　小结
第3章　数据项目的风险管理
3.1　风险类型
3.1.1　技术风险
3.1.2　团队风险
3.1.3　需求风险
3.2　风险管理
3.2.1　对架构中的风险进行分类
3.2.2　技术风险
3.2.3　团队的优势
3.2.4　外部团队风险
3.2.5　需求风险
3.2.6　融会贯通
3.3　使用原型和PoC
3.3.1　找到两三种方法
3.3.2　进行PoC，然后丢弃
3.3.3　部署的注意事项
3.4　使用接口
3.5　尽早开始构建
3.6　频繁测试并保留记录
3.7　监控和警报
3.8　沟通风险
3.8.1　合作并获得信任
3.8.2　公开风险
3.9　将风险作为谈判工具
3.10　小结
第4章　接口设计
4.1　人体
4.1.1　人体与数据架构
4.1.2　解耦
4.1.3　解耦的注意事项
4.1.4　专门化
4.2　什么造就了好的接口设计
4.2.1　合约
4.2.2　抽象
4.2.3　版本控制
4.2.4　防御
4.2.5　接口的文档和命名
4.3　非功能性考虑因素
4.3.1　可用性
4.3.2　响应时间
4.3.3　负载容量
4.3.4　使用测试来确定SLA
4.4　通用接口示例
4.4.1　发布–订阅
4.4.2　异步请求–响应
4.4.3　同步请求–响应
4.5　小结
第5章　分布式存储系统
5.1　分布式存储系统的属性
5.1.1　谱系
5.1.2　分区
5.1.3　处理数据变更
5.1.4　读取路径
5.1.5　可用性与一致性
5.1.6　主要用例
5.2　存储系统细分
5.2.1　HDFS
5.2.2　S3和对象存储系统
5.2.3　Apache HBase
5.2.4　Apache Cassandra
5.2.5　Elasticsearch和Apache Solr
5.2.6　新进者：Apache Kudu和CockroachDB
5.2.7　内存存储系统
5.3　小结
第6章　企业元数据
6.1　为什么要关注元数据
6.1.1　数据可见性
6.1.2　数据之间的关系
6.1.3　数据监管
6.2　数据架构中的元数据类型
6.2.1　静态数据
6.2.2　动态数据
6.2.3　数据源的元数据
6.2.4　有关数据处理的元数据
6.2.5　报告和仪表盘
6.3　元数据收集
6.3.1　声明式元数据收集
6.3.2　发现式元数据收集
6.4　元数据管理实践
6.5　小结
第7章　确保数据完整性
7.1　构建数据管道
7.2　验证数据管道
7.2.1　行数
7.2.2　唯一计数
7.2.3　全字节比较
7.2.4　校验和比较
7.3　小结
第8章　数据处理
8.1　处理引擎的属性
8.1.1　DAG管理
8.1.2　计算隔离
8.1.3　性能
8.1.4　容错
8.1.5　交互模型
8.1.6　批处理或流处理
8.2　数据处理演变史
8.3　小结

书名：大数据项目管理：从规划到实现

作者：Ted Malaska, Jonathan Seidman 著

译者：薛命灯译

国内出版社：人民邮电出版社

出版时间：2019年12月

页数：139

书号：978-7-115-45736-3

原版书书名：Foundations for Architecting Data Solutions

原版书出版商：O'Reilly Media

Ted Malaska

特德·马拉斯卡（Ted Malaska）， Capital One的企业架构主管，曾在暴雪娱乐公司担任全球视野工程总监，负责为《魔兽世界》《守望先锋》《炉石传说》等游戏提供支持。他为众多开源项目贡献过代码，并与塞德曼等人合著有《Hadoop应用架构》。

Cloudera公司的解决方案架构师，致力于帮助客户更好地掌握Hadoop及其生态系统。曾任美国金融业监管局（FINRA，Financial Industry Regulatory Authority）首席架构师，指导建设了包括网络应用、服务型架构以及大数据应用在内的大量解决方案。曾为Apache Flume、Apache Avro、YARN以及Apache Pig等项目贡献代码。

查看Ted Malaska 更多信息

Jonathan Seidman

Cloudera公司的解决方案架构师，协助合作伙伴将的解决方案集成到Cloudera的软件栈中。芝加哥Hadoop用户组（Chicago Hadoop User Group）及芝加哥大数据（Chicago Big Data）的联合创始人、《Hadoop实战》技术编辑。曾任Orbiz Worldwide公司大数据团队技术主管，为繁忙的站点管理了承载海量数据的Hadoop集群。也曾多次在Hadoop及大数据专业会议上发言。

查看Jonathan Seidman更多信息

购买选项

定价：59.00元

书号：978-7-115-45736-3

出版社：人民邮电出版社

联系出版社邮购