大数据管理:数据集成的技术、方法与最佳实践作者:(美)瑞芙 著,余水清,潘黎萍 译出版时间:2014内容简介 本书是数据集成领域的经典著作,由具有数十年从业经验的资深数据集成专家撰写,数据管理专家作序推荐!它为大数据时代的大中型企业管理企业内部大量的、复杂的应用系统之间的数据提供了解决方案,全面而深入地讲解数据集成的工具、方法、技巧、解决方案以及最佳实践。本书分为四部分,共22章,高屋建瓴地阐述了在大型组织环境中,不同计算机系统之间传输数据,以及将异构数据进行集成所用到的技巧、技术和最佳实践,内容涵盖数据集成导论、批处理数据集成、实时数据集成和大数据集成等。本书虽然介绍了各种数据集成问题的多种不同类型的技术解决方案,但读者无需具备广阔的技术背景就能理解,适合数据处理相关的项目经理、数据分析师、数据模型设计师、数据库工作者以及数据集成程序员等相关技术人员及数据管理专业学生阅读。目 录译者序序言前言第一部分 数据集成导论第1章 数据集成的重要性 / 21.1 数据接口的天然复杂性 / 21.2 购买供应商应用包的数量日益增加 / 31.3 大数据和虚拟化的催化剂 / 3第2章 什么是数据集成 / 52.1 运动中的数据 / 52.2 集成为通用格式—数据转换 / 52.3 数据从一个系统迁移到另一个系统 / 62.4 在组织内部移动数据 / 62.5 从非结构化数据中抽取信息 / 82.6 将处理移动到数据端 / 9第3章 数据集成的类型和复杂性 / 103.1 管理运动中的数据和持久化数据的异同点 / 103.2 批处理数据集成 / 103.3 实时数据集成 / 113.4 大数据集成 / 113.5 数据虚拟化 / 12第4章 数据集成开发过程 / 134.1 数据集成开发生命周期 / 134.2 包含业务知识和专家经验 / 14第二部分 批处理数据集成第5章 批处理数据集成简介 / 185.1 什么是批处理数据集成 / 185.2 批处理数据集成生命周期 / 19第6章 抽取、转换和加载 / 206.1 什么是ETL / 206.2 概要分析 / 206.3 抽取 / 216.4 暂存 / 226.5 访问层次 / 226.6 转换 / 236.6.1 简单映射 / 236.6.2 查找表 / 246.6.3 聚合和规范化 / 246.6.4 计算 / 246.7 加载 / 24第7章 数据仓库 / 267.1 什么是数据仓库 / 267.2 企业数据仓库架构中的层次 / 267.2.1 操作型应用层 / 267.2.2 外部数据 / 277.2.3 数据仓库中的数据暂存区 / 277.2.4 数据仓库数据结构 / 287.2.5 从数据仓库到数据集市或者商务智能层的暂存 / 287.2.6 商务智能层 / 287.3 加载到数据仓库中的数据类型 / 297.3.1 数据仓库中的主数据 / 297.3.2 数据仓库中的余额和快照数据 / 307.3.3 数据仓库中的事务型数据 / 317.3.4 事件 / 317.3.5 调整 / 31第8章 数据转换 / 398.1 什么是数据转换 / 398.2 数据转换生命周期 / 398.3 数据转换分析 / 398.4 数据加载最佳实践 / 408.5 提高源数据质量 / 408.6 映射到目标系统 / 418.7 配置数据 / 418.8 测试和依赖 / 428.9 私有数据 / 428.10 校对 / 438.11 环境 / 43第9章 数据归档 / 479.1 什么是数据归档 / 479.2 归档数据选择 / 479.3 已归档数据可以恢复吗 / 489.4 归档环境下数据结构的确认 / 489.5 灵活的数据结构 / 49第10章 批处理数据集成架构和元数据 / 5410.1 什么是批处理数据集成架构 / 5410.2 概要分析工具 / 5510.3 建模工具 / 5510.4 元数据存储库 / 5510.5 数据移动 / 5610.6 转换 / 5610.7 调度 / 57第三部分 实时数据集成第11章 实时数据集成简介 / 6411.1 为什么需要实时数据集成 / 6411.2 为什么需要两组技术 / 64第12章 数据集成模式 / 6612.1 交互模式 / 6612.2 松耦合 / 6612.3 中心和节点模式 / 6612.4 同步交互和异步交互 / 6912.5 请求和应答 / 7012.6 发布和订阅 / 7012.7 两阶段提交 / 7012.8 集成交互类型 / 71第13章 核心实时数据集成技术 / 7213.1 令人困惑的术语 / 7213.2 企业服务总线 / 7213.3 面向服务架构 / 7513.4 可扩展标记语言 / 7713.5 数据复制和变化数据捕获 / 8113.6 企业应用集成 / 8213.7 企业信息集成 / 82第14章 数据集成建模 / 8414.1 规范化建模 / 8414.2 消息建模 / 88第15章 主数据管理 / 8915.1 主数据管理简介 / 8915.2 需要主数据管理方案的原因 / 8915.3 购买的软件包与主数据 / 9015.4 参考数据 / 9015.5 主和从 / 9115.6 外部数据 / 9315.7 主数据管理功能 / 9315.8 主数据管理方案的类型—注册表以及数据中心 / 94第16章 实时更新数据仓库 / 9516.1 企业信息工厂 / 9516.2 操作型数据存储 / 9616.3 移动到数据仓库的主数据 / 97第17章 实时数据集成架构和元数据 / 9917.1 实时数据集成元数据简介 / 9917.2 建模 / 10017.3 概要分析 / 10017.4 元数据库 / 10117.5 企业服务总线—数据转换和调度 / 10117.5.1 技术中介 / 10117.5.2 业务内容 / 10217.6 数据移动和中间件 / 10217.7 外部交互 / 102第四部分 大数据集成第18章 大数据集成简介 / 10618.1 数据集成及非结构化数据 / 10618.2 大数据、云数据及数据虚拟化 / 106第19章 云架构和数据集成 / 10719.1 为什么云中的数据集成比较重要 / 10719.2 公共云 / 10719.3 云安全 / 10819.4 云延迟 / 10919.5 云冗余 / 110第20章 数据虚拟化 / 11120.1 恰逢其时的一项技术 / 11120.2 数据虚拟化的商业用途 / 11220.2.1 商务智能方案 / 11220.2.2 集成不同类型的数据 / 11320.2.3 快速向数据仓库中增加或者原型增加数据 / 11320.2.4 将物理上不同的数据一起展现 / 11320.2.5 利用不同的数据和模型触发交易 / 11420.3 数据虚拟化架构 / 11420.3.1 源和适配器 / 11420.3.2 映射、模型和视图 / 11420.3.3 转换和展现 / 115第21章 大数据集成 / 11621.1 什么是大数据 / 11621.2 大数据维度—量 / 11621.2.1 大规模并行处理—将处理过程移动到数据端 / 11621.2.2 Hadoop和MapReduce / 11721.2.3 与外部数据集成 / 11721.2.4 虚拟化 / 11821.3 大数据维度—多样性 / 11821.3.1 数据类型 / 11821.3.2 集成不同类型的数据 / 11821.4 大数据维度—速度 / 12021.4.1 流式数据 / 12121.4.2 传感器和GPS数据 / 12121.4.3 社会化媒体数据 / 12121.5 传统大数据应用案例 / 12121.6 更多大数据应用案例 / 12221.6.1 医疗 / 12221.6.2 物流 / 12221.6.3 国家安全 / 12221.7 利用大数据的力量—实施决策支持 / 12321.7.1 触发行动 / 12321.7.2 从内存以及磁盘中检索数据的速度 / 12321.7.3 从数据分析到模型,从流式数据到决策 / 12421.8 大数据架构 / 12521.8.1 操作型系统和数据存储 / 12521.8.2 中间数据中心 / 12621.8.3 商务智能工具 / 12621.8.4 数据虚拟化服务器 / 12721.8.5 批处理和实时数据集成工具 / 12721.8.6 分析型沙盒 / 12721.8.7 风险响应系统/推荐引擎 / 127第22章 移动数据管理总结 / 13222.1 数据集成架构 / 13222.1.1 为什么需要数据集成架构 / 13222.1.2 数据集成生命周期和专家经验 / 13222.1.3 安全和隐私 / 13322.2 数据集成引擎 / 13422.2.1 操作连贯性 / 13422.2.2 ETL引擎 / 13422.2.3 企业服务总线 / 13522.2.4 数据虚拟化服务器 / 13522.2.5 数据移动 / 13622.3 数据集成中心 / 13622.3.1 主数据 / 13722.3.2 数据仓库和操作型数据存储 / 13722.3.3 企业内容管理 / 13822.3.4 数据归档 / 13822.4 元数据管理 / 13822.4.1 数据发现 / 13822.4.2 数据概要分析 / 13922.4.3 数据建模 / 13922.4.4 数据流建模 / 13922.4.5 元数据存储库 / 13922.5 结束语 / 140参考文献 / 141 上一篇: 语义Web服务及其合成方法的研究 下一篇: 视不可当:信息图与可视化传播