大数据技术全解基础设计开发与实践Word下载.docx
- 文档编号:6646067
- 上传时间:2023-05-07
- 格式:DOCX
- 页数:12
- 大小:20.26KB
大数据技术全解基础设计开发与实践Word下载.docx
《大数据技术全解基础设计开发与实践Word下载.docx》由会员分享,可在线阅读,更多相关《大数据技术全解基础设计开发与实践Word下载.docx(12页珍藏版)》请在冰点文库上搜索。
华南师范大学计算机学院博士生导师
大数据无疑是当前IT产业界的热点。
由于它对综合技术能力要求较高,各位初学者该如何“拥抱大数据”,还没有人能给出答案。
本书可谓是“久旱中的甘霖”,为大家打开了大数据这一领域的大门,从大数据的基础技术,到系统的设计理论,无不进行了全面的概括和总结;
本书绝不类似于当前一些大数据书籍的浅尝辄止,作者倾尽笔墨对大数据的系统设计、环境安装及开发实践进行了论述,使读者可以“登堂入室”,快速投入实战,把大数据技术从概念转化为实际的研发能力。
巨龙兄在IT产业界已经工作了20余载,长期从事IT企业高层技术管理工作,对咨询规划、技术研发、人才培养等各环节都非常擅长。
书中随处可见他对大数据技术的深入理解,以及多年来孜孜不倦的经验总结,各处“杀马特”的概括和点评闪烁着智慧的光芒,使人深受启发。
“集大成者得智慧”,看完本书后,仍让人回味犹长。
本书可谓IT界“老少咸宜”的一本好书,因此向各位读者隆重推荐本书,期望它能够对您的学业或工作带来更进一步的帮助。
孙傲冰
国云科技技术副总裁
目录
第1篇基础篇
第1章 大数据的三把利剑
1.1豌豆杂交实验
1.2曹冲称象启示
1.3谷歌的三把利剑
1.4智慧改变世界
第2章 企业的大数据观
2.1企业面临的挑战
2.1.1数据能力是核心竞争力
2.1.2从粗放经营到智慧经营
2.1.3技术与商业的双重挑战
2.2企业大数据从哪来
2.2.1来自于主体的产生
2.2.2来自于客体的产生
2.2.3来自于社会的产生
2.3企业大数据如何存储
2.3.1非结构化数据存储
2.3.2结构化数据存储
2.3.3半结构化数据存储
2.3.4大数据存储的问题
2.4企业大数据如何加工
2.4.1分析或挖掘模型设计
2.4.2并行处理程序编码
2.4.3结果在全局中呈现
2.5企业的大数据到哪里去
2.5.1大数据对企业影响深远
2.5.2大数据是一种新商品
2.5.3精准营销需要大数据
2.6企业大数据观总结
第3章 大数据和大数据系统
3.1大数据
3.1.1大数据概念
3.1.2大数据的特征
3.1.3数据计量单位
3.1.4大数据来源
3.1.5大数据类型
3.2大数据系统
3.2.1设计目标和原则
3.2.2系统的设计思想
3.2.3系统的逻辑架构
3.2.4与现有系统的关系
3.2.5当前的大数据系统
第2篇技术篇
第4章 分布、键值对与族
4.1分布与MapReduce
4.2键值对的奥妙所在
4.3动态数据库表原理
第5章 HDFS(分布式文件系统)
5.1设计目标
5.2基本概念
5.2.1块
5.2.2名称节点与数据节点
5.3系统架构
5.3.1逻辑架构
5.3.2物理架构
5.4运行机制
5.4.1文件读取
5.4.2文件写入
5.4.3特别关注
5.5系统功能
5.5.1多文件系统
5.5.2目录管理
5.5.3文件管理
5.5.4文件归档
5.5.5并行复制
5.6系统I/O特性
5.6.1完整性校验
5.6.2压缩与编码解码
5.6.3序列化
5.6.4特殊文件结构
5.7非Java访问接口
5.8系统性能
5.8.1可靠性措施
5.8.2性能优化
第6章 MapReduce分布式编程模式
6.1不同于传统
6.2设计思想
6.3基本概念
6.3.1map()函数
6.3.2reduce()函数
6.3.3键值对
6.3.4中间结果
6.3.5移动代码
6.3.6作业和任务节点
6.4系统架构
6.4.1逻辑架构
6.4.2物理架构
6.5运行机制
6.5.1作业运行
6.5.2作业调度
6.5.3任务执行
6.5.4状态更新
6.5.5作业完成
6.5.6故障处理
6.6关键技术
6.6.1计数器
6.6.2排序
6.6.3连接
6.6.4shuffle
6.6.5内存处理
6.6.6分布式缓存
6.7类型与格式
6.7.1MR的类型
6.7.2输入格式
6.7.3输出格式
6.8MR的开发
6.8.1开发端环境的建立
6.8.2开发及单元测试
6.8.3本地运行测试
6.8.4集群运行
6.8.5作业调试
6.8.6远程调试
6.8.7作业调优
6.9MR工作流
第7章 HBase分布式数据库
7.1设计目标
7.2基本概念
7.2.1逻辑模型
7.2.2物理模型
7.2.3区域
7.2.4基本单元
7.2.5Region服务器.
7.2.6Master主服务器.
7.2.7.META.元数据表
7.2.8-ROOT-元数据表
7.3系统架构
7.3.1逻辑架构.
7.3.2物理架构.
7.4运行机制
7.5系统功能
7.5.1用户界面.
7.5.2shell操作
7.6库表设计
7.7访问接口
第3篇设计篇
第8章 系统设计背景和目标
8.1系统设计背景.
8.2系统设计目标.
8.2.1存在问题.
8.2.2设计目标.
第9章 系统架构设计
9.1逻辑架构设计
9.1.1系统逻辑架构
9.1.2系统运行逻辑
9.2功能架构设计
9.2.1大数据管理系统的功能
9.2.2ZooKeeper系统的功能
9.2.3Chukwa采集系统的功能
9.2.4Pig系统功能
9.2.5Hive系统功能
9.3数据架构设计
9.3.1数据总体架构
9.3.2分布式文件数据结构
9.3.3分布式数据库数据结构.
9.3.4关系型数据库数据构成.
第10章 运行架构设计
10.1物理架构设计
10.1.1网络拓扑
10.1.2软/硬件选型
10.2集成架构设计
10.2.1总体集成设计
10.2.2专项集成设计
10.3安全架构设计
10.3.1用户层安全.
10.3.2应用层安全.
10.3.3数据层安全.
10.4开发架构设计
第4篇安装篇
第11章 安装规划
11.1安装目标
11.2安装步骤
第12章 环境准备
12.1主机准备
12.2介质准备
12.3基础安装
12.3.1JDK安装
12.3.2用户创建
12.3.3SSH配置
第13章 集群安装
13.1HDFS集群
13.1.1解析配置
13.1.2模板创建
13.1.3复制分发
13.1.4运行启动
13.1.5测试验证
13.2HBase集群
13.2.1解析配置
13.2.2模板创建
13.2.3复制分发
13.2.4运行启动
13.2.5测试验证
13.3ZooKeeper集群
13.3.1解析配置
13.3.2模板创建
13.3.3复制分发
13.3.4运行启动
13.3.5测试验证
第14章 分布式应用安装
14.1Pig安装
14.1.1本地安装
14.1.2本地验证
14.1.3集成配置
14.1.4集成验证
14.2Hive安装.
14.2.1内嵌安装与验证
14.2.2从内嵌改为独立
14.2.3从独立改为远程
14.3Chukwa安装.
14.3.1基础系统安装
14.3.2代理系统安装
14.3.3收集系统的安装
14.3.4作业系统的安装
14.3.5HICC系统的安装
第15章 集成联调
15.1集群间的集成联调
15.1.1HBase与HDFS集成联调
15.1.2HBase与ZooKeeper集成联调
15.2分布式应用与集群间的集成联调
15.2.1Pig与HDFS的集成
15.2.2Hive与HDFS的集成
15.2.3Hive与Hbase的集成.
15.2.4Chukwa与HDFS的集成.
15.3客户端与分布式系统间的集成联调.
15.3.1与分布式集群系统的集成.
15.3.2与分布式应用系统的集成
第5篇开发篇
第16章 大数据系统应用开发思路和环境
16.1总体思路
16.1.1大数据读写应用的开发
16.1.2大数据分析应用的开发
16.2开发环境
16.2.1Plugin插件的安装
16.2.2Hadoop开发环境的配置
16.2.3示例程序验证
第17章 HDFS文件读/写应用开发
17.1文件列表
17.2文件读取
17.3文件上传
17.4文件创建
17.5文件写入
17.6文件压缩与解压
17.6.1压缩写入
17.6.2解压后读取
17.7目录创建
17.8文件重命名
17.9删除文件
17.10查看文件时间
17.11查看文件是否存在
17.12查找文件位置
17.13查找集群所有的节点.
17.14SequenceFile文件格式转换
17.14.1创建SequenceFile格式的文件.
17.14.2读取SequenceFile格式的文件.
17.15MapFile文件格式转换.
17.15.1创建MapFile格式的文件.
17.15.2读取MapFile格式的文件.
17.15.3SequenceFile格式转换成MapFile格式.
第18章 HBase数据库读/写应用开发
18.1创建表
18.2删除表
18.3查询数据库中的表
18.4插入记录.
18.5查询记录.
18.5.1列族的查询.
18.5.2查询所有记录
18.5.3基于行键查询
18.5.4基于标签值查询
18.5.5组合条件查询
18.6修改记录.
18.7删除记录.
第19章 ZooKeeper开发
19.1创建节点
19.2删除节点
19.3加入子节点
19.4列出节点成员
19.5获取节点内容
第20章 MapReduce开发
20.1定制数据类型
20.2定制输入格式
20.3定制输出格式
20.4将整个文件作为输入
20.5小文件聚合成一个文件
20.6多集合文件输出
20.7对压缩数据处理
20.8定制partioner
20.9定制combiner
20.10MapReduce组合
20.10.1迭代组合
20.10.2线性组合
20.10.3依赖组合
20.10.4前后链式组合
20.11多数据源连接
20.11.1Reduce端连接
20.11.2Map端连接
20.11.3Map端过滤的Reduce端连接
20.12全局参数应用
20.13全局文件应用
20.14关系数据库访问
20.14.1关系数据库读取
20.14.2关系数据库的写入
第21章 Pig开发
21.1脚本编程.
21.1.1脚本语言
21.1.2脚本编程
21.1.3脚本运行
21.2自定义函数
21.2.1编译打包
21.2.2测试运行
第22章 Hive开发.
22.1HiveQL语言.
22.1.1HiveQL的数据类型
22.1.2HiveQL的常用操作
22.2UDF编码
22.3UDAF编码
22.4客户端编码
22.4.1与Hive服务器端连接建立.
22.4.2与Hive进行指令交互.
22.4.3客户端命令组织
22.4.4程序运行结果
第6篇实践篇
第23章 企业大数据盘系统
23.1系统开发背景
23.2系统架构设计
23.3系统功能设计
23.4系统代码实现
第24章 Hadoop的日志分析
24.1系统开发背景
24.2系统架构设计
24.3系统功能设计
24.4系统代码实现
24.4.1系统连接代码
24.4.2Hive模块代码
24.4.3系统组织代码
24.5系统实现效果
参考文献
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 基础 设计 开发 实践