数据湖概述.docx
- 文档编号:14551459
- 上传时间:2023-06-24
- 格式:DOCX
- 页数:3
- 大小:16.27KB
数据湖概述.docx
《数据湖概述.docx》由会员分享,可在线阅读,更多相关《数据湖概述.docx(3页珍藏版)》请在冰点文库上搜索。
数据湖概述
数据湖概述
(一)背景
数据湖由Pentaho的首席技术官JamesDixon为了与数据仓库对比而提出。
数据仓库相对较小,只包含从原始数据中提取出来的有价值的属性。
在推广数据湖的时候,他认为,数据集市有几个固有的问题,例如信息孤岛。
普华永道(PwC)称,数据湖可以解决数据孤岛。
在其对数据湖研究中,他们指出,企业开始使用一个单一的、基于Hadoop的存储库来存放和提取数据。
Hortonworks,谷歌,甲骨文,微软,Zaloni,Teradata,ImpetusTechnologies,Cloudera,MongoDB和亚马逊现在都有数据湖的产品。
(二)数据湖的概念
数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。
数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。
数据湖中的数据包括结构化数据(关系数据库数据),半结构化数据(CSV、XML、JSON等),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频),从而形成一个容纳所有形式数据的集中式数据存储。
数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。
从实现方式来看,目前Hadoop是最常用的部署数据湖的技术,但并不意味着数据湖就是指Hadoop集群。
为了应对不同业务需求的特点,MPP(大规模并行分析)数据库+Hadoop集群+传统数据仓库这种“混搭”架构的数据湖也越来越多出现在企业信息化建设规划中。
数据湖的就是原始数据保存区。
虽然这个概念国内谈的少,但绝大部分互联网公司都已经有了。
国内一般把整个HDFS叫做数据仓库(广义),即存放所有数据的地方,而国外一般叫数据湖(datalake)。
(三)数据湖的特点
1.事务性(ACID)
数据湖最重要的特性便是事务性。
事务具有ACID特性,分别是原子性(atomicity)、一致性(consistency)、隔离性(isolation)和持久性(dutability),简称事务的ACID特性。
同时,数据湖也可以启用一些高级功能,例如时间回溯以及并发读写。
2.同时支持批处理和流式传输
数据湖同时支持批处理和流式传输。
由于数据流通常允许数据的延迟到达,所以数据湖也支持数据变化(datamutation)和数据校正(datacorrection)的功能。
这些功能能够保障基础数据集中合并正确的数据集,同时保证用户的业务报表视图能够使用正确的基础数据集。
3.模式约束和模式演变
随着时间的推移,表格中的数据会随着业务的变化而变化。
所以数据湖支持模式约束(SchemaEnforcement)和模式演变(SchemaEvolution),前者用以防止用户脏数据意外污染表,后者用以自动添加适当的新数据列。
这两个功能可以支持表格模式的实时更新。
4.独立于引擎
数据湖的运行独立于引擎和底层存储,这样数据就可以存储在不同的存储模型中,例如AWSS3或HDFS。
(四)数据集的优点
1.轻松收集数据
数据湖与数据仓库的一大区别就是,SchemaOnRead,即在使用数据时才需要Schema信息;而数据仓库是SchemaOnWrite,即在存储数据时就需要设计好Schema。
这样,由于对数据写入没有限制,数据湖可以更容易的收集数据。
企业中的所有数据源都可以送入数据湖中。
因此,数据湖成为了存储在企业内部服务器或云服务器中的结构化和非结构化数据的无缝访问点。
通过数据分析工具可以轻松地获得整个无孤岛的数据集合。
此外,数据湖可以用多种文件格式存储多种格式的数据,比如文本、音频、视频和图像。
这种灵活性简化了旧有数据存储的集成。
2.从数据中发掘更多价值
数据仓库和数据市场由于只使用数据中的部分属性,所以只能回答一些事先定义好的问题;而数据湖存储了所有最原始、最细节的数据,故可以回答更多的问题。
并且数据湖允许组织中的各种角色通过自助分析工具,对数据进行分析,以及利用AI、机器学习的技术,从数据中发掘更多的价值。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 概述