数据仓库设计逻辑模型.ppt
- 文档编号:9750020
- 上传时间:2023-05-21
- 格式:PPT
- 页数:29
- 大小:261.50KB
数据仓库设计逻辑模型.ppt
《数据仓库设计逻辑模型.ppt》由会员分享,可在线阅读,更多相关《数据仓库设计逻辑模型.ppt(29页珍藏版)》请在冰点文库上搜索。
第一次作业题目,请详细描述数据库应用系统与数据仓库之间的区别。
(越详细越好,越全面越好)下星期三以前交。
数据仓库设计逻辑模型,内容提要,数据仓库的逻辑模型设计分析主题域粒度模型设计数据分割设计数据抽取模型设计元数据模型建立,数据仓库的逻辑模型设计,数据仓库的逻辑模型设计任务:
分析主题域,确定要装载到数据仓库的主题;确定粒度层次划分;确定数据分割策略;关系模式的定义和记录系统定义、确定数据抽取模型等。
数据仓库的逻辑模型设计,逻辑模型最终设计成果:
每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中;粒度划分;数据分割策略;表划分和数据来源等。
分析主题域,数据仓库的实体定义,数据仓库的实体定义,粒度层次划分,粒度设计步骤数据量的粗略估算确定采用双重还是单一的粒度确定粒度级别反馈与调整,数据量的粗略估算,对每一张表估算这几个值数据的行数数据所占存储设备空间数据所需要的索引空间只能做数据级上的估算从一方或多方收集信息进行合理估算,粗略估算数据量算法,双重粒度和单一粒度,表的行数是影响粒度划分主要的因素将数据库的总行数与下表进行比较,确定粒度的循环和反复,选择合适的粒度级别是体系结构设计环境成功的关键。
选择粒度级别的一般方法,是利用常识,建立数据仓库的一小部分,并让用户去访问这些数据。
然后仔细聆听用户的意见,根据他们的反馈意见适当调整粒度的级别。
最坏的想法是想要事先设计好所有的粒度级别,再进行数据仓库的建造。
即使在最好的情况下,能使设计的50%是正确的就已经很不错的了。
数据仓库环境的特点就是只有当决策支持系统分析员实际看到了报告之后,才能想像哪些是真正需要的。
确定粒度的循环和反复,提高粒度的方法,当源数据置入数据仓库时,对它进行汇总。
当源数据置入数据仓库时,对它求平均或进行计算。
把最大/最小的设定值置入数据仓库。
只把显然需要的数据置入数据仓库。
用条件逻辑选取记录的一个子集置入数据仓库。
对于数据怎样轻度汇总是没有限制的(限制只存在于设计者的脑海里)。
例:
银行粒度设计,例:
银行粒度设计,数据分割,数据分片概念水平分片垂直分片混合分片导出分片按时间进行数据分割是最普遍的分割标准数据量数据分析处理的实际情况简单易行粒度划分策略,数据仓库的数据抽取模型,F1数据抽取规则,P2清理数据记录,数据仓库的数据抽取、转换与加载计划,影响数据抽取、转换与加载的因素数据格式坏数据系统的兼容性数据源的变化数据抽取的时间数据抽取、转换与加载对策全库比较利用程序日志利用数据库日志利用时间戳或利用位图索引,数据仓库的数据清理转换方法,数据仓库的数据清理转换方法类型转换串操作数学函数参照完整性关键字翻译聚集运算,数据源抽取对象表,数据源抽取规则表,数据抽取的目标列与源列对应关系表,数据抽取过程的排序、概括和导出情况表,数据概括表与事实表对应关系,数据仓库的元数据模型建立与应用,逻辑模型的评审,逻辑模型的文档内容:
主题域分析报告,数据粒度划分模型,数据分割策略,指标实体、维实体与详细类别实体的关系模式和数据抽取模型。
逻辑模型的评审要点,对逻辑模型的评审主要集中在主题域是否可以正确地反映用户的决策分析需求。
从用户对概括数据使用的要求,评审数据粒度的划分和数据分割策略是否可以满足用户决策分析的需要。
为提高数据仓库的运行效率是否需要对关系模式进行反规范化处理。
数据的抽取模型是否正确地建立了数据源与数据仓库的对应关系。
数据的约束条件和业务规则是否在这些模型中得到了正确的反映。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 设计 逻辑 模型