欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    商业银行数据仓库中元数据下载平台开发学士学位论文.docx

    • 资源ID:17247946       资源大小:1.89MB        全文页数:107页
    • 资源格式: DOCX        下载积分:1金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要1金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    商业银行数据仓库中元数据下载平台开发学士学位论文.docx

    1、商业银行数据仓库中元数据下载平台开发学士学位论文分类号: TP311.5 单位代码: 10335 密 级: 无 学 号: Z104325023硕士学位论文中文论文题目 : 商业银行数据仓库中元数据 下载平台开发 英文论文题目:The downloading platform development for commercial bank data warehouse metadata申请人姓名: 付 江 指导教师: 姚 宇 明 合作导师: 专业学位类别: 工程硕士 专业学位领域: 软件工程 所在学院: 软件学院 论文提交日期 2013 年 5 月 7 日 商业银行数据仓库中元数据 下载平台开发

    2、 摘要笔者在对银行数据仓库平台的开发和维护实践基础上,针对目前商业银行数据仓库开发平台的一些缺陷而提出的一套可配置、组件化、易操作的数据下载系统。建立统一的开发技术规范,包括元数据技术规范、主辅数据源分布规范、数据生命周期管理规范、数据质量规范等。其中主辅数据源分布规范保证了数据下载的过程中,抽取数据分布合理、提高应用系统运行的整体效率、保证应用系统健康高效运行。数据生命周期管理规范保证有效控制在线数据规模,提高生产数据访问效率,减少系统资源浪费。数据质量规范提高了数据管理水平、规范数据质量管理流程、及时准确地发现和治理问题数据,保证应用数据质量。建立统一的应用系统数据模型设计规范。该规范明确

    3、了数据模型设计要求、明确设计原则、加强数据结构的逻辑视图管理,提高数据建模的质量。提供了一种可配置的参数化组件,这些组件最终被组装成复杂的数据仓库数据下载系统中。通过“抽取逻辑组件化,文件格式参数化”的方法大大减少了数据下载的开发工作量,随着组件的逐步丰富,基本可以实现“零编码”,同时也极大简化了测试步骤,我们只需利用现有的功能组件,按照一定的规则和逻辑把它们拼装组合在一起,就可以完成数据下载的开发,使得元数据抽取、文本生成、上报数据仓库过程更加高效、稳定、规范。关键词:数据仓库,元数据,数据抽取,下载,规范AbstractAccording to banking data warehouse

    4、 platform development and maintenance practices, the author put forward a number of defects can be configured, component, conveniently operated system for the current data warehouse development platform of the commercial bank.The thesis contained a development technical specifications, including met

    5、adata specification, primary and secondary data sources distributed specification, data life cycle management specification, data quality specification. Distribution of primary and secondary data sources including specification ensures data download process, extract data distribution is reasonable,

    6、to improve the overall efficiency of the system. Data life cycle management practices to ensure effective control of online data scale, improve production efficiency of data access and reduce resource waste. Data quality specification improve data management, standardize data quality management proc

    7、ess, timely and accurate discover and control data issue, ensure data quality of applications.It established a unified data model application system design specifications. The specification defined the data model design requirements, cleared design principles, the logical view of the data structure

    8、to strengthen management, for improving the quality of data modeling.By providing a configurable parameters of components, which would be eventually assembled into complex data warehouse data download system. By the method of extract of logic components, format the file parameters will greatly reduc

    9、e the development workload, along with the gradual rich components, which can be zero code, but also greatly simplifies the test procedure, we only require the use of existing functional components, according to certain rules and logic assembled them together, you can complete the development of dat

    10、a download, making meta-data extraction, text generation, data warehouse reporting process will be more efficient, stable and standardized.Key Words:Data warehouse, metadata, data extraction, downloads, specification 目录摘要 iAbstract ii图目录 IV表目录 V第1章 绪论 11.1 课题背景 11.2 本文的主要工作 31.3 本文的组织结构 31.4 本章小结 4第

    11、2章 元数据、数据仓库的概念及对银行业的作用 12.1 元数据的概念 12.2 元数据的特点 12.3 元数据对商业银行的作用 12.4 数据仓库的概念 22.5 数据仓库的特点 22.6 数据仓库对银行业务的支撑 32.7 数据仓库的应用与优势 52.8 本章小结 8第3章 国内商业银行数据仓库 93.1 发展阶段与目标 93.2 数据仓库建设规划和集市整合 123.3 数据仓库体系的定位 173.4 数据仓库体系的功能 173.4.1 数据仓库的功能 173.4.2 数据集市的功能 183.4.3 综合统计的功能 193.4.4 数据挖掘的功能 193.5 数据仓库建设方法和路线 203.

    12、6 ETL 203.6.1 ETL简介 203.6.2 ETL概念 213.6.3 注意事项 223.6.4 设计要求 223.7 数据仓库元数据下载介绍 233.7.1 数据抽取的方式 233.7.2 数据抽取的工作步骤 253.8 本章小结 25第4章 元数据下载平台实现 264.1 元数据技术规范 264.1.1 术语与定义 264.1.2 元数据的范围和管理方法 274.1.3 数据标准 284.1.4 专业术语 324.1.5 数据流文件 334.1.6 数据结构 364.1.7 数据质量规则 404.2 主辅数据源分布技术规范 414.2.1 术语与定义 414.2.2 主辅数据源

    13、管理原则 414.2.3 主数据源分布原则 424.2.4 辅数据源分布原则 434.2.5 数据间使用和同步原则 434.3 数据生命周期管理技术规范 454.3.1 术语与定义 454.3.2 数据生命周期引用模式 474.3.3 数据生命周期管理原则 484.3.4 各阶段数据管理 494.4 数据质量技术规范 504.4.1 数据质量规则 514.4.2 数据质量的开发要求 524.4.3 技术检查 534.5 应用系统数据模型设计技术规范 564.5.1 术语与定义 564.5.2 数据模型管理 584.5.3 逻辑数据模型设计步骤 594.5.4 模型实体设计原则 604.5.5

    14、特殊设计要求 684.6 元数据下载方式的设计 704.6.1 数据生成方式 704.6.2 元数据下载配置设计 714.6.3 元数据下载配置注意要点 794.6.4 元数据下载配置实例 794.7 本章小结 84第5章 元数据下载平台实现 855.1 系统运行的软硬件环境 855.2 系统架构 855.3 系统架构图 865.4 系统测试及运行情况 865.4.1 集成测试 865.4.2 系统测试 875.4.3 压力测试 885.4.4 运行情况 885.5 本章小结 89第6章 未来发展方向与总结 90参考文献 92作者简历 94致谢 95图目录图 3.1 数据仓库的发展阶段 9图

    15、3.2 数据仓库建设规划 11图 3.3 数据仓库的发展阶段 12图 3.4 三种应用模式 13图 3.5 数据仓库体系组织架构规划 14图 3.6 组织架构中职能岗位架构规划 14图 3.7 数据仓库体系应用架构规划 16图 4.1 元数据管理范围 27图 4.2 数据标准之间的关系 29图 4.3 数据生命周期中数据引用曲线 47图 4.4 在线阶段进行快照(备份)后在线阶段数据与快照数据冗余存储 47图 4.5 数据模型管理体系 58图 4.6 当事人逻辑数据模型 59图 4.7 分户账 60图 4.8 统计表 61图 4.9 机构代码表 61图 4.10 产品优惠率参数表 62图 4.

    16、11 账户历史明细表 63图 4.12 冻结解冻登记簿 64图 4.13 对账单打印控制表 64图 4.14 新旧账号对照表 66图 4.15 对账单余额历史表 66图 4.16 日志表层次关系 67图 4.17 父子类实体的物理实现 69图 4.18 父子类实体的物理实现 70图 4.19 export_project表 80图 4.20 export_project_table表 80图 4.21 存量参数 81图 4.22 增量参数 82图 4.23 存量数据生成逻辑 83图 4.24 新增、修改数据的情况 83图 4.25 删除数据的情况 84图 5.1 元数据下载平台系统总体逻辑架构

    17、 85图 5.2 系统架构图 86表目录表2.1 数据仓库系统的业务价值 5表2.2 数据仓库支持的应用 6表3.1 各职能岗位相应的职能 15表4.1 基本属性 29表4.2 技术属性 30表4.3 扩展属性(代码信息) 30表4.4 命名标准 31表4.5 存储标准 31表4.6 取值字典 32表4.7 专业术语 32表4.8 文件基本信息 33表4.9 主机文件结构(COPYBOOK)信息 34表4.10 开放平台文件结构信息 34表4.11 文件目录信息 35表4.12 通用文件传输信息 35表4.13 文件的使用情况 36表4.14 表结构基本信息组件 37表4.15 表结构信息组件

    18、 38表4.16 索引、分区信息 38表4.17 生命周期组件信息 39表4.18 主辅数据源信息管理 40表4.19 数据质量规则要求管理的组件信息 40表4.20 银行业务系统九大主题领域下的数据信息的分布细则 44表4.21 在线阶段数据生命周期管理内容 49表4.22 归档阶段管理内容 50表4.23 数据质量规范 51表4.24 数据库定义中的控制 52续表4.24 数据库定义中的控制 53表4.25 数据的技术检查 53表4.26 业务逻辑检查 54表4.27 金额类数据检查 55表4.28 传输环节检查 56第1章 绪论1.1 课题背景在数据仓库应用领域处于领先地位的先进银行,经

    19、历了20多年的建设和积累,总结提炼了一套数据仓库业务应用框架,包括客户关系管理、财务管理、绩效管理、风险管理、信息管理5大领域的近30多种应用。而国内银行的数据仓库建设起步较晚,以某大型国有银行为例:2000年底开始着手启动全行数据仓库体系的建设。目前已经构建了客户分析(PCRM、CCRM)、业绩考核(PVMS,PASN)、风险管理(风险监控、反洗钱、内部评级法、内部审计)、资产负债管理(利率风险)、统计报表(CS2002)等分析型应用,并正在发挥着重要的业务作用;目前已立项,正在规划或建设的分析型应用有:统计报表指标库、资本管理、市场风险、内控合规等操作风险; 2004年9月05年1月:数据

    20、仓库逻辑数据模型客户化建设项目; 2005年5月12月:数据仓库物理平台选型测试项目; 2006年4月07年2月:商务采购和招标; 2007年4月:该行启动了数据仓库物理实施一期项目。从功能架构及技术特征上看,该行的数据仓库主要具有报表、分析等功能,基本满足业务用户考察业务上“发生了什么”、“为什么发生”的需要,处于业界数据仓库发展的第二向第三阶段的过渡阶段。该行数据仓库应用的不足:数据仓库之间存在一定程度的数据重复下载、重复加工和冗余存储;数据仓库之间的加工规则和流程不同,容易产生结果的不一致;数据仓库各自独立,信息集中共享程度较低,不能满足跨系统、跨产品的关联性、综合性分析;数据交换平台不

    21、保留历史数据,难以实现历史数据加工,以及出现差错难以追溯补救;缺乏完整规范的数据质量检查、监控机制,数据质量难以保证;数据仓库的数据范围、存放周期和详尽粒度存在局限,难以支持应用的扩展要求; 前台业务系统有变化,相关的仓库都要进行维护; 各个仓库的设备资源较难共享利用,加大维护管理成本;仓库平台处理能力有限,无法支撑海量数据存储和处理;仓库之间的数据交互日趋密切和复杂;本文从待抽取数据的筛选、抽取、加工以及下载的方面,经过进一步的分析和讨论后,认为当前该过程中存在的问题如下:1、各应用开发缺少统一的规范商业银行在开发新的中间业务的时候,往往针对一种业务开发一套产品,产品之间缺少统一的规范。产品

    22、之间各自为政,缺少相关的整合,而且通常运行在不同的硬件、操作系统和数据库之上,采用的开发语言也五花八门,给元数据的筛选、抽取带来较大的困难。2、每次数据结构的变化都必须同步编写相应的上送程序传统的数据抽取和生成通常使用配套的编程方式来匹配,在这种模式下,匹配程序的开发将逐渐成为数据抽取和生成的负担,因为每次数据结构的变动都会引起程序的修改,都必须对涉及到的程序重新进行编译、测试,这将大大影响抽取和上报程序的开发效率,不利于数据仓库的快速发展。3、模块复用性不高商业银行在数据仓库的建设过程中重点考虑了集中处理和调度,但对数据结构变化的支持力度还不够,开发部仍然采用传统的方法设计和编写相应程序,模

    23、块复用等仍然停留在源码或程序库的水平,模块复用程度和开发效率都不高。4、参数配置化程度不够部分商业银行数据抽取采取了参数配置化手段,但参数配置化的程度还不够,还没有真正提炼出数据结构的通用资源模型,开发人员在开发过程中往往根据不同的数据结构匹配不同的编码,不能够配置的部分还需要通过编码或手工编写配置文件的方式解决,这在很大程度上影响了数据抽取生成和上送的效率。本文结合目前商业银行数据仓库的发展现状,分析面临的关键问题,探讨如何实现处理模块的组件化、参数的配置化、操作的简单化等功能,能够加快商业银行数据仓库的建设、有效数据的抽取分析、提供决策支持,满足商业银行日益增加的数据挖掘要求,增强商业银行

    24、在同业中的竞争力。1.2 本文的主要工作笔者在对银行数据仓库平台的开发和维护实践基础上,针对目前商业银行数据仓库开发平台的一些缺陷而提出的一套可配置、组件化、易操作的参数平台系统。本文完成的主要工作有:1、建立统一的开发技术规范,包括元数据技术规范、主辅数据源分布规范、数据生命周期管理规范、数据质量规范等。其中主辅数据源分布规范保证了数据下载的过程中,抽取数据分布合理、提高应用系统运行的整体效率、保证应用系统健康高效运行。数据生命周期管理规范保证有效控制在线数据规模,提高生产数据访问效率,减少系统资源浪费。数据质量规范提高了数据管理水平、规范数据质量管理流程、及时准确地发现和治理问题数据,保证

    25、应用数据质量。2、建立统一的应用系统数据模型设计规范。该规范明确了数据模型设计要求、明确设计原则、加强数据结构的逻辑视图管理,提高数据建模的质量。3、提供了一种可配置的参数化组件,这些组件最终被组装成复杂的数据仓库数据下载系统中。通过“抽取逻辑组件化,文件格式参数化”的方法大大减少了数据下载的开发工作量,随着组件的逐步丰富,基本可以实现“零编码”,同时也极大简化了测试步骤,我们只需利用现有的功能组件,按照一定的规则和逻辑把它们拼装组合在一起,就可以完成数据下载的开发。此系统投入运行后,显示了其稳定性、可靠性、易维护性,这些也都得益于开发过程中工程化方法的运用。在工程化之外,先进的系统框架结构和

    26、良好的设计思想也为系统的成功研发打下了坚实的基础。1.3 本文的组织结构第一章分析了国内外商业银行数据仓库的建设现状,数据仓库对于商业银行的必要性。第二章介绍了元数据、数据仓库的基本概念,商业银行使用元数据、数据仓库的作用,主要介绍了银行业使用元数据、数据仓库的好处以及当前的运行和维护中的一些缺陷,和需要解决的主要问题。第三章描述了国内商业银行业数据仓库的规划,当前的建设情况,以及商业银行对数据仓库的要求。第四章论述了针对商业银行数据仓库数据下载面临的主要问题,以及提出了具体的解决方案。以及阐述了笔者的主要工作和创新点。第五章阐述了商业银行数据仓库数据下载系统的软硬件需求、系统部署、投产前各阶

    27、段测试情况、以及投产后系统运行情况。第六章阐述了商业银行数据仓库系统未来的发展方向。第七章对全文进行了总结。1.4 本章小结本章主要介绍了现阶段国内外商业银行数据仓库发展的现状及重要性,以及国内外商业银行数据仓库的对比,分析数据仓库数据下载开发面临的通用问题,探讨如何采用统一规范、可配置和参数化方法等构造商业银行数据仓库数据下载开发与运行平台。实现数据下载的规范化、组件化、配置化等功能,能够加快商业银行数据仓库下载平台的开发,满足商业银行数据仓库建设的发展需求,增强商业银行在同业中的竞争力,另外,我们还列出了本文的主要研究内容,研究目标以及文章的组织结构。第2章 元数据、数据仓库的概念及对银行

    28、业的作用2.1 元数据的概念元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是数据的数据。商业银行数据仓库中的元数据是关于银行的业务数据和技术数据的数据,用以描述商业银行数据仓库的主题信息、逻辑和物理数据模型、非结构化信息、外部数据源、数据的粒度与分割定义、数据及质量的管理方法以及其他数据信息。2.2 元数据的特点(1)元数据是关于数据结构化的数据,这些数据不一定是数字的形式,可能来自不同的数据源。(2)元数据是与对象有关的数据,这些数据可以使它潜在的用户无须先具备对这些对象存在及其特征的完整认识。(3)元数据不仅对信息本身进行描述,还可以描述资源的使用情况、管理、加工和使用等方

    29、面的情况。(4)元数据通常定义中的“数据”是表示事物性质的符号,是进行各类统计、运算、研究、设计所依赖的数值,或者指公式化、数字化、图标化的信息。2.3 元数据对商业银行的作用商业银行元数据能够有效帮助业务人员与技术人员理解、监控、管理数据源、转换规则、数据变更等信息,进而提高工作效率,保证银行各项工作顺利开展,其作用主要体现在以下几个方面:(1)统一的元数据规范能够显著提高信息技术人员与数据分析人员对数据进行分析、挖掘的效率。(2)元数据能够支持系统对数据进行管理和维护,如关于数据项生成方法的元数据能够支持系统以最低资源占用的方式访问数据。(3)元数据是数据仓库最基本的描述,包括设计模式、视

    30、图、层次结构等核心要素信息。2.4 数据仓库的概念目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作Building the Data Warehouse一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策1。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数

    31、据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改2。数据仓库系统的实施不同于传统的信息系统,它是萃取原始数据转换成决策信息,进而衍生企业智慧的一段旅程。数据仓库的价值体现在深度运用中,用于持续改善的过程,而非一个短暂的项目。2.5 数据仓库的特点1、面向主题操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除原始数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。3、相对稳定的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。4、反映历史变化


    注意事项

    本文(商业银行数据仓库中元数据下载平台开发学士学位论文.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开