经营分析系统建设方案书文档格式.doc
- 文档编号:4019013
- 上传时间:2023-05-02
- 格式:DOC
- 页数:24
- 大小:223.50KB
经营分析系统建设方案书文档格式.doc
《经营分析系统建设方案书文档格式.doc》由会员分享,可在线阅读,更多相关《经营分析系统建设方案书文档格式.doc(24页珍藏版)》请在冰点文库上搜索。
3.2.1 系统监控和维护管理 22
3.2.2 系统参数配置管理 23
3.2.3 系统权限管理 23
3.2.4 操作日志管理 24
3.2.5 版本管理 24
1概述
1.1建设背景
现代企业经营环境呈现出以下三个方面的特征:
Ø
客户(Customer)至上
经济全球化使得市场上产品的更新换代周期越来越短,技术的发展使得市场上可替代产品的出现越来越快,因此,面对客户越来越个性化、多样化的消费需求,企业不得不提供更加丰富的产品和服务来满足客户的需求。
竞争(Competition)越来越激烈
当一个行业发展处于上升势头时,参与市场的竞争者就越来越多,而且都以追求更加卓越为目标。
市场变化(Change)
市场变化已成为业界常态;
不仅如此,变化的速度、范围及影响越来越快。
客户的消费需求在发生变化、对手的竞争模式在发生变化,这种变化是持续不断地,而且频率在加快,因此,企业市场应对策略的产生和应用速度是保持竞争力的重要手段,而市场应对策略的制定需要真实、及时的市场经营信息的支持。
面对上述以3C为主要特征的现代企业经营环境,电信运营商需要更准确、更及时地了解自己的客户和业务情况,了解客户发展的渠道性能,了解竞争对手的经营情况,以便及时地推出服务措施,满足客户越来越个性化的需求。
如何在现代企业竞争环境中充分利用自己的综合业务优势、保持并增强市场竞争能力,也是电信运营商亟待解决的关键问题。
电信运营商经过长期的发展,现有的基础数据已经逐渐丰富,但是普遍存在一个共同要面对的情况,就是这些基础数据源的数据相对独立,关联性小,但只要一旦能够充分利用这些数据,那么经过整合的数据的利用价值将大大提升,为整合成具有分析价值的“信息”数据提供了条件。
综上所述,解决问题的关键就在于如何充分利用好电信业务运营支撑系统长期以来产生的以及还在继续产生的业务数据和客户数据,将这些数据按照分析的要求进行集成,组织成支持企业经营过程的有价值信息,甚至知识。
1.2建设目标
系统建设以集团要求为出发点,从宏观上以收入情况分析、业务使用情况分析、竞争情况分析、客/用户情况分析、营销管理分析、营业情况分析、客服质量分析以及其他专题分析等功能分析点为分析要素,并结合固定/预定义报表、即席查询、OLAP分析、常规图展示、信息告警以及数据挖掘等实现手段,对电信业务、市场情况进行全面、深入地分析。
1.3系统建设原则
在系统建设过程中,将遵循以下原则:
u整个系统的建设将按照三层架构的原则进行建设。
经营分析系统在逻辑结构上包含数据获取层、数据存储层和数据访问层。
u整个系统的建设将采用统一规划、分步实施、完善优化、步步见效的方式,既要满足当前内蒙电信对分析的迫切需求,同时也要考虑整个系统的演进,满足未来系统作为一个完善的决策支持系统的要求;
u经营分析系统将充分考虑系统的开放性,满足多技术、多系统的无缝集成;
充分考虑系统的灵活性和可扩展性,支持未来对新业务、新产品统计分析的需求。
u经营分析系统建设将考虑充分的保密与安全管理体制。
避免企业机密数据泄漏。
u在技术选型上,经营分析系统将采用成熟、稳定、先进的产品,同时在软硬件产品的选型上应具有一定的前瞻性,避免今后因业务拓展需要更换系统构件的可能性;
在系统建设中,产品的各个构件按产品化的原则进行设计建设,尽可能减少各子系统之间的信息耦合度。
u经营分析系统将采用统一的系统间的接口、数据标准和接口方式。
系统提供的数据将能满足系统内部对数据的实时要求,支持并实现和各相关外部系统的连接。
u经营分析系统的开发与建设将分阶段循序渐进地进行。
由于本系统关联的外部系统较多,为将系统建设风险降至最低,本次系统工程建设需要分步实施,对系统进行多次割接。
2总体设计
2.1设计思想
系统的建设涉及到数据库、数据仓库、联机分析处理(OLAP)、数据挖掘、人工智能和统计学等多种学科与技术的交叉,同时必须考虑多种系统平台与工具的集成,因此系统的技术实现必须遵循以下要求:
开放性
为保证系统的开放性,系统构建中要尽量使用主流的硬件平台(主机、网络设备等)和软件平台,遵循业界开放式标准,支持系统建设中涉及的各种网络协议、硬件接口、数据接口等,为未来的系统扩展奠定基础。
同时为了保证数据仓库的开放性,在数据模型建立时,数据存储中应充分考虑对未来业务发展的最大支持(如:
客户数据/用户数据的处理上考虑较为全面的采集,模型建立中使用独立的客户数据域,为CRM系统使用客户/用户数据奠定基础),使相关系统能够顺利地使用该数据仓库。
扩展性
系统的扩展性应包含硬件、软件和应用等多方面的扩展,同时扩展性优劣的一个重要指标是系统并行能力。
在系统建设中,应从这几个方面综合考虑,选择扩展性强的硬件平台和软件工具,并在应用设计时充分考虑可扩展性。
在系统建设中,应充分借鉴目前业界的建设经验,吸取教训,少走弯路,保证应用的可扩展性。
安全性
系统安全管理主要包括网络安全管理、主机和操作系统安全管理、数据库安全管理、数据访问权限管理等组成。
网络安全管理通过采用路由器、防火墙、通信服务器等多种硬件设施来保障网络安全,防止系统受到非法入侵,保证数据的安全性,同时设置网络密码保护,确保通过Web页面访问系统时数据传输的安全性。
主机和操作系统安全管理通过设置主机密码、操作系统级别的不同用户、口令,确保系统稳定性和安全性,并建议通过磁盘阵列进行数据备份,在系统发生意外情况时,保证系统数据能够得到及时恢复。
按照中国电信业务要求,结合具体的数据情况并充分考虑建设维护成本,应提供适当的系统备份、数据恢复等策略。
数据库安全管理通过设置不同等级的数据库用户权限、角色权限,防止数据库受到恶意攻击;
对于后台数据库数据,原则上只开放读取权限,避免数据库数据受到肆意修改;
在数据库操作上,应严格权限、密码管理,针对不同的操作,只授予相应的权限;
对于重要的数据库数据做到定期异地备份。
作为反映企业核心竞争力的业务分析数据必须采取相应的安全保护措施。
在数据访问层,系统提供灵活的权限机制分配和管理使用者对数据资源的访问。
实用性
结合不同部门、不同的业务需求,合理的构建分析模型(按主题、地市、部门建立不同的OLAP分析模型),以及合理地组织数据(特别是有效又合理的数据粒度、分析模型的数据总量控制),保证了查询效率与响应时间。
对现有业务运营系统影响小,是系统的基本设计要求,因此必须采取恰当的数据抽取策略和控制机制来达到这一目标。
系统对大多数使用人员提供通过浏览器访问方式,并且提供多种图表展现方式(如:
柱状图、饼图、多维透视表等),只要能使用浏览器,就能使用本系统。
另外通过门户与OA融合,系统向个性化的方向发展,使人机接口、展现方式更多样化、实用化。
整体上说,系统应达到“易理解”、“易学习”和“易操作”的要求。
知识性
随着应用的深入,数据源的不断增加,数据仓库将成为知识的海洋,并提供多样化的查询手段将知识展现在使用人员面前,以提高系统的应用水平和应用价值。
可靠性
系统应有良好的可靠性,能保证7*24的应用服务。
延续性
系统建设应考虑现有类似功能的涵盖和扩展。
2.2体系架构
从技术角度而言,核心部分就是预先考虑好逻辑架构的稳定性,当应用要求不同时,在同样逻辑架构基础上对物理实施进行适当的调整和修改,就能保证系统的稳定运行。
以下我们将从硬件、软件、功能等方面讨论系统的逻辑架构。
2.2.1硬件架构
2.2.1.1架构图及说明
服务器架构图如下所示:
说明:
1、图中绿色圆框中各主机是为从系统长远建设所需要并行性而设计的,在系统建设初期,由于系统压力较小,从投资效益而言,也可先以单机形式考虑;
2、系统建设初期,报表查询服务器、数据挖掘服务器、WEB服务器、管理监控服务器等也均可以并入OLAP服务器,随系统扩展后可分别单独移出。
数据仓库服务器
数据仓库服务器主要承担着从接口将数据按数据仓库模型进行整理、规范和组织的作用,确保数据的全面、完整和正确。
其硬件配置应具有灵活的扩展性、并性行,支持1-N台服务器并行扩展,当系统资源不足时,能够通过升级设备或增加设备(处理器、内存、网络容量等)的方式来扩展资源,线性提升系统性能。
OLAPServer
OLAPServer承担着集市的关系型数据向多维数据转换,生成多维分析CUBE并接受客户端访问的功能;
其硬件配置应支持1-N台服务器的镜像、分布式的处理来满足不断增加的访问压力,防止服务器的过载。
报表查询服务器
报表查询服务器负担着用户即席报表、预定义报表访问功能,其硬件配置应支持1-N台服务器的并行扩展进行负载均衡,分散用户的访问请求,提升访问性能。
数据挖掘服务器
数据挖掘服务器主要完成数据挖掘服务功能,为支持其功能开发及性能提升,系统硬件配置应考虑并行性,可在其功能所需资源不足时,通过增加或升级瓶颈资源来提升性能,满足应用需要。
Web服务器
Web服务器主要负担最终用户访问经营分析门户网站的压力,为保证访问响应的速度,其硬件配置应支持并行扩展性,支持负载均衡,能适时分布处理用户请求,减轻服务器访问压力,提升访问性能。
管理监控服务器
管理监控服务器负担对系统运行状况进行监控、管理、分析等功能。
2.2.1.2主机系统基本要求
要求采用多机群集系统或海量并行处理系统(MPP);
多机群集或海量并行处理系统中的每个主机/节点支持同时处于工作状态,并根据配置的情况运行相同或者在不同的应用(或应用模块),保证主机的资源充分利用;
要求系统整机平均无故障时间(MTBF)不低于10000小时;
系统能够提供并行处理能力,平均50,峰值100;
系统能够提供线性可扩展能力,提供从2TB到20TB的扩展能力;
主机处理能力满足所有业务的应用,而且有30%的性能余量;
计算机系统设备应具有较大的扩充能力,包括系统处理能力的扩充、存储容量的扩充、I/O能力的扩充、节点数的扩充等等;
并支持CPU的升级或节点的平滑扩充;
维护管理及开发工具,能顺利地进行服务器的管理维护;
根据实际需要,在保证安全的前提下服务器可以灵活接入DCN网,即可以考虑以ATM、100Base-T或10Base-T、千兆以太网等方式接入。
2.2.2软件架构
在数据仓库中形成基础分析数据存储后,应根据业务及管理等实际的需要建立适合各种应用的数据集市。
数据仓库、数据集市中蕴含的信息可以通过报表、OLAP分析、即席查询、数据挖掘及预警等形式向经营分析系统使用人员展现。
系统体系结构分为三层,即数据获取层、数据存储层和数据展现层,另外元数据管理贯穿整个系统建设。
如下图所示:
2.2.2.1数据获取层
数据获取层功能是将数据从数据源经过必要的抽取、清洗、转换等处理后加载到数据仓库系统中,即ETL过程。
为保证数据的正确性,在ETL的每一环节都必须对数据进行审计。
ETL具有统一调度、监控和管理功能。
处理过程支持校验点功能,当因某种原因使处理过程中断时,可以从最近校验点开始恢复处理过程。
ETL的日志记录了数据抽取、清洗、转换、加载的历史过程。
为提高ETL工作效率,可以利用专用ETL工具内嵌自己的专用脚本语言、存储过程完成经营分析系统复杂的ETL过程。
2.2.2.2数据存储层
数据存储层包括数据仓库和从属的数据集市。
数据仓库是信息的逻辑和物理的存储。
在数据仓库的实施过程中,对于某些主题的业务分析问题,可能会按照主题采用数据集市的方式对数据进行进一步的组织。
所以在中央数据仓库的基础之上根据分析需求创建相应的从属数据集市。
2.2.2.3数据仓库
数据仓库是按照中国电信整体的信息模型进行构建的,是系统建设的核心。
由于经营信息需求的不断变化,数据仓库中数据的存储必须采用主题分域的方式和尽可能小的业务单元来进行数据的组织和存储,这样才能满足数据仓库的灵活性和信息的完整性,即适应需求的变化,又可保证最少量的数据冗余避免信息的不一致,节约系统投资。
并以“元数据驱动、螺旋上升”的方法来指导数据仓库建设。
2.2.2.4数据集市
中央数据仓库构建是对数据集市的数据支撑,几乎所有的业务分析都需要通过进一步组织数据集市来实现,以满足性能、灵活性的要求。
数据集市的建设主要面向部门、地市和重要的领导,根据其关心的主题、数据层次、数据粒度不同,构建相应的数据集市。
数据集市的数据直接来自于数据仓库。
采用这种方式,可以保持整体数据的一致性。
为一些访问数据仓库十分频繁的关键业务部门建立从属数据集市,可以提高查询的反应速度。
2.2.2.5数据展现层
数据展现层的主要功能是通过对数据存储层所提供的数据进行各种加工整理并进行挖掘、预测等操作,然后将获得的数据以文字、报表、曲线和各种图形的方式,简便、快捷地展现出来。
主要包括即席查询、多维分析、报表输出、数据挖掘及预测和预演等功能。
数据展现层提供统一的门户入口,实现各种功能的无缝连接,并提供集成化的认证、信息发布和管理环境,使经营分析系统使用人员无需关心具体的技术实现途径,即可实现对经营分析系统数据的访问和分析。
同时门户站点还可根据不同分析和决策人员的需求,对所需的访问和分析内容进行方便、简捷的定制,以满足个性化信息服务的需求。
2.2.2.6元数据
元数据就是关于数据的数据,是企业数据仓库的数据地图,记录数据从业务系统到数据仓库的整个过程,并记录数据仓库使用过程的信息。
元数据在数据仓库的创建和维护时,都可以发挥作用。
在定义元数据时,应该先完成最了解的部分,最后才为数据仓库里的每一对象类型定义元数据。
元数据细化了数据结构及数据间的关系(从数据库视图,或是事务规则和数据流描述的结果)。
还应该记载别名、代码表、缺省值、完成途径、数值单位(美元或英镑)、算法和及它相关信息,形成元数据知识库。
由于元数据涉及到数据仓库项目建设全过程以及使用过程,如果将所有元数据都纳入元数据管理,将会造成数据仓库项目的建设周期过长。
根据我们建设数据仓库项目经验,认为数据仓库建设应该遵循“统一规划,分步开展”的原则,对经营分析系统的元数据管理应该先构造一个最小最实用集合的元数据。
我们建议先在以下过程中进行元数据管理:
l业务数据源分析
l目标数据仓库设计(概念模型、逻辑模型、物理模型设计)
l数据获取调度及监控设计
l数据仓库、数据集市存储
l展示设计
l记录数据仓库的使用情况
2.2.3功能组织架构
经营分析系统的功能模块如下图所示:
数据获取模块主要是负责和控制接口数据源的获取、转换、加载,及ETL过程中数据的审核、监控与调度。
业务分析模块主要是围绕某个具体的分析主题进行多角度的多维分析,从中发现问题,查找产生的原因。
包括:
客户情况分析、收入情况分析、业务使用情况分析、市场营销分析、竞争分析、营业分析及亮点专题分析等主题功能。
系统管理,包括系统安全管理、系统日志管理、用户和权限管理及元数据管理等功能。
信息展示模块则是根据使用者的不同层次提供不同的信息展示模块功能,包括即席查询、预定义/固定报表、多维分析、数据挖掘、信息订阅等功能,该功能模块可与业务分析模块的业务分析内容结合,从而为不同层次的使用者提供最适合的信息展示方式。
2.3系统关键技术
2.3.1数据仓库
数据仓库是一个面向主题的、集成的、非易失的、随时间变化的数据集合以便支持管理决策。
面向主题的:
数据以所代表的业务内容划分,而不是以应用划分;
集成的:
数据仓库中的数据采用统一的格式和编码方式;
随时间变化的:
数据按照时间进行组织并且存储在不同的时间切片
非易失的:
不允许对数据仓库数据进行更新操作,只加载和查询操作。
数据仓库同时具有下述特点:
数据仓库是一种应用模式,是针对这种应用模式提出的方法论。
数据仓库是一种行业经验和工具产品的有机结合。
数据仓库建设是一个循环往复、螺旋上升的过程,体现为一系列项目。
数据仓库系统与其他应用系统相比有其不同的特点,数据仓库建设比以它应用系统规模更大、投资更大、风险也更大。
影响数据仓库建设成功的因素有很多,所以在建设的过程中必须注意以下几点:
数据仓库是面向用户的,是由中高层决策人员提出的业务需求驱动的系统。
数据仓库建设,应该取得领导层的信任与支持。
数据仓库是面向主题的。
在数据仓库建设初期,应该做一个企业级数据仓库的规划,建立支持全局的框架结构,采用积木式构造方法开发数据仓库
数据仓库是面向过程的、是螺旋上升的。
保证实现的数据仓库能解决已知和可能出现的问题,能适用业务需求的变化,获得增量式投入产出效益。
数据仓库必须具有灵活性。
提供灵活的结构,能适用不断变化的用户需求,能适用各种不同的用户群体的要求。
2.3.2联机分析
当今的数据处理大致可以分成两大类:
联机事务处理OLTP(on-linetransactionprocessing)、联机分析处理OLAP(On-LineAnalyticalProcessing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"
维"
这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll-up和drill-down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill-across、drill-through等。
l钻取是改变维的层次,变换分析的粒度。
它包括向上钻取(roll-up)和向下钻取(drill-down)。
Roll-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;
而drilldown则相反,它从汇总数据深入到细节数据进行观察或增加新维。
l切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。
如果剩余的维只有两个,则是切片;
如果有三个,则是切块。
l旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。
ROLAP表示基于关系数据库的OLAP实现(Relational-OLAP)。
以关系数据库为核心,以关系型结构进行多维数据的表示和存储。
ROLAP将多维数据库的多维结构划分为两类表:
一类是事实表,用来存储数据和维关键字;
另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。
维表和事实表通过主关键字和外关键字联系在一起,形成了"
星型模式"
。
对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为"
雪花模式"
MOLAP表示基于多维数据组织的OLAP实现(Multidimensional-OLAP)。
以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。
多维数据在存储中将形成"
立方块(Cube)"
的结构,在MOLAP中对"
立方块"
的"
旋转"
、"
切块"
切片"
是产生多维数据报表的主要技术。
HOLAP表示基于混合数据组织的OLAP实现(Hybrid-OLAP)。
如低层是关系型的,高层是多维矩阵型的。
这种方式具有更好的灵活性。
还有其他的一些实现OLAP的方法,如提供一个专用的SQL-Server,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。
OLAP工具是针对特定问题的联机数据访问与分析。
它通过多维的方式对数据进行分析、查询和报表。
维是人们观察数据的特定角度。
例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。
这里的时间、地区和产品就是维。
而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,……,维n,度量指标),如(地区、时间、产品、销售额)。
多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
根据综合性数据的组织方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。
MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。
在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。
2.3.3数据挖掘
2.3.3.1数据挖掘概念
数据挖掘(DataMining),也叫数据开采,数据采掘等,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
企业里的数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
这种新式的商业信息处理技术,可以按商业既定业务目标,对大量的商业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化。
在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理(OLAP),从而得出可供决策参考的统计分析数据。
在深层次上,则从数据库中发现前所未有的、隐含的知识。
OLAP的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。
OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是使这一过程尽可能自动化。
2.3.3.2数据挖掘特点
数据挖掘技术具有以下特点:
l处理的数据规模十分庞大,达到GB、TB数量级,甚至更大。
l查询一般是决策制定者(用户)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 经营 分析 系统 建设 方案