智慧园博园大数据集成平台设计方案Word下载.docx
- 文档编号:7485557
- 上传时间:2023-05-08
- 格式:DOCX
- 页数:37
- 大小:844.31KB
智慧园博园大数据集成平台设计方案Word下载.docx
《智慧园博园大数据集成平台设计方案Word下载.docx》由会员分享,可在线阅读,更多相关《智慧园博园大数据集成平台设计方案Word下载.docx(37页珍藏版)》请在冰点文库上搜索。
系统稳定性主要包括系统运营完好、系统故障处理及时率两个指标。
系统运营完好,有优异的灾备机制,具有保障系统运营的优异管理机制。
系统故障处理及时率是系统发生故障时处理的效率。
具有良好的系统故障应急机制,能够快速及时的处理系统故障。
这对Hadoop平台的高可靠性提出高的要求,这需要设计Hadoop云架构时,考虑HA的优化和设计。
服务满意率主要考核供应商在服务期限内服务内外部客户的满意度。
包括投诉接通率、报告及时性两个方面。
投诉接通率是公共服务可信的重要保障。
投诉接通率是投诉接通次数(包括电话、网站响应)/投诉总次数。
报告及时性是对智慧园博要求的相关服务的响应时间,计算方法为报告按时提交次数/报告总次数。
这需要投诉方面的大数据有快速的分析和处理,需要设计Hadoop云架构中的storm、hbase、hive的应用和优化。
下面主要从平台的设计、选择和应用来进行思想指导。
1.2.1平台设计的指导思想
因为大数据是由分布存储在集群节点中多个单节点的磁盘空间中,能被进行分布式处理的数据构成的一个数据总体。
大数据的规模可以随点节点数量的不断增加而不断扩大。
旅游大数据集成平台的设计目标:
◆可以存储海量数据
◆可以进行高速处理
◆可以快速开发出并行服务
◆可以运行在廉价机器搭建的集群上
所以,建议采用选择Hadoop。
因为Hadoop是一个能够分布式存储大数据,并且能对大数据进行分布式处理的软件框架。
主要由HDFS和MapReduce组成。
它主要有以下几个优点:
高可靠性:
Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性:
Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性:
Hadoop能在各节点之间动态地移动数据,并保证各个节点的动态平衡,因为其处理速度非常快。
高容错性:
Hadoop能够保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本:
Hadoop可以运行在廉价服务器上管理海量数据,降低了成本。
由Apache基金会所开发,纯Java编写的开源系统。
1.2.2平台选择的指导思想
为什么选择HDP?
HDP是企业级的Hadoop,其核心是提供线性扩展存储并跨广范围访问方法(从批量到实时、搜索和流媒体)计算。
它在管制、集成、安全性和运营上具有一套完善的功能。
1.2.3平台应用的指导思想
智慧园博是旅游业发展到现阶段出现的一种旅游新形态,是旅游业与科技创新融合发展的典范,是旅游业未来发展的趋势。
智慧园博发展的直接受益者将是旅游者,它将使旅游者享受到更多的智慧园博服务。
比如游客通过手机、IPAD等工具,到网上查询观光信息、网上订票,还可以订制私人旅游线路,合理安排个人日程,最大化地利用旅游时间。
1.3总体解决方案
总体的解决方案是采用成熟、商用、稳定的Hadoop云平台—HDP,核心技术主要是Hadoop与其生态系统的整个云技术家族。
本平台架构包括数据访问、数据管制与集成和数据监控模块,平台提供了丰富的大数据接口,为智慧园博各大平台提供大数据的支撑,比如:
旅游公共信息发布及资讯平台,中国旅游产业运行监管平台,全国各景区门票预约与客流预警平台,多语种的旅游形象推广平台等。
详细如下如所示:
智慧园博数据最重要的是数据分析,通过HDP,可以得到如下的分析:
数据分析结果快速形成图表:
旅游大数据分析平台需要从各个景点的系统传输大量的非结构化数据文件,我们的文件传输解决方案是:
1.3.1总平台旅游大数据的存储解决方案
旅游大数据不断增长造成单机系统性能不断下降,即使不断提升硬件配置也难以跟上数据的增长速度。
然而,当今主流的计算机硬件比较便宜而且可以扩展,现在购置八台8内核、128GB内存的机器比购置一台64内核、TB级别内存的服务器划算得多,而且还可以增加或减少机器来应对将来的变化。
因此选择Hadoop云平台的大数据存储方案。
1.3.1.1存储方案核心技术
其存储的核心技术解决方案是:
• 高性能分布式存储系统:
HBASE(数据库的首选技术)
• 高度容错性分布式文件系统:
HDFS(文件存储首选技术)
1.3.1.2方案核心技术介绍
• HDFS:
HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统.HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。
而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。
• HBASE:
HBase–HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。
1.3.1.3方案设计图
1.3.2总平台旅游大数据的计算解决方案
其分析的核心技术解决方案是:
高性能并行计算引擎:
MapReduce2.0(离线)、Spark(内存)、Storm(实时)、Tez(底层)
1.3.2.1MapReduce2.0的介绍
MapReduce2.0或者MRv2具有与MRv1相同的编程模型,唯一不同的是运行时环境。
MRv2是在MRv1基础上经加工之后,运行于资源管理框架YARN之上的MRv1,它不再由JobTracker和TaskTracker组成,而是变为一个作业控制进程ApplicationMaster,且ApplicationMaster仅负责一个作业的管理,至于资源的管理,则由YARN完成。
简而言之,MRv1是一个独立的离线计算框架,而MRv2则是运行于YARN之上的MRv1。
1.3.2.2Spark的介绍
Spark基于mapreduce算法实现的分布式计算,拥有Hadoop、MapReduce所具有的优点;
但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map、reduce的算法。
1.3.2.3Storm的介绍
Storm是一个免费开源、分布式、高容错的实时计算系统。
Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。
Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。
Storm的部署管理非常简单,而且,在同类的流式计算工具,Storm的性能也是非常出众的。
1.3.2.4Tez的介绍
Tez是基于HadoopYarn之上的DAG(有向无环图,DirectedAcyclicGraph)计算框架。
它把Map/Reduce过程拆分成若干个子过程,同时可以把多个Map/Reduce任务组合成一个较大的DAG任务,减少了Map/Reduce之间的文件存储。
同时合理组合其子过程,也可以减少任务的运行时间。
1.3.2.5方案设计图
总的来说,各核心技术各有所长,比如,MapReduce:
是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,非常适合数据密集型计算。
而Spark则是一种内存计算框架,它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。
Storm:
MapReduce也不适合进行流式计算、实时分析,比如广告点击计算等,而Storm则更擅长这种计算、它在实时性要远远好于MapReduce计算框架。
Tez:
运行在YARN之上支持DAG作业的计算框架,并且更底层,对pig,hive等的支持比较高。
1.3.3总平台旅游大数据的文件传输解决方案
旅游大数据平台收集的非机构化数据来自不同的景区,通过广域网远距离行传输。
而且非机构化数据一般较大,例如音频,视频,图片等,文件大小500M以上,甚至几G几十G。
如果通过FTP工具传输,面临传输速度低,出错概率大等困难,从而造成数据到应用的延误。
而且FTP不能提供详尽、易读的传输日志信息,故障诊断和修复的时间会大大增加。
文件传输解决方案“数据通”(FastFileTransfer:
FFT)提供文件网关,核心传输工具,安全认证,传输监控等功能,为园博园提供一个统一,安全,高效的传输平台。
1.3.3.1方案功能介绍
FFT的核心传输工具采用一种全新的技术,克服了传统数据传输软件,例如FTP,HTTP以及WindowsCIFS中的固有瓶颈,实现了在各种共享和私有网络环境中传输速度的最大化。
这种技术可以获得完美的传输效率,不为网络延迟和丢包所限制。
并且用户享有对传输速度以及不同传输流之间带宽共享的无以伦比的控制。
不管网络距离和动态性能如何,即便是在最困难的网络条件下(例如卫星,无线和洲际远程链接),文件传输时间仍然可以得到保障。
FFT具有内置的完整安全性功能,包括连接节点安全验证,传输中数据加密以及数据完整性验证。
FFT具有出色的带宽控制功能,提供了有保障的传输时间,充分利用了可用带宽,同时让其他网络流量可公平使用带宽。
FFT拥有灵活开放的架构,支持在所有主要的操作系统直接的跨平台传输,提供开放的可扩展的软件开发包,API接口,能够方便的将“数据通”的技术和产品无缝集成到现有的应用程序和工作流程管理平台中。
FFT提供了一个统一的监控管理平台,方便用户监控当前各个“数据通”节点的健康状态,管理传输节点的用户和服务器配置,Console还可以实时管理各节点的传输,同时可对各个节点进行传输统计。
1.3.3.2传输架构设计
各地方景点都会用FFTP2PServer将各地数据上传到旅游大数据平台,FFTConsole监控所FFT服务器的运行。
此外还可以考虑HA架构保证服务的不间断性。
1.4平台总体设计
1.4.1Hadoop云平台的总设计原则
Hadoop云平台作为大数据的分布式的计算平台,必须具备分布式系统设计的重要且必须的设计原则,本平台严格根据以下分布式系统的设计原则进行设计:
HighReliability高可靠性
HighScalabilty高可扩展性
HighRobustness高鲁棒性
HighAvailabity高可用性
1.4.1.1高可靠性
硬件错误是常态而不是异常。
HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。
我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。
因此错误检测和快速、自动的恢复是HDFS最核心的架构目标。
1.4.1.2高可扩展性
运行在HDFS上的应用具有很大的数据集。
HDFS上的一个典型文件大小一般都在G字节至T字节。
因此,HDFS被调节以支持大文件存储。
它应该能提供整体上高的数据传输带宽,能在一个集群里扩展到数百个节点。
一个单一的HDFS实例应该能支撑数以千万计的文件。
1.4.1.3高鲁棒性
引入Federation的最主要原因是简单,其简单性是与真正的分布式Namenode相比而言的。
Federation能够快速的解决了大部分单NamenodeHDFS的问题。
Federation是简单鲁棒的设计,由于联盟中各个Namenode之间是相互独立的。
大部分改变是在Datanode、Config和Tools,而Namenode本身的改动非常少,这样Namenode原先的鲁棒性不会受到影响。
比分布式的Namenode简单,虽然这种实现的扩展性比起真正的分布式的Namenode要小些,但是可以迅速满足需求。
另外一个原因是Federation良好的向后兼容性,已有的单Namenode的部署配置不需要任何改变就可以继续工作。
因此Federation(联盟)是未来可选的方案之一。
在Federation架构中可以无缝的支持目前单Namenode架构中的配置。
1.4.1.4高可用性
hadoop2.0的HA机制有两个namenode,一个是activenamenode,状态是active;
另外一个是standbynamenode,状态是standby。
两者的状态是可以切换的,但不能同时两个都是active状态,最多只有1个是active状态。
只有activenamenode提供对外的服务,standbynamenode是不对外服务的。
activenamenode和standbynamenode之间通过NFS或者JN(journalnode,QJM方式)来同步数据。
1.4.2Hadoop云平台架构
1.4.3平台的基础架构设计
1.4.3.1云计算基础架构
为了快速构建以上各种平台以满足业务功能的建设,运营和扩张,更好的支撑智慧园博业务的经营,需要高等级基础架构平台进行支撑。
根据旅游行业的特点,我们建议采用云化的基础架构进行支撑。
同时,采用双活/多活架构来满足业务连续性和客户体验的要求。
旅游产业自身是综合性服务产业,同时旅游产业与其他产业的正在不断的深度融合,这就要求要求智慧园博的基础架构平台要能与未来城市与社会服务的对接能力要能够支撑未来5~10年的发展需求,根据最佳实践,按需建设的业务需要云化的基础架构。
旅游行业具有季节性、周期性,作为行业平台,需要按需扩展的计算能力进行支撑,这就必须采用先进的云化建设模式来满足业务高峰期的处理能力。
旅游行业的客户体验具有跨地域特点,同时考虑途体验和地域体验,需要平台能够为整个过程提供一致的漫游体验。
因此,需要考虑在全国进行业务能力的建设,初期计划使用双活的数据中心设计来满足南北大区客户的需求。
同时,我们也应充分考虑未来旅游业务模式的不断创新的必然性。
1.4.3.2核心基础架构整体设计
智慧园博基础架构平台的整体架构设计:
在初期建设中,采用南-北双活的数据中心结构来满足整个中国的业务需求:
•集中监控模块将各数据中心的运行状态进行汇总并实现部分自动化操作
•负载均衡模块将交易、浏览请求发送至正确的处理节点并将结果送回客户端
•数据复制模块在数据中心间维持数据的一致性
•数据中心间软硬件、网络配置一致,同时通过软件分发机制及工具维持版本管理
•跨中心的变更管理、问题管理流程和工具支持技术构架模式上,采用以POD为建设单位的标准化建设机制:
1.4.3.3数据中心站点内的部署结构
多活数据中心的整体网络架构实现:
在数据中心的内部,根据业务要求,需要划分如下逻辑区域:
◆测试区
◆核心生产区域
◆DMZ区域
◆管理区域
◆存储区域
合理的逻辑分区保证了业务的有序开展
1.4.3.4数据中心外的部署结构
CDN内容加速网络的建设也是保证海量客户体验的基础,拟在初期建设阶段完成后,在后续阶段完成国内CDN节点的部署。
CDN服务以多媒体视频为例:
1.4.4高用性设计
HDFS的HA功能通过配置Active/Standby两个NameNodes实现在集群中对NameNode的热备来解决单点故障问题。
HDFSHA的解决方案可谓百花齐放,LinuxHA,VMwareFT,sharedNAS+NFS,BookKeeper,QJM/QuorumJournalManager,BackupNode等等。
目前普遍采用的是sharedNAS+NFS,因为简单易用,但是需要提供一个HA的共享存储设备。
而社区版已经把基于QJM/QuorumJournalManager的方案merge到trunk了。
高可扩展性是来自于hadoop的存储方案HDFS,现在急需大规模的部署和应用的商用方案。
在大规模部署中,熟练使用CM和Ambari是必须且首要的选择。
而在CM与Ambari中只有Ambari是Apache的顶级开源项目,所以选择Ambari来管理并设计。
1.4.5业务分析平台
作为业务分析和决策支持的手段分为四种:
标准报表、主题分析、在线分析、数据挖掘。
1、标准报表
标准报表是决策支持平台的核心功能,可以综合日常医疗卫生报表序列。
2、主题分析
主题是在较高层次上将组织信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。
在逻辑意义上,它是对应组织中某一宏观分析领域所涉及的分析对象。
面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的园博园各项数据,以及数据之间的联系。
所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有更高的数据抽象级别。
与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。
3、联机分析
联机分析处理(OLAP)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"
维"
这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维,使用户能对不同维度上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取、切片和切块、以及旋转等。
钻取是改变维的层次,变换分析的粒度。
它包括向上钻取和向下钻取。
向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;
而向下钻取则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。
如果剩余的维只有两个,则是切片;
如果有三个,则是切块。
旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
OLAP有多种实现方法,根据存储数据的方式不同可以分为关系OLAP(ROLAP)、多维OLAP(MOLAP)、混合OLAP(HOLAP)。
ROLAP表示基于关系数据库的OLAP实现。
以关系数据库为核心,以关系型结构进行多维数据的表示和存储。
ROLAP将多维数据库的多维结构划分为两类表:
一类是事实表,用来存储数据和维关键字;
另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。
维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模式”。
对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。
MOLAP表示基于多维数据组织的OLAP实现(MultidimensionalOLAP)。
以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。
多维数据在存储中将形成"
立方块(Cube)"
的结构,在MOLAP中对"
立方块"
的"
旋转"
、"
切块"
切片"
是产生多维数据报表的主要技术。
HOLAP表示基于混合数据组织的OLAP实现(HybridOLAP)。
如低层是关系型的,高层是多维矩阵型的。
这种方式具有更好的灵活性。
4、数据挖掘
数据挖掘是根据园博园的既定业务目标和存在的问题,对大量的业务数据进行探索,揭示隐藏其中的规律,并将其模型化,指导并应用于实际的园博园经营中。
数据挖掘与OLAP分析、预定义报表和即席查询等有很大的区别。
后三者通常是用户对所关心的业务指标,按照已知的角度进行分析;
而前者则是在业务问题和目标明确,但考察的角度不清楚时,对数据进行探索,揭示隐藏其中的规律性,进而将其模型化。
不同的实际问题所采用的数据挖掘方法有所不同,有的问题甚至需要结合多种方法共同进行解决。
数据挖掘的方法一般分为预测型和描述型。
具体而言,本系统要求数据挖掘应用能支持以下各类方法:
预测型(Predictive)方法通常包含以下几种:
◆分类(Classification)/决策树算法(DecisionTree)
◆回归分析(Regression)
◆时间序列分析(TimeSeries)描述型(Descriptive)方法通常包含以下几种:
◆关联分析(AssociationAnalysis)
◆序列关联分析(SequentialAnalysis)
◆聚类分析(Clustering)
1.4.6数据管理平台
主要的组件是HDFS和YARN。
1.4.6.1HDFS的介绍
Hadoop分布式文件系统(HDFS)是运行在通用硬件上的分布式文件系统。
HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。
HDFS已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为海量数据存
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智慧 园博园大 数据 集成 平台 设计方案