GB-T 35295-2017 信息安全技术 大数据术语.pdf
- 文档编号:14661128
- 上传时间:2023-06-25
- 格式:PDF
- 页数:20
- 大小:458.59KB
GB-T 35295-2017 信息安全技术 大数据术语.pdf
《GB-T 35295-2017 信息安全技术 大数据术语.pdf》由会员分享,可在线阅读,更多相关《GB-T 35295-2017 信息安全技术 大数据术语.pdf(20页珍藏版)》请在冰点文库上搜索。
ICS35.020;35.240.01L70中华人民共和国国家标准GB/T352952017信息技术大数据术语InformationtechnologyBigdataTerminology2017-12-29发布2018-07-01实施中华人民共和国国家质量监督检验检疫总局中国国家标准化管理委员会发布目次前言1范围12术语和定义12.1大数据及其应用领域术语12.2密切相关的通用术语8参考文献10索引11GB/T352952017前言本标准按照GB/T1.12009给出的规则起草。
请注意本文件的某些内容可能涉及专利。
本文件的发布机构不承担识别这些专利的责任。
本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。
本标准起草单位:
中国电子技术标准化研究院、浪潮软件集团有限公司、浪潮(北京)电子信息产业有限公司、国家信息中心、华为技术有限公司、北京数码大方科技股份有限公司、山东省标准化研究院、北京世纪互联宽带数据中心有限公司、清华大学、中科恒源信息科技有限公司、山西天地科技有限公司、大唐软件技术股份有限公司、成都勤智数码科技股份有限公司、微软(中国)有限公司、福建亿榕信息技术有限公司、中国科学院计算机网络信息中心、北京软件和信息服务交易所有限公司、北京华宇软件股份有限公司、四川长虹佳华数字技术有限公司、中兴通讯股份有限公司、四川久远银海软件股份有限公司、北京东方通科技股份有限公司、北明软件股份有限公司、天津南大通用数据技术股份有限公司、重庆云威科技有限公司、广州赛宝认证中心服务有限公司、北京大学。
本标准主要起草人:
梅宏、高林、卫凤林、赵菁华、张群、王建华、黄先芝、吴楠、苏志远、宦茂盛、吕欣、杨莉莉、符海芳、吴东亚、齐建军、万洋、隗玉凯、王文飞、周行健、王建民、王朝坤、张星华、莫宏波、苏晓婷、芦效东、周训波、程之明、刘宇峰、吴志刚、许怡娴、苏江文、石松、胡良霖、闵京华、于铁强、胡才勇、高冀鹏、张楠、李剑飞、邹代泉、黄峥、王东、程曦、乔文涛、赵大航、俞立平、汪疆平、王进宏、冀辉、王洪越、李力、刘小茵、李尧、李宁、张展新、王静、李冰、陈海、徐洋、李易昂、赵俊峰。
GB/T352952017信息技术大数据术语1范围本标准界定了信息技术大数据领域中的常用术语和定义。
本标准适用于大数据领域的科研、教学和应用。
2术语和定义2.1大数据及其应用领域术语2.1.1大数据bigdata具有体量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。
注:
国际上,大数据的4个特征普遍不加修饰地直接用volume、variety、velocity和variability予以表述,并分别赋予了它们在大数据语境下的定义:
a)体量volume:
构成大数据的数据集的规模。
b)多样性variety:
数据可能来自多个数据仓库、数据领域或多种数据类型。
c)速度velocity:
单位时间的数据流量。
d)多变性variability:
大数据其他特征,即体量、速度和多样性等特征都处于多变状态。
2.1.2数据生存周期datalifecycle将原始数据转化为可用于行动的知识的一组过程。
2.1.3大数据参考体系结构bigdatareferencearchitecture一种用作工具以便于对大数据内在的要求、设计结构和运行进行开放性探讨的高层概念模型。
注:
比较普遍认同的大数据参考体系结构一般包含系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据消费者等5个逻辑功能构件。
2.1.4系统协调者systemorchestrator大数据参考体系结构中的一种逻辑功能构件,它定义所需的数据应用活动并将它们整合到可运行的垂直系统中。
注1:
系统协调者可以是人、软件或这二者。
注2:
系统协调者一般包括:
业务领导者、咨询师、数据科学家、信息体系结构设计师、软件体系结构设计师、安全体系结构设计师、个人信息保护体系结构设计师和网络体系结构设计师。
2.1.5数据提供者dataprovider大数据参考体系结构中的一种逻辑功能构件,它将新的数据或信息引入大数据系统。
注:
数据提供者一般包括:
企业、公共机构、科学家、调研人员、从事数据搜索的工程师、网络应用软件、网络运营商和末端用户。
1GB/T3529520172.1.6大数据应用提供者bigdataapplicationprovider大数据参考体系结构中的一种逻辑功能构件,它执行数据生存周期操作,以满足系统协调者定义的需求以及安全和隐私保护需求。
注:
大数据应用提供者一般包括:
应用领域专家、平台领域专家和咨询师。
2.1.7大数据框架提供者bigdataframeworkprovider大数据参考体系结构中的一种逻辑功能构件,它建立一种计算框架,在此框架中执行转换应用,同时保护数据完整性和隐私。
注:
大数据框架提供者一般包括:
内嵌数据集集群、数据中心和云提供者。
2.1.8数据消费者dataconsumer大数据参考体系结构中的一种逻辑功能构件,它是使用大数据应用提供者提供的应用的末端用户或其他系统。
注:
数据消费者一般包括:
末端用户、调研人员、应用和系统。
2.1.9基础设施框架infrastructureframework由网络、计算、存储和环境等功能构件构成的一种集合。
注1:
网络、计算、存储和环境的解释如下:
a)网络:
支持将数据从一个资源传输到另一个资源的资源(如,已定义的物理资源、软件资源、虚拟资源等)。
b)计算:
执行和驻留其他大数据系统构件(如,物理资源、操作系统、虚拟实现、逻辑分布)的软件的物理处理器和存储器。
c)存储:
在大数据系统中保存数据的资源(如,存储器、本地磁盘、独立磁盘的软/硬件冗余阵列、存储域网、附网存储)。
d)环境:
建立大数据系统时必须考虑的物理辅助资源(如,供电、冷却等)。
注2:
这是大数据框架提供者可能提供的一种框架。
2.1.10数据平台框架dataplatformframework用于指导实现结合相关应用编程接口(API)访问的逻辑数据组织和分发的集合。
注1:
此类框架一般还包含数据注册和连同语义数据描述(如格式化本体或分类)的元数据服务。
逻辑数据组织的覆盖范围从简单限定的平面文件到完全分布式关系数据存储或分栏数据存储。
注2:
这是大数据框架提供者可能提供的一种框架。
2.1.11处理框架processingframework覆盖为支持大数据应用实现所需基础设施软件的、定义数据的计算和处理的集合。
注:
这是大数据框架提供者可能提供的一种框架。
2.1.12消息/通信框架messaging/communicationsframework源于高性能计算环境、为水平扩展集群中节点之间的可靠查询、传输和接收数据提供API的集合。
注:
这是大数据框架提供者可能提供的一种框架。
2.1.13资源管理框架resourcemanagementframework大数据框架提供者可能提供的、利用数据本地化作为一种输入变量来确定是否安装新的处理框架2GB/T352952017元素(如,主节点、处理节点、作业位置),从而实现对CPU和存储两大资源高效且有效管理的集合。
注:
这是大数据框架提供者可能提供的一种框架。
2.1.14大数据系统bigdatasystem实现大数据参考体系结构的全部或部分功能的系统。
2.1.15大数据服务bigdataservice基于大数据参考体系结构提供的数据服务。
2.1.16垂直扩展verticalscaling为提高性能而提高处理速度、存储和内存等系统参数的过程。
2.1.17水平扩展horizontalscaling将集成的一群个体资源作为一个单系统使用的过程。
2.1.18大数据范例bigdataparadigm一种由水平耦合分布式数据系统和独立资源组成的、用于实现为有效处理众多数据集所必需的可伸缩性的知识。
2.1.19大数据工程化bigdataengineering为适应大数据对于有效存储、操作和分析的需求而运用治理独立资源的先进技术构建可伸缩数据系统的过程。
2.1.20大规模并行处理massivelyparallelprocessing多个处理器并行工作以执行一个特定计算任务的过程。
2.1.21分布式文件系统distributedfilesystem多个结构化数据集分布在一个或多个服务器集群的各个计算节点的文件系统。
注:
此类系统中,数据可能分布在文件和/或数据集层,更为普遍的是在数据块这个层级分布,同时支持集群中多个节点与大型文件和/或数据集的不同部分交互。
2.1.22分布式计算distributedcomputing一种覆盖存储层和处理层的、用于实现多类型程序设计算法模型的计算模式。
注:
分布式计算结果通常加载到分析环境。
MapReduce是数据分布式计算中默认的处理构件。
2.1.23分散-聚集scatter-gather大数据集的处理形式,其中所需的计算被划分并分布在集群的多个节点上,整体结果由每个节点的结果合并而成。
注:
分散-聚集通常要求对处理软件的算法进行改变。
示例:
MapReduce(包含Map和Reduce两个计算过程的一种计算模型)就是采用分散-聚集的处理形式。
2.1.24流数据streamingdata经由接口传递,从连续运行的数据源产生的数据。
3GB/T3529520172.1.25非结构化数据unstructureddata不具有预定义模型或未以预定义方式组织的数据。
2.1.26大数据生存周期模型lifecyclemodelforbigdata用于描述大数据的“数据信息知识价值”生存周期和指导大数据相关活动的模型;这些活动主要由收集、准备、分析和行动等阶段覆盖。
注:
几个阶段的主要活动如下:
a)收集阶段:
采集原始数据并按原始数据形式存储;b)准备阶段:
将原始数据转化为干净的、有组织的信息;c)分析阶段:
利用有组织的信息产生合成的知识;d)行动阶段:
运用合成的知识为组织生成价值。
2.1.27读时模式schema-on-read一种数据模式应用;按此应用,在从数据库读取数据之前,先经过诸如转换、净化、整合之类准备步骤。
2.1.28计算可移植性computationalportability使计算移动到数据所在位置的能力。
2.1.29真实性veracity数据在跨边界传送的情况下,与数据完整性和隐私保护相关的一种数据特征;亦简单指数据的准确性。
2.1.30价值value从分析学角度考虑的数据对组织的重要性。
注:
大数据应用领域越来越看重大数据带来的价值,确定数据的价值也趋向于作为大数据分析的一个重要目标。
2.1.31波动性volatility数据结构随时间变化的趋势。
注:
这个术语与大数据主要特征之一的“多变性(variability)”不同,多变性主要用于表述大数据的体量、速度和多样性等特征呈现的多变性。
2.1.32正确性validity就数据预期用途而言的数据适当性。
2.1.33大数据动态应用bigdatavelocityapplication数据的收集、准备和分析(预警)在动态改变中发生,并可能在数据存储之前进行归纳或聚合。
2.1.34大数据卷系统bigdatavolumesystem在数据准备阶段前以数据原始形式存储的一种数据系统。
注:
在这种系统中,在数据读出时开始启动准备阶段,因此被称为“读时模式”。
4GB/T3529520172.1.35数据仓库datawarehouse在数据准备之后用于永久性存储数据的数据库。
2.1.36动态数据datainmotion处于活动状态,其典型特征表现为大数据的速度和多变性特征的数据。
注:
它们在网络上传输或暂时驻留于计算机内存中供读取或更新。
对它们以实时或近实时方式进行处理和分析。
2.1.37静态数据dataatrest处于静止状态,其典型特征表现为大数据的体量和多样性特征的数据。
注:
它们通常是存储于物理媒体中的数据。
2.1.38非关系模型non-relationalmodels用于数据存储和处理、不遵循关系代数的逻辑数据模型。
注:
非关系模型也常称为NoSQL,通常理解为非SQL(结构化查询语言)或不仅是SQL。
2.1.39联合数据库系统federateddatabasesystem一种元数据库管理系统,它透明地将多个自治数据库系统映射到一个单一联合数据库。
2.1.40数据科学datascience根据原始数据,经过整个数据生存周期过程凭借经验合成可用于行动的知识的一种科学。
2.1.41数据科学范例datascienceparadigm通过发现、假设和假设测试过程直接从数据萃取的可用于行动的知识。
2.1.42数据科学家datascientist数据科学专业人员:
他们具有足够的业务需求管理机制方面的知识、领域知识、分析技能以及用于管理数据生存周期中每个阶段的端到端数据过程的软件和系统工程知识。
2.1.43数据治理datagovernance对数据进行处置、格式化和规范化的过程。
注1:
数据治理是数据和数据系统管理的基本要素。
注2:
数据治理涉及数据全生存周期管理,无论数据是处于静态、动态、未完成状态还是交易状态。
2.1.44开放数据opendata可为其他数据使用的数据。
2.1.45链接数据linkeddata连接其他数据的数据。
2.1.46数据集dataset数据记录汇聚的数据形式。
注:
它可以具有大数据的体量、速度、多样性和易变性特征。
数据集的特征表征的是数据本身或静态数据,而数据的特征,当其在网络上传输时或暂时驻留于计算机存储器中以备读出或更新时,表征的是动态数据。
5GB/T3529520172.1.47追溯provenance对数据集的历史元数据的讨论。
注1:
此词条的中文名是对同一个英文名词的动词性定义的表示。
注2:
这是大数据分析中的一个必不可少的因素。
2.1.48分析analytics根据信息合成知识的过程。
2.1.49分析过程特征analyticprocessescharacteristics用以表征大数据分析过程的发现、开发和应用。
“发现”是形成最初的假设性构想,“开发”是针对具体构想构建分析过程,“应用”则是将分析结果打包到特定运行的系统。
2.1.50共享磁盘文件系统shared-diskfilesystems使用单一存储池且与多个计算资源关联的存储数据的方法。
注:
此类系统的技术实现支持同时从多个节点访问许多大型数据集。
示例1:
存储域网(StorageAreaNetworks,简称SAN)。
示例2:
附网存储(NetworkAttachedStorage,简称NAS)。
2.1.51数据特征层次datacharacteristichierarchy从不同粗细粒度表征数据特征的数据层次结构。
注:
大数据的特征层级一般包括以下层级:
数据元素;记录(数据元素的汇集);数据集(记录的汇集);多数据集(数据集的汇集)。
2.1.52可伸缩流处理scalablestreamprocessing数据存储器之间动态数据的处理形式。
注:
主要用于数据的过滤、转换或路由选择。
对于大数据流,流处理往往是可伸缩的,以便支持分布式处理和流水线式处理。
2.1.53可伸缩数据存储scalabledatastores用以支持应对数据存储无限增长的一种存储技术。
注:
此类技术的运用往往伴之以容错能力,以便应对大数据系统构件的某些失效。
2.1.54本体ontology在大数据语境下,它是一些约束后续各种不同层次逻辑模型的语义模型。
注:
本体,从本质上看,既可以是非常概括性的,也可以是极其专门化的。
6GB/T3529520172.1.55分类taxonomies在数据分析语境下表示关于数据元素关系的元数据。
注:
它是实体之间的层次关系,在这种情况下,一个数据元素被分解为较小的组成部分。
2.1.56图解模型graphicalmodel一种可以呈现数据元素之间关系的大数据记录存储类型。
注:
在此种模型中,数据元素是节点,关系表现为节点之间链接。
2.1.57复杂性complexity在大数据语境下,复杂性是指各数据元素之间内部关系的或跨数据记录之间的一种互动关系繁简程度。
2.1.58资源协商resourcenegotiation一种支持多租户以及要求高可用性和低延迟的环境的资源访问模式。
注:
按此模式,资源管理器是若干节点管理器的集线器;各个客户(或用户)依次请求节点管理器中的应用管理器,紧接前一个请求者的后一个请求者分配到同一个或不同的节点管理器的应用管理器。
根据中央处理器(CPU)和存储器可用情况为所请求的任务确定先后次序并在节点提供适当的处理资源。
2.1.59集群管理clustermanagement在以非关系模型方式驻留数据的集群资源之间提供通信的一种机制。
2.1.60软件定义存储softwaredefinedstorage利用软件来确定存储器的动态层级分配的一种存储管理技术。
注:
此类技术可以以较低的存储开销来维护必要的数据检索性能,常用于内存、高速缓存、固态硬盘、网络驱动等应用领域。
2.1.61软件定义网络softwaredefinednetwork;SDN支持作为大数据关键实现的网络资源高效且有效管理的一种技术。
注:
亦称虚拟网络(virtualnetwork),与传统的用于数据、管理、I/O(输入/输出)和控制的专用物理网络链接不同,SDN包含资源池化的链接和实际交换设施,实施特定功能和特定应用的按需分配(包括传输的原始带宽、服务质量和数据路由等)。
2.1.62网络功能虚拟化networkfunctionvirtualization对路由器/路由选择、周界防护、远程访问鉴别以及网络流量/载荷监控等网络功能的虚拟应用实现。
注:
网络功能虚拟化支持信息系统的高弹性、容错和资源管理,是应对大数据巨大数据体量下用户数据连接的峰、谷起伏问题的至关重要的应用。
2.1.63本地虚拟化nativevirtualization大数据环境下的一种虚拟化基本形式,按此种形式,在本地裸机上运行管理程序,该程序管理由操作系统和应用组成的多个虚拟机。
7GB/T3529520172.1.64主机虚拟化hostedvirtualization大数据环境下的一种虚拟化基本形式,按此种形式,在本地裸机上运行操作系统,在驻留客户操作系统和应用的顶层运行管理程序。
2.1.65容器式虚拟化containerizedvirtualization大数据环境下的一种虚拟化基本形式,按此种形式,在本地裸机上运行操作系统,管理程序功能嵌入操作系统中,应用在内部各个容器中运行,控制或限制对操作系统和物理机器资源的访问。
2.2密切相关的通用术语2.2.1数据data信息的可再解释的形式化表示,以适用于通信、解释或处理。
注:
可以通过人工或自动手段处理数据。
GB/T5271.12000,定义01.01.022.2.2数据处理dataprocessing数据操作的系统执行。
注:
术语“数据处理”不能用作“信息处理”的同义词。
GB/T5271.12000,定义01.01.062.2.3数据管理datamanagement在数据处理系统中,提供对数据的访问,执行或监视数据的存储,以及控制输入输出操作等功能。
GB/T5271.12000,定义01.08.022.2.4关系模型relationalmodel结构基于一组关系的数据模型。
示例:
结构查询语言(SQL)即表示这样一种模型。
GB/T5271.172010,定义17.04.042.2.5关系数据库relationaldatabase数据按关系模型来组织的数据库。
GB/T5271.172010,定义17.04.052.2.6分布式数据处理distributeddataprocessing;DDP将操作分散到计算机网络的各结点进行的数据处理。
注:
DDP需要借助各结点之间的数据通信做到集体协作。
GB/T5271.182008,定义18.01.082.2.7元数据metadata关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。
GB/T5271.172010,定义17.06.058GB/T3529520172.2.8语义元数据semanticmetadata元数据的一个类型;给出有助于恰当理解数据元素的定义性描述的元数据,或
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GB-T 35295-2017 信息安全技术 大数据术语 GB 35295 2017 信息 安全技术 数据 术语
![提示](https://static.bingdoc.com/images/bang_tan.gif)