技术基础篇数据处理(第三讲).ppt
- 文档编号:18715353
- 上传时间:2023-10-17
- 格式:PPT
- 页数:75
- 大小:542.50KB
技术基础篇数据处理(第三讲).ppt
《技术基础篇数据处理(第三讲).ppt》由会员分享,可在线阅读,更多相关《技术基础篇数据处理(第三讲).ppt(75页珍藏版)》请在冰点文库上搜索。
第六章数据处理,教学目的及要求:
识记数据处理的概念、数据文件、数据库、数据库管理系统、数据库系统、数据字典等概念;熟悉数据处理的基本内容、数据文件的组织方式、数据库系统的结构,实体、属性和联系,数据库设计的四个阶段;了解数据处理的发展阶段,数据库系统的产生。
第六章数据处理,一、数据处理的概念所谓数据处理,就是把来自科学研究、生产实践和社会经济活动等领域中的原始数据用一定的设备和一定的手段按一定的使用要求加工成另一种形式的数据,以便获得对人们决策有价值的信息的过程。
数据处理,二、数据处理的发展阶段,1.手工处理2.机械设备处理3.计算机系统处理,由算盘、计算尺、手摇计算机等进行处理,由卡片、制表设备等进行处理,完全由计算机系统进行处理,三、数据处理的基本内容,1.数据收集(数据采集)
(1)定义:
数据收集就是按照用户的需要和系统的要求收集必要的原始数据
(2)收集方式人工收集联机方式收集比较:
人工方式及时性差,出错率高;联机方式快速、准确,但投资较大。
联机方式是数据采集的发展方向,由人通过一定的中间环节获得数据(如档案文件、帐册、票据凭证等)。
要对数据的来源和数据本身的准确性充分了解,以保证引用资料的准确性。
将某种计算机装置、测试装置等直接与电子数据处理系统相联接,将所需数据直接送入计算机处理系统,由计算机直接处理。
2.数据加工处理,
(1)数据的转换和录入数据转换:
也叫数据的预处理,是将采集到的原始数据通过一定手段转换成适合于计算机处理的形式,使数据代码化。
原始数据的分类:
数值型数据:
由数字字符组成,可直接进行数据录入文字信息或特定符号:
必须预先经过“编码”处理才能录入数据录入方法:
传统手工方法;源数据自动化方法。
(2)数据分类和合并分类:
根据一定顺序将无序的数据元素序列调整成为一个有序序列,也就是将数据元素按某一关键字进行排序,形成一个有序文件。
合并:
将两个或多个简单有序集合中的数据项目按同样的顺序连接成一个有序集合。
3.数据传输,数据传输有两层含义实现数据资源的共享与交换数据处理结果的输出,如:
利用计算机通信网络共享各网点的数据资源。
常以报告、文件图表等形式输出给各用户,并传送到各部门。
4.数据存储,数据存储:
是对原始待加工的数据及已加工的各种信息的储存涉及的两个问题物理存储:
将数据存储在适当的介质上逻辑组织:
按数据逻辑内在联系和使用方式,把数据组成合理的结构,5.数据管理,数据管理就是对数据的更新和维护,也就是指对原文件中的记录或数据项进行修改、插入(增加)、删除及数据存储的调整,数据正确性的检查和安全性的保证等。
更新过程,6.数据检索,数据检索即从计算机存储数据中查找和选取所需要的数据采用何种方式检索,取决于数据存储的形式,数据处理的核心是数据收集和数据管理,三、文件组织只有将数据有序地组织起来,才能对数据进行有效地处理。
1.数据组织的层次数据按照层次方式进行组织由(位、字节、)字段、记录、文件、数据库(、数据仓库)组成位(Bit):
是计算机中最小的数据单位,其值为0或1,是一个二进位,表示一个导通或未通的电(光)路。
字节(Byte):
是由若干位组成的,代表一个字符。
字符是信息的最基本构架。
字段(Field,也称数据项)。
多个字符组成一个词或者一个完整的数字(如人名或年龄)字段是数据的最小单位,它不能再分成有意义的单位记录(Record):
由与某个特殊对象或活动有关的所有字段组成。
文件(File)同一类型的所有记录组成一个文件文件就是与某个特定主题相关的数据记录的集合。
数据库(Database):
逻辑相关文件的集合。
数据仓库(Datawarehouse):
由多个数据库中的信息抽取组合构成。
2.文件的组织方式,文件是数据库组织的基础,任何对数据库的操作最终均转化为对数据文件的操作。
文件的组织方式直接影响整个信息系统的效率。
(1)概念文件的组织方式是指文件中的记录或数据在存储介质上的排列方式。
一般按其内部结构大致分为串行组织、顺序组织、随机组织、索引组织、倒排组织和链表组织等方式。
(2)分类,串行组织是最简单的一种文件组织形式,它将记录按出现的顺序一个接一个地存放在存储器的某个区中,取用某个记录时只能顺序扫描整个文件。
较多用于计算机运行过程中产生的暂时文件以及存档文件。
适用于磁带存储器。
串行组织文件简称为串行文件。
顺序组织指文件中各记录根据关键字(值)以升序或降序的形式存放在存储介质上的组织形式。
是经过整理的串行文件。
数据记录的逻辑顺序和物理顺序是一致的。
其存取只能以顺序方式进行,不能任意对某个记录进行直接存取。
适用于拥有大量记录,且变化不频繁的文件;也适用于成批数据顺序存取的场合。
可存储在顺序介质和随机存取介质上。
顺序组织文件简称顺序文件。
随机组织指文件中各个记录与其在存储介质上的存放位置之间毫无关系的组织方式。
用一种算法将记录的键值转换为一个近乎随机的数,根据这个确定记录在存储器上的位置。
只要确定了某个记录的存储地址(记录键),就可以直接对其进行存取,不必考虑与其他记录之间的顺序关系。
只能存储在磁盘等随机存储设备上,不能存储在磁带等顺序存储设备上。
可用于联机处理的场合,实现快速地对数据进行随机存取及查询;不适用于文件中大部分记录都需要处理的情况。
随机组织文件简称为随机文件。
索引组织是把文件中识别各个记录的关键字集中在一起组成一个目录文件(即索引表)的组织方式。
由索引表(简称索引)与主文件两个部分组成。
适用于批处理及联机处理。
优点是既可用于顺序操作,也可用于随机操作缺点是当文件量较大时,目录文件增多,所占存储空间增大。
索引组织文件简称索引文件,倒排文件是对每个辅关键字都设立一个索引,每种关键字值对应一个索引项,将具有相同关键字值记录地址都保存在相应的索引项中的组织方式。
倒排组织中,记录有多个键值,根据这些键值来确定一个记录。
可以把倒排组织文件视为“多键值索引文件”。
倒排组织文件简称倒排文件,链表组织是记录之间互相用指针连接的组织方式。
指针是特殊的数据项,指出另一记录在存储器上的位置,同时也反映了数据记录之间的联系,它不代表任何属性。
一组记录可提供几组指针,形成不同的逻辑文件,存取记录十分方便。
链表组织文件简称链表文件。
第七章数据库技术,教学目的及要求熟悉数据库系统的结构,实体、属性和联系,数据库设计的四个阶段;了解一定的数据库开发技术,第七章数据库技术,一、数据库系统的产生1.人工处理阶段(50S中期以前)没有软件支持,程序员直接管理数据。
数据保存在处理程序中或随程序执行人机交互地输入,数据处理后将结果输出,最后数据和程序占据的内存空间被一起释放。
只有程序文件的概念,数据的组织方式由程序自行设计和安排。
问题:
编程效率低,程序依赖数据,不灵活,容易出错。
人工管理方式,2.文件管理阶段(50S后期),程序与数据具有设备独立性,可长期保存在外存储器上,构成程序文件和数据文件。
数据不属于某个特定的程序,允许重复使用。
数据文件的结构仍取决于特定的应用,程序与数据间的依赖关系并未根本改变。
缺点:
数据冗余,数据文件间缺乏联系,修改时容易导致数据的不一致性;数据文件面向应用,当数据结构改变时,程序维护便成为系统的主要矛盾。
文件管理方式,3.数据库阶段(60S后期),数据库技术的出现标志着数据资源管理进入数据库阶段。
数据库系统的出现,使数据管理进入了一个新阶段。
由于使用数据库管理系统来专门管理数据,实现了数据与程序的真正独立性,并且最大限度地降低了数据的冗余度。
充分实现数据在不同应用中的共享,且能并发地使用数据,对数据的安全保密和完整性也有了保证措施。
数据库管理方式,数据库系统,数据库系统:
数据库与数据库管理系统的有机结合;1.数据库:
逻辑上相关的记录和文件的集合。
2.数据库管理系统:
是一组计算机程序,控制并组织用户的数据库的生成、维护和使用。
数据库系统,由数据、硬件、软件和用户四部分组成;用户可通过数据库管理系统对数据进行添加、修改、删除、检索、存储、统计等多种操作。
二、数据库系统的结构,美国国家标准学会(ANSI)于1975年规定了数据库按三级体系结构组织的标准,也就是有名的SPARC分级结构(standardplanningandrequirementcommittee)。
三级结构以内层(内模式)、中间层(模式)和外层(外模式)三个层次描述数据库。
数据库的三级结构,数据库管理系统中的模式,物理模式:
也称内模式,描述数据的物理存储形式,直接与操作系统或硬件相联系。
逻辑模式:
也称模式,数据库数据的完整表示,是所有用户的公共数据视图。
模式仅仅涉及数据类型的描述,不涉及具体的数据值。
用户模式:
也称子模式或叫外模式,针对每一个用户或应用,又由模式导出若干个子模式。
子模式是直接面向用户的,用户能够看见并使用的是逻辑结构的局部数据描述。
每一个子模式都是模式的一个子集;也可以看作是模式的一个窗口。
一个数据库系统可以有多个子模式。
两级映射可保证三种模式之间的相互独立性,模式与子模式之间的映射把概念数据库与用户级数据库联系起来模式与内模式之间的映射把概念数据库与物理数据库联系起来,三、数据模型,模型:
对现实世界事物特征的模拟和抽象就是这个事物的模型。
计算机不能直接处理现实世界中的具体事物,所以必须先把具体事物转换为抽象的模型,然后再将其转换为计算机可以处理的数据,从而以模拟的方式实现对现实世界事物的处理。
数据模型,模型应满足以下要求:
真实地反映现实世界;易被人理解;便于在计算机上实现;,数据模型:
是用来描述数据及数据间关系的一组概念,数据描述包括两个方面:
数据的基本结构、数据间的联系和数据的约束等静态属性;数据上的操作之类的动态属性。
数据模型分为三级:
概念数据模型:
是面向用户、面向现实世界的数据模型,与DBMS无关,它描述一个组织的概念化结构,如实体关系模型。
逻辑数据模型:
是用户从数据库中看到的数据模型,与所选用的DBMS相关,也称数据库模型。
常见的有:
层次模型、网状模型、关系模型。
物理数据模型:
反映数据存储结构的模型,不仅与DBMS有关,而且还与操作系统有关。
具体描述数据如何组织、如何存储在物理介质上。
数据库模型分为三级:
(即逻辑数据模型)层次模型:
以树状结构描述数据,数据元素组成的记录称为节点,最上层的节点称为根,上下层节点之间的关系为父-子关系,一个父节点可有多个子节点,而一个子节点只能有一个父节点。
网状模型:
描述多对多的数据逻辑关系,即父节点可以有多个子节点,节点也可以有多个父节点。
关系模型:
用二维表格(关系)来表示数据库中的所有数据。
三类数据库模型的优缺点:
层次模型的主要优点在于其处理效率,但在数据组织上缺乏灵活性,修改困难,且不易安装。
网状模型灵活性很大,但数据关系复杂,很难开发和使用。
关系模型是应用最广泛的数据模型,数据组织直观,查询方便,主要缺点是处理效率低。
四、实体、属性和联系,实体(entity):
客观存在、并且可以互相区别的事物称为实体。
实体是相关的一类事物,可以是物、人、实际的东西、或者具体的东西。
例:
员工、库存、客户、订单实体集:
某个实体型下的全部实体,称为实体集。
属性(Property):
实体所具有的每一个特性都称为一个属性。
属性有“型”和“值”的概念,属性的名称就是属性的“型”;对型的具体赋值就是属性的“值”。
学生的姓名、学号、年龄、性别、成绩是学生的属性库存号、说明、现有数量、在仓库中的位置等是库存的属性,主关键字:
在众多属性中能够唯一标识实体的属性或属性组。
例:
学生实体中的学号,产品实体中的产品号,订单实体中的订单号辅助关键字:
不能唯一表示一个记录的字段。
联系:
一个实体集内部各实体之间的相互联系,叫做实体内部联系。
在实体集之间的联系,称为实体的外部联系。
关系表,联系的种类和方式,一对一(1:
1)联系在两个实体集中,一方的一个实体最多与另一方对应的一个实体相联系。
如:
已婚男性集合和已婚女性集合一对多(1:
m)联系在两个实体集中,一方的一个实体与另一方对应的若干个实体相联系;反之,另一方的一个实体最多对应一方的一个实体。
如:
组织中的部门和职工,一个职工只属于一个部门,一个部门有多个职工多对多(m:
n)联系两个实体集中,任何一方的一个实体都对应另一方的若干个实体。
如:
教学管理中的课程和学生,一个学生可选多门课,一门课也可被多个学生选,(a)1:
1联系(b)1:
n联系(c)m:
n联系,五、关系模型,由于系统中实体包括许多属性,而这些属性又会被不同的用户使用,所以将这些属性一起放在一个数据表中显然是不合理的,需要进行分类与汇总,以编制不同的、且相关联的表,这就是所谓的关系。
1、表具有以下四个性质:
在表中的任意一列上,数据项应属于同一个属性;表中所有行都是不相同的,不允许有重复行出现;行的顺序无关列的顺序无关,但不能重复;,2、表具有以下四个特点:
利用一系列的二维表存储信息。
在关系模型中,每个二维表都描述一种关系。
关系是表的数学术语二维表也称作“关系表”每一个表(关系)所保存的信息都与一个特定的实体有关。
二维表使描述信息间的关系十分便利,处理二维表所包含的信息也容易。
3、表的主要术语:
二维表中,一个竖列反映实体的某一属性,称之为字段。
表中的一行形成一个实体,称之为记录(元组),由各个数据项(字段值)所组成,反映某一实体的所有有关特性。
关系模式:
对关系的描述,用关系名(属性1,属性2,属性n)来表示。
对于关系模型来说,其数据模型就是一系列用二维表表示的关系。
4、关系模型的基本操作关系模型有三种基本操作:
投影、筛选和连接投影:
从关系表格中选取指定的某些属性,以形成新的关系;筛选:
从关系表格中选取满足某种条件的记录,以建立新的关系;连接:
把两个关系中属性满足一定条件的记录接合在一起形成新的关系。
1.数据需求分析:
信息的转换现实世界信息世界(概念世界)计算机世界(数据世界),六、数据库的分析与设计,三个不同世界术语对照表,对现实世界进行需求分析具体做法:
了解组织机构情况,为分析信息流做准备;了解各部门业务情况,调查各部门输入和使用的数据及处理数据的方式与算法;确定数据库的信息组成及计算机系统应实现的功能,概念结构设计:
在需求分析的基础上,从各个用户出发,进行实体、实体的属性和实体之间联系的分析,建立概念数据模型。
工具:
实体联系图(E-R图),有实体、关系、属性三种图素,关系有一对一、一对多、多对多。
ER图有三个要素:
实体:
用矩形表示实体,矩形内标注实体名称。
属性:
用椭圆表示属性,椭圆内标注属性名称。
并用连线与实体连接起来。
实体之间的联系:
用菱形表示,菱形内注明联系名称,并用连线将菱形框分别与相关实体相连,并在连线上注明联系类型。
实体联系图(E-R图)的设计方法,学生选修样本报表,确定实体和关键字:
三个实体学生专业课程关键字学号专业号课程号,确定实体之间的联系-画实体联系图:
.先画上矩形,填上实体名;.画上椭圆形,填上属性名;.判断实体间是否有联系;.有联系画上菱形,再判断联系是1还是M。
矩形表示实体椭圆形表示属性菱形表示实体之间的联系直线表示连接1代表出现一次,M代表多次,学分,成绩,实际案例建立局部E-R图;综合局部E-R图,产生总E-R图。
例:
假定某企业的信息系统,要求适应以下不同用户的应用要求:
人事科处理职工档案,供应科处理采购业务,生产科处理产品组装业务,总务科处理仓储业务。
企业各部门局部E-R图:
企业各部门局部E-R图:
存放,生产,企业综合E-R图:
注:
在综合中,同一实体只出现一次。
总体E-R图中未反映“产品”与“材料”之间的联系,即供应科视图中出现的“产品”与“材料”之间的联系,在总体E-R图中被除去了。
因为这种联系是多余的,它可从“零件”所“消耗”的“材料”一种更为基本的联系中推导出来。
总体E-R图中“供应商”与“材料”之间被增加了新的联系“合同”,该联系并未出现于任何局部E-R图中,增加它是允许的,表示该信息系统能支持“材料”合同处理。
逻辑结构设计:
将概念数据模型转换为所选用的DBMS所支持的逻辑数据模型,然后进行数据的规范化处理。
例:
从E-R图导出关系数据模型E-R图中每个实体,都相应转换为一个关系,并确定主关键字;对于E-R图中联系,联系方式不同,处理方法不同:
1:
N联系:
将“1”方的主键纳入“n”方实体对应的关系中,同时将联系的属性也一并纳入“n”方关系中。
M(D):
仓库(仓库号,地点,面积)产品(货号,品名,价格,仓库号,数量),M:
N联系:
对联系单独建立关系,用来联系双方。
M(D):
学生(学号,姓名,性别,助学金)课程(课程号,课程名,学时数)学习(学号,课程号,成绩)1:
1联系:
联系本身无属性,在任意方关系中加入对方主键均可。
M(D):
厂长(厂长号,厂号,姓名,年龄)工厂(厂号,厂名,地点)或:
厂长(厂长号,姓名,年龄)工厂(厂号,厂长号,厂名,地点)物理设计:
是数据库在物理设备上的存储结构和存取方法的设计。
主要由数据库专业人员或DBA根据DBMS所提供的技术支持进行设计。
数据字典:
是描述数据、处理、实体、存储等定义、格式、内容、联系的一个文件。
是关于数据的数据库,它对系统内的各元素作出详细的定义和说明。
在IS建设过程中数据字典是必不可少的工具,它是工作的依据、统一的标准,它可确保数据的完整性和一致性。
数据字典的作用:
按各种要求提供列表据数据字典可把所有数据元素、数据结构、数据流、数据存储、外部实体、处理逻辑按一定的顺序全部列出以保证系统设计时不会遗漏。
相互参照,便于系统修改数据流图与数据字典可以相互参照、验证,以避免系统修改时的遗漏和不一致。
由描述内容检索名称便于系统分析员的工作。
一致性检验和完整性检验可检验如下问题:
是否存在没有指明来源或去向的数据流;是否存在没有指明数据存储或所属数据流的数据元素;处理逻辑与输入的数据元素是否匹配;是否存在没有输入或输出的数据存储。
人工方式数据字典的使用方式计算机方式,把各类条目按一定的格式写在卡片上或纸上,并分类建立一览表。
在人工方式的基础上,将内容整理存入计算机。
附:
数据字典的条目,附:
数据字典的条目,数据结构条目名称:
学生登记卡总编号:
203说明:
新生入学时填写的卡片编号:
008结构:
学号有关的数据流、数据存储:
姓名新生登记表曾用名学籍表入学日期数量:
约1000份/年出生日期,附:
数据字典的条目,数据流条目名称:
期末成绩单总编号:
305说明:
期末由任课教师填写编号:
005数据流来源:
教师数据流去向:
P2、P3包含的数据结构:
科目名称流通量:
200份/学期任课教师,附:
数据字典的条目,数据存储条目名称:
学习成绩一览表总编号:
402说明:
按班汇集的各科成绩编号:
D5结构:
班级信息量:
150份/学期学生成绩有关的数据流:
P2D5学号D5P3姓名成绩有无立即查询:
有,附:
数据字典的条目,处理功能条目名称:
填写成绩单总编号:
5021说明:
通知学生成绩编号:
P5输入:
D2P2输出:
P3学生处理:
查D5,打印学生成绩单,附:
数据字典的条目,外部实体条目名称:
学生总编号:
6001说明:
编号:
001输出数据流:
输入数据流:
P3学生个数:
约4000个,为保证数据的一致性,数据字典必须由专人管理。
数据管理员的职责是维护和管理数据字典,保证它内容的完整一致。
任何人员修改数据字典的内容,都必须通过数据管理员。
数据管理员要把数据字典的最新版本及时通知有关人员。
数据管理员,谢谢大家,请进入下面章节的学习。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 技术 基础 数据处理 第三