空间数据库ws整理.docx
- 文档编号:15562945
- 上传时间:2023-07-05
- 格式:DOCX
- 页数:21
- 大小:165.94KB
空间数据库ws整理.docx
《空间数据库ws整理.docx》由会员分享,可在线阅读,更多相关《空间数据库ws整理.docx(21页珍藏版)》请在冰点文库上搜索。
空间数据库ws整理
空间数据库整理
数据:
指客观事物的属性、数量、位置及其相互关系等的符号描述。
空间数据:
是对现实世界中空间对象(事物)的描述,其实质是指以地球表面空间位置为参照,用来描述空间实体的位置、形状、大小及其分布特征等诸多方面信息的数据。
【三大基本特征:
空间、时间、专题属性】
空间数据库概念:
指以特定的信息结构(如国土、规划、环境、交通等)和数据模型(如关系模型、面向对象模型等)表达、存储和管理从地理空间中获取的某类空间信息,以满足不同用户对空间信息需求的数据库。
空间数据【非结构化(实体位置、大小形状和拓扑关系)】的组织和管理不同于一般的事务性数据【数据记录一般是结构化的(每一个记录有相同的结构和固定的长度,记录中每个字段表达的只能是原子数据,内部无结构,不允许嵌套记录)】
与统计数据相比空间数据更复杂:
数据类型多(几何数据、关系数据、辅助数据)
数据操纵复杂
一般数据检索、增加、删除等
定位检索、拓扑关系检索等
数据输出多样(数据、报表、图形)
数据量大,空间数据种类多
测量、统计数据、文字
地图、影像等
传统方法管理空间数据库存在问题:
【eg:
列出居住在离公司50英里以内的顾客、无法利用索引缩小搜索范围】
违背了数据独立性原则——查询的实现需要了解空间对象的结构
方法的性能——大量的关系元组
缺乏用户友好性——需要用户对表的操纵
很难定义新的空间类型
不能表达几何计算——相邻检测;点查询;开窗查询等
空间数据管理的发展过程
⏹人工管理阶段
⏹文件管理阶段
⏹文件与关系数据库系统混合管理系统
⏹全关系型空间数据库管理系统
⏹对象关系数据库管理系统
Ø关系型数据库+空间数据引擎
Ø扩展对象关系型数据库管理系统
⏹面向对象的数据库系统
1、“关系型数据库+空间数据引擎”
Ø近年来由GIS厂商研发的一种中间件解决方案。
Ø用户将自己的空间数据交给独立于数据库之外的空间数据引擎,由空间数据引擎来组织空间数据在关系型数据库中的存储;
Ø用户需要访问数据的时候,再通知空间数据引擎,由引擎从关系型数据库中取出数据,并转化为客户可以使用的方式。
关系型数据库是存放空间数据的容器,而空间数据引擎则是空间数据进出该容器的转换通道。
典型代表:
ESRI的ArcSDE、MapInfo的SpatialWare
⏹优点:
Ø访问速度快,支持通用的关系数据库管理系统,空间数据按BLOB存取,可跨数据库平台,与特定GIS平台结合紧密,应用灵活。
⏹缺点:
Ø空间操作和处理无法在数据库内核中实现,数据模型较为复杂,扩展SQL比较困难,不易实现数据共享与互操作。
2、扩展对象关系型数据库管理系统
借助面向对象技术,对关系数据库管理系统进行扩展,使之能管理非结构化的空间数据。
客户不必采用空间数据引擎的专用接口进行编程,而使用增加了的空间数据类型和函数的标准扩展型SQL语言来操作空间数据。
⏹产品:
ØOracle的OracleSpatial
ØIBM的DB2SpatialExtender
ØInformix的SpatialDataBlade。
⏹优点:
空间数据的管理与通用数据库系统融为一体,空间数据按对象存取,可在数据库内核中实现空间操作和处理,扩展SQL比较方便,较易实现数据共享与互操作。
⏹缺点:
实现难度大,压缩数据比较困难,目前的功能和性能与第一类系统尚存在差距。
空间数据库相关数据库:
分布式数据库、演绎数据库、时态数据库、实时数据库
空间实体:
地理空间中的物体,通常包括两个组成部分:
实体描述(实体由属性集来描述);空间部分(包括几何和拓扑)
地图是对空间信息的反映;
Ø表示空间实体的属性信息
Ø表示空间实体的定位信息
Ø表示空间实体的空间关系信息
地理空间建模的二分法:
基于实体/场的建模。
(二者可以共存)
基于实体的建模
Ø将地理实体和现象作为独立的对象,以独立的方式存在,主要描述不连续的地理现象
Ø任何现象都是一个对象,实体由不同的对象组成。
Ø把信息空间看作许多对象的集合,这些对象具有自己的属性
Ø主要描述不连续的个体现象,适合表示有固定形状的空间实体
Ø强调个体现象,对象之间的空间位置关系通过拓扑关系进行连接
Ø用点线面来表示
基于场的建模
Ø把地理空间的事物和现象作为连续的变量来看待
●空气中污染物的集中程度
●地表的温度
Ø在空间中任何点上都有一个表达这一现象的值
场的特征
空间结构特征和属性域
空间结构是指可以进行长度和角度测量的欧氏空间
空间结构可以是规则的或不规则的
属性域:
名称、序数、间隔和比率
连续的、可微的、离散的
位置的微小变化,带来属性值的微小变化
边界离散
与方向无关和与方向有关的(各向同性、各向异性)
若场中的所有性质都与方向无关,称各向同性场
否则为各向异性场【在不同的方向所测得的性能数值不同。
】
空间自相关,是空间场中的数值聚集程度一种量度。
如果一个空间场中的数值有聚集的倾向,则该场表现出正空间自相关;
如果空间场中的数值在空间上有排斥倾向,则该场表现出负空间自相关。
根据属性分布的表示方法,场模型的表达可分为:
Ø图斑模型【将地理空间划分为一些简单的连通域,每个区域用一个简单的数学函数表示一种主要属性的变化】
Ø等值线模型【场由一系列等值线组成。
等值线:
地面上所有具有相同属性值的点的有序集合】
Ø选样模型【地理空间上的属性值是通过采集有限个点的属性值来确定的;如高程用离散点、规则格网、不规则三角网采样】
不规则三角网模型TIN:
按照一定的规则将离散点连接成覆盖整个区域且互不重叠、结构最佳的三角形(能够避免地形平坦时的数据冗余。
)
地理空间表达模式
Ø镶嵌模式(tessellationmode曲面细分模式)【精度与分辨率有关】
Ø矢量模式(vectormode)
Ø半平面表达(half-planerepresentation)
用镶嵌模式表达基于实体的数据:
二维空间中的空间实体被表示为包含它的有限像素子集.
空间实体的最小表达单位:
一个单元或象素(Cell或Pixel),依行、列构成的单元矩阵叫栅格(Grid);
每个单元通过一定的数值表达方式(如颜色、灰度级)表达诸如环境污染程度、植被覆盖类型等空间地理现象.
用镶嵌模式表达基于场的数据:
在镶嵌模型中,不再是点的连续函数,而是像素的连续函数。
矢量模式中,对象被表达为由点和边组成,点和边称为图元.【相对于栅格表达,矢量表达不占据太多的内存】
基于实体的矢量模式总结
Ø矢量模式比栅格形式更紧凑。
Ø表达空间实体时,在表达能力和结构的复杂度上有一个折中。
Ø简单的矢量表达不能表示一些约束,而这些约束对确保语义的正确和数据完整性方面是很有用的。
基于场的矢量表达:
DEM(对空间抽象模型的数字表达)、TIN。
拓扑关系:
定义物体之间的空间关系的一种数学方法。
在GIS中,表示空间关系的方法主要有:
1)区域定义:
多边形由一组封闭的线来定义
2)邻接性:
用多边形--弧段结构来确定多边形相互之间的邻接关系
3)连通性:
以弧段—节点结构来确定弧段与弧段之间的连通性,用于路径分析、最佳路径计算、网络流程分析等
4)方向性:
由起点至终点即确定了一个方向
5)包含性:
指面状物体包含哪些线状物体和点状物体. 如一个省内有多少个城市,城区内分布哪些小学、一个居住小区内配套设施如何等等
三种常用的方法表达空间对象的集合:
Ø面条Spaghetti
Ø网络Network
Ø拓扑Topological
面条模型特点(简单、独立型好;缺乏矢量关系的表达和数据冗余)
Ø独立地描述实体集中任意实体的几何信息.
Ø面条模型不存储拓扑关系,所有的拓扑关系在需要的时候进行计算。
Øspaghettimodel是最简单的矢量数据模型
Ø只表达最基础的连通关系
Ø多边形是坐标的列表,相邻多边形的边储存两次
Ø空间关系不储存,要通过计算来获取
网络模型【节点和弧。
网络拓扑的内在描述,没有实体之间关系的信息】
Ø用于在基于网络(图)的应用中对网络进行表达:
⏹transportationservices
⏹Utilitymanagement(electricity,telephone,andsoon).
Ø基于数学中的图论
Ø模型中存储pointsandpolylines的拓扑关系.
Planar,每个边的交点记录为一个节点(node),即使这个节点不对应于任何地理实体.
Noplanar,边的交叉不产生交点
拓扑模型【结点和弧】:
拓扑网络把平面分成很多相邻的多边形,多边形并不对应于实际的地理实体.
Ø坐标和属性数据分开存储
Ø模型的基本对象是几何实体:
thepoints,linesandpolygons.每个实体的坐标有一个唯一的标识号存储在二进制文件中;
Ø属性值和拓扑描述存储在RDBMStables,originallyinINFOtables.与几何属性通过标识号连接.
优点
Ø几何要素是共享的不是重复的;
Ø数据模型代表相邻的多边形,不需要计算的需求;
Ø促进一致的更新,只需一个副本的边界更新;
缺点
Ø比Spaghettimodel更复杂,mayslowdownprocessing.
Ø一些结构信息没有实际的语义含义.
Ø增加一个新的对象需要对平面图进行重新计算.
空间数据:
是可以利用表示地球表面或近地表位置的空间属性被显示、操纵和进行分析的数据。
【矢量数据、栅格数据、伪空间数据】
空间数据有两个重要性质:
●以一个地理空间为参考。
●用多种比例尺表示。
当用相对小的比例尺记录空间数据时,可以代表地球表面或邻近表面的较大区域。
伪空间数据:
一些形式的空间数据不能被直接用于空间应用。
【街道地址、字母-数字地理数据、扫描地图/航空照片.】
空间数据分类:
基础地图数据层、框架数据层、应用数据层、业务解决方案层
空间数据有两个关键方面:
Ø数据的表示(几何)
Ø关系的表示(拓扑)
几何:
“Geometry”通常被理解为数学的一个分支,处理零维和高维空间的点、线、角、面和表面的属性及关系。
拓扑:
是一个数学领域。
研究当图形形状在弯曲、拉伸、收缩或其他方式扭曲下几何形状保持不变的属性。
关注的是几何图形之间的关系而不是它们的固定坐标。
包括:
Ø相邻(Adjacency),空间图形中同类元素之间的拓扑关系。
Ø连通(Connectivity),空间图形中弧段之间的拓扑关系。
Ø包含(containment),空间图形中不同类或同类但不同级元素之间的拓扑关系。
拓扑数据结构(节点、边、多边形)是存储真实世界要素之间固有关系的。
非拓扑数据结构:
shapefilemodel
Ø主文件:
Shape的位置信息;
Ø索引文件:
对主文件的索引,指出主文件中记录在文件中的位置信息;
Ø数据文件:
包括Shape的具体位置和属性信息。
内容
关系数据模型
面向对象数据模型
基本数据结构
二维表
类
数据标识符
码
OID
静态性质
属性
属性
动态行为
关系操作
方法
抽象数据类型
无
有
封装性
无
有
数据间关系
主外码联系,数据依赖
继承、组合
模式演化能力
弱
强
Geodatabase的三种类型
◆个人地理数据库(.mdb)【存储上限为2GB】
◆文件地理数据库(.gdb)【以文件夹的形式表现、以二进制文件格式存储、每个表存储上限为1TB】
◆ArcSDE地理数据库【支持多用户并发编辑、存储于RDBMS中、伸缩性】
八叉树上的节点分为三类:
灰节点,它对应的立方体部分地为V所占据;
白节点,它所对应的立方体中无V的内容;
黑节点,它所对应的立方体全为V所占据。
后两类又称为叶结点
根据不同的存贮方式,八叉树可以分别称为常规的、线性的、一对八的八叉树等
物理存储介质
基本存储:
寄存器、高速缓冲存储器、主存储器
在线存储:
快闪存储器、磁盘存储器
脱机存储:
光盘存储器、磁带存储器
磁盘
Ø磁道:
圆形磁盘片上向边缘延伸的许多同心圆环
Ø扇区:
磁道被划分为扇区,扇区大小由驱动器的厂商设定
Ø磁盘块:
(页面)是磁盘与主存之间的最小传输单元
数据在磁盘上的不同放置策略可以在很大程度上减少寻道时间(ts)和延迟时间(tl)
寻道→延迟→传输
有效应用磁盘
Ø扇区大小
⏹大的扇区对大数据集提供更快的转换速度
⏹但对小数据集会浪费存储空间
Ø常用数据项的放置
⏹放置在中心轨道,而不是外边或里边的轨道
——最小化平均寻访时间
Ø大数据集需要更多的扇区。
选择同一个圆柱面上的扇区
Ø把重复访问的数据放在主存缓冲区中
缓冲区管理器:
DBMS的一个软件模块,负责管理主存与二级存储之间的数据传输。
磁盘上的数据是文件、记录和域组织起来的集合
域:
关系或实体的一个特征或属性
记录:
关系中的一行,是属性域的集合(通常小于一个扇区;一个扇区上会有很多个记录)
文件:
记录的集合,一个文件可能跨越多个扇区
同类的记录可以表示为一个关系
不同类型的记录集可能是几个相关关系的组合
一个页面是槽(slot)的集合,每个槽包含一条记录
文件系统:
文件的集合,组织成目录
文件结构:
文件组织其记录的方法
磁盘访问度量
磁盘访问的次数依赖于很多因素,例如磁盘页面容量、分割算法、插入顺序等。
将采用聚类的子空间中每个网格点的散列单元平均数,来作为度量空间填充曲线聚类性能的标准。
如果每个网格点都映射到一个磁盘块,那么这种度量刚好对应于涉及附加寻道时间的不连续的磁盘访问数量。
常用的文件结构
Ø堆Heapor无序unorderedor无结构unstructured文件
Ø有序Ordered文件
Ø散列Hashed文件
Ø聚类Clustered文件
Ø描述Descriptionsfollow文件
堆文件
Ø记录没有特定的顺序
Ø插入:
把记录插入扇区的最后
Øfind,findnext,nearestneighbor:
扫描整个文件
ØRIVER表(无序文件),根据给定的关键码(如name)查找一条记录需要扫描文件中的记录。
在最坏情况下,文件的所有记录都要被检查,所有存储该文件数据的磁盘页面都要被访问。
平均来说,需要检索一半的磁盘页面。
Ø无序文件的主要优点是在进行插入操作时可以很容易地在文件末尾插入一条新记录。
散列文件
Ø散列函数:
可取之处在于它能够把数量大致相同的记录放入每个散列单元中
Øfind,insert,delete速度很快
ØFindnext,nearestneighbor速度慢
Ø不适合范围查询,例如,查找所有名字以字母“B”开头的城市的详细信息
有序文件
Ø有序文件根据给定的主码域对记录进行组织
find,insert,delete可以使用binarysearch(折半算法),itisveryefficient
Ø有序文件组织方式还可以根据对空间数据集的文件组织方式而概括成空间聚类。
聚类
Ø使用空间填充曲面对扇区记录进行聚类
Ø聚类的目的就是降低常见大查询的寻道时间(ts)和等待时间(t1)。
Ø对空间数据库,意味着在二级存储中,空间上相邻的和有关联的对象在物理上应当存储在一起。
SDBMS支持的三中聚类方法:
内部、本地、全局聚类。
空间聚类技术(从高维空间向一维空间的映射)
特点:
该映射是距离不变(distance-preserving)的
空间上不会有两个点映射到直线的同一个点上
ØZ-curveZ序
ØHilbert-curve
Z-curve生成算法
Ø读入x,y坐标的二进制表示
Ø隔行扫描二进制数字的比特得到一个字符串
Ø计算结果二进制的十进制值
Hilbert算法
Ø读入x和y坐标的n比特二进制表示。
Ø隔行扫描二进制比特到一个字符串。
Ø将字符串自左至右分成2bit长的串
Ø规定每个2bit长的串的十进制值为:
“00”等于0,“01”等于l;“10”等于3;“11”等于2
Ø5)对于数组中每个数字j,如果
●·j=0把后面数组中出现的所有l变成3,并把所有出现的3变成1。
●·j=3把后面数组中出现的所有0变成2,并把所有出现的2变成0。
Ø将数组中每个值转换成二进制表示(2bit)长的串,自左至右连接所有的串,并计算其十进制值(或直接将其认为四进制数,转为十进制数)
聚类效率比较:
Hilbert曲线的方法要比Z曲线好一些,因为它没有斜线。
不过,Hilbert算法和精确入口点及出口点的计算量都要比Z曲线复杂。
计算机的两级存储:
内存(数据库中的资料即数据)和外存(数据索引)
四叉树分割是递归地把空间分成四个相等的部分
为什么说索引对于处理的效率至关重要?
Ø若对磁盘上资料的位置不加以记录和组织,每查询一个数据项就要扫描整个数据文件——访问磁盘的代价会严重影响系统的效率
Ø必须将资料在磁盘上的位置加以记录和组织,通过在内存中的一些计算来取代对磁盘漫无目的的访问
能否快速的检索信息是衡量数据库性能高低的一个主要的标志。
索引表:
基本构件是索引项。
一个索引项中有关键词值和指针,通过指针可找到含有此关键词值的记录,即一个索引项为:
(关键词值,指针)。
多个索引项构成了一个索引(表)
数据库=主文件+索引文件【索引文件是用来提高数据文件查询效率的辅助文件】
一条索引记录包括:
主码值keyvalue、数据扇区的地址
主索引:
如果数据文件的记录是按主码排序的,那么索引就只需要保存数据文件的每个磁盘页面第一个主码域值
空间索引(SpIdx):
依据空间对象的位置和形状或空间对象之间的某种空间关系按一定的顺序排列的一种数据结构(描述存储在介质上的数据的位置信息,建立逻辑记录与物理记录间的对应关系)【对空间的逐级划分】
空间索引的基本原理相似,即采用分割原理,把查询空间划分为若干区域(通常为矩形或多边形),这些区域或单元包含空间资料并可唯一标识。
格网索引:
peano键和空间对象;
BSP树:
空间逐级一分为二(KDB树三维延伸);
四叉树索引(线性四叉树和分层四叉树):
递归地对地理空间进行四分,直到自行设定的终止条件(比如每个节点关联图元的个数不超过3个,超过3个,就再四分),最终形成一颗有层次的四叉树。
R树空间区域可以有重叠;R+树中没有重叠,一个对象可以被分成几部分(矩形)。
cell树采用凸多边形进行划分。
关系代数六种基本运算:
选择,投影,并,笛卡儿积,差,交
Spatialqueries:
检索空间数据中存储的满足特定条件的值,更复杂
空间数据:
二维或者三维数据
查询结果:
以图形表示
空间查询:
利用一个或多个空间操作算子构成,包括表达空间关系的谓词。
空间算子分类(拓扑\投影\度量算子):
一元算子:
获取单个几何的属性信息(如,位置、面积、长度和体积属性)
二元算子:
获取两个实体间的关系(如距离,方向,邻接性,连接性,包含性)
初步过滤,空间索引;二次过滤,空间操作。
→得到查询结果。
扩展SQL支持用户自定义类型,可用于操纵和获取空间数据;保持SELECT-FROM-WHERE结构作为数据库查询的框架。
数据库设计流程
Ø外部设计——找出数据中公有的、核心的对象,得到描述数据对象内容的数据字典;
Ø概念设计阶段——构建数据模型表达数据对象的结构特征和相互关系;分析和表达数据对象的空间、时间和属性特征;【建模语言(UML)-UML用类图(class,association,multiplicity)表示概念模型,ODL或E/R图】得到数据对象图;
Ø逻辑设计——得到数据模型;【GIS的逻辑数据模型:
Geo-relational数据模型(空间、属性数据分开存储),Object-relational数据模型(对地理对象的属性数据(状态)和对这些属性数据进行操作的方法(行为)进行统一建模,永久存储)】
Ø物理设计——得到数据库实体(逻辑模型在实际的物理存储设备上的实现)。
空间数据的完整性约束
Ø拓扑完整性约束,关于空间要素间空间关系(如,邻接,包含和连接)的几何属性.
Ø语义完整性约束,控制数据库中对象空间行为的数据库规则(例如,地块不能位于水体中).
Ø用户定义约束,类似于那些在非空间数据建模中确定的业务规则(例如,沿湖岸200米的缓冲区内禁止树木采伐).
OracleSpatial:
一系列函数和过程的集合;提供了SQL模式和函数来实现FeatureCollection的存储、检索、更新和查询。
R-tree
Quad-tree
几何形的近似形不可调节,采用最小包围盒
可以通过设定分片级别和数量来调节几何形的近似形
索引的创建和调整容易
调整较复杂,会显著影响性能
相对较少的存储空间
相对较大
对最近邻居SDO_NN查询较快
对最近邻居查询较慢
更新数据的效率较低
频繁更新数据不会影响索引的性能
可以多到四维空间索引
只能在二维空间索引
SDO_WITHIN_DISTANCE查询效率高
能够实现全球的索引
将复杂的空间实体操作封装成类,出现一个新的概念——地理空间数据库引擎(ArcSDE)
ESRI对SDE定义为:
从空间数据管理的角度来看,SDE可看成是一个连续的空间数据模型,借助这一模型,可将空间数据加入到关系数据库管理系统(RDBMS)中去。
它允许向关系数据库中加入空间数据、提供地理要素的空间位置及形状等信息。
●空间数据引擎只提供存储、读取、检索、管理数据和对数据的基本处理等功能
●不负责进行空间分析和复杂处理
●SDE只负责底层的数据管理问题,上层的应用功能在它的基础上开发;
空间数据库引擎(SDE)
Ø使我们可以用传统的关系数据库管理和处理地理空间数据,提供必要的空间关系运算和空间分析功能
Ø可以实现客户/服务器的分布计算模式,实现地理空间数据的透明访问、共享和互操作;
Ø建立真正的分布式空间地理数据库;
ArcSDE是空间数据与GIS程序之间的一个重要的“通路”,使用它可以将ArcGIS等程序与关系数据库系统联系起来,这些关系数据库并不是如ACCESS的桌面型,而是类似ORACLE和SQLSERVER的分布式关系数据库服务系统。
影像金字塔:
指在统一的空间参照下,根据用户需要以不同分辨率进行存储与显示,形成分辨率由粗到细、数据量由小到大的金字塔结构。
由于投影分带的原因,正射影像产品的空间参照的起算原点并不相同,这样,在多个坐标原点和带边数据存在几何变形的情况下,相邻图幅会产生裂缝。
目前遥感影像数据的管理方式有两种:
Ø基于文件的遥感影像数据库管理系统
Ø基于关系数据库的遥感影像数据库管理系统
影像数据库具有多数据源、多时相、多分辨率、多波段、海量数据的特点。
跨带漫游算法(重复第二步,继续判断是否跨带)
数据共享:
让在不同地方使用不同计算机、不同软件的用户能够读
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 空间 数据库 ws 整理