基于LandSet8数据的决策树分类.docx
- 文档编号:10087441
- 上传时间:2023-05-23
- 格式:DOCX
- 页数:28
- 大小:2.98MB
基于LandSet8数据的决策树分类.docx
《基于LandSet8数据的决策树分类.docx》由会员分享,可在线阅读,更多相关《基于LandSet8数据的决策树分类.docx(28页珍藏版)》请在冰点文库上搜索。
基于LandSet8数据的决策树分类
基于LandSet8数据的决策树分类
—以平潭地区为例
1、引言
早在20世纪70年代,人们就开始靠目视解译进行遥感影像的分类判读。
20世纪80年代,主要利用统计模式识别方法,依据地物的光谱特征对影像进行计算机分类。
20世纪90年代以来,出现了大量的遥感影像分类方法,如面向对象的分类方法、多源信息的复合分类法、遥感与GIS的结合法、人工智能分类法等。
由于目前遥感影像的分类方法多而杂,故本文结合课程需要,仅对辅以纹理、NDVI、MNDWI、MNDBI、地表温度、DEM等数据的决策树分类方法进行讨论,并对分类的精度进行了评估。
2、实验原理
本文采用决策树分类方法进行地物类别的划分,目前决策树分类法包括:
1)CLS算法。
CLS算法于1966年提出,成为后来许多决策树学习算法的基础改进算法。
它的主要思想是通过不断增加新的判定结点改善原决策树的分类性能,直到训练样本集被正确分类为止。
2)ID3算法。
ID3算法是最早和最有影响力的决策树算法之一,绝大多数决策树算法都是在它的基础上加以改进得以实现的。
ID3算法具有描述简单、分类速度快的优点,计算量相对较小,适合于大规模数据的处理。
但效率非常低,而且学习简单,逻辑能力较差,难以表达复杂概念,抗噪性差。
3)CART算法。
CART算法是一种数据勘测和预测算法。
CART算法具备多种决策树算法的功能和优点,并且能处理其他算法不能处理的非数值型数据,是决策树模型的典型代表。
4)C4.5及C5.0算法。
C4.5算法是目前被普遍采用的分类算法。
其分类的方法是从大量样本中提取分类规则的自上而下的决策树。
C5.0是在C4.5基础上发展起来的决策树生成算法。
它和算法C4.5基本相似,只是对C4.5的一些局限做了改进。
C5.0增加了Boost技术,较C4.5可以更好地处理大数据库,最后生成更准确的决策树,提高分类精度。
而本次分类则采用ENVY软件中的C4.5决策树分类算法。
3、相关研究进展
目前对于运用决策树分类方法进行行业应用与研究,也存在着大量的示例,如Chasmer[1]等以加拿大西北地区的ScottyCreek流域为研究区,借助机载激光雷达和高分辨率的光谱数据集,研究不连续冻土区的土地覆盖类型,并与WorldView-2的土地覆盖监督分类结果进行对比;在该研究中Chasmer等采用决策树的土地覆盖分类方法,把研究区分为冻土高原、沼泽、沼地、高地和水(池塘、湖泊)等5类;结果表明,与平行六面体分类方法相比,决策树这种分层次的分类方法分类精度高,能解释研究区内土地覆盖类型88%-97%的区域范围。
Teodoro[2]等运用决策树分类方法,利用Ikonos-2影像进行葡萄牙西北海岸的海滩特性/模式分类;其根据沿海特性的相关知识,把研究区域分为海洋、悬浮沉淀物、断裂区、滩面、海滩等五大类;研究过程中数据被随机分为训练数据集和验证数据集,通过对比几种决策树算法的混淆矩阵、总体精度和Kappa系数的值,发现CART算法是最适用于本次研究的;同时把该算法的分类结果与神经网络算法进行了比较,发现分类结果基本一致,因此Teodoro等认为CART算法可用于海滩特性/模式分类的进一步研究。
Sharma[3]等借助开源技术的支持,构建了一个决策树分类算法进行遥感卫星数据(LandsatTM)的分类;该算法是利用开源的数据挖掘软件WEKA根据训练数据集光谱特性进行递归分区;将该算法的分类结果与传统的ISODATA聚类方法和最大似然分类法进行比较,发现决策树分类算法的分类结果明显优于比其他两种方法。
4、实验方案
4.1数据来源
美国地质勘测局(http:
//glovis.usgs.gov/)
Landset8数据(成像时间:
2013年8月4日2点34分;行列号为119,42;云量覆盖度为1.21%)
传感器:
OLI(OperationalLandImager,陆地成像仪)
TIRS(ThermalInfraredSensor,热红外传感器)
OLI陆地成像仪
序号
波段(um)
空间分辨率(m)
1
0.433-0.453
30
2
0.450-0.515
30
3
0.525-0.600
30
4
0.630-0.680
30
5
0.845-0.885
30
6
1.560-1.660
30
7
2.100-2.300
30
8
0.500-0.680
15
9
1.360-1.390
30
TIRS热红外传感器
10
10.6-11.2
100
11
11.5-12.5
100
地成像仪(OLI)包括9个波段,空间分辨率为30米,其中包括一个15米的全色波段;热红外传感器(TIRS)包括2个热红外波段,空间分辨率为100米,下载自地理空间数据云的level1数据已经重采样成30米。
4.2研究区域
研究区域为平潭地区的海坛岛,卫星过境时间为2013年7月12日02时28分35秒。
4.3技术流程图
4.4数据预处理
4.4.1辐射校正(包括辐射的定标和大气校正)
A、辐射定标前影像植被区域的光谱信息
B、辐射定标后影像植被区域的辐射亮度值
C、大气校正(采用ENVY中的FLAASH大气校正模型)
注:
在上图的1中输入影像的中心经纬度坐标;在2种输入影像所在区域的平均高程;在3中输入卫星的过境时间;在4种输人大气模型,这里选择中纬度夏天;在5种输入气溶胶模型,这里选择沿海。
D、大气后影像植被区域的光谱反射曲线
E、植被光谱曲线在辐射定标前、辐射定标后、大气校正后的对比:
原始影像辐射定标后大气校正后
从上图植被的光谱反射率在辐射定标前后和大气校正后的光谱曲线可以看出,经过FLAASH校正的影像基本去除了空气中水汽颗粒等因子的影响,植被的波谱曲线趋于正常。
4.4.2植被指数NDVI计算
NDVI=(NIR-R)/(NIR+R);对应于landsat8中的OLI传感器为第5波段和第4波段。
注:
上述NDVI已经经过异常值的剔除。
原始数据中有极少量的值为小于-1的情况,利用ENVY中的bandmath工具对这些值全部赋为-0.7。
4.4.3改进型水体指数MNDWI计算
MNDWI=(Green-MIR)/(Green+MIR);对应于landsat8中的OLI传感器为第3波段和第6波段。
注:
上述MNDWI已经经过异常值的剔除。
利用ENVY中的bandmath工具对那些异常极少量的大值和小值分别赋值为0.9和-0.9。
4.4.4地表温度的反演
对地表温度的反演目前方法很多,如大气校正法,劈窗算法、单窗算法,单通道法等等。
本文介绍用辐射传输方程法对地表温度进行反演。
辐射传输方程法,又称大气校正法,其基本思路为:
首先利用与卫星过空时间同步的大气数据来估计大气对地表热辐射的影响。
然后把这部分大气影响从卫星高度上传感器所观测到的热辐射总量中减去。
从而得到地表热辐射强度.再把这一热辐射强度转化为相应的地表温度。
步骤流程:
第一步:
准备数据
(1)NDVI
(2)OLI传感器的第10波段热红外数据,经过辐射定标。
第二步:
地表比辐射率计算
第三步:
计算相同温度下黑体的辐射亮度值
第四步:
反演地表温度
A、植被覆盖度计算
FV=(NDVI-NDVIS)/(NDVIV-NDVIS);式中NDVIv和NDVIs,分别是植被与裸土的NDVI值。
结合研究区实际情况,选取NDVIv=0.58,NDVIs=0。
当某个像元的NDVI大于0.58时,FV取值为1;当NDVI小于0,FV取值为0。
B、地表比辐射率计算
根据前人的研究,将遥感影像分为水体、城镇和自然表面3种类型。
本研究采取以下方法计算研究区地表比辐射率:
水体像元的比辐射率赋值为0.995,自然表面和城镇像元的比辐射率估算则分别根据下式
(1)
(2)进行计算:
εsurface=0.9625+0.0614FV-0.0461FV2
(1)
εbuilding=0.9589+0.086FV-0.0671FV2
(2)
式中,εsurface和εbuilding分别代表自然表面像元和城镇像元的比辐射率。
C、计算相同温度下的黑体辐射亮度值
Lλ=[ε·B(TS)+(1-ε)L↓]·τ+L↑(3)
B(TS)=[Lλ-L↑-τ·(1-ε)L↓]/τ·ε(4)
式(3)卫星传感器接收到的热红外辐射亮度值的计算公式;式(4)温度为T的黑体在热红外波段的辐射亮度的计算公式。
参数说明:
ε:
地表辐射率;
TS:
地表真实温度;
B(TS):
普朗克定律推得到的黑体在TS的热辐射亮度;
τ:
大气在热红外波段的透过率;
L↑:
大气向上辐射亮度;
L↓:
大气向下辐射亮度;
在NASA官网(http:
//atmcorr.gsfc.nasa.gov/)中输入成影时间以及中心经纬度,则会提供上式中:
τ:
大气在热红外波段的透过率;
L↑:
大气向上辐射亮度;
L↓:
大气向下辐射亮度;
参数值
τ
L↑
L↓
0.52
4.2W/(m2·sr·μm)
6.17W/(m2·sr·μm)
注:
黑体辐射亮度值
D、反演地表温度
在获取温度为TS的黑体在热红外波段的辐射亮度后,根据普朗克公式的反函数,求得地表真实温度TS:
TS=K2/ln(K1/B(TS)+1)
对于OLI传感器,K1=774.89W/(m2·sr·μm),K2=1321.08K。
查阅平潭当天的历史天气为晴,温度为33度。
同时检查温度反演结果,发现温度在30度以下的区域只占1%,温度在46度以上的也只占了1%;因此结合当天的天气情况,认为地表温度反演结果还是可信的。
通过比照原始影像,发现温度大约在42度以上的区域为建筑物和裸地,这为后续进行决策树分类区分地物提供了基础。
4.4.5纹理测度的计算
纹理是在某一确定的影像区域中,相邻像素的灰度或色调、颜色等服从某种统计排列规则而形成的一种空间分布。
图像的纹理是有组织的区域性特征,可定性地用以下一种或几种描述来表征:
粗细度、对比度、方向性、线性性、规则性、粗糙度、凹凸性等。
对于纹理特征的提取目前方法很多,大致可以归结为四大类:
统计分析方法、结构分析方法、模型化方法以及空间/频率域联合分析法。
本次研究采用基于统计的灰度共生矩阵(GLCM)方法进行纹理特征的提取。
灰度共生矩阵(GLCM)建立在估计图像的二阶组合条件概率密度函数的基础上,通过计算图像中有一定距离和一定方向的两点灰度之间的相关性,来反映图像在方向、间隔、变化幅度及快慢上的综合信息。
灰度共生矩阵提供用来定量描述纹理特征的统计属性,包括表达可视纹理的特征(局部平稳性,对比度,非相似性),基于信息论的特征(熵),基于统计的特征(均值,变化量,能量)和基于相关度的特征(相关)。
利用ENVY中提取纹理信息关键在于:
分析窗口半径的确定、分析窗口移动步长的确定、分析波段的确定、纹理特征指标的选择。
3*3窗口5*5窗口
7*7窗口9*9窗口
通过实验对比,本文采用3*3窗口,步长设置为1,波段选择landset8数据的第3波段的均值(mean)纹理信息进行决策树的分类。
纹理信息图如下所示:
4.4.6海坛岛DEM数据
4.4类别的定义
结合海坛岛实际地物特征,现对划分的地物类别就行规定:
Bareland:
指遥感影像中对应的白色裸地,包括裸沙和裸露的大面积未利用地,如下图
红色范围部分。
Nudation:
指遥感影像中表现为红色的地块,这种地块表面生长有一些植被,但是大部
分也还是裸露的地表。
如下图的红色勾勒区域。
Bareland1:
指道路中参杂着植被像元的裸地。
如下图的红色勾勒区域。
Water:
指水库水塘,沿海的养殖海域。
如下图的红色勾勒区域。
Lowcrop:
指高程低于100米的耕地。
如下图的红色勾勒区域。
Moutain_crop:
指高层高于100米的耕地。
如下图的红色勾勒区域。
Lowforest:
指高程低于30米的平原林地。
如下图的红色勾勒区域。
Hightforest:
指高程高于30米的山中植被。
如下图的红色勾勒区域。
4.5、决策树规则建立
本次分类采用决策树方法进行地物类别的划分,用到的数据有MNDWI(改进型的水体指数)、NDVI(植被指数)、MNDBI(改进型建筑指数)、反演的地表温度、DEM、第3波段的纹理测度、多光谱波段的第2和第3波段。
(1)、运用MNDWI指数进行水体类别的划分。
经过反复的实验,发现把MNDWI值设定为0.42左右时可以很好的区分水体与非水体。
类别
像元数
最小值
最大值
平均值
水体
1001
0.432727
0.900000
0.659820
(2)、运用NDVI指数区分出非林地和非耕地。
经过反复的实验,发现把NDVI值设定为0.4左右时可以很好的区分出非林地和非耕地。
类别
像元数
最小值
最大值
平均值
耕地
1025
0.402597
0.599914
0.522593
林地
1742
0.420176
0.599856
0.522575
注:
7月份平潭的耕地上种植着农作物,所以其在NDVI结果图中基本区分不出耕地与林地,后续结合其纹理信息进行区别。
设定NDVI值为0.4区分非耕地与非林地。
通过观察本幅影像林地和耕地的光谱曲线,发现林地和耕地在多光谱的第2波段到第3波段之间的光谱变化曲线是不同。
典型林地的光谱曲线:
注:
第2波段到第3波段的光谱曲线呈下降趋势。
典型耕地的光谱曲线:
注:
第2波段到第3波段的光谱曲线呈微上升趋势。
结合以上光谱特征,把多光谱的第2波段减去第3波段的结果作为规则加入进行林地和耕地的划分。
通过反复测试把相减后的值大于1000的认为是林地,反之则认为是耕地。
(说明:
为什么是这么大的阈值呢?
如果按照上述光谱变化曲线应该只要大于0的就能归为林地,原因是我们选取的林地和耕地都是典型的区域,并不能代表所有的耕地和林地。
但是经过测试认为把1000作为阈值,区分林地和耕地效果还是可以的)
(3)、在规则中加入MNDBI指数,经过测试,认为MNDBI大于0.3时能很好的提取出建筑物和裸地。
在类别定义时,我们把裸地分为三种:
第一种是裸沙和裸露的大面积未利用地、第二种是地块表面生长有少许稀疏植被的裸露地表、第三种是道路中参杂着植被像元的裸地如何从裸地和建筑物的混合类别中分别分出这三种裸地呢?
A、第一种裸地的提取(Bareland)
通过观察影像第3波段(0.525-0.600um)纹理的均值测度图层,发现当把阈值设为17时能较好的从裸地和建筑物的混合类别中划分出第一种裸地,即裸沙和裸露的大面积未利用地。
B、第二种裸地的提取(Nudation)
通过观察地表温度的反演图层,发现当把阈值设为46度时能很好从剩余的混合类别中提取出第二种裸地,即地块表面生长有少许稀疏植被的裸露地表。
C、第三种裸地的提取(Bareland1)
对于第三种裸地的提取,通过观察其在影像第3波段(0.525-0.600um)纹理测度的8个纹理图层发现。
在第5纹理图层到第6纹理图层之间建筑物和该种裸地的变化趋势正好相反。
(注:
其中下图中的BanNumber1为均值纹理信息、2为方差纹理信息、3为均匀性纹理信息、4为对比度纹理信息、5为相异性纹理信息、6位熵值纹理信息、7为角二阶矩纹理信息、8位相关性纹理信息。
)
结合下图变化曲线,把熵值纹理图层减去相异性纹理图层得到的结果图层加入决策树的规则集,同时通过反复的测试,把-0.6设定为阈值。
认为大于该阈值的为建筑物,小于该阈值的则为第三种裸地,即道路中参杂着植被像元的裸地。
第三种裸地在影像第3波段的8个纹理图层变化曲线:
建筑物在影像第3波段的8个纹理图层变化曲线:
(4)、结合DEM数据,把DEM大于100米的认为是高山的耕地,反之为低处的耕地;把DEM大于30米的认为是山体林地,反之为平原林地。
(5)、最终构建的决策树规则如下图所示:
4.6、结果与精度评估
利用上述决策树构建的规则进行分类,并利用选取的验证样本进行精度的评估。
如下图所示:
注:
分类后的结果图
精度评估表:
从上述精度评估表,我们可以看出分类的总体精度为79.36%,Kappa系数为0.764。
各个类别的用户精度和生产者精度如下表所示:
类别
生产者精度
用户精度
总体精度
Kappa系数
Building
81.78%
78.52%
79.36%
0.764
Water
96.12%
98.80%
Bareland
92.52%
81.31%
Bareland1
59.27%
55.91%
Nudation
32.28%
87.17%
Lowcrop
98.06%
80.93%
Hightcrop
28.66%
91.84%
Lowforest
89.9%
73.23%
Hightforest
93.39%
79.87%
从上表各个类别的精度表格可以看出水体、林地、第一种裸地Bareland(裸沙和裸露的大面积未利用地),低处的耕地、建筑物分类的效果还是可以的。
但是第二种裸地Nudation(地块表面生长有少许稀疏植被的裸露地表)和第三种裸地Bareland1(道路中参杂着植被像元的裸地)以及高处的耕地Hightcrop分类效果不是很理想。
从生成的精度评估表发现:
Nudation类主要被错分为了Building类和Lowforest类,分析原因在于地块表面生长有少许稀疏植被的裸露地表在一些区域NDVI值也接近于Lowforest类;Nudation类被错分为Building类是因为有些Nudation类因长有少许稀疏植被的缘故,地表反演的温度是低于46度的。
第三种裸地Bareland1类主要被错分为了Bareland类和Building类,分析原因在于Bareland1类其均值纹理特征在一些区域是接近于Bareland类的;至于被错分为Building类是因为在区分Bareland1类和Building类的规则阈值设定方面还有待进一步测试。
对于高处的耕地Hightcrop分类效果不是很理想,主要被错分为高山林地。
原因有两个方面,一方面在这种30米分辨率下介于高山林地之间长满农作物的耕地本就不易划分出来,另一方面在选取精度验证样本时不易选取,导致选取的高处耕地的验证样本像元不纯净。
因此有必要进行分类后处理,对错分的地物进行修正。
参考文献:
[1]ChasmerL,HopkinsonC,VenessT,etal.Adecision-treeclassificationforlow-lyingcomplexlandcovertypeswithinthezoneofdiscontinuouspermafrost[J].RemoteSensingofEnvironment,2014,143:
73-84.
[2]TeodoroAC,FerreiraD,GonçalvesH.Theuseofdecisiontreesintheclassificationofbeachforms/patternsonIKONOS-2data[C]//SPIERemoteSensing.InternationalSocietyforOpticsandPhotonics,2013:
88930N-88930N-14.
[3]SharmaR,GhoshA,JoshiPK.Decisiontreeapproachforclassificationofremotelysensedsatellitedatausingopensourcesupport[J].JournalofEarthSystemScience,2013,122(5):
1237-1247.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 LandSet8 数据 决策树 分类