投影寻踪方法及应用.doc
- 文档编号:1824499
- 上传时间:2023-05-01
- 格式:DOC
- 页数:10
- 大小:364.50KB
投影寻踪方法及应用.doc
《投影寻踪方法及应用.doc》由会员分享,可在线阅读,更多相关《投影寻踪方法及应用.doc(10页珍藏版)》请在冰点文库上搜索。
投影寻踪方法及应用
内容摘要:
本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。
最后结合上市公司的股价进行实证分析,并给出结论和建议。
关键词:
投影寻踪投影寻踪聚类模型遗传算法
一、简介
(一)产生背景
随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。
多元分析方法是解决高维数据这类问题的有力工具。
但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。
不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。
但是,当数据的维数很高时,即使用后两种方法也面临以下困难:
第一个困难是随着维数增加,计算量迅速增大。
第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。
对于核估计,近邻估计之类的非参数法很难使用。
第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。
另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。
这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。
其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。
它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。
针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。
因此,高维数据尤其是非正态高维数据分析的需要,加上80年代计算机技术的高度发展是PP产生的主要背景。
(二)发展简史
PP最早由Kruskal于70年初建议和试验。
他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。
1974年Frledman和Tukey加以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。
1979年后,Friedman等人相继提出了PP回归、PP分类和PP密度估计。
在这以后Huber等人积极探索了PP的理论。
1981年Donoho提出了用Shannan嫡作投影指标比wiggins用标准化峰度更好的方法,接着他又利用PP的基本思想给出了多元位置和散布的一类仿射同变估计。
Diaeonis、Friedman和Jones等还讨论了与PP有关的其他理论问题。
上述工作和结果在1985年Huber的综述论文中作了概括和总结。
我国学者成平和吴健福于1985年证明了PP密度估计的一个收敛性问题,并于1987年给出PP经验分布的极限分布。
陈忠琏和李国英等于1986年用PP方法给出了散布阵和主成分的一类稳健估计。
成平和李国英于1986年还对多元位置和散布的PP型估计性质进行了讨论叫。
陈家弊于1986年证明了密度PP估计的一个极限定理。
宋立新和成平于1996年就PP回归逼近的均方收敛性,回答了Huber1985年的猜想。
这些都是很好的工作。
在PP的应用研究方面,从1985年起,郑祖国、杨力行等人通过几年的潜心研究和探索,成功地完成了投影寻踪回归(PPR)和投影寻踪时序(PPTS)软件包的程序设计,并对大量实例进行了验算。
二、PP及其分类
投影寻踪是用来分析和处理高维数据,尤其是来自非正态总体的高维数据的一类统计方法。
其基本思想是:
利用计算机技术,把高维数据通过某种组合,投影到低维(1~3维)子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。
它的一般方案是:
(l)选定一个分布模型作为标准(一般是正态分布),认为它是最不感兴趣的结构;
(2)将数据投影到低维空间上,找出数据与标准模型相差最大的投影,这表明在投影中含有标准模型没能反映出来的结构;
(3)将上述投影中包含的结构从原数据中剔除,得到改进了的新数据;
(4)对新数据重复步骤
(2)(3),直到数据与标准模型在任何投影空间都没有明显差别为止。
PP方法的主要特点是:
(l)PP方法能够在很大程度上减少维数祸根的影响,这是因为它对数据的分析是在低维子空间上进行的,对1-3维的投影空间来说,高维空间中稀疏的数据点就足够密了,足以发现数据在投影空间中结构特征;
(2)PP方法可以排除与数据结构和特征无关,或关系很小的变量的干扰;
(3)PP方法为使用一维统计方法解决高维问题开辟了途径,因为PP方法可以将高维数据投影到一维子空间,再对投影后的一维数据进行分析,比较不同一维投影的分析结果,找出好的投影;
(4)与其他非参数方法一样,PP方法可以用来解决某些非线性问题。
PP虽然是以数据的线性投影为基础,但它找的是线性投影中的非线性结构,因此它可以用来解决一定程度的非线性问题,如多元非线性回归;
(二)PP的分类
PP包括手工PP和机械PP两方面内容。
手工PP主要是利用计算机图像显示系统在终端屏幕上显示出高维数据在二维平面上的投影,并通过调节图像输入装置连续地改变投影平面,使屏幕上的图像也相应地变化,显示出高维数据在不同平面上投影的散点图像。
使用者通过观察图像来判断投影是否能反映原数据的某种结构或特征,并通过不断地调整投影平面来寻找这种有意义的投影平面。
最早的图象显示系统是斯坦福大学教授J.H.Friedman等人1974年编制的,PRIM一9。
利用这个系统可以看到不超过九维的数据在任何二维平面上的投影图象,以发现数据的聚类和超曲面结构。
这个系统还可以只显示指定的区域内的高维点,把其他点移出屏幕不显示出来。
因此当人们在投影平面上发现了某种聚类结构时,可以把不同类的数据分开,再分别考察每个类中的数据的结构和特征。
使用手工PP成功的例子是美国的Reaven和Miller于1979年关于多尿病病理的研究。
他们将145人的5项指标观察值输入PRIM一9图像显示系统,对5项指标中的每3项指标,观察145个3维点构成的点云在任何2维平面上的投影图像,最后找到了一个在医学上有意义的图像。
从这张图像上可以看到隐性和显性多尿症患者的数据是完全分开的。
不经过中间正常状态,两者是不能相互转换的。
机械PP是模仿手工PP,用数值计算方法在计算机上自动找出高维数据的低维投影,即让计算机按数值法求极大解的最优化问题的方法,自动地找出使指标达到最大的投影。
它要求对一个P维随机向量X,寻找一个K(K
如果原数据确有某种结构或特征,指标又选得恰当,那么在所找到的某些方向上,一定含有数据的结构或特征。
有些传统的多元分析方法可以看成是机械投影寻踪的特例。
例如主成份分析,判别分析等,但是主成分分析方法是用主成分来描述或逼近原始数据,所反映的是数据的全局特征或宏观特征,这样显然就有可能会漏掉主要的局部特征或细节特征。
下面以大家熟知的主成份分析为例具体说明机械投影寻踪方法。
主成份分析的目的是要考察P维数据,是否真正散布在P维空间上,还是主要只散布在某个维数小于P的子空间上。
好比一块铁饼,虽然是三维空间中的形体,由于相对地说厚度明显地小,所以它主要是散布在二维平面上的园形东西,在与这个园形垂直的方向上没有多少布散布。
我们取描述一维数据散布程度的标准差作为投影指标。
实数的标准是,其中。
用投影寻踪了解数据的散布情况,就是找出一个方向,使得数据在这个方向上的投影的散布达到最大,即,就是的样本协差阵S的最大特征根的特征向量。
把S的特征根从大到小排列,记作,这样投影寻踪就给出了的第一主成份,它的标准差。
继续作投影寻踪,在与垂直的空间里求单位向量,使。
可以证明就是相应于的特征根,进而得到的第二主成份,及其标准差,如此类推,就可以求出第三、第四主成份等等,直到某个主成份的标淮差接近零为止。
当然,主成份分析只是机械投影寻踪的一个特例。
一般的并不要求后面的投影方向与前面找到的投影方向垂直。
而且,对于主成分分析其样本协方差阵及特征根和特征向量对离群点是非常敏感的,正是由于样本协方差阵的不稳定,造成了传统主成分分析的不稳健。
为了得到稳健性,可以采用稳健的散布度量加以改进另外,实际作主成份分析时也不用求极值的投影寻踪法,而是直接求样协差阵S的特征根和特征向量。
三、投影指标
PP的出发点是度量投影分布所含信息的多少,而我们知道高维数据集合的线性投影是?
几乎正态的,并且正态分布通常为无信息分布的代表。
从而寻求与正态分布差异最大的线性投影分布,即含信息最多的投影分布,成为PP方法的常用方式之一。
既然如此,那么它是如何实现的呢?
为了避免繁杂的细节讨论,突出问题的重点,我们选取简单的度量准则,如方差、偏度、峰度,至于更加复杂的度量准则也有完全类似的描述、解释,这里从略。
(1)方差指标
设是总体X的独立同分布的样本,方差指标的样本形式为。
如果我们求,得到的就是样本散布最大的方向。
主成分分析就是取样本方差为投影指标的PP方法。
(2)Friedman指标
设有Legendre多项式
,
设X为P维随机向量,协方差阵的正交分解,U是标准正交阵,D是对角阵。
是X的n个样本,是其经验分布。
为了达到PP的主要目的,并减少计算量,我们要求PP指标对P维数据的任何非奇异仿射变换保持不变。
为此,对x及它的子样进行球面化,即令,如果未知,则用样本的协方差阵的正交分解的代替。
设为标准正态分布分布函数,则Friedman指标为其中P是X的分布函数。
样本形式为
(3)偏度指标和峰度指标
偏度是用来衡量分布非对称性的统计指标,峰度是用来衡量分布平坦性的统计指标,它们都对离群点非常敏感。
因此可以用作投影指标来寻找离群点。
设原随机变量为X,投影方向为a,偏度指标和峰度指标分别为
和
以及两者混合产生的指标
和
这类指标对于检测噪声背景下的比较细小的特征目标有较好的效果。
(4)信息散度指标
一般认为服从正态分布的数据含有的有用信息最少,因而我们感兴趣的是与正态分布差别大的结构。
多元正态分布的任何一维线性投影仍然服从正态分布,因此如果一个数据在某个方向上的投影与正态分布差别较大,那它就一定含有非正态的结构,这是我们关心的。
高维数据在不同方向上的一维投影与正态分布的差别是不一样的,它显示了在这一方向上所含有的有用信息的多少,因此可以用投影数据的分布与正态分布的差别来作为投影指标。
人们已经设计出许多具有这种特点的指标,信息散度指标就是其中之一。
设f是一维密度函数,g是一维标准正态分布密度函数,f对g的相对嫡为
信息散度指标定义为:
当时,;若f偏离g越远,那么值就越大,因此刻划了
结构
度量
f到g的偏离程度。
由于根据样本估计f是很麻烦的,因此更简便有效的方法是用离散化的概率分布p和q分别代替连续的密度函数f和g,这时指标变为,其中。
如果投影指标的值越大,那么意味着它越偏离正态分布,因而是我们感兴趣的方向
线性
投影
结构
高维
数据集
基于结构的PP降维流程
四、投影寻踪聚类模型
(一)用PP探索高维数据的结构或特征时,一般采用迭代模式。
首先根据经验或猜想给定一个初始模型;其次把数据投影到低维空间上,找出数据与现有模型相差最大的投影。
这表明在这个投影中含有现有模型中没有反映的结构,然后把上述投影中所包含的结构并在现有模型上,得到改进了的新模型。
再从这个新模型出发,重复以上步骤,直到数据与模型在任何投影空间都没有明显的差别为止。
由于PP是一种数据分析的新思维方式,因此将这种新思想与传统的回归分析、聚类分析、判别分析、时序分析和主分量分析等相结合,会产生很多新的分析方法。
例如投影寻踪聚类(ProjectionPursuitClassification,简称PPC),它是以每一类内具有相对大的密集度,而各类之间具有相对大的散开度为目标来寻找最优一维投影方向,并根据相应的综合投影特征值对样本进行综合分析评价。
(二)投影寻踪聚类模型
设第i个样本第j个指标为,n为样本个数,m为指标个数,用投影寻踪技术建立投影寻踪聚类模型的步骤如下:
(1)样本指标数据归一化:
由于各指标的量纲不尽相同或数值范围相差较大,因此,在建模之前对数据进行归一化处理为,其中表示第j个指标的样本最大值。
(2)线性投影:
所谓投影实质上就是从不同的角度去观察数据,寻找最能充分挖掘数据特征的作为最优投影方向。
可在单位超球面中随机抽取若干个初始投影方向,计算其投影指标的大小,根据指标选大的原则,最后确定最大指标对应的解为最优投影方向。
若为m维单位向量,则样本i在一维线性空间的投影特征值的表达为。
(3)寻找目标函数:
综合投影指标值时,要求投影值的散布特征应为:
局部投影点尽可能密集,最好凝聚成若干个点团,而在整体上投影点团之间尽可能散开。
故可将目标函数定义为类间距离与类内密度的乘积,即。
类间距离用样本序列的投影特征值方差计算,。
其中为序列的均值,愈大,散布愈开。
设投影特征值间的距离,则,为一阶单位阶跃函数,时,其值为1;时,其值为0。
在此,R为估计局部散点密度的窗宽参数,按宽度内至少包括一个散点的原则选定,其取值与样本数据结构有关,可基本确定它的合理取值范围为,其中,。
类内密度愈大,分类愈显著。
(4)优化投影方向:
由上述分析可知,当取得最大值时所对应的投影方向就是所要寻找的最优投影方向。
因此,寻找最优投影方向的问题可转化为下列优化问题:
,这是以为优化变量的复杂非线性优化问题,可采用遗传算法等优化方法求解。
(5)综合评价聚类分析:
根据最优投影方向,便可计算反映各评价指标综合信息的投影特征值的差异水平,以的差异水平对样本群进行聚类分析。
五、遗传算法
(一)定义
遗传算法(GeneticAlgorithm,简称GA)以生物进化过程为背景,模拟生物进化的步骤,将繁殖、杂交、变异、竞争和选择等概念引入到算法中,通过维持一组可行解,并通过对可行解的重新组合,改进可行解在多维空间内的移动轨迹或趋向,最终走向最优解。
它克服了传统优化方法容易陷入局部极值的缺点,是一种全局优化算法。
其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。
(二)运算过程
1.遗传算法染色体编码
遗传算法不能直接处理问题空间的参数,必须把它们转换成遗传空间的由基因按一定结构组成的染色体或个体,这一转换操作就叫做编码。
二进值编码是目前遗传算法中最常用的编码方法。
即是由二进值字符集{0,1}产生通常的0,1字符串来表示问题空间的候选解。
2.适应度函数
遗传算法的适应度函数也叫评价函数,是用来判断群体中的个体的优劣程度的指标,它是根据所求问题的目标函数来进行评估的。
遗传算法在搜索进化过程中一般不需要其他外部信息,仅用评估函数来评估个体或解的优劣,并作为以后遗传操作的依据。
由于遗传算法中,适应度函数要比较排序并在此基础上计算选择概率,所以适应度函数的值要取正值。
由此可见,将目标函数映射成求最大值形式且函数值非负的适应度函数是必要的。
在具体应用中,适应度函数的设计要结合求解问题本身的要求而定。
适应度函数设计直接影响到遗传算法的性能。
3.遗传算子
3.1.选择
选择算子有时又称为再生算子。
选择的目的是把优化的个体(或解)直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。
选择操作是建立在群体中个体的适应度评估基础上的,目前常用的选择算子有以下几种:
适应度比例方法、随机遍历抽样法、局部选择法、局部选择法。
其中轮盘赌选择法是最简单也是最常用的选择方法。
在该方法中,各个个体的选择概率和其适应度值成比例。
设群体大小为n,其中个体i的适应度为,则i被选择的概率,为遗传算法
显然,概率反映了个体i的适应度在整个群体的个体适应度总和中所占的比例。
个体适应度越大,其被选择的概率就越高,反之亦然。
计算出群体中各个个体的选择概率后,为了选择交配个体,需要进行多轮选择。
每一轮产生一个[0,1]之间均匀随机数,将该随机数作为选择指针来确定被选个体。
个体被选后,可随机地组成交配对,以供后面的交叉操作。
3.2交叉
在自然界生物进化过程中起核心作用的是生物遗传基因的重组(加上变异)。
遗传算法中起核心作用的是遗传操作的交叉算子。
所谓交叉是指把两个父代个体的部分结构加以替换重组而生成新个体的操作。
通过交叉,遗传算法的搜索能力得以飞跃提高。
交叉算子根据交叉率将种群中的两个个体随机地交换某些基因,能够产生新的基因组合,期望将有益基因组合在一起。
根据编码表示方法的不同,可以有以下的算法:
a)实值重组
1)离散重组;2)中间重组;3)线性重组;4)扩展线性重组。
b)二进制交叉
1)单点交叉;2)多点交叉;3)均匀交叉;4)洗牌交叉;5)缩小代理交叉
常用的交叉算子为单点交叉。
具体操作是:
在个体串中随机设定一个交叉点,实行交叉时,该点前或后的两个个体的部分结构进行互换,并生成两个新个体。
下面给出了单点交叉的一个例子:
个体A:
1001↑111→1001000新个体
个体B:
0011↑000→0011111新个体
3.3.变异
变异算子的基本内容是对群体的个体串的某些基因座上的基因值变动。
基于字符集{0,1}的二值码串而言,变异操作就是把某些基因座上的基因值取反,即1→0或0→1。
一般来说,变异算子操作的基本步骤如下:
(1)在群体中所有个体的码串范围内随机地确定基因座。
(2)以事先设定的变异概率Pm来对这些基因座的基因值进行变异。
遗传算法引入变异的目的有两个:
一是使遗传算法具有局部的随机搜索能力。
当遗传算法通过交叉算子已接近最优解领域时,利用变异算子的这种局部随机搜索能力可以加速向最优解收敛。
显然,此种情况下的变异概率应取较小值,否则接近最优解的积木块会因变异而遭到破坏。
二是使遗传算法可维持群体多样性,以防止出现未成熟收敛现象。
此时收敛概率应取较大值。
4.迭代终止
当遗传算法已经寻找到最优的投影方向或者迭代次数已经达到预先设定的次数时,算法迭代终止,这时所返回的值即为本次寻优过程所得到最优的投影方向。
六、实证分析
本文应用投影寻踪聚类模型对上市公司的股价的高低进行分析,所选的盈利指标是每股现金流量和每股收益、每股净资产、股东收益率、净资产收益率、总资产收益率、销售利润率、主营业务收益率等等。
把每股收益、每股净资产、净资产收益率这三个指标作为聚类的标准。
其中:
净资产利润率=净利润/平均净资产(平均股东权益);
每股收益=净利润/期末总股本;
每股净资产=期末净资产/期末总股本。
样本股票的指标数据来自于华夏证券网公布的深圳2003年中期上市公司财务指标(如下表:
原始股票样本数据表)
原始股票样本数据表
序
号
股票
代码
股票
简称
每股收益
摊薄(元)
每股净
资产(元)
净资产收
益率%
总股本
(万股)
股东
人数
投影
特征值
分类
结果
1
000488
晨鸣纸业
0.39
4.45
8.83
89772.79
49314
1.6257
1
2
000538
云南白药
0.3257
2.82
11.54
18581.8
14030
1.3397
2
3
000605
四环药业
0.11
1.53
7.43
8250
6174
0.66032
3
4
000631
蓝宝信息
0.0878
3.22
2.73
24036.96
40601
0.55416
3
5
000881
大连国际
0.027
2.29
1.18
30891.84
68148
0.33647
4
6
000961
大连金牛
0.05
3.5
1.35
30053
74276
0.4742
4
7
000965
天水股份
0.016
2.57
0.62
23870.54
32323
0.28538
4
8
000407
胜利股份
0.053
2.25
2.36
23958.88
65959
0.4362
4
9
000410
沈阳机床
0.03
2.31
1.25
34091.93
68727
0.37511
4
10
000510
金路集团
0.09
1.36
6.53
60918.23
90129
0.76483
3
11
000527
粤美的A
0.24
4.77
5.06
48488.97
144585
1.1481
2
12
000633
合金投资
0.1191
1.59
7.49
32092.2
3323
0.74452
3
13
000637
茂化实华
0.112
2.04
5.49
28978.56
6365
0.65497
3
14
000687
保定天鹅
0.088
3.24
2.7
32080
54753
0.58434
3
15
000819
岳阳兴长
0.042
2.27
1.85
16513.39
17263
0.34416
4
16
000852
江钻股份
0.1115
2.43
4.59
28000
29997
0.64465
3
17
000918
亚华种业
0.124
4.02
3.09
17000.2
16092
0.64583
3
18
000960
锡业股份
0.0607
3.29
1.86
35790.4
85274
0.52768
3
19
000002
万科A
0.15
3.1
4.83
136540.6
248117
1.1847
2
20
000012
南玻科控
0.14
2.95
4.6
67697.54
61534
0.84962
3
将样本指标数据代入投影寻踪模型,其中n=20,m=5,给定,由于模型比较麻烦在此不予给出。
通过模型运算得到最优投影方向向量。
根据投影方向向量值的大小可知,每股收益、净资产收益率是影响分类结果的主要因素。
同时可以利用计算各个样本的投影特征值。
根据股票样本的投影特征值的大小,将20支股票分为4类,投影特征值越大说明对应的股票投资价值越大。
分类结果如下:
第1类:
晨鸣纸业。
这类股票是明显的高收益的绩优股,发展前景令人期待,投资价值比较大。
第2类:
云南白药,粤美的A,万科A共有3支股票。
这类股票有较好的发展态势,但盲目介入有一定风险,投资者可适当关注,择机介入。
第3类:
四环药业,兰宝信息,金路集团等共有10支股票。
这类股票业绩一般,操作上以回避为主,不过也可能有反弹空间,故还是以观望为主。
第4类:
大连国际,大连金牛,天水股份等共有6支股票。
这类股票是明显的低收益的绩差股,投资上还是以回避为好。
七、结语
PP的最显著特点是克服了高维点稀分布所造成的“维数祸根”困难,是对传统证实性数据分析思维方法的突破。
其次,它使用了降维手段,当维数较高时,数据结构常表现
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 投影 寻踪 方法 应用