数据挖掘课程论文综述.docx
- 文档编号:14420095
- 上传时间:2023-06-23
- 格式:DOCX
- 页数:15
- 大小:904.95KB
数据挖掘课程论文综述.docx
《数据挖掘课程论文综述.docx》由会员分享,可在线阅读,更多相关《数据挖掘课程论文综述.docx(15页珍藏版)》请在冰点文库上搜索。
数据挖掘课程论文综述
海南大学
数据挖掘论文
题目:
股票交易日线数据挖掘
学号:
20100602310002
姓名:
专业:
10信管
指导老师:
分数:
1.
数据挖掘目的
数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。
对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。
同时也加深自己对股票知识的了解和对clementine软件的应用能力。
为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。
2.相关基础知识
2.1股票基础知识
2.1.1股票
是一种有价证券,是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。
股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。
股票可以公开上市,也可以不上市。
在股票市场上,股票也是投资和投机的对象。
对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。
2.1.2开盘价
开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。
世界上大多数证券交易所都采用成交额最大原则来确定开盘价。
2.1.3收盘价
收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。
如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。
2.1.4最高价
指某种证券在每个交易日从开始到收市的交易过程中所产生的最高价。
2.1.5最低价
指某种证券在每个交易日从开始到收市的交易过程中所产生的最低价。
2.1.6成交量
成交量是指一个时间单位内对某项交易成交的数量。
一般情况下,成交量大且价格上涨的股票,趋势向好。
成交量持续低迷时,一般出现在熊市或股票整理阶段,市场交投不活跃。
成交量是判断股票走势的重要依据,对分析主力行为提供了重要的依据。
2.1.7K线
K线图这种图表源处于日本德川幕府时代(1603~1867年),被当时日本米市的商人用来记录米市的行情与价格波动,后因其细腻独到的标画方式而被引入到股市及期货市场。
通过K线图,我们能够把每日或某一周期的市况现完全记录下来,股价经过一段时间的盘档后,在图上即形成一种特殊区域或形态,不同的形态显示出不同意义。
插入线、抱线和利好刺激线这三种K线组合是最常见的经典见底形态。
2.1.8日线
任何一天的开盘价\收盘价\最高价\最低价,划出的一跟中间粗一些,两端细一些的线,就是日线,日线是每天一根的K线.5PMA,10PMA,20PMA。
分别代表5日、10日、20日均线。
黄色的是5PMA即5日均线;紫色的是10PMA即10日均线;绿色的是20PMA即20日均线。
2.2数据挖掘基础知识
2.2.1数据挖掘
数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。
数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。
是知识发现(KnowledgeDiscoveryinDatabase)的关键步骤。
2.2.2数据挖掘的任务
(1)关联分析(associationanalysis)
关联规则挖掘是由RakeshApwal等人首先提出的。
两个或两个以上变量的取值之间存在某种规律性,就称为关联。
数据关联是数据库中存在的一类重要的、可被发现的知识。
关联分为简单关联、时序关联和因果关联。
关联分析的目的是找出数据库中隐藏的关联网。
一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
(2)聚类分析(clustering)
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。
聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
(3)分类(classification)
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。
分类是利用训练数据集通过一定的算法而求得分类规则。
分类可被用于规则描述和预测。
(4)预测(predication)
预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。
预测关心的是精度和不确定性,通常用预测方差来度量。
(5)时序模式(time-seriespattern)
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。
与回归一
样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
(6)偏差分析(deviation)
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。
偏差检验的基本方法就是寻找观察结果与参照之间的差别。
2.2.3数据挖掘方法
(1)神经网络方法
神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和
高度容错等特性,非常适合解决数据挖掘的问题。
(2)遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。
遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。
(3)决策树方法
决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。
它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。
(4)统计分析方法
在数据库字段项之间存在两种关系:
函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。
(5)模糊集方法
即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和
模糊聚类分析。
(6)粗集方法
粗集理论是一种研究不精确、不确定知识的数学工具。
粗集方法有几个优点:
不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。
粗集处理的对象是类似二维关系表的信息表。
(7)覆盖正例排斥反例方法
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。
首先在正例集合
中任选一个种子,到反例集合中逐个比较。
与字段取值构成的选择子相容则舍去,相反则保留。
按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。
3.数据挖掘方案
3.1.数据挖掘软件简介
本次的数据挖掘所运用的软件是Clementine软件。
Clementine是SPSS的数据挖掘应用工具。
这种工具可把直观的用户图形界面与多种分析技术相结合。
这些技术包括神经元网络、关联规则和规则归纳技术,这些分析能力由一个易于使用的可视化编程环境所提供。
作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。
强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。
同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。
Clementinee所使用的图形表现是在屏幕上拖动、按下和连接功能节点。
节点的类型分为数据访问节点、数据操纵节点、数据可视化节点、机器学习节点和模型分析节点。
模型产生过程由从托盘中选择正确的节点、把它们放到屏幕上和连接节点组成。
Clementinee提供了丰富的数据访问能力,其中包括对展开文件和关系数据库(通过ODBC)的访问。
Clementine具有通过把建模结果写回一个与
ODBC兼容的DBMS而使它们保持一致的能力。
Clementine可在WindowsNT的IntelPenhum系统运行。
Clementine的数据可视化能力包括分布图、线性图和网络分析。
C1emetine是一个强大的产品。
以公布的用户基推测试来看,它在可伸缩性、预测准确率和处理的时间方面都表现得很好。
总的来说,C1gneBtine对小规模和大规模的分析实现都很合适。
3.2.股票数据选择
股票的选择是随机选择的。
用股票代码/67=02(我学号的后两位)计算可得所要研究的股票(此过程运用Excel表格的取余,然后用筛选即可选出符合条件的股票)。
所以根据公式可计算出多支符合条件的股票,从中我选择自己感兴趣的股票深证万科A(000002和上证道博股份(600132)。
同时用它们的日线作为参考,对股票的数据进行研究。
3.3.待验证的股票规律
3.3.1股市的涨跌是呈现周期性变化的且涨幅呈正态分布?
这种现象指的是在股市开盘后的一种周期性的现象,具体表现在股票价格上上的周期性涨落,当股市达到高潮后,一段时间后又将返回下跌,返回低潮。
3.3.2国家对房地产行业的宏观调控政策对股市中房地产行业是否有影响?
房价上涨对地产股有什么影响?
指近10年来,国家为了控制房地产的价格在一个合理的范围内,所出台的一系列与房地产行业相关的政策,这条规律就是研究在政策出台之后,股市中的房地产行业是否会受其影响而产生波动。
3.3.3不同类型的上市公司由于产业的不同企业发展的经历差异其所表现出的股价涨幅波动也是否是有差异?
4.数据挖掘流
4.1数据挖掘流图
分别做出万科和道博股份的数据流图如图1、图2所示:
图1万科的数据流图
图2道博股份的数据流图
图3万科道博股份合并后的数据流图
4.2规律验证
4.2.1规律一验证
对于规律一我们可以把两支股票的直方图都做出来进行比较验证分析股票涨幅分布中存在的规律。
图4涨幅直方图(万科)
图5涨幅直方图(道博股份)
由图4图5可以很清楚的看出两支股票的涨幅直方图都是满足正态分布的由此我们可以判断规律一是正确的。
4.2.2规律2验证
万科是著名的大型房地产企业对于规律2我们可以应用万科的散点图来验证
图6万科涨幅日期散点图
图7万科时间涨幅散点图
通过两个散点图都可以看出05年以前万科的涨幅波动很小,一直很平稳,05年以后万科的涨幅波动开始变的非常大时高时低。
可以看出国家房地产政策的调整对地产企业的股票市场是有影响的。
图9万科收盘散点图
从上图的万科收盘散点图可以看出随着房地产市场化的进行由于商品房价格的不断上涨,万科地产的收盘股价上涨明显,近两年由于国家抑制房价地产股的收盘价又开始稍有下降。
4.2.3规律三验证
图10万科道博股份合并后的数据流图
图11剔出波动大于10后的涨幅时间散点图
图12收盘价时间散点图
武汉道博股份有限公司是1992年10月30日经武汉市经济体制改革委员会武体改[1992]44号文批准,由海南省高科技开发总公司、三亚市河西城市信用社、海南宏盛实业有限公司等三家单位作为主要发起人,以定向募集方式设立的股份有限公司。
万科企业股份有限公司成立于1984年5月,是目前中国最大的专业住宅开发企业,也是股市里的代表性地产蓝筹股。
总部设在广东深圳,至2009年,已在20多个城市设立分公司。
从两个公司的介绍上我们不难看出两个公司的差异,再看他们的涨幅散点图和收盘价散点图我们能发现05年之前万科股价一直稳定小幅上涨而道博股份则是整个不断波动,05年后万科进入大涨阶段道博股份则依旧波动不断。
我们不难看出不同的上市企业由于其背景不同股市的表现也是不一样的。
4.3主要节点说明
每只股票的数据挖掘流图的基本思路是一致的,挖掘方法也基本一致,所以只需要对一只股票数据挖掘流图进行节点分析即可。
1、下图是导入数据的节点,将TXT格式的股票数据处理后即可导入软件。
2、下图是到处节点,就是过滤掉没有用的数据,对规律1而言,就是过滤掉成交量、成交额等对此次数据挖掘没有用的数据,方便分析。
3、下图分别为直方图与多重菜点图,用于显示数据的规律。
4、下图的节点是对多个数据流进行合并。
5、下图用于新添加字段的图。
6、下图用于选择用于分析的数据。
7、下图用于生成表
8、散点图形/多重散点图
5.小结
5.1学习心得
通过这次股票数据的数据挖掘实验,使自己对于数据挖掘这门学科有了较为广泛的了解。
同时,也对实验软件Clementine的操作有了比较熟悉的掌握。
这不仅仅是一次论文写作,而是利用软件来解决问题的实践过程,不仅尝到了软件的利用,同时也学会了问题的分析方法与过程。
与此同时,也使我对股票的知识有了进一步了解,了解到了一些国家的在地产方面的经济政策。
5.2写作中的出现的问题与解决方案
软件Clementine是一款很实用,同时也是功能庞大的软件,因此在操作过程中,有很多的步骤会操作错误,不过这款软件的错误提示功能很不错。
在老师和其他同学的指导帮助下完成了本文非常感谢大家。
还有通过互联网上的知识搜索,也学习很多不会不了解的东西,知道了分析股票的方法。
随着论文的结束大学的课业生活也接近尾声了我会把这段美好的时光珍藏于脑海中。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 课程 论文 综述