精选杰狮车故障代码表中文版印刷 doc资料.docx
- 文档编号:13407259
- 上传时间:2023-06-13
- 格式:DOCX
- 页数:23
- 大小:746.10KB
精选杰狮车故障代码表中文版印刷 doc资料.docx
《精选杰狮车故障代码表中文版印刷 doc资料.docx》由会员分享,可在线阅读,更多相关《精选杰狮车故障代码表中文版印刷 doc资料.docx(23页珍藏版)》请在冰点文库上搜索。
精选杰狮车故障代码表中文版印刷doc资料
杰狮车故障代码表中文版-印刷
错误
1故障
第40卷第4期2020年8月武汉大学学报(工学版
收稿日期:
2020203225作者简介:
胡 燕(19652,女,湖北松滋人,副教授,研究方向为Web数据挖掘和信息抽取.
文章编号:
167128844(20200420211204
基于改进的kNN算法的中文网页
自动分类方法研究
胡 燕,吴虎子,钟 珞
(武汉理工大学计算机科学与技术学院,湖北武汉 430070
摘要:
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等
关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.
关键词:
特征词;训练库;文本相似度;kNN算法
中图分类号:
TP181 文献标志码:
A
ResearchofChineseWebclassificationmethod
basedonimprovedkNNalgorithm
HUYan,WUHuzi,ZHONGLuo
(SchoolofComputerScienceandTechnology,WuhanUniversityofTechnology,Wuhan430070,China
Abstract:
TheprocedureofChineseWebclassificationisdescribed;andthekeysofthisclassificationincludingfeatureselection,buildingthetrainingcollectionandtextcategorizationalgorithmarediscussedcrucially.Thequantityofcharacteristicwordinthetextcharacteristicexpressionmethodofvectorspacemodelhasanintimaterelationshipwiththeefficiencyofclassificationalgorithm.Acharacteristicwordextractionmethodhasbeende2velopedbasedonwordgender.Byfusingthetraditionalmethodwhichcomparingthefeaturevectorswhencom2putingthesimilarityoftextstoreformthek2nearestneighbor(kNNalgorithm,amodifiedkNNalgorithm,whichisbasedonlesseningofcharacteristicwordsanddatadivisionrespectively,hasbeenproposed;sothattheefficiencyandperformanceofclassificationalgorithmareimproved.
Keywords:
characteristicwords;trainingcollection;similarityofthetext;kNNalgorithm.
文本分类是指将文本按一定的策略归于一个或多个预先定义类别中的应用技术.随着Internet的飞速发展,网页数量急剧增加,对这些蕴涵丰富信息的网页进行人工分类远远不能满足各种领域获取信息的需求.因此,为了能够有效地组织和分析海量的信息,人们希望能够按照其内容实现对网页的自动分类.网页自动分类已经成为领域的一个研究热点.
国外文本自动分类研究始于1950年,HPLuhn在这一领域进行了开创性的研究.其后,Maron和HBorko等许多学者在这一领域进行了卓有成效的研究.当前,国外主流的分类方法有Rocchio法及其变异方法、k近邻法(kNN、决策树、朴素贝叶斯、贝叶斯网络、支持向量机(SVM等方法.这些方法在英文一级欧洲语种文本分类上有广泛的研究,而且很多研究表明kNN和SVM
武汉大学学报(工学版2020
是英文文本分类的最好方法.
本文在文本相似度计算时,融入传统的特征向量的比较方法对kNN算法进行了改进,提出了基于特征词减少的改进的kNN算法,并将该算法用于计算机学科教学大纲的分类体系,对从Internet上获取的与计算机专业课程相关的网页进行分类处理.
1 kNN分类算法
kNN(k最近邻算法是一种传统的分类算法,
在文本分类方面得到了广泛的研究和应用.kNN算法实际上是矢量相似度法的一种改进.
一般有两种方法计算相似度:
(1欧氏距离,两个标准化的文本向量a、b之间的欧氏距离为
D(a,b=
∑i
(a
i
-bi
2
(2余弦距离,计算两个向量的余弦夹角:
cos〈a,b〉=
a・b
|a||b|
该分类算法的基本思路是:
在给定新文本后,考虑在训练文本集中与该测试文本距离最近(最相似的k篇文本,根据这k篇文本所属的类别判定测试文本所属的类别.
由于使用kNN算法进行分类的过程中,要计算测试文本与每个训练文本的相似度,这样无疑大大增加了分类的计算量,分类的速度无法提高,因此,在训练文本较多的情况下,如何减小计算量,提高分类速度是个关键性问题.
为了降低复杂度,人们进行了大量的研究,Grid2file[1]和KD2tree[2]忽视数据的聚类性质,将
数据分割为不相交的区域,R32tree[3]、X2tree[4]、SR2tree和SS2tree
[5]
等方法根据数据在具体索引
中的分布对数据空间进行分割.这些方法处理低维数据一般比较好,但是它们的性能会随着维数的增加而降低.
文献[6,7]等提出将数据集的维数缩减,这些
方法通过索引树进行查询,检索出数据库的一个子集,然后,用最初的高维特征向量计算出查询点与候选集中每个点的距离,最后求出所需邻居.
VA2file[8]和LPC2file[9]把整个数据空间分成2b个矩形单元,这里b是用户指定的一个二进制
数.每个单元分配一个长度为b的二进制字符串,近似表示落到该单元的点的数目.该种kNN查询近似扫描整个文件,过滤出不重要的点.然而,该方法的性能在很大程度上依赖于顾虑能力和近似的精确度之间的权衡.
Z2order曲线、多重Hilbert曲线[10]将d维点
集映射到一个一维空间,最后沿着曲线执行一定范围的查询就能找到k个最近邻居.然而,由于映射这个特性,一些比较近的邻居就有可能放置在沿着曲线比较远的地方.
2 基于特征项减少的改进kNN算法
文本相似度的计算实际上就是文本所对应的特征向量的计算,在文本数一定的情况下,特征向量的个数也就不能改变了.那么要提高分类的速度,还可以从特征向量计算入手.
因此,本文提出基于特征项减少的改进的kNN算法,其思想是在kNN算法中融入传统的特
征向量的比较方法,先找出两个原始特征向量之间相同的词及其权重,按照相同特征词的顺序重新构造两个特征词都相同的特征向量,再利用特征词对应的权重向量来计算这两个特征向量之间的相似度.详细算法如下:
Input:
测试文本T的特征向量Output:
文本所属类别标识FORallTi∈训练库DO
从训练库中取出一个文本特征向量Ti
找出T、Ti中相同的特征词
把相同的特征词和对应的权值提取出来组成两个新的向量NT、NTi
计算两个特征向量的权值组成的一元向量之间的相似度sim(t,x
ENDFOR
将计算的文本的相似度计算结果进行排序取出相似度最高的k个文本把这k个文本的相似度按类别累加取相似度最大值Si以及对应的类别CiIFSi≥
εthen标识该文本属于Ci类
2
41
第4期
胡 燕,等:
基于改进的kNN
算法的中文网页自动分类方法研究
ELSE
标识该文本可能属于Ci类
ENDIFEND
3 基于改进的kNN算法的中文网页
自动分类实现
图1给出了中文网页分类的实现过程
.
图1 中文网页分类的实现过程
3.1 特征提取
在英文文本分类中,常用的特征提取的评估函
数有文档频数、信息增益、期望交叉熵、互信息、x
2
统计、文本证据权和几率比等.但这些方法用于中文文本的特征提取,并没有很高的效率.这主要有两个方面的原因:
第一,特征提取的计算量太大,特征提取效率太低,而特征提取的效率直接影响到整个文本分类系统的效率;第二,经过特征提取后生成的特征向量维数太高,而且不能直接计算出特征向量中各个特征词的权重.因此,在中文文本分类中,如何提取特征词以及如何控制特征向量的维数,成为了一个亟待解决的难题.
在TREC上展示的文本分类系统代表了文本分类领域的最新研究成果,但到目前为止,还没有出现标准的中文网页语料库,因此也没有出现针对
中文网页分类的系统的测评.
为了解决这一问题,我们人工选取了800个网
.
图2 确定分类的类别体系
对于训练库中收集的网页进行以下处理:
(1定义类别集合C={C1,…,Ci,…,Cm};(2给出训练文档集合S={S1,…,Si,…,Sn},每个训练文档Sj被标上所属的类别标识Ci;
(3统计S中所有文档的特征矢量V(Sj;
(4根据采取的不同分类算法,确定文档Ci的
本文根据改进的kNN分类算法,对给定的248篇网页进行了测试.在kNN算法中的阈值k取100的情况下,分别取不同的向量维数阈值V,测试结果如表1所示.
表1 准确率和召回率实验结果向量维数
V=15V=18V=20V=22
试验结果数据表明,向量维数对分类结果的准确率有较明显的影响,根据向量维数取值的不同,算法改进前后分类的准确率和召回率的走势如图3和图4所示.
为了检测文档的分类速度,取不同的向量维数分别对测试文档进行测试,得到分类效率对照表,如表2所示.
3
41
武汉大学学报(工学版
2020
图3 准确率测试结果
图4 召回率测试结果表2 分类效率对照实验结果
维数
V=15V=18V=20V=22
对应的分类效率对照图如图5所示.
图5 分类效率对照图
实验结果表明,改进的kNN算法在基本不损失
准确率的基础上召回率和分类效率都有明显提高.
4 结 语
本文叙述了文本分类的一般过程及在文本分类过程中几个关键性问题,提出了基于特征向量减少的改进kNN算法.该算法针对传统算法中在训练文本较多的情况下,计算测试文本与每个训练文本的相似度增加了分类的计算量、使分类的速度无法提高的缺点,一方面在特征提取时降低特征向量
的维数,另一方面在kNN算法中融入传统的特征向量的比较方法,先找出两个原始特征向量之间相同的词及其权重,按照相同特征词的顺序重新构造两个特征词都相同的特征向量,再利用特征词对应的权重向量来计算这两个特征向量之间的相似度.改进的kNN算法在基本不损失准确率的基础上召回率和分类效率都有明显提高.
参考文献:
[1] NievergeltJ,HinterbergerH,SevcikK.Thegridfile:
anadaptablesymmetricmultikeyfilestucture[C]//ACMTrans.onDatabaseSystems,1984,9(1:
38271.[2] BentleyJL.Multidimensionalbinarysearchtreesin
databaseapplications[J].SoftwareEngineering,1979,5(4:
3332340.
[3] BeckmannN,KriegelH,SchneiderR,etal.R32
tree:
anefficientandrobustaccessmethodforpointsandrectangles[C]//ACMSIGMOD,1990:
3222231.
[4] BerchtoldS,KeimD,KriegelHP.TheX2tree:
an
indexstructuresforhigh2dimensionaldata[C]//22thVLDB,1996:
28239.
[5] WhiteDA,JzinR.SimilarityindexingwiththeSS2
adaptiveandefficientdimensionalityreductionalgo2rithmforhigh2dimensionalindexing[C]//Proceedingsofthe19thInternationalConferenceonDataEngi2neering,2003:
87298.
byimageandvideocontent:
theQBICsystem[J].Computer,1995,28(9:
23232.
[8] WuP,ManjunathBS,ChandrasekaranS.Anadap2
tiveindexstructureforhigh2dimensionalsimilaritysearch[C]//PCM2001,LNCS2195,2001:
71278.[9] ChaG2H,ZhuX,PetkovicD,ChungC2W.Aneffi2
cientindexingmethodfornearestneighborsearchesinhigh2dimensionalimagedatabases[J].IEEE
TransactionsonMultimedia,2002,4(1:
76287.[10]HananSamet.Depth2firstk2nearestneighborfinding
usingthemaxnearestdistestimator[C]//Proceedingsofthe12th
InternationalConferenceonImage
AnalysisandProceeding,2003:
4862491.
特征提取方法研究[J].武汉理工大学学报,2020,29
(4:
1322135.
4
41
Chemistry次序期刊名称影响因子1CHEMICALREVIEWS20.2202ACCOUNTSOFCHEMICALRESEARCH12.8803ANGEWANDTECHEMIE-INTERNATIONALEDITION8.0294JOURNALOFPHYSICALANDCHEMICALREFERENCEDATA6.2295CHEMICALSOCIETYREVIEWS5.9366JOURNALOFTHEAMERICANCHEMICALSOCIETY5.7257CHEMISTRY-AEUROPEANJOURNAL5.1538TOPICSINCURRENTCHEMISTRY4.3979CHEMICALCOMMUNICATIONS3.40710CHEMICALRESEARCHINTOXICOLOGY3.33611JOURNALOFCOMPUTATIONALCHEMISTRY2.86112JOURNALOFCHEMICALINFORMATIONANDCOMPUTERSCIENCES2.60913PHARMACEUTICALRESEARCH2.53014HELVETICACHIMICAACTA2.46315BIOCONJUGATECHEMISTRY2.26916ENVIRONMENTALTOXICOLOGYANDCHEMISTRY2.23817MARINECHEMISTRY1.96718JOURNALOFCONTROLLEDRELEASE1.89419NEWJOURNALOFCHEMISTRY1.79720JOURNALOFPHARMACEUTICALSCIENCES1.76421PUREANDAPPLIEDCHEMISTRY1.67722JOURNALOFNATURALPRODUCTS1.64123COMPUTERS&CHEMISTRY1.56624CHEMISTRYLETTERS1.54625SUPRAMOLECULARCHEMISTRY1.40426ENANTIOMER1.38827REVIEWSONHETEROATOMCHEMISTRY1.34928BULLETINOFTHECHEMICALSOCIETYOFJAPAN1.33829ACTACHEMICASCANDINAVICA1.25730CHEMICO-BIOLOGICALINTERACTIONS1.19731INFLAMMATIONRESEARCH1.14132CHEMICAL&PHARMACEUTICALBULLETIN1.13533USPEKHIKHIMII1.09934CANADIANJOURNALOFCHEMISTRY-REVUECANADIENNEDECHIMIE1.09235CHIMIA1.05836ISRAELJOURNALOFCHEMISTRY1.02237ULTRASONICSSONOCHEMISTRY1.00038SOLVENTEXTRACTIONANDIONEXCHANGE0.98439MAGNETICRESONANCEINCHEMISTRY0.97040RESEARCHONCHEMICALINTERMEDIATES0.94141JOURNALOFCHEMICALANDENGINEERINGDATA0.91742JOURNALOFPHYSICSANDCHEMISTRYOFSOLIDS0.90943JOURNALOFCHEMICALTECHNOLOGYANDBIOTECHNOLOGY0.84444ADVANCEDMATERIALSFOROPTICSANDELECTRONICS0.83745JOURNALOFMOLECULARMODELING0.80946AUSTRALIANJOURNALOFCHEMISTRY0.80247CHEMIEINUNSERERZEIT0.79248MENDELEEVCOMMUNICATIONS0.78149CROATICACHEMICAACTA0.69750SEPARATIONSCIENCEANDTECHNOLOGY0.69551JOURNALOFMATHEMATICALCHEMISTRY0.69452JOURNALOFCHEMICALRESEARCH-S0.68753JOURNALOFINCLUSIONPHENOMENAANDMOLECULARRECOGNITIONINCHEMISTRY0.68554ACSSYMPOSIUMSERIES0.67755ANALESDEQUIMICA-INTERNATIONALEDITION0.63156CONCEPTSINMAGNETICRESONANCE0.60957ARCHIVDERPHARMAZIE0.58458HETEROATOMCHEMISTRY0.57759ARZNEIMITTEL-FORSCHUNG-DRUGRESEARCH0.56860MONATSHEFTEFURCHEMIE0.56361COLLECTIONOFCZECHOSLOVAKCHEMICALCOMMUNICATIONS0.54662JOURNALOFCHEMICALEDUCATION0.54663POLISHJOURNALOFCHEMISTRY0.50864DRUGANDCHEMICALTOXICOLOGY0.50065CHEMISTRYINBRITAIN0.48066SCIENCEINCHINASERIESB-CHEMISTRY0.47967JOURNALOFTHEBRAZILIANCHEMICALSOCIETY0.47268STRUCTURALCHEMISTRY0.47169MAINGROUPCHEMISTRY0.46770BULLETINOFTHEKOREANCHEMICALSOCIETY0.45171JOURNALOFTHECHINE
SECHEMICALSOCIETY0.45172JOURNALFURPRAKTISCHECHEMIE-CHEMIKER-ZEITUNG0.43473PHARMAZIE0.41974RUSSIANCHEMICALBULLETIN0.40375ZHURNALOBSHCHEIKHIMII0.39276INDIANJOURNALOFCHEMISTRYSECTIONA-INORGANICBIO-INORGANICPHYSICALTHEO0.39177ACH-MODELSINCHEMISTRY0.37578PHARMACYWORLD&SCIENCE0.35179CHEMICALJOURNALOFCHINESEUNIVERSITIES-CHINESE0.33180KOREANJOURNALOFCHEMICALENGINEERING0.32281QUIMICANOVA0.32282MATCH-COMMUNICATIONSINMATHEMATICALANDINCOMPUTERCHEMISTRY0.31983PROCEEDINGSOFTHEINDIANACADEMYOFSCIENCES-CHEMICALSCIENCES0.29484MAGYARKEMIAIFOLYOIRAT
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精选杰狮车故障代码表中文版印刷 doc资料 精选 杰狮车 故障 码表 中文版 印刷 doc 资料
![提示](https://static.bingdoc.com/images/bang_tan.gif)