基于物理化学性质的葡萄酒质量的可视化评价研究.pdf
- 文档编号:3433168
- 上传时间:2023-05-05
- 格式:PDF
- 页数:5
- 大小:808.19KB
基于物理化学性质的葡萄酒质量的可视化评价研究.pdf
《基于物理化学性质的葡萄酒质量的可视化评价研究.pdf》由会员分享,可在线阅读,更多相关《基于物理化学性质的葡萄酒质量的可视化评价研究.pdf(5页珍藏版)》请在冰点文库上搜索。
第34卷第2期燕山大学学报Vol.34No.22010年3月JournalofYanshanUniversityMar.20100引言葡萄酒是一种成分复杂的酒精饮料,不同产地、年份和品种的葡萄酒成分不同。
成分与葡萄酒的质量关系密切,是划分葡萄酒等级的重要依据。
国内外普遍的是采用近红外光谱1和三维荧光光谱2等技术,它的缺点是需要复杂的化学计量学知识,而且解释困难1。
而通过测量葡萄酒的物理化学性质进而评估其质量,应该是最有效的方法。
理化实验室常规检验包括葡萄酒的密度,酒精或pH值,而质量评价主要依靠专家的感官。
应该强调指出味道是最难理解的一种感官,因此葡萄酒质量分类是一项艰巨的任务。
此外理化性质和感官分析之间的关系很复杂,现在也不能完全理解。
信息技术的进展使得搜集、存储和处理数据成为可能。
数据挖掘、神经网络、模式识别、机器学习等技术都能在葡萄酒分类中应用。
复杂的模型容易过拟合导致泛化能力减弱,模型太简单导致学习能力有限。
神经网络、支持向量机两种方法均有参数可以调整,能获得令人满意的效果。
采用了1599个红葡萄酒样本和4898个白葡萄酒样本用于口味质量评价3。
提出了多元数据图表示来可视化分类葡萄酒的新方法。
实验结果证明图表示方法不仅分类效果好,而且具有可视化的特点。
葡萄酒数据来自于UCI数据库。
1葡萄酒数据的可视化质量评价1.1葡萄酒数据葡萄酒数据包括1599个的红葡萄酒样本和4898个的白葡萄酒样本,输入变量包括客观的测试(如pH值),输出变量基于感觉数据(葡萄酒专家提出的至少3个评价的均值)。
每位专家的葡萄酒质量分级介于0(极坏的)和10(非常优秀)。
极好的和极差的葡萄酒的样本都是少数,评价为中间的葡萄酒样本最多。
神经网络、支持向量机和图表示分类方法用于建模数据,分类准则为正确率。
根据理化测试得到的输入变量包括11个,分别是固定酸度(酒石酸),g/L,挥发酸(乙酸),g/L,柠檬酸,g/L,残糖,g/L,氯(氯化钠),g/L,游离二氧化硫,mg/L,总二氧化硫,mg/L,密度,g/mL,pH值,硫酸盐(硫酸钾),g/L,酒精度。
基于感觉数据的输出变量是葡萄酒质量,评分为0至10。
红葡萄酒6类,分别评价为3至8;白葡文章编号:
基于物理化学性质的葡萄酒质量的可视化评价研究王金甲1,2,尹涛2,李静1,3,洪文学1,*,马崇霄4(1.燕山大学电气工程学院,河北秦皇岛066004;2.燕山大学信息科学与工程学院,河北秦皇岛066004;3.燕山大学理学院,河北秦皇岛066004;4.河北科技师范学院机电工程学院,河北昌黎066000)摘要:
提出了一种可视化的方法评价葡萄酒质量。
葡萄酒数据来自于认证阶段的物理化学分析测试,其中输入变量是11个,输出变量是葡萄酒质量,共得到1599个的红葡萄酒样本和4898个的白葡萄酒样本。
结果表明该方法的效果优于传统的神经网络和支持向量机方法,并且具有可视化的优点。
这对于改进酿酒品酒评价和葡萄酒生产都有重要意义,并且对根据消费者口味细分目标市场也很有帮助。
关键词:
评价;可视化;支持向量机;神经网络;多元数据图表示中图分类号:
文献标识码:
收稿日期:
2009-12-18基金项目:
国家自然科学基金资助项目(60405035,60904100)作者简介:
王金甲(1978-),男,河南商丘人,博士研究生,副教授,主要研究方向为信号处理和模式识别;*通信作者:
洪文学(1953-),男,黑龙江依安人,教授,博士生导师,主要研究方向为信息融合、可视化模式识别和中医工程学,Email:
。
134燕山大学学报2010萄酒7类,分别评价为3至9。
1.2质量评估方法神经网络采用常见的BP神经网络方法4,它包括输入层,中间层和输出层,其中输入层的维数等于变量个数即11,中间层可调,输出层的维数等于类别数即红葡萄酒6类(评价为3至8)和白葡萄酒7类(评价为3至9)。
网络参数的初始值采用随机初始化,选择20次中效果最好的那次初始值。
训练方法采用Matlab的lm算法,它速度快效果好。
迭代次数设为1万次,误差设为1106。
支持向量机5(supportvectormachines,SVM)是Vapnik基于VC维理论和结构风险最小化提出的目前比较优秀的分类方法。
SVM相对于传统分类方法的主要优点是SVM的解总是全局最优的,并且避免训练过程的局部最小值和过拟合问题。
SVM基本思想是首先将输入矢量通过核函数映射到高维空间,然后寻找线性的最优分类面。
它分为线性SVM,广义线性SVM和非线性SVM三种基本形式。
SVM的核心问题是惩罚因子和核函数参数。
惩罚因子控制最大间隔和最小训练错误率之间的平衡,用于核空间上非线性可分的数据。
常用的核函数包括线性核、多项式核、径向基函数核、sig-moid核等,核函数中的核函数参数应该正确设置。
实验证明径向基核函数的分类结果较优,实验时只选择它。
训练时,必须给出超参数惩罚因子和径向基函数核函数参数。
1.3图表示可视化分类方法星点图(starplot)又称雷达图或蜘蛛图,是目前应用最广泛的对多元数据进行作图的方法6。
由于星点图是将正交坐标轴重新安排为非正交的坐标轴,即相交于圆心的径向坐标轴,因此可以在二维平面上同时显示多维数据。
从星点图的图表示可以看出,特征排序很重要外,相邻维之间的角度的作用也重要。
星点图之所以能可视化,就是因为星点图要求所有相邻维之间的角度的总和等于2。
多维数据进行多元图表示存在一个问题:
多维数据不同排列顺序对多元图表达的非唯一性。
即对同一个多维数据,一种特征排序会产生一种多元图,不同的特征排序会产生不同的多元图。
不同的多元图会产生不同的图形特征,不同的图形特征分类性能必然有差别。
因此固定某种特征排序,再研究多元数据图表示问题更有意义。
基于多元图的升维变换和特征选取思想7-8如下:
一个特征矢量在某种固定特征排序下只对应一个星点图(或其它多元图)和它对应的图形特征,那么一个特征矢量在所有特征排序下对应的星点图(或其它多元图)的图形特征就十分丰富,将其和原始特征组合并从中选择出部分特征,可以猜测选取特征分类性能较好。
多维数据用图来表示,可能会形成有利于视觉上分类或聚类的很有特色的图形特征。
这与传统的三大特征(物理特征、结构特征和数学特征)相对应。
重心是星点图多边形提供的一种图形特征。
从几何角度看,一个样本的星点图中的每一个三角形都产生一个重心。
从几何上讲三角形三条中线相交于一点,这个交点叫做三角形的重心,而且三角形的重心与顶点的距离等于它与对边中点的距离的2倍。
当然也可以利用三角形的重心坐标是3个顶点坐标的平均值的性质,计算的结果是一样的。
可以把三角形重心称为重心图形特征(维数与原始特征维数一样)。
星点图的重心图形特征提取方法如下=,+1=2+2+1+2+1cos3,
(1)其中,=2,=1,2,,和+1表示归一化特征样本的第维变量和第+1维变量的值,一般由预处理计算得到;弧度=2为第维变量和第+1维变量间的夹角弧度。
因此一个维特征的样本就会产生一个对应的维图形特征的样本。
例如对有3类150样本4维特征的Iris数据集,因为每个样本有4维特征,图形特征由相邻变量产生且变量首尾相连,所以每个样本产生4个图形特征,最终形成了1504个图形特征。
那么Iris数据集的图形特征就是1504的矩阵。
这和原始数据的矩阵行列一样。
这样特征排序影响重心图形特征的问题就能够解决,它转化为一个特征选择问题,即将一组维数据按照重心图形特征提取式
(1)升维到+32维的空间,然后从+32维的高维空间中选择出第2期王金甲等基于物理化学性质的葡萄酒质量的可视化评价研究135维特征,并希望这维特征具有最好的类别鉴别能力。
这个过程可用传统的特征选择方法来实现,比如filter、wrapper和embedded特征选择方法,或者基于全局搜索算法(如遗传算法、粒子群优化算法和微分进化算法)的特征选择方法等等。
可以想象寻优选择的维特征的分类性能较好。
很可能寻优选择的维特征不是一个星点图产生的鉴别重心图形特征,而是很多个星点图产生的一部分重心图形特征的组合。
分类器选择最简单的线性判别分析(lineardis-criminateanalysis,LDA),LDA分类器产生的判别函数和决策面边界都是线性的,这就是称之为线性判别分析的原因。
由于LDA需要估计的参数少,而且没有超参数,它广泛用于分类中并取得了很好的效果。
此时测试样本被分类到具有最大后验概率的类别中,即误分类的概率最小。
应用贝叶斯理论,这个规则表述如下:
如果,所有的,那么指定属于类。
这里是类概率密度函数,是类的先验概率。
一般是未知的,需要从训练样本中估计。
LDA假定数据分布是多元正态分布,并且各类都有同样的协方差矩阵。
1.4排序分类器上述3种分类方法,都可以修改为回归方法。
那么第个样本得到的结果就是一个回归值,一般这个回归值和那个类别标签距离近,第个样本就属于哪个类别。
提出一种新的方法如下:
对于第个样本,利用分类方法得到一个类别标签,利用回归方法得到一个排序的预测值,如果和的绝对值小于阈值1,那么样本属于类;否则样本属于距离预测值最近的类。
例如,第个样本的分类标签=5,排序的预测值=5.2,那么第个样本属于类别5;第个样本的分类标签=5,排序的预测值=6.2,那么第个样本属于类别6。
2仿真实例红葡萄酒11个理化性质可视化平行坐标图如图1所示。
红葡萄酒的主成分可视化图如图2所示,其中3,4,5,6,7,8分别表示第3类到第8类。
从图1看出这几类数据的在很多理化性质上几乎相同,只有第6个变量游离二氧化硫和第7个变量总二氧化硫不同,这说明这两个理化性质大大影响口味。
从输入变量分析,第10个变量硫酸盐的增加可能与发酵营养有关,在改善酒的香味上这是非常重要的;第11个变量酒精度的增加倾向于导致更好的质量评价;第2个变量挥发酸有负面影响。
从主成分可视化图2上看出各类大大混叠在一起。
从图1和图2可看出葡萄酒质量评价是个非常困难的分类任务。
图1红葡萄酒数据的可视化平行坐标图Fig.1Visualdiagramofparallelcoordplotofredwine136燕山大学学报2010为了确保分类性能公平比较,并避免训练集和测试集的依赖,指标分类器错误率的估计采用10交叉验证(10-foldcrossvalidation,10CV),取20次独立实验的平均结果。
即红、白葡萄酒数据各进行了1020=200次实验。
整个系统采用MATLAB软件编程实现设计思想。
实验结果如表1所示。
表1葡萄酒质量评价结果Tab.1Tableofevaluationresultsofwinequality质量评估方法平均错误率(方差)红葡萄酒白葡萄酒神经网络60.0(0.3)53.6(0.2)支持向量机64.3(0.2)60.7(0.3)图表示可视化分类69.1(0.2)65.6(0.2)排序分类器88.4(0.2)86.8(0.2)从表1中可以看出,提出的排序分类器获得了最好的分类结果。
白葡萄酒数据的分类难度大于红葡萄酒;支持向量机的分类效果优于神经网络。
红葡萄酒的神经网络、支持向量机和图表示可视化分类方法的耗时分别为1682s,11167s和1238s;白葡萄酒的神经网络、支持向量机和图表示可视化分类方法的耗时分别为2658s,609487s和2491s。
提出的图表示分类器无论效率和效果都优于支持向量机和神经网络。
3结束语目前的质量评估方法基于专家的经验和知识,偏于主观。
提出的方法是基于客观数据驱动的,可考虑集成到一个决策支持系统中。
只有在专家的质量评价大大偏离系统预测值时,可再度品尝评价。
一旦挖掘出某些变量和质量评价的关系,就能够在葡萄酒生产阶段对某些变量加以控制以使口味更好。
参考文献1于海燕.黄酒品质和酒龄的近红外光谱分析方法研究D.杭州:
浙江大学,2007:
1-15.2尹春丽,丁春晖.昌黎原产地干红葡萄酒的三维荧光光谱特征研究J.分析测试学报,2008,27(6):
641-643.3CortezP,CerdeiraA,AlmeidaF,etal.ModelingwinepreferencesbydataminingfromphysicochemicalpropertiesJ.DecisionSup-portSystems,2009,47(4):
547-553.4闫滨,高真伟,强丽峰.基于LM算法的BP神经网络在大坝安全监控预报中的应用J.沈阳农业大学学报,2009,40(4):
506-509.5张学工.关于统计学习理论与支持向量机J.自动化学报,2000
(1):
32-426洪文学,李昕,徐永红,等.基于多元统计图表示原理的信息融合和模式识别技术M.北京:
国防工业出版社,2008:
50-70.7王金甲,洪文学.二次映射和遗传算法用于鉴别可视化特征提取J.系统仿真学报,2009,21(16):
5080-5083。
8王金甲,洪文学.雷达图图形特征提取中的特征排序J.燕山大学学报,2008,32(5):
421-428图2红葡萄酒数据的主成分可视化图示Fig.2Visualdiagramofprincipalcomponentofredwine第2期王金甲等基于物理化学性质的葡萄酒质量的可视化评价研究137VisualevaluationofwinequalityfromphysicochemicalpropertiesWANGJin-jia1,2,YINTao2,LIJing1,3,HONGWen-xue1,MAChong-xiao4(1.CollegeofElectricalEngineering,YanshanUniversity,Qinhuangdao,Hebei066004,China;2.CollegeofInformationScienceandEngineer,YanshanUniversity,Qinhuangdao,Hebei066004,China;3.CollegeofSciences,YanshanUniversity,Qinhuangdao,Hebei066004,China;4.CollegeofMechanicalandElectricalEngineering,HebeiNormalUniversityofScienceandTechnology,Changli,Hebei066000,China)Abstract:
Avisualizationmethodofevaluationofwinequalityisproposed.Thewinedataarefromthecertificationphaseofthephysicochemicalanalysistest.Thedataincludethe11inputvariables,anoutputvariablewhichisthequalityofwine.Thedatainclude1599samplesofredwineand4898samplesofwhitewine.Theresultprovesthatthevisualizationmethodworksbetterthanthetraditionalneuralnetworksandsupportvectormachinemethod,andhasvisualadvantages.Suchmodelisusefultosupporttheoenologistwinetastingevaluationsandimprovewineproduction.Furthermore,similartechniquescanhelpintargetmarketingbymodelingconsumertastesfromnichemarkets.Keywords:
evaluation;visualization;supportvectormachines;neuralnetworks;graphicalrepresentationofthemultivariatedata(上接第122页)4DuinRPW,PekalskaE,PaclikP,etal.Thedissimilarityre-presentation,abasisfordomainbasedpatternrecognitionC/GoldfarbL.Patternrepresentationandthefutureofpatternrecog-nition,Cambridge,UK,2004:
43-56.5DuinRPW,RoliF,RidderD.AnoteoncoreresearchissuesforstatisticalpatternrecognitionJ.PatternRecognitionLetters,2002,23(4):
493-499.6EkalskaEP,DuinRPW.Thedissimilarityrepresentationforpatternrecognition.foundationsandapplicationsM.Singapore:
WorldScientific,2005.7GoldfarbL,GayD.Whatisastructuralrepresentation?
Fifthvari-ationR.Fredericton,Canada:
UniversityofNewBrunswick,2005.8GoldfarbL.Onthefoundationsofintelligentprocesses-I.AnevolvingmodelforpatternrecognitionJ.PatternRecognition,1990,23(6):
595-616.9GoldfarbL,GolubitskyO.Whatisastructuralmeasurementpro-cess?
RUniversityofNewBrunswick,Fredericton,Canada,2001.10YanSC,XuD,YangQ,etal.DiscriminantanalysiswithtensorrepresentationC/Proceedingsofthe2005IEEEComputerSo-cietyConferenceonComputerVisionandPatternRecognition(CVPR05),2005:
526-532.11HeXF,CaiD,NiyogiP.TensorsubspaceanalysisC/NinethAnnualConferenceonNeuralInformationProcessingSystems,2005.12DoranC,LasenbyA.GeometricalgebraforphysicistsM.Cambridge:
CambridgeUniversityPress,2003.13DorstL,DoranC,LasenbyJ.ApplicationsofGeometricalAlgebrainComputerScienceandEngineeringM.Cambridge:
BirkhauserBoston,2002.Geometricalgebramulti-vectorrepresentationmethodofpatternfeaturesXUYong-hong,HONGWen-xue,GAOZhi(CollegeofElectricalEngineering,YanshanUniversity,Qinhuangdao,Hebei066004,China)Abstract:
Patternrepresentationisabasicproblemofpatternrecognition.Intraditionalstatisticalpatternrecognitiontheory,patternfeaturesareusuallyrepresentedasanumericvectorandcanbeconsideredasapointinandimensionalEuclideanspace.Thisre-presentationmodelusesonlyoneorderfeatures,ispronetolosetheinterrelationofmultiplefeaturesandhigherorderstructure.Firstlytheaxiomdefinitionofgeometricalgebraandsomebasicconceptsisintroduced,thenthetraditionalpatternvectorrepres-entationisgeneralizedtothemulti-vectorrepresentationingeometricalgebraspace.Twospecialcasesofthisrepresentationarediscussed.Thebasicframeworkofpatternrecognitionbasedonthemulti-vectorrepresentationispresented.Inconclusion,theprospectofgeometricalgebraapplyingtovisualpatternrecognitionandworktodointhefutureareoutlined.Keywords:
patternrecognition;patternrepresentation;geometricalgebra;multi-vector
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 物理化学 性质 葡萄酒 质量 可视化 评价 研究
![提示](https://static.bingdoc.com/images/bang_tan.gif)