垃圾邮件过滤算法的研究与应用Word文件下载.doc
- 文档编号:4001672
- 上传时间:2023-05-02
- 格式:DOC
- 页数:41
- 大小:358.50KB
垃圾邮件过滤算法的研究与应用Word文件下载.doc
《垃圾邮件过滤算法的研究与应用Word文件下载.doc》由会员分享,可在线阅读,更多相关《垃圾邮件过滤算法的研究与应用Word文件下载.doc(41页珍藏版)》请在冰点文库上搜索。
ResearchandapplicationofSpamfilteringalgorithm
Abstract
TheadventofInternethasbroughttheemergenceofe-business,e-mailwithitsfast,convenientandlowcostcharacteristicwidespreadpopularizationandprosperity,hasbecomeanimportantchannelforinformationexchange,alsoanimportantwaytopeopleaccessingtoinformation.However,thesubsequentlotsofSpamoccupiedthelimitedstorage,computingandnetworkresources,eventhreateningthesystemsecurity.ProcessingofSpamcostserverprovidersandusersalotoftimeandmoney,affectsnormalusers’work,theirlifeandlearning.Spamhascausedmanyproblemsseriouslyinterferingwiththenormale-mailapplication,howtocontrolspamhasbecomeatopicofpressingconcerninmodernsociety,butalsopresentproblemstobesolvedontheInternet.Thereforeproposinganeffectivespamfilteringalgorithmanddesigningahighlyefficientspamfilteringsystemhasimportantpracticalsignificance.
Thispaperprovidesanoverviewofspam,andspamfilteringtechnology,thecurrentoverview.Secondly,onthebasisofsystematicstudyofthelatestspamfilteringachievementsinthefieldoftheanti-spamathomeandabroad,thispapersummarizesthestrengthsandweaknessesofvariousspamfilteringtechnology,anddrawgeneralspamfilteringstep.Spamfilteringisessentiallyatextclassificationproblem,andBayesianalgorithmisthemostpopulartextclassificationmethod,thusBayesianalgorithminspamfilteringfieldcanhavegoodapplication.ThentheBayesianalgorithmandthedomesticandforeignBayesianalgorithminspamfilteringsystemapplicationisstudiedandcomprehensiveanalysis,itsapplicationsinChinesespamfilteringsystem,andbasedonBayesianalgorithmwasdesignedtheChinesespamfilteringmodel.
Thenthisbasis,basedonSSHframework,suchasJQUERYandMYSQLdatabasedesignedanddevelopedbasedonBayesianalgorithmemailfilteringsystem.InordertoadapttoChinesemailprocessing,thesystemintroduceChineseparting-wordsmechanism.Basedonemailaddressesandcombiningtheblackandwhitelistfiltering,compensateformailmisjudgment,andimprovesthesystemfilteringefficiency,accuracyandspace-timebenefits.Meanwhile,blackandwhitelistfilteringallowstheusertomanuallyaddandimprovestheflexibilityofthesystem.Thewholeprocessistransparenttousers,andwillnotaffectthenormalnetworkuserbehavior.Aftertestingandsystemaccuracyisfor95%.
Spammanufacturingandspamfilteringitselfisapairofcontradictory,bothsidesintheunceasingdevelopment.Onthefunctionthereisnotperfectforeverofspamfilteringtechnology.So,intheendthepaperspamfilteringtechnologyresearchdirectioninthefuturewasprospected.
KeyWords:
Spam,filtering,filtering,blackandwhitelist,Bayesianalgorithm,theChinesewordsegmentation
第1章绪论
1.1研究背景
1.1.1垃圾邮件的产生
随着Internet的问世及发展带来了电子邮件业务的出现。
电子邮件以其快捷、方便、低成本的特点广泛普及和繁荣,方便了人们的生活,并逐渐取代了传统的通讯方式,成为了信息交流的重要渠道,也是人们信息获取的重要途径。
据估计,2003年全世界的电子邮件数量达到4420亿封。
2005年中国互联网络信息中心(CNNIC)发起中国互联网发展状况统计,据报告统计,91.3%的用户广泛使用电子信箱,电子信箱已经成为互联网的最热门的服务[1]。
然而,带来巨大便利的同时,电子邮件也被一些别有用心的人所利用。
1994年4月12日,一对居住在美国亚利桑那,专门承接移民事务的律师夫妇为用户提供申请“绿卡”的咨询。
刚开始,他们通过贴广告到新闻组来宣传业务,每封绿卡申请书100美元。
这个广告对大多数美国人来说是垃圾广告,没有起到什么作用。
为了扩展业务,他们雇拥了一个程序员用Perl写了一段脚本,将他们的移民顾问服务广告的电子邮件发送给大约6000个Usenet新闻组用户。
收到该邮件的用户对此表示了不满,有的甚至进行了投诉。
后来这对夫妇的账户被停止使用。
这一事件即为垃圾邮件的起源,被称为“绿卡”事件。
“绿卡”事件立刻引起了巨大的轰动,数千名的收信人在新闻组里,留言表达了他们的愤怒。
其中一个用户写了这样一句话:
“我恨不能用椰子壳和SPAM午餐肉罐头砸扁他们”。
后来,人们称这些没有经过网名许可便塞进信箱的各类垃圾信息为SPAM。
在大量垃圾邮件出现之前,美国有一位名为桑福德·
华莱士的人,成立了一间公司,专门为其他公司客户提供收费广告、传真服务,由于惹起接收者的反感,以及浪费纸张,于是美国立法禁止发送未经同意的传真、广告。
后来他就把广告转到电子邮件,垃圾邮件便顺理成章地出现。
潘多拉的魔盒就此被打开了,互联网也因此而改变。
从2000年开始,垃圾邮件向中国转移。
现在,世界深受垃圾邮件的折磨。
近年来,在未经用户许可的情况下,一些个体为了商业利益或政治目的等原因,利用电子邮件发送各种各样的广告、不良信息以及病毒等垃圾邮件,加剧了垃圾邮件的迅猛传播。
据统计2008年1月,发送到世界上最大的互联网服务提供商“美国在线”的邮件中,超过一半是垃圾邮件。
1.1.2垃圾邮件产生原因
垃圾邮件问题日益严重,产生垃圾邮件的原因可以归为7种。
1)利润的驱使
大量的垃圾邮件的发送能给发送者带来商业利益。
2)SMTP协议的缺陷
SMTP(SimpleMailTransferProtocol)是简单电子邮件传输协议。
但SMTP不提供安全的验证要求,可以传递任意参数,因此发送者可以假冒他人邮件和滥用他们的SMTP服务器。
而且目前没有一种可以彻底推翻原有的SMTP协议新的可以避免垃圾邮件产生和传播的协议[2]。
3)缺乏有效的制裁垃圾邮件发送的相关立法
目前,世界上大部分发达国家已确立的反垃圾邮件相关立法,也起到有一定的威慑作用,但大部分国家还未出台关于打击垃圾邮件发送者相关的法案法规。
与此同时,从互联网开放性来看,出台一部全球性标准化的反垃圾邮件法案能更好解决问题,但实现上存在一定的难度[3]。
4)非法的政治利益
一些非法的团体通过垃圾邮件来宣传他们的非法政治目的。
5)黑客的原因
一些黑客为了娱乐或者其他原因,编写一些程序(比如蠕虫和病毒)制造垃圾邮件。
这些病毒通过网络上漏洞攻击计算机。
一旦攻击成功,就可以得到硬盘上存在的邮件地址簿,按照获得的地址,向用户发送大量的病毒邮件,这些病毒邮件也是垃圾邮件主要来源之一。
6)成本与产出的巨大反差
随着带宽的普及、硬件性能的提高且成本降低,导致网络通信成本的下降,造成了自己架设邮件服务器或者利用群发邮件软件发送垃圾邮件的成本很低,甚至免费。
而且邮件地址的获得也是廉价的。
有很多各类邮箱地址自动收集软件,这些程序夜以继日的爬行,收集所有的网页上的邮件地址,并针对新闻组和BBS邮箱收集软件,可以获得海量的邮件地址。
邮件地址提供者贩卖这些地址,国内最低的价格为20元/1.6亿个,最高的为88元/10万个,其间相差竟高达7040倍。
7)意识的原因
除了社会对于反垃圾邮件的意识、对垃圾邮件问题的关注度还不够外,邮件用户缺乏对垃圾邮件的主动防范意识,不积极参与反垃圾邮件,对垃圾邮件的认识也存在很多误区。
由于投诉机制的匮乏,大多数电子邮件用户对垃圾邮件采取置之不理、就地删除的方式,这令不少垃圾邮件发送地址可以长期游弋于封杀视线之外。
8)合作机制尚未建立。
针对垃圾邮件,各国ISP、ICP等涉及电子邮件服务的公司机构大多还是单兵作战,相互之间缺乏沟通与合作,有时还发生误解。
这种状况不仅使得邮件发送者黑名单无法资源共享,而且分散的反垃圾邮件技术研发带来的标准差异也将给未来的合作带来一定的困难。
1.2国内外垃圾邮件现状
联合国贸易与发展会议(UNCTA)发表的2003年电子商务与发展报告中统计了世界垃圾邮件来源,美国是全球最大的垃圾邮件制造者。
全球垃圾邮件有一半来自美国,同时它也是最大的受害者,中国位列第二位,占到全部的5.6%。
主要是由于中国互联网飞速发展,相关的反垃圾邮件法律和有效的过滤技术还没普及,以至垃圾邮件泛滥。
这导致了曾出现国外集体封杀中国邮件服务器,把中国邮件服务器列入黑名单,拒绝接受来自中国的电子邮件,使得中国成为信息的“孤岛”。
这个惨痛的教训对中国来说,反垃圾邮件的重要性不言而喻,这个任务任重道远,需要全社会、政府、单位和个人共同努力。
排在后面的是英国、巴西和加拿大。
各占4-5%左右[4]。
在上海艾瑞市场咨询有限公司()受中国互联网协会委托,于2004年3月开始的为期一个月,主要通过iUserSurve的E-mail调研以及各大网站联机调研,第二次调查有关中国反垃圾邮件的项目中,有95%的邮箱用户收到过垃圾邮件,其中每周收到1-5封的比例达到31.2%,占较大比例。
中国邮箱用户平均每人每周收到垃圾邮件19.3封。
图1-1垃圾邮件的来源
根据中国互联网协会反垃圾邮件中心《2006年第四次反垃圾邮件调查报告》显示:
垃圾邮件每年给国民经济造成的经济损失约为104.315亿人民币;
大陆地区邮件运营商每年为过滤垃圾邮件的费用投入约为1.11亿人民币;
2006年10月到2006年12月期间中国互联网用户收到的邮件中,垃圾邮件比例为58.98%。
这表明垃圾邮件越来越影响到企业正常的业务,企业面临的邮件危害也不断加剧。
图1-2中国用户每周收到垃圾邮件的比例
2007年1月,CNNIC(中国互联网络信息中心)发布的《第十九次中国互联网发展状况统计报告》显示:
在网民对互联网最反感的方面,垃圾邮件排在第四位(前三位为网络病毒、网络入侵/攻击、弹出式广告/窗口),占7.8%。
而且现在更多的有关色情、政治的垃圾邮件不断增加,甚至达到了总垃圾邮件量的40%左右,并且仍然有持续增长的趋势。
据中国互联网报道:
最近几个月,全球垃圾邮件数量似乎终于停止了下降。
尽管1月份垃圾邮件发送总量仍低于上月,但是,1月初出现的上升现象似乎将成为垃圾邮件领域的永久标志。
赛门铁克公司(Symantec)预计垃圾邮件数量在2月份将首次出现逐月增加的趋势,这将是2010年8月以来的第一次。
与2010年12月份的81.69%相比,1月份垃圾邮件数量占邮件发送总量的79.55%。
可见垃圾邮件充斥着我们的生活,邮件过滤技术的研究刻不容缓。
1.3主要研究内容及意义
本文研究了大量的邮件过滤技术和算法,在全面系统学习、总结了国内外在发垃圾邮件领域的最新研究成果的基础上,深入细致地研究了反垃圾邮件算法,基于贝叶斯算法和黑白名单过滤技术设计了高效率的垃圾邮件过滤系统,实现了基于中文的垃圾邮件过滤,进行了测试。
论文的主要工作内容如下:
第一阶段,对垃圾邮件进行了分析和概述。
第二阶段,在全面系统地学习了国内外反垃圾邮件领域的最新成果的基础上,总结了各种垃圾邮件过滤技术的优点和不足,并得出一般的垃圾邮件过滤步骤。
第三阶段,主要研究垃圾邮件涉及到的技术,包括电子邮件相关技术及协议的分析、汉语自动分词技术及文本自动分类技术的研究。
研究汉语自动分词是为了解决中文邮件过滤问题。
第四阶段,在对垃圾邮件特征分析的基础上,获得邮件训练集和测试集,然后研究了目前已有的垃圾邮件过滤技术,主要分析过滤效果良好的贝叶斯算法。
第五阶段,结合贝叶斯算法与黑白名单过滤,开发基于SSH框架、JQUERY和MYSQL数据库等技术的中文邮件过滤系。
对系统进行分析、设计、实现、测试和应用。
最后对垃圾邮件过滤技术今后的研究方向进行了展望。
1.4论文结构
第三章国内外反垃圾邮件技术
第二章垃圾邮件概述
第一章绪论
第四章基础相关技术研究
本文总结
第五章贝叶斯算法与中文分词算法
第六章邮件系统需求分析
第七章邮件系统设计与实现
第八章垃圾邮件过滤结果分析
本文共分为八个章节,论文结构如图1-3所示:
图1-3论文结构
第2章相关理论技术研究
2.1垃圾邮件概述
垃圾邮件一般指的是未经用户允许就强行塞入用户邮箱的大量电子邮件。
对垃圾邮件世界上没有一个统一明确定义,存在多种定义。
2000年8月,中国电信制定了《垃圾邮件处理办法》,并将垃圾邮件定义为:
向未主动请求的用户发送的电子邮件广告、刊物或者其他资料;
并没有明确的退信方法、发信人、回信地址等的邮件;
利用中国电信的网络从事违法其他ISP的安全策略或者服务条款的行为;
其他预计会导致投诉的邮件。
2002年5月20日,中国教育和研究中国计算机网公布了《关于制止垃圾邮件的管理规定》,其中对垃圾邮件的定义为:
凡是未经用户请求强行发到用户信箱中的任何广告、宣传资料、病毒等内容的电子邮件,一般具有批量发送的特征。
2003年3月25日,中国互联网协会颁布《中国互联网协会反垃圾邮件规范》对垃圾邮件给出如下定义:
(1)收件人事先没有提出要求或者同意接受的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;
(2)收件人无法拒收的电子邮件;
(3)隐藏发件人身份、地址、标题等信息的电子邮件;
(4)含有虚假的信息源、发件人、路由等信息的电子邮件[5]。
《上海电信数据中心反垃圾邮件条例》将垃圾邮件定义为:
是指与内容无关,而且收件人并没有明确要求接受该邮件或者信件主题不相关的新闻组、发送给多个收件人的信笺、张贴物。
不过,垃圾邮件的判定和邮件的接受者也有很大关系,不同用户对同一封邮件的判断结果可能会存在很大的差异。
垃圾邮件可以分为良性和恶性的。
良性垃圾邮件是各种宣传广告等对收件人影响不大的信息邮件。
恶性垃圾邮件是指具有破坏性的电子邮件。
(1)垃圾邮件的类型
垃圾邮件根据其产生的原因可以分为6种类型。
1)以商业盈利为主的垃圾邮件,其主要内容多为产品广告、商业促销信息等。
2)以宣传为主的垃圾邮件,邮件内容多式多样、形形色色的带有某种政治倾向和宗教色彩的“灰色”信息。
3)以色情为主的黄色邮件。
图2-1用户认为属于垃圾邮件的邮件种类
4)以传播病毒为目的的垃圾邮件。
5)恶意邮件,恐吓、欺骗性邮件。
6)电子杂志。
在2004年,中国互联网协会调研中,“含有色情、暴力等不良信息的邮件”、“含有反动信息的邮件”、“使用虚假的发件人信息的邮件”三种邮件类型分列2-4位,说明用户对此类邮件的深恶痛绝。
臭名昭著的“尼日利亚信件”就属于欺骗性邮件。
2003年7,8月间,不少人都收到这样的邮件:
发信人自称是尼日利亚的“高级政府官员”或国企职工。
他盗窃了数以百万美元计的外国资助金或联合国资助金。
为了洗“黑钱”,他需要一个外国的银行账户。
骗子承诺只要有人愿意提供银行账户信息,让他把贪赃所得存入其中,日后就可以分得赃款的一至三成。
而受害人一旦透露账户信息,账上的所有存款将不翼而飞。
(2)垃圾邮件的危害评估
垃圾邮件除了骚扰网络用户外,还给企业带来了巨大的损失。
联合国贸发会议援引MessageLabs的数据说,垃圾邮件给全球企业带来的损失高达205亿美元。
垃圾邮件危害可通过两个方面来评估。
a.经济损失评估
美国信息技术及信息产业领先全球,但也是垃圾邮件最大的集散地。
包括议员在内的每个因特网用户几乎都有被垃圾邮件骚扰的经历。
2002年,由于垃圾邮件造成了劳动生产率下降,美国企业损失高达90亿美元。
2002年3月6日,欧盟公布了《未经许可的商业信件和数据保护》评估报告。
报告称,不久的将来,几乎所有的电子商务业者每天都能方便轻松的发出1亿封电子邮件。
假设200家公司拥有此能力,即使如此,他们每天也能发出200亿封邮件。
这样平均下来,全球每个互联网使用者平均每天能收到60封垃圾邮件,需要1个小时才能全部打开。
这还不包括有的公司发送的多媒体邮件,它的打开时间还会更长。
如果每个月10个小时上网时间,费用为11美元,平均下载速度每分钟180k的话,调查者估计每天下载15个邮件每年将花费28美元。
全球算下来,这笔费用将达到每年94亿美元[3]。
2004年7月9日,来自60个国家和地区的200多名代表参加了日内瓦国际电信联盟专家会议。
会议估计,目前约80%的电子邮件是垃圾邮件。
网络垃圾邮件每年给世界经济造成的损失高达250亿美元[3]。
b.社会危害评估
社会危害主要表现于对人们的工作、收益、生活、娱乐和精神境界的危害。
1、破坏设备系统。
垃圾邮件往往携带病毒、蠕虫等危险程序,对电脑硬件和系统造成威胁。
2、降低电子邮箱的工作效率。
大量的垃圾邮件造成邮箱堵塞,引起电脑网络速度的大幅度下降。
3、浪费用户的时间。
假设每天收到二十份垃圾邮件,就得花用户10分钟来处理这些垃圾邮件。
4、影响与客户的正常业务联系,造成间接经济损失。
5、扩大费用和成本。
对通信机构来说,大量的垃圾邮件使它们必须大幅度提高计算机性能以维持邮件服务器的正常运行,加大投资成本,必然从用户那么收获相应的回报。
6、对有用电子邮件的抵消。
如手机能够储存的邮件数量有限,超过限度后,旧邮件就会自动消失,大量垃圾邮件会使有用的电子邮件很快化为乌有。
7、影响接受人的身心健康。
政治、传销、色情等性质的垃圾邮件谣言惑众,骗人钱财,对收件人造成很大的危害。
据调查,韩国网民收到的电子邮件中,约有80%是垃圾邮件,其中内容不健康的邮件占63%。
此外,手机在日本中小学生中已呈普及趋势,一些通过手机发送的色情邮件严重影响少年儿童的身心健康。
8、对人权的挑战。
垃圾邮件中有很大部分为色情网站做广告,对用户造成了侵犯.有的垃圾邮件盗用他们邮件地址做发信地址,损害他人信誉。
9、动摇了人们对互联网的信心。
垃圾邮件不仅阻碍了信息业的发展,损害了人们对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 垃圾邮件 过滤 算法 研究 应用