搜索的研究.docx
- 文档编号:4384517
- 上传时间:2023-05-07
- 格式:DOCX
- 页数:16
- 大小:56.42KB
搜索的研究.docx
《搜索的研究.docx》由会员分享,可在线阅读,更多相关《搜索的研究.docx(16页珍藏版)》请在冰点文库上搜索。
搜索的研究
搜
索
的
研
究
制作人:
黄杨颖
高一二班
2012年10月4日
一、搜索引擎的历史与发展
搜索引擎经历了10年的发展历史,随着互联网的发展,搜索引擎被越来越多的人熟知和运用,实际上,搜索引擎的出现是个必然,随着网络信息的爆炸式增长,平均每天都会有将近30几万的新的页面出现,必然会给人带来一种茫茫大海的感觉,网络传播的速度大大超出了人们的想象,互联网行业的一夜暴富将不再是梦想…。
在互联网上,人们除了看新闻,听音乐之外,用途最广泛的就是搜索引擎的应用了,人们通过输入自己感兴趣的关键词来获取网络上的信息,就像传统意义上的图书馆标签一样,不同的是当信息的总量还不是很大的时候,我们还可以通过人工的方式进行编辑和排序,实际上最先开始的搜索引擎就是人为编辑整理的一个系统。
读者明白,这肯定已经不能再适应现在的情况了,几乎所有的搜索引擎都是计算机程序提供的自动分类和整理。
在互联网上,人们获取信息的途径很多,我们可以在地址栏输入一个网址,也可以登录像搜狐,雅虎,新浪这样的门户网站来获取信息,但他们的局限性很大,不能在很大程度上整合互联网的信息,而搜索引擎的出现恰恰满足了大家当时的需求,用户只需要简单的输入几个词就可以查看到自己想要的结果了。
搜索引擎的发展经历了三个重要的历史时期:
1.最开始出现的搜索引擎只是检索FTP上边的文件
2.随后的搜索引擎开始收录网络地址
3.搜索引擎开始收录标题
4.目前的搜索引擎,已经开始抓取网页全文了。
在最先开始的搜索引擎中,是主要依靠标题和网络地址来判断这个网页的内容的,这么做可能会导致一个很严重的问题,就是被抓取的网页内容跟来源和标题不同,检索全文的目的就是为了保证搜索引擎检索到网页的标题与网页全文内容一致。
在很多文献资料当中,都有关于搜索引擎跟目录的介绍,为什么要重点介绍这两个呢?
?
这是因为,在很多人的眼里,他们会把一个目录当做是一个搜索引擎,同样可以通过目录上列出的网站来找到自己想要的信息,这跟搜索引擎的效果是一样的,实际上,他们有很大的不同,一个类似于目录的网站(例如雅虎目录.hao123目录)仅仅是很小一部分网页的集合,并且是人工编辑的网站分类,在搜索的网站不是很多的情况下的确可以满足人们的需要,但如果要使用大规模的搜索技术的话,目录还是不能满足的,搜索引擎收录了在互联网上绝大多数的页面,但缺点是无法保证网页内容的质量,而通过目录收录的网站大多权重都比较好,个有个的好处,他们最大的区别在于一个是人工编辑的,一个是计算机程序自动获取的。
在搜索引擎的发展历史上,我们不得不提到的一个概念是——元搜索引擎。
元搜索引擎的概念是整合第三方搜索引擎结果的搜索引擎,它提供了在不同搜索引擎的结果供用户去选择,实际上我们谈论的搜索引擎主要是下面的三种搜索引擎:
全文检索搜索引擎——XX,谷歌,雅虎
目录搜索引擎——雅虎目录,hao123
元搜索引擎——整合第三方搜索结果的搜索引擎
从这些搜索引擎的发展上,我们看到了搜索引擎已经越来越多的成为了人们查询信息的主要工具,也许搜索引擎会随着技术的进步慢慢的消失,但搜索,却会是人们恒久不变的一个需求。
二、搜索引擎的分类及其工作原理
搜索引擎分类
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(FullTextSearchEngine)、目录索引类搜索引擎(SearchIndexDirectory)和元搜索引擎(MetaSearchEngine)。
■全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、FastAllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有XX(Baidu)。
它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
■目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。
用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。
目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。
其他著名的还有OpenDirectoryProject(DMOZ)、LookSmart、About等。
国内的搜狐、新浪、网易搜索也都属于这一类。
■元搜索引擎(METASearchEngine)
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。
著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。
在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo
除上述三大类引擎外,还有以下几种非主流形式:
1、集合式搜索引擎:
如HotBot在2002年底推出的引擎。
该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
2、门户搜索引擎:
如AOLSearch、MSNSearch等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
3、免费链接列表(FreeForAllLinks,简称FFA):
这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
搜索引擎分类
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(FullTextSearchEngine)、目录索引类搜索引擎(SearchIndexDirectory)和元搜索引擎(MetaSearchEngine)。
■全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、FastAllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有XX(Baidu)。
它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
■目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。
用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。
目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。
其他著名的还有OpenDirectoryProject(DMOZ)、LookSmart、About等。
国内的搜狐、新浪、网易搜索也都属于这一类。
■元搜索引擎(METASearchEngine)
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。
著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。
在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo
除上述三大类引擎外,还有以下几种非主流形式:
1、集合式搜索引擎:
如HotBot在2002年底推出的引擎。
该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
2、门户搜索引擎:
如AOLSearch、MSNSearch等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
3、免费链接列表(FreeForAllLinks,简称FFA):
这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
三、常用搜索技巧
网站运营过程中,我们有必要随时掌握自己网站被搜索收录情况,同时还应该了解自己的竞争对手网站在搜索引擎中的表现情况,有利于自己网站调整战略方向,做到“知己知彼、百战百胜”。
下面说说常用到的搜索引擎比如Baidu、Google、Yahoo还有Sougou等的一些常用搜索指令。
查询总收录页面site:
(适合所有搜索引擎,“site:
”和站点名之间不要带空格。
)查询反向链接页面Baidu使用:
domain:
或+:
Baidu和Google都可以使用link:
(随机抽取的部分数据)查询所有包含目标网址的页面(双引号命令)Baidu使用:
""Google使用:
+:
或者""寻找某网页的“类似网页”Google使用:
related:
查询某一时期收录情况Baidu使用:
在高级搜索里主要作以下设(其他默认即可)1)时间:
可选最近一天、一周、一月等2)站内搜索:
输入目标网站,如Google使用:
Baidu关键词使用指数查询输入目标关键词/字/词组,可查看该词在当天、当周、当月等周期的用户查询次数新网站、页面的提交Baidu使用:
要的提交)Google使用:
Yahoo使用:
Sogou使用:
如何举报作弊网站Baidu使用:
Google使用:
Yahoo使用:
Sogou使用:
发信到sogou-antispam@(申请解除处罚也请发信到这个邮箱)googlePR值查询1)在线查询:
2)安装google工具条:
(注:
安装过程中选中显示PageRank功能)
四、搜索引擎的评价标准
在搜索引擎的发展初期,人们对它的要求较低,搜索引擎的方法是用几个关键词,测试对比它们的搜索速度,搜索数量和无关网站的多少。
简单的说就是全,快,准。
我们目前常用的评价标准进行分别介绍。
第一,搜索引擎的查全率。
既然是搜索引擎,当然搜索引擎的范围大小就应该是首要。
搜索搜索引擎是可以对特定的关键词进行优化的。
第二,搜索的速度。
如果搜索引擎索引的网页虽多,但是搜索一次要五六秒或更长,那么仍然没有优势可言。
速度的问题还是在与关键词。
单关键词搜索快的不一定多关键词快。
(不是原创。
。
。
)第三,查准率。
这个相当重要,搜到的东西即使又多又快,但你想要的结果不知道要翻多少页菜能找到,那么搜索结果几乎没有意义。
第四,死链接和网页的更新速度,普遍搜索引擎总会有些搜索结果是点不进去的,根据结果的百分比,也常被用作评测条件之一。
第五,用户负担。
首先是搜索界面,一个只有搜索框的纯粹搜索引擎界面跟一个带有广告和大量网页内容的门户相比,它们带给搜索负担是高下立判的。
其次是搜索结果描述,搜索结果网页的文字描是长短,网页文字描述采用索引带带关键词的部分还是索引网页开始几行还是索引网页的主要内容,等等,这些对于用户的搜索负担又很大的区别。
第六,重复信息返回的过滤。
返回结果应该尽可能不出现重复,类似的结果。
第七,搜索服务的系统稳定性。
五、搜索引擎比较
1、Altavista
Altavista是目前互联网上采集范围最广,数据库容量最大同时查询功能也最为强大的一个搜索引擎,它提供目录查询和关键词查询,关键词检索分为简单检索和高级检索,利用高级检索你可以完成极其复杂的查询,它支持常用的布尔运算符、嵌套、近似搜索等,另外你还可以对查找的范围、语种等进行限制,对查询结果还可进行多种翻译,还可根据用户的查询结果,自动生成一份关键词表,用户可以选择自己想要的关键词,从而提高查询的准确率。
2、Excite
Excite是一种能在大型数据库中进行快速概念检索的搜索引擎,支持目录检索和关键词检索,Excite在处理关键词时使用了智能概念提取技术,因此,在查询时,不仅能检索出直接包含关键词的网页,也能检索出那些虽然没包含你的关键词,但包含了与这些关键词相关的其它词汇的网页,在检索结果显示上,将给出三种结果:
专家选择的站点目录、结果网页和新闻报道,在高级检索中,你可以有各种检索选择,另外还提供了若干专题检索。
3、HotBot
HotBot最有特色的是它的强大的检索功能,你可以通过它的下拉菜单自己定义复杂的查询,在高级查询里面,除了提供词汇组配、语言、时间、结果数量、结果内容等限制条件选择框外,还提供了更多进一步限制和优化检索条件的选择框,利用它,你可以实现更精确的查询。
HotBot的一个重要特色就是不仅对词汇进行索引,还能对网络资源的多个特征进行索,引使你可准确地检索到特定的资源。
4、Infoseek
Infoseek提供对万维网站点、新闻报道、公司信息和新闻组的检索,支持目录检索和关键词检索,在使用关键词检索时你可以输入用自然语言表达的一段话来作为检索要求,在高级检索中,它提供了多个选择框供你输入各种检索限制或选项。
Infoseek的检索结果分为万维网站点主题目录和结果网页两部分,以方便用户查找信息的不同要求。
另外,Infoseek还提供了若干种形式来修改或优化检索,以提高检索的准确率。
5、Yahoo
Yahoo既有目录检索、关键词检索,也有专题检索,内容丰富。
在Yahoo的检索方式中,你可以选择在类目、网页、当前文件索引和最新新闻四个数据库中进行搜索,同时你还可以使用各种布尔操作符,在高级检索中,你可以定义各种智能搜索方式,以提高命中率,如果用户的关键词在Yahoo中检索不到结果,它不会自动将查询转交给Altavista,由它来为用户作进一步的查询。
内容
关键词
结果
2008年(目前)世界上营业额最高的5个公司以及中国营业额最高的5个公司是哪些?
2008,世界中国,公司,营业额,最高,5个。
XX:
1沃尔玛美国一般商品零售378,7992埃克森美孚美国炼油372,8243皇家壳牌石油荷兰炼油355,7824英国石油英国炼油291,4385丰田汽车日本汽车230,201单位百万美元1中国石油化工集团公司1227863222国家电网公司1010732543中国石油天然气集团公司1000677274中国工商银行股份有限公司390034005中国移动通信集团公司35790506单位万元
谷歌:
1沃尔玛美国一般商品零售378,799
2埃克森美孚美国炼油372,824
3皇家壳牌石油荷兰炼油355,782
4英国石油英国炼油291,438
5丰田汽车日本汽车230,201
单位百万美元
1中国石油化工集团公司122786322
2国家电网公司101073254
3中国石油天然气集团公司100067727
4中国工商银行股份有限公司39003400
5中国移动通信集团公司35790506
单位万元
搜狐:
1沃尔玛美国一般商品零售378,7992埃克森美孚美国炼油372,8243皇家壳牌石油荷兰炼油355,7824英国石油英国炼油291,4385丰田汽车日本汽车230,201单位百万美元
1中国石油化工集团公司1227863222国家电网公司1010732543中国石油天然气集团公司1000677274中国工商银行股份有限公司390034005中国移动通信集团公司35790506单位万元
三聚氰胺的分子结构。
三聚氰胺,分子结构
XX:
三聚氰胺(英文名Melamine),是一种三嗪类含氮杂环有机化合物,重要的氮杂环有机化工原料。
简称三胺,又叫2,4,6-三氨基-1,3,5-三嗪。
分子式是C3N3(NH2)3,N的含量为67%,非常高,所以三聚氰胺也常被不法商人用作食品添加剂,以提升食品检测中的蛋白质含量指标,因此三聚氰胺也被人称为“蛋白精”,一般蛋白质的含N量在30%左右。
目前较多采用尿素法生产三聚氰氨。
尿素以氨气为载体,硅胶为催化剂,在380-400℃温度下沸腾反应,先分解生成氰酸,并进一步缩合生成三聚氰胺。
6(NH2)2CO→C3H6N6+6NH3+3CO2
对于三聚氰胺形成肾结石的机理并不是很清楚,初步研究认为由于加工过程中的某些原因使得三聚氰胺中常常混有三聚氰酸,两者紧密结合形成不溶于水的网格结构。
[来源请求]摄入人体后由于胃酸的作用三聚氰胺和三聚氰酸相互解离并被分别通过小肠吸收进入血液循环并最终进入肾脏。
在肾细胞中两者再次结合沉积从而形成肾结石,堵塞肾小管,最终造成肾衰竭。
由于三聚氰胺结石微溶于水,对于成年人,由于经常喝水使得结石不容易形成。
但对于哺乳期的婴儿,由于喝水很少并且相比成年人肾脏狭小,
谷歌:
搜狐:
北大附中60年代初老照片(一张)。
北大附中,60年代初老照片
XX:
谷歌:
搜狐:
我国有多少种名字中包含“羊”的濒危动物,它们的保护等级分别是什么。
(提示:
要用网上数据库)
我国,多少,羊,濒危动物,保护等级
XX:
1国家一级保护动物别名长毛羊、塔尔羊分布西藏喜马拉雅山南坡我国是在1974年发现塔尔羊的。
体型粗壮,体长120-140厘米,肩高84-101厘米,雄性体重可达90千克。
整个头形狭长,雌雄具灰褐色的角,但雄羊角比雌羊角粗大,正面观两角呈倒“人”字形。
颌下无胡须,尾短而腹面裸露。
2盘羊【拉丁学名】:
Ovisammonammon【俗名】:
Argalis,大角羊英文名】:
MarcoPoloSheep【国家重点保护动物级别】:
二级【世界自然保护联盟(IUCN)】:
未定【特有种】:
【濒危等级】:
濒危3藏羚羊中文别名:
藏羚、长角羊拉丁文学名:
Pantholopshodgsoni英文名:
Tibetanantelope或Chiru异名:
Antelopehodgsonii
谷歌:
1
国家一级保护动物别名长毛羊、塔尔羊分布西藏喜马拉雅山南坡我国是在1974年发现塔尔羊的。
体型粗壮,体长120-140厘米,肩高84-101厘米,雄性体重可达90千克。
整个头形狭长,雌雄具灰褐色的角,但雄羊角比雌羊角粗大,正面观两角呈倒“人”字形。
颌下无胡须,尾短而腹面裸露。
2
盘羊
【拉丁学名】:
Ovisammonammon
【俗名】:
Argalis,大角羊
英文名】:
MarcoPoloSheep
【国家重点保护动物级别】:
二级
【世界自然保护联盟(IUCN)】:
未定
【特有种】:
【濒危等级】:
濒危
3
藏羚羊
中文别名:
藏羚、长角羊
拉丁文学名:
Pantholopshodgsoni
英文名:
Tibetanantelope或Chiru
搜狐:
1
国家一级保护动物别名长毛羊、塔尔羊分布西藏喜马拉雅山南坡我国是在1974年发现塔尔羊的。
体型粗壮,体长120-140厘米,肩高84-101厘米,雄性体重可达90千克。
整个头形狭长,雌雄具灰褐色的角,但雄羊角比雌羊角粗大,正面观两角呈倒“人”字形。
颌下无胡须,尾短而腹面裸露。
2
盘羊
【拉丁学名】:
Ovisammonammon
【俗名】:
Argalis,大角羊
英文名】:
MarcoPoloSheep
【国家重点保护动物级别】:
二级
【世界自然保护联盟(IUCN)】:
未定
【特有种】:
【濒危等级】:
濒危
3
藏羚羊
中文别名:
藏羚、长角羊
拉丁文学名:
Pantholopshodgsoni
英文名:
Tibetanantelope或Chiru
XX是最大的中文搜索引擎,XX搜索引擎由四部分组成:
蜘蛛程序、监控程序、索引数据库、检索程序。
XX有以下六个特点:
1、XX搜索分为新闻、网页、MP3、图片、FLASH和信息快递六大类。
2、繁体和简体都可以转换。
3、XX支持多种高级检索语法。
4、XX搜索引擎还提供相关检索。
5、是全球最大的中文搜索引擎 6、全球第二大搜索引擎,容易搜索到自己想要的信息。
适合查询文字信息,不适合查询非文字信息。
Google是全球最大的并且最受欢迎的搜索引擎,主要的搜索服务有:
网页搜索,图片搜索,视频搜索,地图搜索,新闻搜索,购物搜索,博客搜索,论坛搜索,学术搜索,财经搜索。
搜索的信息更加全面。
适合查询多方面的信息。
搜狐是目前中文名列第三的中文搜索引擎。
搜狗网页搜索3.0凭借自主研发的服务器集群并行抓取技术,成为全球首个中文网页收录量达到100亿的搜索引擎;加上每天5亿网页的更新速度、独一无二的搜狗网页评级体系,确保了搜狗网页搜索在海量、及时、精准三大基本指标上的全面领先。
适合查询信息量多的信息。
六、心得
经过对于这些搜索引擎的使用和研究,我发现现在是信息时代,信息爆炸的时代。
太多的信息,存在于网络上。
没有搜索引擎,就不能更好的利用这些信息。
各种搜索引擎能够帮助我们更加方便,快捷,高效率筛选利用这些数量庞大的信息。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索 研究
![提示](https://static.bingdoc.com/images/bang_tan.gif)