第9章网上信息检索.docx
- 文档编号:4819309
- 上传时间:2023-05-07
- 格式:DOCX
- 页数:23
- 大小:470.69KB
第9章网上信息检索.docx
《第9章网上信息检索.docx》由会员分享,可在线阅读,更多相关《第9章网上信息检索.docx(23页珍藏版)》请在冰点文库上搜索。
第9章网上信息检索
第9章网上信息检索
Internet上的信息犹如浩瀚的海洋,如果只是靠在网站上浏览和闲逛,要获取有价值的信息是比较困难的。
要想使网络真正对我们的学习、工作和生活有帮助,学会在网上搜索信息是十分必要的。
9.1搜索引擎
在Internet发展初期,网站相对较少,信息查找比较容易。
随着Internet爆炸性的发展,网上的信息越来越多,普通用户想找到所需的资料如同大海捞针,为满足大众信息检索的需求,专业搜索网站便应运而生了。
这些专业网站提供的搜索工具,我们就称之为“搜索引擎”。
最早的真正意义上的搜索引擎Lycos,创建于1994年春天,经过几年的发展,今天,搜索引擎已成为—个网络门户,起着网络导航的作用,为用户提供新闻、在线图书馆、词典及其他网络资源。
著名的搜索引擎有Yahoo!
、AltaVista、Excite、google及XX搜索引擎等,它们为我们的网络生活带来了极大的便利。
9.1.1搜索引擎的工作原理及使用方法
1.搜索引擎的分类
搜索引擎桉其工作方式主要可分为两种。
—种是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务.因此是真正的搜索引擎(SearchEngine),如Google、Excite、HotBot及Lycos等。
另一种是目录索引(Searchindex/Directory),仅仅是按目录分类的网站链接列表,用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息,实际上这种目录索引算不上是真正的搜索引擎。
如Yahoo、LookSmart及About等。
此外,还有一种“免费链接列表”(FreeForAllLinks),简称FFA。
这类网站—般只简单地滚动排列链接条目,少部分有简单的分类目录,规模比起Yahoo等目录索引要小得多。
由于搜索引擎和目录索引都为用户提供搜索服务,为方便起见,我们通常将其统称为搜索引擎。
2.搜索引擎的工作原理
(1)搜索引擎的工作原理
搜索引擎使用下面两种方法自动地获得各个网站的信息,并保存到自己的数据库。
一种是定期搜索,即每隔一段时间(比如Google是30天),搜索引擎主动派出“机器人”程序,对指定范围的IP地址的互联网站进行检索,一旦发现新的网站,就自动提取网站的网页信息和网址加入自己的数据库。
另一种是靠网站的拥有者主动向搜索引擎提交网址,它在一定时间内定向向提交的网站派出“机器人”程序,扫描该网站并将有关信息存入数据库,以备用户查询。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求相符的网站,便采用特殊的算法(通常根据网页中关键词的匹配程度、出现的位置/频次等)计算出各网页的信息关联程度,然后根据关联程度高低,按顺序将这些网页链接返回给用户。
(2)目录索引的工作原理
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。
如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站。
如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
与搜索引擎相比,目录索引有如下许多不同之处。
.搜索引擎属于自动网站检索,而目录索引则完全依赖手下操作。
用户向搜索引擎网站提交自己的网站信息后,目录索引编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准及编辑人员的主观印象,决定是否接纳你的网站。
.向搜索引擎提交网站时,只要遵循有关的规则,一般都能登录成功。
而目录索引对网站的要求则高得多。
.在登录搜索引擎时,一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录上。
.搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,我们拥有更多的自主权;而目录索引则要求手工填写网站信息,且还有各种限制。
目前,搜索引擎与目录索引有相互融合渗透的趋势。
原来一些纯粹的搜索引擎现在也提供目录索引注册,有些则在搜索结果中直接列出其他目录索引的网站。
在这方面,国内几家著名的搜索引擎网站做得更进一步。
比如搜狐和新浪就有网站搜索和网页搜索之分,用户可自行选择。
选择网站搜索时,它们是目录索引,搜索范围仅限于自身注册的网站;而选择网页搜索时,它们又成了搜索引擎。
3.搜索引擎使用的语法规则
搜索引擎给网上的用户带来了大量的信息,使用非常方便。
但如果用户不熟悉搜索引擎的语法规则,并缺乏相应的搜索技巧,搜索结果经常会不理想。
要提高搜索信息的效率,必须熟悉搜索引擎的语法规则,并掌握一些搜索技巧,才能达到事半功倍的效果。
下面列举了常用搜索引擎的通用语法规则,但要注意通常在不同的搜索引擎中,会有一些具体的规则,使用时要视具体搜索引擎说明而定,用户可参考相应搜索引擎的帮助信息。
([]布尔逻辑操作符的使用
几乎在所有的搜索引擎中都采用了布尔逻辑操作符作为其最基本的语法规则。
一般布尔逻辑操作符包括;NOT、AND、OR和括号。
.NOT表示逻辑“非”,可用符号“!
”来表示。
使用NOT寻找包含NOT前的关键字但排除NOT后的关键字的文档。
例如:
新闻not体育
则查询结果为包含“新闻”但排除其中有“体育”这个词语的文档。
.AND表示逻辑“与”,可用符号“&”表示。
使用AND操作符检索所得的文档中包含所有的关键字。
例如:
企心and品牌and识别
则查询出同时包含“企业”、“品牌”和“识别”三个关键字的文档。
.OR表示逻辑“或”,可用符号“|”来表示。
使用OR将检索出几个关键字中至少包含一个的文档。
例如:
摄影or摄像
则查询结果为或者包含“摄影”或者包含“摄像”的文档。
.括号的作用和数学中的括号相似,可以使括在其中的操作符优先作用。
例如:
(知识or信息)and经济
则实际查询时,真正的关键字是“知识经济”或“信息经济”。
以上四种操作符可以互相结合使用,但是执行有先后次序,其优先顺序依次为:
括号、NOT、AND、OR。
(2)逗号的作用
逗号的作用类似于OR,也是寻找那些至少包含一个指定关键字的文档。
与OR不同的是,查询所得的文档中包含关键字越多,文档排列的位置越靠前。
例如查询关键字:
数字,图书馆,网络
则搜索结果中同时包含以上三个关键字的文档将排在前面。
(3)空格的使用
空格的作用类似于AND,查找结果中包含所有关键字。
例如查询:
计算机网络
则查出所有包含“计算机”和“网络”关键字的文档。
(4)双引号的使用
使用引号组合关键字,搜索引擎将关键字或关键字的组合作为一个字符串在其数据库中进行搜索.例如要查找关于电子图书馆方面的信息,可以键入“electronicLibrary”作为关键字,这样就把“electronicLitcary”当作个完整的短语来搜索。
相反,如果不加双引号,搜
索引擎就会查小包含“electronic”及“Library”的网页,会带来许多相关性不大的文档。
(5)通配苻的使用
进行简单查找的时候,可以在单词的末尾加一个通配符来代替任意的字母组合。
通配符大多数为“*”号,如Compu*可以代表开头字母为Compu的任何单词。
也有的搜索引擎采用“$”作通配符,如lycos(http:
//www.1ycos.com),使用的原理一样。
通配符不能用在单词的开始或中间。
(6)英文句点“.”的使用
英文句点“.”的使用与通配符的作用刚好相反,是用于禁止单词的扩展。
例如关键字:
gene.表示搜索结果只能得到gene,而得不到genetms和general等前四个字母相同的其他单词。
(7)(in)的使用
利用(in)可以限定关键词出现的范围。
例如:
新闻(in)title
表示只有在网页标签中出现“新闻”的文档才进入搜索结果。
(8)(near)的使用
有些搜索引擎提供了(near)操作符,它用于寻找在一定区域范围内同时出现的检索单词的文档,但这些单词可能并不相邻,间隔越小的排列位置越靠前。
其彼此间距可以通过使用
例如:
diagital/100television
即查找所有digital和television的间隔不超过100个单词的文档。
(9)“+”、“-”号的使用
关键字前面加上“+”号,则该关键字一定出现在结果中,并且“+”号与关键字之间不能有空格。
例如:
+网格
表示搜索出的文档中一定出现“网络”这个关键字。
在关键字前面加上“-”号,其作用与“+”相反,表示该关键字一定不会出现在结果当中。
如输入关键字:
Internet-Intranet
表示搜索出所有包含Internet但不包含Intranet的文档。
(10)“t”、“u”字母的使用
加“t”字母在关键字前,搜索引擎仅会查询网站名称。
加“u”字母在关键字前,搜索引擎仅会查询网址。
4.搜索引擎的搜索技巧
掌握语法规则是获得理想搜索结果的必要条件,但不是充分条件。
若想获得理想的搜索效果,则必须在熟悉其语法规则的基础上,掌握一些基本的搜索技巧。
下面是一些常用的搜索技巧:
(1)针对搜索目标,尽可能充分表述搜索条件
搜索引擎的统计表明,很多用户只输入一个词来进行查询,这会带来很多相关性不大的文档。
要进行有效的搜索,最好输入搜索对象中尽可能多而且精确的词或词组,提供的词组越精确,搜索所得的结果越少,文档的相关性越强。
(2)充分利用搜索引擎提供的选项
搜索引擎查询分为简单查询与复杂查询,复杂查询一般在检索框下面列有几项可供选择的条件项。
.查询方式:
“精确匹配”还是“模糊匹配”。
.逻辑操作:
“与”还是“或”。
.查询范围:
“全局”还是“局部”。
.显示模式:
“标准”还是“简要”。
.中文编码:
“无”还是“中文GB”。
.每页显示的信息条数:
“10条”还是“25条”或者是“50条”。
.显示的语种:
“中文”还是“英文”或其他语种。
.大小写:
“区分大小写”还是“不区分大小写”。
.中英文对照杳询:
“选择”还是“不选择”。
当用户输入关键字“中国”时,选择了中英文对照项,则检出的结果为所有包含“中国”或“China”的文档。
与输入英文“China”检出的结果一样。
(2)打开多个窗口,进行多种尝试
同时打开多个窗口进行搜索,在其中一个窗口的搜索引擎进行搜索的时候,可以立刻转到另外一窗口进行操作,极大地减少等待时间,提高搜索效率。
特别要注意的是,由于各种搜索引擎所覆盖的网页范围、数量以及侧重点是不一样的,所以当你第一次搜索失败时,不要轻易放弃。
还有两种有效的方法可以进行再一次有效的搜索:
.可以用同义词进行查找,如“cars”的查找结果和“au-tomobiles”的查找结果是不同的。
.多种搜索引擎的尝试。
如果利用Yahoo搜索失败了,可以试着用其他不同的搜索引擎,如用Google、Lycos、Web-Crawler和Altavista等试着再搜索。
9.1.2搜索引擎介绍
1.Google搜索引擎
(1)Google的特点
在众多的搜索引擎中,Google是一个检索内容丰富,访问速度较快,功能齐全的中英文搜索引擎,受到很多用户的欢迎。
Googele的网站地址是http:
//
Google集图像搜索、新闻组搜索、网页目录搜索和Web页搜索于一体,是为数不多的功能齐全的搜索引擎之一。
.搜索网页:
网页搜索是用户使用搜索引擎最直接的目的,也是所有搜索引擎最重要的功能。
在上图的文本框中输入查询的关键字,在下面的单选项中选中“搜索简体中文网页”,按Enter键或者单击“Google搜索”按钮开始网页搜索。
.搜索图像:
在上图所示的首页单击“图像”链接,将显示搜索图像的首页,在文本框中输入要搜索的图片关键词(目前只能用英文单词表示),如“shark”、“panda”等,单击“Google搜索”按钮开始搜索图片.在搜索结果中将会显示图片的预览效果。
(也可输入中文关键字)。
.搜索新闻组:
单击中文首页顶部的“新闻”链接,在窗口中列出了部分流行的新闻组的链接,用户可以通过这些链接访问新闻组,也可以在关键词文本框中输入关键词进行搜索。
.搜索网页路径:
单击中文首页顶部的“网页目录”链接,将显示搜索网页路径的首页。
Google网页目录里目前收录了来自150万个以上网站的网页,用户可以从目录分类的链接中查找网页,也可以在关键词文本框中输入关键词,使用搜索引擎搜索网络。
具体使用方法可以参看Google的帮助。
(2)Google对关键同的约定
在Google搜索引擎中输入关键字进行搜索时,遵循下面约定:
用户不需要在多个关键词之间使用“AND”以表示要搜索包含多个关键词的网页,只需要连续输入多个关键词,Google自动默认为“AND”运算,搜索到的网页将包含所有输入的关键词。
如果要在已搜索到的网页中“缩小搜索”或“在结果中搜索”,只要输入更多的关键词筛选已搜索出来的资料。
Google不支持“OR'’搜索,所以不能接受“或者包含词语A,或者包含词语B’’的网页。
Google不使用“词干法”,也不支持“通配符”(*)搜索。
也就是说Google只搜索完全一样的字词。
例如:
查询“googl”或“googl*”,不会得到类似“googler”或“googlin’’的结果。
Google搜索不区分英文字母大小写。
所有的字母均当小写处理。
在查询专用语时,只要在专用词浯上加上双引号,就可以准确地进行查询。
这一方法在查找名言警句或专有名词<如人的姓名>时显得格外有用。
此外一些标点符号如,-\+=,’也可作为短语连接符。
例如:
尽管没有加引号,mother-in-law仍作为专用语处理。
通常,Google忽略“http”和“com”等字符,以及数字和单字,此类字词过于频繁出现于大部分网页,不仅无助于查询,而且大大降低搜索速度。
如果一定要关键词中包含这些内容,可用“+”将这些字词强加于搜索项,但“+”之前必须留一空格。
如要查找关于OS/2的网页,必须输入:
“OS/+2”(引号是要输入的)。
“-”用以有目的地删除某些无关的网页,但减号之前必须留一空格。
例如,要搜寻关于太阳神,但不含足球的资料,可使用如下查询:
太阳神-足球。
(3)阅读网页搜索结果
Google将搜索到的网页按图9-2和9-3所示的格式显示出来。
图9-2
图9-3
在图9-2所示的搜索结果页顶端包含了检索框、“Google搜索”按钮和“手气不错”按钮,便于用户在该页开始其他新的搜索。
接下来是本次查询所占用的时间和搜索到的网页总数目。
默认状态下,搜索结果页中每页列出10个搜索到的网页标题(或链接地址)和内容摘要,在摘要(不一定是网页的头一段)中用户的原始查询字、词都用粗体字高亮显示,要查看某个网页的详细内容,可以用鼠标单击该网页标题(超级链接),Google将在当前窗口访问被链接的原始网站,以打开目的网页。
建议用户使用鼠标右键的快捷菜单,在新窗口中打开链接的网页。
每一个搜索到的网页摘要下面还显示了该网页的地址和文本大小,如图9-3中的.tw/-67k。
该行右侧有“网页快照”和“类似网页”两个链接,单击“网页快照”链接可以访问Google保存的该网页的快照内容,这是Google为用户贮存的应急网页,供目的网页不可用时使用。
单击“类似网页”链接,Google侦察兵便开始寻找与这一网页性质类似的网页,一般都是同一级别的网页。
如:
若这个网页是某大学的首页,那么Google“侦察兵”就会寻找其他大学的首页。
但如果这个网页是某大学计算机科学系,Google“侦察兵”就去找其他大学的计算机科学系,而不是其他大学的首页。
用户可以单击顶端的“使用偏好”按钮,定义每页显示搜索到的网页数量,可设置为10,20,30,50或100。
当Google在同一网站找到大量的资料时,首先显示最合适的结果,其他的就以缩进的形式排在下方。
在图9-3所示的搜索结果页的末端,显示了访问其他搜索结果页的数字链接,如单击数字“5”,就可以显示第41个至第50个搜索结果的列表。
最后还提供了“在结果中搜索”工具帮助用户缩小搜索范围。
2.北大天网搜索引擎
北京大学的大网搜索引擎是教育科研网中一个速度较快、资料较多的搜索引擎,其地址是,该网站首页如图9-4所示。
图9-4
天网搜索引擎的特点是除了提供搜索WWW网页功能外,还提供了搜索FTP文件的功能,下面分别介绍。
(1)搜索WWW网页
在天网首页上的文本框中输入想要查询的关键词,然后按下“搜索网页”按钮,开始搜索WWW网页。
用户可以对多个关键词进行逻辑组合,完成复杂的查询。
“&”:
与运算,用“A&B”进行查询的结果是既包含查询词A又包含查询词B的文章。
“-”:
排除,用“A-B”进行查询的结果是包含查询词A而不包含查询词B的文章。
“|”或运算,用“A|B”进行查询的结果是至少包含A和B中一个查询词的文章。
对于空格分开的关键词与用&分开的关键词查询结果一样。
(2)FTP文件搜索
天网FTP搜索主要搜索科研教育网内部FTP服务器上的匿名FTP服务,通过指定搜索对象的类型可以搜索图像、声音、视频、压缩文件、文档、程序、目录及源代码等多种对象。
在天网首页文本框中输入要查询的文件名,可以包含“*”(通配所有字符)、“?
”(通配一个字符)、空格(表示几个查询的并且)。
用鼠标单击“搜索FTP文件”,即开始在FTP服务器上搜索指定的文件。
.按类别搜索文件。
在天网首页顶部单击“文件”,打开FTP检索的首页,如图9-5所示。
图9-5
在输入框里输入如上说明的匹配串,在旁边的分类搜索下拉列表中指定搜索的类型,如图像、声音、视频、压缩、文档、程序、目录和源代码,单击“搜索文件”按钮,则搜索引擎在指定的类型里搜索文件。
比如选择“图像”,则在所有的图像文件里查找与匹配串相符的文件。
.使用快捷方式。
天网搜索引擎为用户提供了常用对象的快捷链接方式,使用起来极为简单,直接点击快捷方式列表中需要的内容即可。
目前有的快捷方式:
“电影”、“MTV&动画片”、“MP3音乐”、“Gif动画”和“Hash电影”等。
.FTP搜索结果页面。
FTP搜索结果页面如图9—6所示。
图9-6
每个结果前的图标是该文件的文件类型图片,表示图像、声音、视频、压缩、文档、程序、目录及源代码或者表示搜索引擎系统未定义的文件类型;图标后是文件名,点击可以打开文件;文件名后是文件的创建时间和文件的大小;文件名下方是该文件所在的日录,点击可以在新的窗口里打开该目录。
当结果数很多,在—个页面无法显示完的时候,系统自动生成换成链接,在“选择页面”右方,单击需要切换的页面的结果起始号,或者“上一页”、“下一页”链接,可以切换到其他页。
3.中文Excite搜索引擎
中文Excite是一个同时支持中文和英语(以及其他西方语言)的高性能检索引擎,它使用人工智能的方法进行切分词和概念分析,能搜索国际电脑信息网络上200万个中文网页,同时还可以搜索指定的网页数据库,包括所有中文网页数据库(200万个网页),中国大陆、中国台湾、中国香港、中国澳门和新加坡等网页数据库。
中文Excite网页地址是。
下面是使用Excite搜索引擎提高搜索效率的技巧。
(1)利用双引号进行词组检索
“词组检索”也称“完全符合检索”,检索结果必须含有与关键词完全一样(包括次序)的字串。
如果要搜索专用名词,可使用双引号进行词组检索。
例如:
“数据库管理”,“中国人民银行”。
(2)利用“+”和“-”进行限制性检索
在检索词或字前面加上“+”来表示该词或字一定要出现在检索结果中。
在检索词或字前面加上“-”来表示该词或字,一定不能出现在检索结果中。
例如:
+储蓄+定期-活期
注意“+”和“-”与其后面的检索词之间不能留有空格。
(3)使用逻辑运算符号AND、OR、NOT和()进行检索
可用的逻辑运算符号包括AND、OR、NOT和()。
这些符号必须大写,且前后要一个空格。
AND:
检索结果必须含有所有用AND连接起来的关键词。
OR:
检索结果必须至少含有一个用OR连接起来的检索词。
NOT:
检索结果不能含有紧接在NOT后面的提问词。
():
同时使用()和逻辑运算符号可以表达比较复杂的关键词。
如要求检索结果含有“水果”一词以及“香蕉”与“苹果”任一个词,可以使用:
水果AND(香蕉OR苹果)
作为检索式。
4.新浪网搜索引擎
新浪网搜索引擎是面向全球华人的网上资源查询系统。
提供网站、中文网页、英文网页、新闻、软什及游戏等查询服务。
网站收录资源丰富,分类目录规范细致,遵循中文用户习惯。
目前共有16大类目录,一万多个细目录和二十余万个网站,是互联网上最大规模的中文搜索引擎之—。
最近,新浪网推出新一代综合搜索引擎,使新浪成为可对多个数据库查询的综合搜索引擎。
在关键词的查询反馈结果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、中文网页、英文网页、商品信息、消费场所、中文网址、沪深行情、软件和游戏等各类信息的综合搜索结果,最大程度地满足用户的检索需要,使用户得到最全面的信息。
除了资源查询外,新浪网搜索引擎还提供其他内容和服务,包括:
今日焦点、评论空间、新浪酷站、本周新站、引擎世界、少儿搜索、WAP搜索和搜索论坛等。
新浪搜索引擎的网址是
9.2网上图书
随着计算机的诞生,特别是互联网的发展,印刷出版业掀起了一场新的革命,信息的传播速度又有了一个极大的飞跃。
电子图书的出现为图书的出版发行带来了很大的变革,也为广大读者带来了实惠。
电子图书是指以数字代码方式将图、文、声、像等信息,存储在磁、光、电介质上,通过计算机或类似设备使用,并可复制发行的大众传播体。
目前,Internet上免费提供的电子图书已数不胜数,数字图书馆的资料也越来越多齐全。
出于对电子图书版权的保护,通常电子图书的提供者采用自己专有的文件格式保存图书并提供与之配套的阅读器供用户阅读。
9.2.1常见的电子图书文件格式
在各种电子图书格式中,有一些格式是比较流行和比较常见的,下面逐一介绍。
1.EXE文件格式
这种电子图书文件格式是直接可执行的exe文件,特点是制作工具多,方法简单,以该格式保存的电子读物精致美观,阅读方便,无需专门的阅读器支持,对运行环境要求不高。
2.CHM文件格式
CHM文什格式是微软1998年推出的基于HTML文件特性的帮助文件系统,以替代早期的WinHelp帮助系统,在Windows98中把CHM类型文件称作“已编泽的HTML帮助文件”。
被IE浏览器支持的JavaScript、VBScript、ActiveX、JavaApplet、Flash、常见图形文件(GIF、JPEG和PNG)和音频视频文件(MID、WAV和AVl),CHM同样支持,并可以通过URL与Internet联系在一起。
这种格式的电子读物的缺点是:
要求使用者的操作系统必须是Windows98或NT及以上版本。
如果读者的操作系统是Windows95,则需要安装一个被称作CHM文件阅读升级包。
3.HLP文件格式
HLP文件格式
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第9章 网上信息检索 网上 信息 检索
![提示](https://static.bingdoc.com/images/bang_tan.gif)