信息组织复习.docx
- 文档编号:15501974
- 上传时间:2023-07-05
- 格式:DOCX
- 页数:18
- 大小:34.75KB
信息组织复习.docx
《信息组织复习.docx》由会员分享,可在线阅读,更多相关《信息组织复习.docx(18页珍藏版)》请在冰点文库上搜索。
信息组织复习
第一章
1.信息组织的基本方法就可以概括为:
以信息外在特征和内容特征为基础的信息序化方法和信息优化方法。
2.信息的序化:
是按照一定的方法将无序的信息组织成有序信息的过程。
经序化过的信息会变得一目了然,便于管理和利用。
3.信息的优化:
是在序化的基础上,按照结构功能优化的目的对信息进行再序化的过程。
4.信息序化的基本方法:
1.语法信息序化法2.语义信息序化法3.语用信息序化法
5.信息的优化主要包括:
信息的优选、浓缩、重新表述及三者的综合运用。
6.信息的重新表述有改写、编译、翻译等方式。
(了解)
7.信息的综合优化的主要形式是信息综述和信息述评。
8.信息综述:
是对某一领域或课题一定时期的有关信息进行归纳、整理、分析、加工后所形成的信息产品
6.信息述评:
是针对某一领域、研究课题或成果的水平、现状、发展动向及影响进行全面而系统的分析评价或明确提出建议
9信息组织的一般过程包括:
1.信息替代2.信息序化
信息的替代过程(亦可成为信息揭示过程)实际上是对原始信息的外表特征(包括题名、着者、出处等)和内容特征(包括分类号、主题词、摘要等)进行描述的过程,这项工作通常称为着录。
10.信息序化是对替代信息给出信息标识(如分类号、主题词等)的过程,这项工作通常称为标引。
11.衡量信息检索效率的指标:
查全率R=查准率P=
查全率R与查准率P呈负相关
12.信息浓缩的主要方式:
1)文摘2)题录3)目录4)词条
第二章
分类法:
是以知识属性来描述和表达信息内容的一种信息处理方法。
分类语言:
是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为隔离的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。
分类法的类型:
1)体系型分类法:
是传统的分类法,它的特点是:
直线型的序列,层累制的结构,列举式的类目,码号式的语言。
《中国图书馆分类法》是典型的体系型分类法。
2)体系一组配分类法:
在传统的分类法上,发展起来一种体系—组配型分类法,它的基本特点仍然有体系型分类法的特点,但它增加了复分组配能力。
《国际十进分类法》是典型的体系—组配型分类法。
比较中图法和UDC
中图法是体系型分类法,UDC是体系—组配型分类法
中图法正表分为5个基本部类,22个基本大类,UDC有十个基本大类
中图法的配号制度基本上采用层累制的原则,UDC采用小数制
中图法采用拼音和数字结合的混合号码,UDC采用纯数字作为标记符号
分类法通常由六个部分组成:
类目、号码、正表、附表、说明、索引
类目间关系(了解p14-p15)
号码的类型及其编制方式(了解p16-p19)
层累制:
又称等级制,它的组合和排列方法是利用号码的基数和次序将一个个的号码层层展开出来。
《中图法》分类思想:
《中国图书馆分类法》是典型的体系型分类法,按照“五分法”,即分为:
(1)马克思列宁主义、毛泽东思想;
(2)哲学;(3)社会科学;(4)自然科学;(5)综合性图书。
在此基础上又分为二十二个大类
复分表:
即附表,就是将一组可适用于多个类别的子目结构,单独制表。
1)通用附表:
(1)总论复分表
(2)地域区分表(3)时代区分表(4)民族区分表
2)专类附表
国际常用分类法(了解)
1.《杜威十进分类法》(DDC)2.《美国国会图书馆图书分类法》(LCC)3.国际十进制分类法(UDC)
第三章
1、主题法:
以主题语言为基础描述和表达信息内容的一种信息处理方法。
2、主题语言:
是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。
3、主题法的种类:
标题法(标题词法)用经过规范化处理的自然语言语词及语组来逐一表达主题概念
元词法(单元词法)以经过规范化处理的自然语言语词的字面组配来表达主题概念
叙词法(主题词法)以经过规范化处理的自然语言语词的概念组配来表达主题概念
键词法(关键词法)直接以文献中的语词来表达主题概念
4、叙词性能
叙词的优异检索性能,是后组式检索语言,可以自由地进行广泛的组配,以及进行多维性、多途径检索。
(1)保留了单元词组配的基本原理:
吸收了单元词法又吸收了组配分类法的概念。
①概念组配,吸收自组配分类法;
(2)采用了标题法对语词进行严格规范化的方法,以保证词与概念的一一对应:
具有直接标引文献内容的特征,以及利用标题词的参照系统显示叙词之间的概念逻辑关系等优点。
②采用先组,吸收自标题法;⑥字顺表及范畴索引中的字顺排列,吸收自标题法
(3)采用了体系分类法的基本原理,编制叙词分类索引(范畴索引)和等级索引(词族索引)。
③参照系统,吸收自体系分类法④范畴索引以及词族索引,吸收自体系分类法;
⑤轮排索引,吸收自关键词法;⑥字顺表及范畴索引中的字顺排列,吸收自标题法
5、检索语言的核心是词表,包括分类表、标题表、叙词表等。
(自己了解)
叙词表包括以下几个部分:
①叙词字顺表,又称叙词表的主表。
②分类索引,又称范畴索引。
③等级索引,又称词族索引。
④双语种对照索引。
⑤附表。
范畴索引(分类索引)是将叙词按其概念所属学科或范畴分成若干大类,在大类之下再分小类,在小类之下则将叙词按字顺排列,形成一个类似体系分类表的概念分类系统。
等级索引(词族索引)是利用概念的属分关系,将具有属分关系的叙词汇集在一起成为一族,构成一个从泛指叙词到专指叙词的等级系统。
6、《汉语主题词表》(了解中国编制的大型综合性中文叙词表。
双位数字在前,双位字母在后的标记方法。
该词表主要供电子计算机系统存储和检索文献用,亦可用来组织卡片式主题目录和书本式主题索引。
7、主题词款目着录各项含义(了解p49-p51)
8、关键词:
是从文献资料的正文、摘要或书名、篇名中抽出的并在表达文献内容主题方面具有实在意义起关键性作用的词汇。
9、关键词的性质
关键词属主题法系统的检索语言
关键词与主题词(叙词)比较:
主题词是由标引员根据一定的词表选出的控制词汇,即经过规范化的词汇,它可以不同于文献作者在文献题目或正文中所用的词汇。
同时,主题词表有一定专指度的限制,不是每一个概念都能找到相应的主题词,有时细小的概念需要上溯到较广的概念,才能找到相应的主题词。
而关键词是文献中现成的词汇,这是文献作者所用的语言,是一种自然语言。
因而,关键词能够达到任意的专指度和泛指度。
关键词与标题词、单元词、叙词比较:
相同点:
同属主题法系统的检索语言
不同点:
1)标题词、单元词和叙词都对自然语言的语词加以严格的规范化处理,关键词法则基本上不作规范化处理,或仅作极少的规范化处理。
2)标题词、单元词和叙词都需要词表,关键词则不存在所谓的词表。
10、单元词(了解P67)
单元词法也称元词法,以单元词作为文献内容标识和查找的依据。
所谓单元词,是指从自然语言中选取的,经过规范化处理的,具有独立概念的最基本的词汇单元,即在字面上不能再分的名词术语。
也就是说,在概念上不能再分的词作为一个单元,以此来标识文献内容的方法。
11、参照系统:
See和SeeAlso(了解)P67
12、叙词与叙词、非叙词间概念逻辑关系
1)同义关系(等同关系)
2)等级关系
3)相关关系
13、分类法和主题法的主要差异
主题法:
以主题语言为基础描述和表达信息内容的一种信息处理方法。
分类法:
是以知识属性来描述和表达信息内容的一种信息处理方法。
1)在主题概念标识上:
分类法采用分类号,主题法采用受控词语
2)在文献集中方式上:
分类法按学科和专业集中,主题法按事物集中
3)在概念关系显示上,分类法采用等级(层次)结构,主题法是参照系统和范畴词组
4)在概念排列检索上,分类法按学科及逻辑体系,主题法按字顺序列
5)在词汇控制上,分类法严于等级关系控制和疏于词形控制,主题词法严于实施词形、词义、词间关系控制
分类法和主题法的兼容性
1)在术语上,分类法使用类名,主题法使用主题词
2)在标记上,分类法采用分类号,主题词法采用范畴号
3)在参照上,分类法使用分类参见,主题法使用参照系统
4)在索引上,分类法是字顺索引,主题法是反抽索引、词族、索引等
14、分类主题一体化词表可以分为以下三种类型:
(1)分面叙词表
(2)分类主题词表(3)集成词表
第4章标引与着录
1.标引:
是对文献进行主题分析,从自然语言转换成规范化的检索语言的过程,即对主题分析结果赋予检索标识的过程。
2.文献标引包括分类标引和主题标引
3.分类标引:
分类标引,就是将文献主题的自然语言形态,转换成分类语言形态的一种标引,也就是将文献主题转换成分类号的一种标引。
4.分类标引的依据:
(了解)1)单个主题分类标引
(1)依研究的学科性质归类
(2)依书本的主旨和用途归类(3)依据研究的事物,问题或生活现象的性质归类(4)依着者赞成的学科性质归类(5)按切和主体性质归类(6)按问题或学科性质归类(7)除取主要分类号外,还可取互见分类号(8)一般依重点归类。
2)两个主题分类标引:
并列关系,从属关系,因果关系,影响关系,比较关系,应用关系。
3)多个主题分类标引:
直接归入他们的上位类;如果主题不能包括在它们的上位类里,就按内容重点归类;如果论述其中一个主体对其余各个主体的关系,就按发生关系的主题归类;如果论述的几个主题是互不相容,或者是比较其异同,优劣的,就依书中意旨和着者目的或所赞同的主题归类。
4)地域。
时代分类标引
5.主题标引:
是对文献进行主题分析,并给予主题词标识的过程。
它以文献篇名和文摘为依据,必要时参考全文的内容,考虑检索途径的全面性和表达主题的专指性,充分利用词表提供的各种辅助选词手段,充分反映馆藏特点和各类用户的要求。
6.标引规则的要求:
1)标引的准确性2)标引深度3)标引的一致性
7.标引方案次序选择:
(了解)①专指性标引(记住):
又称直接标引,是指在转换反映文献主题的标引概念时,要用专指度最相符的主题词来标引。
②组配标引③上位词标引④近义词标引⑤增词标引
8.适度标引:
是指标引出的叙词与原文献主题概念基本一致,既不过度,也不过粗的标引技术。
9.适度标引:
是指标引出的叙词与原文献主题概念基本一致,既不过度,也不过粗的标引技术。
10.组配规则:
(了解114)所谓组配,就是把几个主题词按一定的组合方式合理地组合在一起,用来表示达到更专指的主题
11.字面组配:
(了解119)例子也看一下:
指的是单纯字面组配。
也就是指那些单纯从字面的拼合出发,而不考虑概念之间的逻辑关系和语法关系的组配。
12.概念组配:
所谓组配标引是指采用几个叙词的组合形式,对文献内容特征进行的标引。
但组配的叙词之间必须具有概念上的某种逻辑联系。
13.
(1)概念交叉组配
(2)概念限定组配(3)概念并列组配的区别(了解)
14.字面组配与概念组配的区别:
(选择题)字面组配其实质是词的分析与组合(拆词);概念组配实质是概念的分析和综合(拆义),二者的检索效果是有很大的差异的。
15.着录:
在编制文献目录时,对文献信息的各种特征进行分析、选择和记录的过程
16.MARC(MachineReadableCatalog)是机读目录的简称:
指以代码形式和特定结构记录在计算机存储载体上的,用计算机识别与处理的目录
第五章
1、信息组织自动化技术:
自动标引,自动分类,自动文摘。
2、自动标引分为:
自动抽词标引,自动赋词标引。
3、自动抽词标引:
绝对频率法(由计算机程序将文本与停用词表对照,除去介词、连词等虚词,然后统计出文本中词语出现的频率,按词语出现的频率排序)、相对频率法(当某个词或短语在某一文献资源中出现的频率高于它在整个数据库中出现的频率时,这个词或短语就可以被选作标引词,这就是相对频率抽词法)、位置法(即利用词语在文献中出现的位置来进行选择)。
4、自动赋词标引:
基于关联词表的自动赋词标引、基于中介词典的自动赋词标引。
5、中文标引的特殊难点(了解):
词的切分问题;难以进行比较全面的语法分析;汉语用词的灵活性;主题词选择和隐含标引问题。
6、自动分类包括:
自动聚类、自动归类、类号的自动转换。
7、自动聚类是指从待分类对象中提出特征,再将提出的全部特征进行比较,并根据一定的原则将具有相同或相近特征的对象定义为一类,设法使各类中包含的对象大体相等。
8、自动归类是指先分析被分类对象中的特征,将其与各种类别中对象所具有的共同特征或一定的分类标准、分类参数进行比较,然后将被分类对象划分为特征相近的一类,并赋予相应的分类号。
9、自动分类的一般过程:
建立类主题词;计算文献的归类属度;当文献类归属度超过某类规定的阀值时,即可考虑能否将它划归某类;根据一定的分类规则,赋予文献的分类号
10、自动文摘技术包括:
自动摘录;基于文摘的自动文摘;基于信息抽取的自动文摘;基于结构的自动文献。
第六章
1、(了解)数字信息资源是用户可通过计算机本地或远程读取、使用,以数字形式存储在光、磁载体上的图像、文字、声音、视频等信息,如电子邮件、专题讨论小组和论坛、电子布告板新闻、电子期刊等。
2、(了解)数字信息资源的特征:
数字信息资源对系统的依赖性;信息与实体的可分离性;数字信息资源的非直接可读性;数字信息结构的复杂性;数字信息资源的共享性;数字信息的易更改性;数字信息的质量参差不齐,缺乏必要的控制;数字信息的跨国界数据流动和传递;数字信息的不安全性。
3、元数据是:
一种有效的信息资源组织和管理的工具,是一种编码体系,它可以帮助人们检索和确认所需要的信息资源,可以对数据单元进行详细、全面的着录描述,可以支持信息资源的存储和使用管理,支持对信息资源进行长期保存。
4、元数据功能:
信息发现;信息描述;资源管理;资源保护与长期保存;使用;真实性保障。
5、(了解)根据元数据所支持的功能,可分为描述性元数据;管理性元数据;结构性元数据
6、Dublincore的15个核心元素:
题名;作者或创造者;主题词和关键词;出版者;内容描述;其他责任者;日期;资源类型;资源格式;资源标识;关联;资源来源;语言;内容范围;权限管理。
7、RDF的三个部分构成:
RDFDaTaMoDeL(RDF数据模型)RDFSCHEMA(大纲)RDFSYNTAX(语法机制)
8、RDF的数据模型包括三个对象类型:
资源;属性;陈述
9、按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
1.目录式搜索引擎;2.机器人搜索引擎;3.元搜索引擎
10、一个机器人搜索引擎由搜索器(搜索器的功能是在互联网中漫游,发现和搜集信息)、索引器(索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表)、检索器(检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制)和用户接口(用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
)四个部分组成。
11、机器人搜索引擎工作原理(见图6.2p173)
12、元搜索引擎是:
一种基于机器人搜索引擎的搜索引擎,用于查询与提供相关的信息线索或者全文。
13、元搜索引擎的工作原理:
元搜索引擎通过自己定制的搜索界面,接受并处理用户的查询问题,在进行实际的调查时调用一个或者多个独立搜索引擎的数据库,搜索结果是来自独立搜索引擎的检索结果或者是这些结果集合的综合,结果呈现既可以是引用原始的独立搜索引擎的页面,也可以是由元搜索引擎重新制定后的形式。
第七章
数据库系统DBS出现了4种典型的系统结构:
1)单用户数据库系统2)主从式数据库系统3)分布式数据库系统4)C/S(Client/Server,客户机/服务器)数据库系统
数据库系统的信息组织方法,即上述4种数据库系统的信息组织方法(了解p194-p199)
多媒体数据库关键技术:
1)数据模型2)数据的压缩和还原技术3)存取管理和存取方法
4)用户界面5)分布式技术6)多媒体信息的检索与查询7)多媒体数据的输入
多媒体数据库的主要实现方法:
1)从关系数据模型发展多媒体数据库2)面向对象数据库3)分布式超媒体数据库
基于内容检索(Content—basedRetrieval):
就是从媒体数据中提取出特定的信息线索,然后根据这些线索从大量存储在数据库中的媒体进行查找,检索出具有相似特征的媒体数据。
第八章
1、(了解)数字图书馆的特征:
①数字图书馆信息组织对象类型已大大扩展;②数字图书馆的信息组织是一种分布式模式,其信息对象可能并不存储在同一个地方,而可能分布在不同的数据服务器上。
③数字图书馆的信息对象是一种以机读型信息形式存储与检索的数字化信息对象。
④数字图书馆信息对象的格式化特征和多格式特征。
2、数字图书馆的设计系统的三层结构:
外层;内层;虚拟网站层
3、数字图书馆与传统图书馆的比较:
传统图书馆的主要职能是收藏,并在对所收藏的图书资料保存、组织的基础上为读者提供各种服务。
数字图书馆的收藏对象是数字化信息,但数字化收藏加上各类信息处理工具并不能构成数字图书馆。
数字图书馆是一个将收藏、服务和用户、管理员集成在一起的一个环境,它支持数字化数据、信息和知识的整个生命周期的相关操作和活动,包括生成、保存、发布、传播和利用。
4、数字图书馆信息资源与因特网信息资源的比较:
资源内容的组织方式的不同,数字图书馆的资源内容是按照用户的需求挑选的经过加工的、是使受教育者易于接受的形式,因特网的资源内容主要是无序的、内容差别很大;资源内容标引方法不同,因特网的信息资源是以标引文献条目为主,大多数全文文献不经过标引,其查全率与查准率都有问题,数字图书馆的资源标引则深入到文献内容;检索效果不同,数字图书馆的用户往往能迅速的找到所需要的资源,而因特网的用户,查询结果不能得到很好的满足
第九章
1.(了解多看看)信息存储系统的结构P231
计算机存储系统主要是由两级存储器和存储管理软件构成。
两级存储器就是主存存储器和辅助存储器。
存储器合理有效地使用取决于操作系统中的存储管理模块和文件管理模块。
2.(掌握)存储器的类型
1)按照存取方式分类(特点要了解)P233
(1)RAM(RandomAccessMemory,随机存取存储器)
(2)ROM(ReadOnlyMemory,只读存储器)(3)顺序存储器SAM(SerialAccessMemory)。
(4)直接存储器DAM(DirectAccessMemory)。
2)按存储介质分类
(1)磁存储器
(2)半导体存储器(3)铁电存储器(4)光存储器(5)其他介质存储器
3)按功能分类(了解以下各种)
(1)寄存器型存储器2)高速缓冲存储器(Cache)
(3)主存储器MM(MainMemory)简称主存,又称内存储器(IntenalMemory),简称内存。
(4)外存储器(ExternalMemory)也称辅助存储器。
3.(了解)存储器的主要技术指标P235
1)存储器容量(存储容量=存储单元个数×存储字长)2)存储密度3)存取时间和存取速度4)存取周期与数据传送率5)误码率6)可靠性7)功耗8)性能价格比
第十章
光盘存储器的类型:
(1)按制造材料和记录信息的方式划分。
只读光盘、一次性写入光盘、可擦写光盘。
(2)按所用驱动器结构划分。
内置式光盘存储器和外置式光盘存储器。
(3)按转速划分。
光盘存储器按转速可分为单倍速、双倍速、4倍速、……、52倍速光盘驱动器。
(4)按接口方式划分。
光盘存储器按接口方式可分为3种类型:
IDE接口、SCSI接口和专用接口。
光存储器的特点:
(了解)
记录密度高,存储容量大;存储寿命长,易于保管;非接触式读/写信息,这是光盘存储器特有的性能;信息的载噪比高。
载噪比是载波电平与噪声电平之比,以分贝dB表示;
易于大量复制,信息位价格低;能自由地更换光盘。
磁存储器的类型:
(1)磁带存储器
(2)硬磁盘存储器(3)软磁盘存储器(4)磁泡存储器(5)磁芯存储器(6)磁鼓存储器
磁存储器的特点:
(了解)
记录密度大、存储容量大;信息的写入和输出速度快,可以立即重放和再现;记录的信息经过多次重放后仍保持原有的特性;可实现多通道记录,可将多个磁头配在一起,记录许多磁迹。
记录和存储的信息稳定性高,不挥发;成本低、维护简单,适于大量生产。
在计算机系统中作为辅助大容量存储器使用,存放系统软件、大型文件、数据库等大量程序与数据信息。
第十一章
1.(了解多看)直接连接存储DASP268
DAS(DirectAttachedStorage)也称为SAS(ServerAttachedStorage,服务器附加存储)。
DAS是直接连接在各种服务器或客户端扩展接口下的数据存储设备。
2.(了解)磁盘阵列RAIDP270
RAID(RedundantArrayofIndependentDisks)冗余磁盘阵列技术
3.(掌握)NAS和SAN的比较与融合P282
•NAS是一种以文件为传输协议,通过网络传输的技术;而SAN是以块为传输协议,主要通过FibreChannel传输的技术。
•从目前的普遍应用来看,SAN占据的还是大型应用领域,NAS集中在中小型的应用领域。
•从系统的构建而言,NAS方案可以利用用户原有的网络,而SAN方案需重新建立存储网络。
•从对比SAN和NAS的实现方式来看,SAN解决了DAS的一些难题,比如实现存储集中、集中备份、容灾等。
但其数据管理工作还是在服务器上进行,需在每一个存储服务器上安装存储服务。
•另外,SAN的设备结构复杂,各个厂商标准不一,产生兼容问题,而且需要复杂的软件才能使用,使得其成本很高。
•NAS最大的优点是简单,不要求服务器额外安装软件,数据集中管理,软硬件可以集成,在网络上即插即用。
作为存储系统,NAS提供了比SAN更高的可实用性。
4.(掌握)存储管理系统的任务包括5个部分:
P287
1)操作管理:
2)数据管理3)资源管理4)网络管理5)元件管理
5.(掌握)网络存储的分级管理P289
1)存储级管理2)网络级管理3)企业级管理
第十二章
1.(掌握)文献的类型
1)书写型文献(HandWritingDocument)2)印刷型文献(PrintedDocument)
3)缩微型文献(MicroFormDocument)4)电子型文献(ElectronicDocument)
5)视听型文献(Audio-visualDocument)
12.3.2按文献的加工程度划分(一次二次的概念要掌握)
零次文献(RawLiterature)
二次文献(SecondaryLiterature):
将无序的一次文献进行收集、整理,着录其特征并以规定的格式编制成为便于管理和查找文献的工具,即检索工具。
如目录、题录或索引、文摘等。
三次文献(TertiaryLiterature):
是指在利用二次文献的基础上,对一次文献的内容经阅读研究,浓缩提炼而编写成的文献。
如科技动态、专题综述、情报调研报告、决策参考、指南、进展等。
12.3.3按文献信息公开程度划分
白色文献灰色文献黑色文献
12.3.4(掌握)按文献出版形式划分(10类)(还要记住各种着录格式)
1).图书(Book、monography)ISBN号即国际标准书号(InternationalStandardBookNumber)
图书着录格式:
着者.书名[M].出版地:
出版社名称.出版时间
2).期刊(Periodicals,Journal,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 组织 复习
![提示](https://static.bingdoc.com/images/bang_tan.gif)