嵌入式全文检索引擎.docx
- 文档编号:9256727
- 上传时间:2023-05-17
- 格式:DOCX
- 页数:9
- 大小:310.64KB
嵌入式全文检索引擎.docx
《嵌入式全文检索引擎.docx》由会员分享,可在线阅读,更多相关《嵌入式全文检索引擎.docx(9页珍藏版)》请在冰点文库上搜索。
嵌入式全文检索引擎
嵌入式全文检索引擎
浙江天宇信息技术有限公司
1研发背景
随着政府和企事业单位日常业务工作数字化程度的不断提高,信息技术已得到了广泛的运用和发展,各部门已从传统的纸质化办公模式逐步走向无纸化办公;信息管理系统也已成为政府部门和企事业单位日常工作的“第二大脑”,并承担起全方位的面向各个层面的信息使用者提供优质、规范、透明的管理和服务;而信息则被列为与能源、材料并举的“第三大”现代化社会发展必要资源写入了国家战略发展纲要。
人们在享受信息给日常生活、工作带来的便利的同时,高速膨胀的信息资源、日益平凡的信息交换和资源共享、错综复杂的信息系统也给我们的决策者和规划者带来了新的烦恼。
哪么如何快速地在茫茫浩瀚的信息海洋里寻找准确的资料内容;如何整合部门中各系统的信息资源,提供专业的信息资源服务;如何建立面向各个层面的综合信息全文检索平台,已逐渐成为目前信息化建设的新热点和新趋势。
嵌入式全文检索引擎正是在这样的信息化建设蓬勃发展的背景下孕育而生,为绝大多数政府和企事业单位在不改变原有系统功能和结构的基础上,通过简单的配置实现对现有信息资源的高效、准确的全文检索功能。
2嵌入式全文检索引擎解决的问题
作为国家“七·五”科技攻关项目承办单位,天宇公司早在20年前就开展了中文信息处理和全文检索技术研究,取得了一批具有国际先进水平的科研成果。
同时作为国内全文存储和全文检索技术的领导者以及全文存储标准的起草者,天宇公司一直与政府机要部门保持的密切的合作,在内容管理与全文检索方面积累了丰富的行业经验和解决方案。
在认真得分析了信息资源利用过程中出现的问题,归纳了众多用户的需求和建议,总结了上百个信息资源内容管理利用项目的成功经验,并结合我公司在全文存储和检索领域中的研究成果,开发了嵌入式全文检索引擎,以解决现阶段绝大多数政府和企事业单位信息资源在利用过程中出现的问题。
1、信息高速膨胀带来的数据检索问题
由于在此之前的信息管理系统在设计和开发时受到当时的硬件、软件以及技术等因素和条件的制约,以至于在信息高速膨胀的今天在数据利用方面已经不能满足现阶段业务发展需求。
主要表现在信息资料的记录将会由原先预计的几万条突增到上百万条甚至上千万条,数据存储量也由原先预计的几百MB膨胀到几百个GB甚至几个TB,导致原有的信息系统在继续提供文档和数据资料处理和业务流转的同时,无法满足各职能部门和使用者对海量信息资源的快速、高效的检索利用需求。
而这些业务系统恰恰又是各单位或各部门的基础业务系统,与其上层系统有千丝万缕的联系,为其提供基础数据支撑,因此如何能够不改变原有系统功能和结构的基础上,通过嵌入全文检索引擎实现原系统的全文检索利用功能,是目前政府和企事业单位在完善系统功能、提高系统效率、实现对外服务时亟待解决的问题。
2、异构存储系统之间的资源跨库共享利用问题
信息化建设的高速发展给政府部门和企事业单位日常工作带来便利的同时也对信息管理部门提出了更高的要求。
各单位内部已经拥有了大量的信息系统,例如办公自动化系统、电子文献资料系统、科研成果库、档案管理系统、专家库系统等等。
而这些系统本是根据各方面不同的应用而开发的,相互之间缺乏必要的关联,容易形成应用系统之间的信息孤岛。
随着信息化水平的不断提高,信息资源的不断丰富,决策者在分析、决策时更需要综合性的信息资源,而不是单一的没有任何关联的纯粹数据。
例如信息使用者在检索专家库专家名字的同时能够关联检索到该专家的起草的文献资料内容,甚至该专家的科研成果报告等等。
而实现这些需求的难点在于各个系统是相互独立的,各个系统后台所用的数据库和数据表结构各不相同,各个系统的数据之间缺乏必要的关联,各个系统的检索功能也只能服务于本系统。
因此如何实现跨平台、跨系统的信息资源共享整合;如何能对多种类型数据库格式的数据(如Oracle、SQLServer、Sybase、MySql等数据库中的数据)进行抽取、整理、加工、关联,并建立跨平台、跨系统的信息资源相关性索引,实现信息资源分布式全文联合检索,业已成为政府和企事业单位实现信息资源整合时首要考虑的问题。
3嵌入式全文检索引擎
3.1嵌入式全文检索引擎应用构架
嵌入式全文检索引擎利用天宇多年以来自主开发的CGRSServer作为核心应用,结合DataPipe数据接口网关模块,实现嵌入式全文检索以及对多个同构或异构系统间关联数据的跨库全文检索
单系统架构设计图
多系统多库跨库联合检索架构设计图
首先需要将存储在各系统各数据库中的信息资源通过DataPipe进行数据抽取、整理、关联,加载到CGRS全文数据库中,并由全文数据库实现关联关键字索引和全文索引,以实现多系统多数据库的跨库全文关联检索。
嵌入式全文检索引擎采用无缝嵌入技术,能够自由、灵活且无须改变原有系统功能和结构的基础上,通过简单的配置利用Script查询链接脚本嵌入系统页面中,实现高效、准确的全文检索功能。
3.2数据抽取(DataPipe数据接口网关模块)
在组织内部,大量的有价值的信息资料由各个不同的应用系统在业务流转过程中产生,而这些应用系统的数据存储在各种不同类型的数据库中,例如Oracle、SQLServer、Sybase、MySql甚至LoutsDomino等数据库中。
嵌入式全文检索引擎的首要任务就是将各系统、各数据库、各种类型的信息资源,高效、完整、自动地进行抽取,并在加载入全文数据库的过程中利用中文自然语言智能处理技术进行自动去重、关联、索引等操作,实现信息资源的全文存储和全文索引。
天宇在数据抽取环节采用了DataPipe数据接口网关模块实现同构或异构存储系统之间的资源采集。
DataPipe主要针对各种同构或异构存储系统之间的数据抽取、转换、整合、分发、同步等应用;实现海量数据的自动化批量交换和处理的应用;
DataPipe主要功能:
●抽取:
将数据从一种存储系统中抽取到另一存储系统中;
●转换:
各种异构数据资源之间的数据相互转换;
●整合:
将各种异构存储系统中的数据资源整合在一起;
●分发:
将数据分发(可以是按一定规则)到各种异构存储系统中;
●同步:
在多个异构存储系统之间实现数据同步;
DataPipe支持的数据源:
●CGRS
●MicrosoftSQLServer
●Oracle
●MicrosoftAccess
●MicrosoftExcel
●ODBC(MySQL、DB2、SyBase等等)
3.3内容全文管理(CGRS全文数据库)
嵌入式全文检索引擎的核心应用,既是CGRS全文数据库。
CGRS全文数据库在嵌入式全文检索引擎中主要承担三项任务:
1、内容管理功能:
数据资源加载后的整理、去重、分类等功能。
2、海量资源存储功能:
海量数据资源全文分类存储功能。
3、全文检索引擎:
对海量数据资源建立全文索引实现全文检索。
同时,嵌入式全文检索引擎的安全性问题也由CGRS全文数据库统一进行管理。
首先是系统的安全性,CGRS全文数据库支持与外部CA认证系统的无缝集成,实现严格的用户及权限管理机制;通过数据传输加密、数据存储加密和索引加密等功能,确保数据在系统运行中的安全保密;同时配合严格的安全审计和操作监控日志等措施,确保系统的安全性。
另外一个不容忽视的问题就是信息本身的安全性问题,嵌入式全文检索引擎在保证系统安全稳定的同时,对系统中数据的安全性进行规划,对数据的密级进行严格的控制,并采用授权浏览方式实现权限细化操作,建立了查询、阅览日志审计和跟踪等措施,确保数据资料的安全性。
CGRS全文数据库特性:
●超长时间安全稳定运行:
持续安全稳定运行长达5年无差错。
●全新64位内核的核心全文数据库:
在单库存储容量方面几乎达到无限,只受到服务器物理存储设备大小的局限。
●支持群集、分布式部署:
满足海量信息处理和负载均衡的苛刻需求。
●数据调用过程全程加密处理:
在数据存储和调用过程中能够实现对数据内容的加密处理,并且支持数据库索引内容的加密,真正实现了安全保密的数据存储。
●高达32级信息授权密级控制:
对数据信息授权权限控制密级高达32级密级控制,至今已在国家安全部、海关、工商等众多需要信息高度安全保密的机构中得到广泛的应用,获得国家权威机构认可,用于核心敏感数据的安全存储和管理唯一存储产品。
●业内领先的字元索引策略:
在索引策略上采用了字元索引策略,将信息全文内容按字建索引。
与普通的按词建索引的方式不同在于,按词建索引需要用户对词典库进行维护,用户输入的检索词如果在词典库中没有,则系统会虚报查询结果;而按字建索引,用户无需维护词典库,并且用户可以对任意字、词、句甚至符号进行查询或组合查询,哪怕是逻辑上不相关的语句都可以进行查询,绝无漏查或错查现象,查全率可以达到100%。
因此被新闻媒体、党政机关内部作为资料检索库和信息挖掘系统核心数据库。
●提供高效的检索服务:
100万条记录,1G数据,平均检索响应时间<0.5秒
3.4智能全文检索
嵌入式全文检索引擎提供了多种模式的资源检索查询定位手段。
用户可以根据自己的需要选择全文智能检索、精确检索、复合检索、二次渐进检索等多种组合方式,同时系统对搜索结果提供包含检索信息的内容摘要,命中结果高亮显示等功能。
并且嵌入式全文检索引擎还拥有业内独创的附件内容全文检索技术,真正实现信息资源的全检索。
此外嵌入式全文检索引擎还拥有业内领先的中文自然语言处理技术,智能分词技术,字元索引技术,自动分类技术、主题词表分类技术、自动摘要技术等,确保用户在检索资源的同时得到更人性化的服务与帮助。
4嵌入式全文检索引擎应用效益
4.1对于信息使用者的帮助
如果您是普通的信息使用人员,则会从漫长而又没有效率的信息检索和查阅工作中解脱出来,投入更多的精力用于信息资料分析、整理、研究工作中。
充分利用检索命中的信息和系统提供的相互关联的信息组织成自己需要的内容,让信息系统从被动的查询信息转变为主动的提供信息。
4.2对于信息管理者的帮助
如果您是组织内部的信息主管,则可以将繁琐应对各个应用系统的数据管理工作交于嵌入式全文检索引擎去统一协调完成,而可以将自身更多的精力与时间投入对信息资料的规划管理工作中去。
同时打破了各部门应用系统相互独立带来的信息孤岛,实现了信息共建、共享、共用,并可以充分的调动各个部门的人员积极的参与到信息资料的建设和维护工作中来,便于全面开展的知识管理工作,提高信息服务的质量和效率,从而提升信息资料管理在组织内的地位,提高领导对信息管理工作的重视程度。
4.3对于信息决策者的帮助
如果您是决策者,则可以通过嵌入式全文检索引擎获取及时、全面、准确的综合性的辅助决策信息,增强了应对宏观调控,面对市场机遇,预测市场风险,把握竞争优势,了解竞争对手的能力。
并能够充分调动全员、集思广益,共同参与战略决策的规划与制订。
同时在组织内部塑造沟通与协作的文化氛围,增强了组织凝聚力和核心竞争力。
5嵌入式全文检索引擎应用案例
5.1中国农业银行江苏省分行知识库改建样板工程
中国农业银行江苏省分行知识库是天宇公司和中国农业银行于2007年5月合作建设的示范型工程,作为农行知识库改建工程的样板。
中国农业银行江苏分行知识库系统是为分行领导和各业务处室提供知识信息查询、利用的主要服务平台;系统以提供领导和各业务主观部门辅助决策信息为目标,需要全面有续的综合信息支持服务。
其分行知识库系统运行在IBMRS6000的AIX操作系统上,数据库采用传统的SYBASE关系数据库作为核心数据库。
知识库收录了大量分行内部业务信息资料和客户关系资料,随着信息技术的发展和分行领导对信息资源管理利用的需求日益提升,导致现有的系统在提供知识信息的查询服务时,在查询速度、查询的方式与手段方面已略显不足,无法满足今后数据大量扩充后领导和各业务部门对信息检索服务在质量和效率上的需求。
所以利用嵌入式全文检索引擎,在充分利用现有系统资源的前提下,实现对大并发量的查询请求和对海量数据内容的检索确保100%查全率查准率的G级数据秒级响应的高效准确的检索能力;并支持用户对附件内容、压缩文件内容的查询请求;为全分行用户提供实时、高效、准确的决策信息支持服务。
该系统的改造完毕标志着中国农业银行江苏分行全面提升现有的分行知识库系统对外服务的能力,将不断积累的信息资源进行拓展和深化,为分行的信息化决策提供雄厚的信息资源的保障。
进而在全国农行进行推广。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 嵌入式 全文 检索 引擎