课题成果
信息资源自动处理、智能检索与STKOS应用服务集成
NSTL的建设和发展是国家科技创新体系和国家科技基础条件平台建设的重要组成部分,也是国家信息基础设施建设不可或缺的核心机构,NSTL网络服务平台的不断升级完善集中体现了网络环境下文献信息资源共建共享的管理体制和运行机制的持续发展与变革创新,在面向全国科技界提供科技信息资源保障,支撑国家科技创新和经济社会发展中发挥了重要作用。目前的NSTL网络服务平台是一个开放共享的系统,拥有多种Web服务接口,不仅面向个体读者,还将服务面向国内各信息服务机构开放,全面支持第三方信息服务机构对NSTL资源和服务的调用,通过服务站、嵌入式服务平台、用户管理平台、链接到第三方等多种服务模式逐步建立起全国服务体系,直接覆盖全国25个省市自治区。但是由于缺乏科技知识组织体系的支撑,资源的揭示停留在书目、文摘、引文的层次举步维艰,严重制约NSTL从传统的文献提供服务向知识服务跃升,资源效益得不到充分发挥。
本课题是在科技知识组织体系及相关的知识组织工具基础之上,利用NSTL现有数字资源平台,研究海量信息自动处理和智能检索关键技术,在三年内基本建成文献信息自动处理系统,实现国家科技文献战略资源的有效组织、深度揭示和知识化关联;初步建成NSTL文献服务体系的智能检索系统,并投入面向全国的用户服务;将十二五科技支撑项目的研究成果进行分析,归纳和汇总,根据NSTL未来发展规划要求,提出标准化,模块化的整合建设方案,方便将各个课题研究成果逐步移植到NSTL网络服务平台,将研究成果和工程应用更加有机结合起来。本课题对于提升NSTL科技信息资源整体的知识组织、知识管理和内容主题揭示能力,使国家科技文献信息资源得到充分揭示和利用,具有关键作用。
课题设计基于海量文献信息自动处理及STKOS的文献服务平台的总体框架如图1
图1 基于海量文献信息自动处理及STKOS的文献服务平台总体框架
课题研究中各个关键研究工作的技术路线分述如下:
(1) 科技文献信息知识对象的自动标注
图2 自动标注技术研发技术路线
图3基于规则的规范概念/范畴/关键词标注实现流程
采用STKOS与统计相结合的抽取方法,整合句法分析、语料学习、标引经验等多种技术融合的方式探讨英文科技文献中知识特征项的抽取机制,从海量西文科技文献资源的标题、摘要、著者、著者单位、基金资助等信息中分领域抽取科技术语、科研主体、科研领域、科研产出、科研设备等科研要素特征项。
根据特征项的来源位置、抽取频次等要素探讨特征项权重计算算法,依此确定特征项与文献的关联强度,按照由强及弱的次序选择最终的标注用词。
通过对科技文献数据集进行大规模的测试,确定适合科技文献自动标注的深度,减少自动标注结果中的噪音。
在科技文献自动标注技术研究的基础上,开发相应的自动标注工具,对科技文献中的科技术语和科研要素进行自动标注。
针对海量英文科技文献,进行自动标注的实践应用;通过与人工标引的结果进行比较,从准确性、一致性、专指性、时效性等方面对自动标注的效果进行评价。
(2) 科技文献知识关系计算的关键技术开发
● 知识对象识别与关系技术
学科领域的术语、对象等知识对象以及知识对象之间的关系构成了领域知识网络。对其进行知识聚合、知识对象分布关系计算,对知识对象的变化情况进行统计、分析,能够反映出领域内知识对象的结构关系,并识别出具有不同类型特征的知识对象及其动态变化情况。
领域内知识对象的聚合、分布关系计算主要是:基于STKOS和领域知识库中对知识对象和关系的网络组织结构,以知识对象概念、知识对象属性、知识对象之间的语义关系等特征为计算依据,构造特定关系网络结构,并在此基础上应用领域核心知识对象识别、前沿知识对象识别、热点知识对象识别、爆发知识对象识别等技术方法,标示和分析各种类型的领域内知识对象以及对象聚合形成的主题。借助对不同时间窗间隔情况下领域内知识对象的动态演化关系分析方法,识别知识对象以及知识对象形成的主题演化发展的特征和规律。领域内知识对象的聚合、分布关系计算为基于领域智能化信息检索和领域趋势分析提供了有力支持。
● 多维索引
引入各种新型的索引机制,建立多维化索引体系,包括分面索引、深度索引、共献索引、重要性索引,新颖度索引等多个维度索引。
图4 多维索引框架
(3) 个性化推荐系统
面向NSTL的个性化推荐在NSTL原有推荐功能基础上,将个性化推荐技术引入文献服务系统中,进一步扩充其推荐功能,旨在提高其个性化信息服务水平,完善系统的服务功能,向广大用户提供个性化、专业化、优质的信息服务。其总体研究框架如图5所示,包括数据支撑层、核心业务层、服务层。
图5 个性化推荐系统总体研究框架
数据支撑层:NSTL数据支持,以接口或数据库授权方式可以访问到,为个性化系统提供基本的数据支持。
核心业务层:系统中重要的层次,实现个性化服务的核心业务。主要包括个性化数据仓储和五个模块(重排序模块、同行为分析模块、兴趣推荐模块、文献相似模块、元数据共现模块)组成。
服务层:主要为NSTL系统用户提供的个性化相关服务,包括六个场景:检索结果重排、共同浏览推荐、共同订购推荐、用户兴趣推荐、相似文献推荐、共现作者及作者机构推荐。
(4) 智能检索系统及网络服务构建
● 资源组织方案
通过NSTL资源分析,构建NSTL资源组织模型,确定了资源解析的具体流程。
图6 资源组织方案
● 资源存储与索引方案
对RDF的三元组资源表达进行数据描述,引入相应的数据类型,确定基于本体建模、索引关联的关联模式和关联检验规则。在此基础上,将原始文献数据解析为triple形式的三元组,对解析后的原始文献数据依据NSTL本体结构创建Solr索引。
● 语义搜索应用场景
引入Neo4j图形数据库,设计并实现语义搜索应用场景。
(5) 标准文献关联知识网络构建
以模块化、工具化、工程化为指导思想,研究标准文献知识组织模型并建立标准文献知识库,开发文献关联集成工具、指标比对工具,实现服务应用。
图7 标准集成工具软件架构
(1)自动标注系统:技术难点表现为选择合适的抽取算法和特征项的权重计算。创新点表现为:国内首次的大规模跨学科的海量数据的自动标注研究;基于STKOS将科技术语和科研要素的抽取相结合,使知识抽取的范围扩大,抽取得到的知识关联程度更加丰富;同时,通过抽取特定文献中隐含的语义关系,能够实现关联文献的深层挖掘,为关联文献的立体展现提供了条件;应用STKOS的领域本体和科研本体,分别用于科技术语和科研要素的自动标注,较好地解决了归一问题;提出多种技术融合的知识抽取技术的研究,采用STKOS与词频统计相结合的抽取方法,整合句法分析、语法分析等多种方法辅助进行特征项抽取。
(2)知识关系计算:国内首次尝试大规模科技文献的知识关系计算,综合应用了国内外各种技术方法,利用知识组织体系来组织和集成相关知识对象的关系,利用自然语言处理技术来构建知识对象之间的相关关系,利用共现(如共词、共关键词、共术语、共作者、共机构等)分析,利用语义关系计算与分析工具,实现文章中相关关系的挖掘,利用引文挖掘相关关系。
(3)知识关联网络:创新点表现为本项目所构建的知识关联网络,既是知识服务和智能检索的支撑平台,同时又可以通过智能接口,提供基于任意知识节点的检索和关联发布;以知识数据为枢纽实现了知识组织系统与科技文献实例的集成与相互连接映射,将模式数据(顶层本体、应用本体)与实例数据相分离,有利构建相互分离的、支持整合、动态协同的管理维护机制;应用和引入了STKOS的科研本体,不仅支持基于语义关联的语义挖掘、语义分析、智能检索、语义计算等,还支持基于语义评价的科研评价、科研趋势预测、科研事件探测、科研学科分析等挖掘应用。难点表现为:需要解决和突破大规模、海量知识数据的存储、组织、索引和检索的效率与性能;对于知识实体的抽取质量、知识关系的有效性,以及知识组织系统的整体质量水平有很强的信赖性,同时还需建立良好的协同更新维护机制,是影响整体实现的难点所在。
(4)个性化推荐系统:主要技术难点包括:用户兴趣模型的构建与动态更新;兴趣相似度匹配算法研究;STKOS在用户兴趣模型中的应用。创新点体现在借鉴电子商务网站商品推荐模式,构建了面向科研用户的个性化推荐模型,提高个性化信息服务的准确度,从而提高文献信息服务质量和水平。
(5)智能检索系统:创新点表现为:智能检索是区别于单纯全文检索的一种探索方法,它通过引入内容对象挖掘、共现分析、相关关系计算、影响力指标计算等技术方法,突破单纯依靠关键词匹配所带来的语义歧义、语义不完整的不足,对全文内容进行更深入的语义发掘,让用户获取更为语义相关的结果;突破全文检索简单排序的局限(如Google的PageRank算法),对检索结果进行更深入的分析展示,让检索者能够更加全面、深入地了解检索结果中的知识内容;通过交互式的过程,让检索者能够得到更多地了解检索内容相关的知识、模式、变化规律。难点在于从实验原型到工程化应用的性能提升。
(6)NSTL智能应用:技术难点表现为:资源量大、类型众多、用户并发量大,体系结构复杂,知识检索实现难度大;存储系统数据组织方式和组织策略有较高要求;数据稀疏性是个性化推荐领域的挑战性问题;跨语言检索准确性有待提高和突破;用户偏好模型的建构与更新机制。创新性表现为:多项先进研究成果的技术集成应用,首次尝试以科技知识组织系统为支撑,基于规范化词表体系、领域本体和科研本体等面向科研一线提供知识关联、知识分析、知识发现等深层次知识服务,全面提升NSTL网络服务平台的智能化、知识化服务能力。
(7)服务集成:技术难点表现为:本课题其他任务成果在NSTL复杂场景下的实用难度难以预估;知识服务集成体系的通用性和可扩展性设计;与其他服务无缝集成的接口管理工具设计。创新性表现为:首次尝试引入云存储与云计算技术,提升NSTL网络服务平台的性能。
http://smartsearch.nstl.gov.cn
(1) 西文科技文献自动标注软件
与NSTL加工处理过程进行无缝整合,能够基于STKOS英文超级科技词表,从NSTL收录文献的标题、摘要、关键词中自动标注科技概念名称、范畴以及关键词。
(2) 西文科技文献自动标注WEB应用系统
WEB服务网站,能够基于指定的词表和数据源,在线进行单篇文献标注、批量文献标注。
图8 西文科技文献自动标注WEB应用系统界面截图
(3) 面向科研用户的个性化推荐模型
面向科研用户的个性化推荐模型由个性化推荐模型、用户兴趣模型、用户行为日志模型和NSTL文献资源模型四部分构成。
个性化推荐模型以用户兴趣模型以及NSTL文献资源模型为输入,输出不同形式推荐的资源,包括:检索结果重排序、相似文献、相似机构、相似作者、用户感兴趣的文献、订购此文献的用户还订购过、浏览此文献的用户还浏览过。
用户兴趣模型由六元组构成:{兴趣关键词,兴趣来源,兴趣频次,兴趣创建时间,兴趣更新时间,兴趣权重},输入为用户行为日志模型以及NSTL文献资源模型,经计算后输出为兴趣关键词、权重、来源、更新时间等。该模型利用用户的注册信息进行初始化,根据用户几种行为日志进行定期、增量更新,主要利用文献ID、日志类型、操作时间,结合NSTL资源模型等;注册用户可对兴趣自主管理,包含添加、删除。
图9 用户兴趣模型
NSTL文献资源模型将NSTL文献资源结构化表达,以便与用户兴趣进行匹配完成推荐。NSTL文献资源模型由一组元素集合构成:{ID号,标题,摘要,关键字,作者,机构,资源类型,分类号,最后更新时间 }
用户行为日志模型输入为用户显式行为和隐式行为,从NSTL文献资源模型获取相应的文献资源,为用户兴趣模型构建提供数据依据。显示行为有:我的收藏、用户注册、自助反馈。隐式行为有:原文传递、代查代借、浏览、检索。
(4) 个性化推荐系统
在原有NSTL网络服务系统应用功能的基础上,借鉴国内外优秀文献数据库系统、电子商务网站的个性化推荐功能的设计,提出了NSTL个性化推荐系统的功能升级设计。在原NSTL网络服务系统中的检索结果页面、命中文献页面、自助中心以及邮件系统中增加个性化推荐功能,实现NSTL的个性化信息服务。
核心功能包括:
● 基于群体用户的推荐
检索结果重排序。在系统检索结果默认排序基础上,为用户提供基于群体行为进行检索结果重排序的选择方案,包括两种情况:按点击量排序、按订购量排序。为了实现该功能提供了两种方案,一种是将群体行为信息加入到索引中,将重排序嵌入检索过程;另一种是对检索结果基于群体行为进行重新计算,不干预检索过程,命中量较大时代价较高,结果响应较慢。
共同行为推荐。该功能分为两种,一种为浏览此文献的用户还浏览过,另一种为订购此文献的用户还订购过。第一种功能基于用户浏览日志和NSTL文献资源模型。首先查找浏览过此文献的用户,再查找这些用户短时间内(前后10分钟)还浏览过的文献,通过文献标识号进行Group By计算,结果按浏览用户数倒排序; 第二种功能基于用户订购日志和NSTL文献资源模型。首先查找订购过此文献的用户,再查找这些用户还订购过的文献,按订购用户数倒排序。
● 基于个体用户的推荐
该功能出现在用户登录后的自助中心,在"我的定制推送"的基础上,根据用户兴趣为用户推荐最新上线发布的相关文献(按期刊、会议录、文集汇编等类型分面),在用户自助中心提供推荐列表,也提供邮件推荐。该功能基于用户兴趣模型和NSTL文献资源模型,按照用户权重较高、更新时间较新的Top N用户兴趣,与NSTL资源进行相似度计算,按相似度较高、文献更新时间较新的排序方式进行倒排序。
● 基于文献内容相关度的推荐
基于文献内容相关度的推荐包括以下两种场景:
相似文献推荐。该功能推荐与该文献内容相似度较高的文献,基于NSTL文献资源模型。首先根据单篇文献的关键词、标引词和题名等获取候选文献列表,进行相似度计算,按相似度较高、文献更新时间较新的排序方式进行倒排序。
相似作者和研究机构推荐。该功能推荐与该文献作者研究领域相同、合著共现的其他作者和研究机构,基于NSTL文献资源模型。计算与单篇文献作者研究兴趣(作者关键词、标引词等)密切相关、合著共现的其他作者;研究机构依据文献作者所属机构进行推荐。
目前该成果已经在NSTL智能搜索平台运行,将根据统一安排投入使用,这对进一步改善用户体验,提高NSTL网络服务系统的个性化服务水平发挥重要作用。
(5) 智能检索系统
基于NSTL数字资源平台,利用STKOS及工具,基本建成一套具有自主知识产权,符合当前数字图书馆行业标准的外文科技文献智能检索系统。该系统是多项先进研究成果的技术集成应用,首次尝试以科技知识组织系统为支撑,基于规范化词表体系、领域本体和科研本体等面向科研一线提供知识关联、知识分析、知识发现等深层次知识服务,全面提升NSTL网络服务平台的智能化、知识化服务能力。
(6) 标准内容指标加工工具
面向领域专家提供标准内容指标查找、标准关键指标体系构建、标准内容指标数据管理、标准内容指标比对报表生成等功能。专家加工系统包括任务导入、任务逐条加工、任务导出并上传等功能。
图10 标准内容指标专家加工系统界面截图
(7) 标准内容指标管理工具
标准内容指标管理工具包括内容指标加工流程管理、任务管理、内容指标数据管理、质保管理、数据发布等功能。
标准内容揭示文献管理:提供标准内容揭示文献的维护与管理,支持对准备进行或已进行标准内容揭示的标准文献进行管理。
任务管理:支持任务分发,可生成和下发任务工作单;支持进度管理,提供加工任务查询与统计功能,如可按工作包、加工人员、按时间查询和统计加工任务进展情况,并可统计加工工作量和按计划完成情况
标准体系表维护与管理:提供标准体系结构的维护与管理,支持对标准体系元素进行增加、删除、修改。
标准化对象维护与管理:提供标准化对象的维护与管理,支持对标准体系元素进行增加、删除、修改。
标准体例元数据维护与管理:提供标准体例元数据的维护与管理,支持对标准体例元数据进行增加、删除、修改。支持自定义标准体例元数据功能,针对不同的领域标准,建立不同的标准文献内容揭示元数据框架。
图11 标准内容指标管理工具
(8) 标准内容指标服务工具
内容揭示服务子系统用于揭示信息的服务,包括如下功能:信息服务基础平台、标准资讯、标准信息检索、揭示数据检索、标准体系表、任务管理、标准化论坛、信息管理、用户管理等。
图12标准内容指标服务工具界面1
图13标准内容指标服务工具界面2
图14标准内容指标服务工具界面3
课题建设了一系列的拥有自主知识产权的软件系统和工具,如西文科技文献标注软件、个性化推荐系统、标准内容指标加工工具等,其核心技术融入智能检索系统,实现NSTL海量科技文献信息资源的有效组织、深度揭示和知识化关联,面向全国用户服务,不仅提升了NSTL科技信息资源的知识组织、知识管理和内容主题揭示能力,并且,通过接口规范将这种增强的服务能力开放到全社会,便于国内其他信息服务机构,科技信息情报服务机构的利用,在增强国家科技文献信息资源充分揭示和利用的同时,也不断加深NSTL对国内情报机构的服务深度和服务能力。
课题产出的标准内容指标系列工具成果已经投入运行,领域专家使用该工具进行石油天然气管道标准内容指标数据库的建设,目前,该数据库已经应用于中国石油管道局,为公司技术人员提供了深度服务,用户给予了较高的评价,取得了良好的服务效果。
课题的许多相关成果在多个行业内有着巨大市场,可以在信息服务行业、知识处理行业、科学界、科技管理界得到充分的利用。对于一些简单的软件工具,可以通过产品化方式推出软件产品;而作为整体的"NSTL智能检索平台"将与NSTL生产系统逐渐融合,提升NSTL对广大科技工作者和科技情报服务机构的服务深度和服务能力。
序号 | 成果名称 | 成果形式 | 成果说明介绍 |
1 | 西文科技文献自动标注软件 | 软件 | 西文科技文献自动标注软件与NSTL加工处理过程进行无缝整合,能够基于STKOS英文超级科技词表,从NSTL收录文献的标题、摘要、关键词中自动标注科技概念名称、范畴以及关键词。 |
2 | 西文科技文献自动标注WEB应用系统 | WEB服务网站 | 西文科技文献自动标注WEB应用系统能够基于指定的词表和数据源,在线进行单篇文献标注、批量文献标注。 |
3 | 石油天然气管道标准内容指标 | 数据集 | 标准体例数据 6000余条; 领 内00余条内容指标数据。 |
4 | 标准内容指标专家加工系统 | 软件系统 | 面向领域专家提供标准内容指标查找、标准关键指标体系构建、标准内容指标数据管理、标准内容指标比对报表生成等功能。 |
5 | 标准内容指标管理工具 | 软件系统 | 提供内容指标加工流程管理、任务管理、内容指标数据管理、质保管理、数据发布等功能。 |
6 | 标准内容指标服务工具 | 软件系统 | 功能包括:信息服务基础平台、标准资讯、标准信息检索、揭示数据检索、标准体系表、任务管理、标准化论坛、信息管理、用户管理等。 |