基于STKOS的知识服务应用示范
1.1 研发背景
NSTL作为我国科技文献资源战略性保障体系,经过十年的建设和积累,在科技文献资源采集、建设、保障方面取得了长足发展,累积的各类资源数量已超过一亿条。在开展文献资源建设的同时,NSTL建立了网络信息服务平台,面向全国科技人员开展文献检索、代查代借、参考咨询、原文传递等基础性信息服务,在支撑我国科技创新和经济社会发展中发挥了重要作用。
然而,由于传统基础性信息服务缺乏科技知识组织体系及配套工具的支撑,已无法满足广大科研人员获取国际科技前沿信息的需要。因此,运用现代信息技术、先进的知识组织方式与有效的分析手段,为科技人员提供更加专业化、个性化、知识化的服务就成为迫切需要解决的关键难题。本课题研究意义主要表现在:
(1)是NSTL适应新形势下科研方式转变,满足科研用户对专业化、个性化、深层次知识服务需求的需要。
随着计算机技术和网络技术的广泛使用,以及各类科技文献信息服务系统的涌现,科研用户要查找所需的基础文献已不再是难事,而对诸如研究领域内的科技热点、前沿、发展趋势、领域内的知识结构及发展变化过程、领域内科研活动主体之间各种关系等更加专业化和深层次的知识服务有着强烈的需求。当前科学技术日新月异,科研工作的也广泛深入开展,新兴学科和交叉学科不断出现,科学研究要解决的问题也日益复杂,跨学科、跨机构、跨区域的科研协同已成为科学发展的必然趋势,未来的科研工作将更多地由分散在不同地域的研究团体通过合作的方式进行,便于交流和协作的科研信息环境是科研工作取得成功的重要保障。因此,为了适应科研方式的转变,满足科研人员对更高层次信息服务的需求,作为国家级文献服务机构的NSTL,必须依靠现代信息技术、更加先进的知识组织与分析工具,进一步拓展科研手段,建设科研信息环境,加强对科学研究各环节中的知识获取、知识管理和交流协作等的支撑,提供更加专业化、个性化、知识化的服务。
(2)是加强对科技文献资源深层次加工和深度分析,最大限度发挥、挖掘NSTL各类信息资源的作用和潜在价值的需要。
为了充分发挥国家大量财力购买、大量人力物力加工建设的科技资源的最大作用,最大限度挖掘各类资源的隐性知识和潜在价值,需要在科技知识组织体系基础上,通过在大规模科技文献之间建立关联关系,完成各类资源的精细化揭示、深度组织、深度序化和知识化整序;对大规模科技文献开展深度分析和知识挖掘,进行特定领域研究主题的自动探测、识别和聚类,描绘出领域知识结构和历史演变轨迹;实现对领域内科研主体(包括人和组织)的结构、活动模式和演化模式的挖掘和揭示,描绘出领域内的学术关系网络,为提供更加高效、智能的信息服务奠定基础。
(3)是完善NSTL网络服务平台功能,不断拓展服务方式,全面提升科技文献信息获取效率,增强面向专业领域的知识化服务能力的需要。
随着NSTL科技文献资源的不断丰富和用户对更加专业化知识服务需求的日益强烈,有必要根据不同专业领域创新主体的信息需求,不断改进和创新服务模式,提升用户查找、获取文献资源的效率,增强面向专业领域的知识化服务能力。通过知识组织系统和语义网技术的运用,构建科技文献资源关联网络,支持实现动态分面、基于关系的查询、复杂智能查询等资源发现需求,支撑上层的文献信息智能检索,提供深层语义挖掘和智能推理。基于NSTL海量科技文献资源、科技知识组织体系STKOS和其他课题研究成果,建立对科技信息的动态跟踪与监测、领域知识结构及演变过程进行挖掘分析、领域内的各类学术关系网络进行描绘与分析,以及面向特定领域的科研信息环境等方面的应用示范系统,使得用户的文献检索效率(检全率、检准率)得以提升,智能检索、科技监测、学科演变等研究成果都得到应用。通过提供这些深层次、专业化的知识服务,可为科技管理决策层了解国内外科技发展态势、制定科研立项和相关政策时提供决策依据,可为广大科研机构和科研人员了解领域内的科技热点、发展趋势以及进行科研选题、选择科研合作伙伴时提供重要参考。
1.2 研发目标
本课题研发的总体目标是依托STKOS和NSTL强大的资源体系,在夯实NSTL文献信息服务能力的基础上,将NSTL信息服务扩展到综合科技信息资源领域,充分发挥STKOS超级科技词表、领域本体以及科研本体在知识组织、知识关联、语义推理、知识挖掘等方面的优势,开展深层次知识服务应用研究。课题将紧密结合国家"十二五"重大科技专项的需要,选择2个学科领域,面向科研创新与科技决策开展深层次知识服务应用研究与示范,发挥NSTL在支持国家科技创新中的作用和地位,促进NSTL知识服务能力的提升。
1.3 课题架构与技术路线 本课题的总体研究框架如下图 1所示:
图1课题总体研究框架
本课题面向特定领域的应用需要,以NSTL海量科技信息资源和项目建成的STKOS为基础,以知识服务对STKOS的需求分析、总体技术方案设计和应用示范模式研究为指导,利用知识抽取工具和科技实体、语义关系抽取工具,从STKOS中进行知识片断、科技术语、实体和语义关系的抽取,形成面向特定应用的领域知识库和应用本体实例库;组织领域专家,以NSTL科技信息资源及其他资源为基础,进行选定领域科技术语、概念、语义关系、科技实体的识别和筛选,实现对应用本体实例库的扩充和完善。在形成的领域知识库与应用本体实例库基础上,进行主题聚类、主题演化、知识发现等深入的知识分析与挖掘,并集成项目其他课题提供的推理引擎API、智能检索接口等研究成果,以及可视化、数据清洗、数据挖掘等通用工具,建立面向不同专业领域的通用框架与模型,完成相关工具组件及支撑技术平台的开发与构建,通过系统平台部署、个性化配置、数据规范化处理和数据装载,搭建面向特定领域的应用示范系统,实现领域科技监测、科技信息资源关联数据服务提供、领域知识结构和演化分析、学术研究活动关系揭示、领域科研信息环境构建,推动STKOS的扩展应用,促进NSTL科技文献信息深层次知识服务的开展。
1.4 技术难点与创新点
本课题要解决的主要技术难点包括:
(1)基于STKOS对科技信息资源进行热点内容和突发内容监测模型的建立。主要表现为热点内容和突发内容的特征表示和计算,以及基于STKOS的热点内容和突发内容监测模型的设计。
(2)基于STKOS的知识领域结构和演化分析的关键技术与方法,获取知识结构及其演化过程的描绘工具,揭示知识领域中的重要关系结构及演化规律。
(3)基于STKOS开展领域内学术关系网络的建模、测度和计算,学术关系网络的特征识别和分析,学术关系网络中科研主体分布结构与角色关系识别。
(4)基于本体的领域科研信息环境构建工具的实现。
(5)以RDF三元组大规模发布科技文献的知识节点和知识关系链接,实现多类型、多来源的海量数据基于知识节点的数据融合,以SPARQL引擎实现科技文献数据的开放复用与智能查询。
本课题的创新点表现在:
(1)基于科技知识组织体系,构建热点内容和突发内容监测模型,对领域内研究热点和突发内容进行判断、识别和追踪,为科研用户提供服务。
(2)基于知识组织体系的知识领域结构和演化分析的关键技术与方法,获取知识结构及其演化过程的描绘技术工具,揭示知识领域中的重要关系结构及演化发展规律。
(3)基于文献知识网络研究领域学术关系及其演化过程,揭示领域内科研主体(包括人和组织)的结构、活动模式和演化模式,进而反映研究团队的学术交流、知识流动情况,以及当前科研领域的合作、交流和发展态势。
(4)基于领域本体和科研本体,研究可扩展的领域科研信息环境体系结构,开发组件式构建工具集,构建面向特定领域的知识环境,支持面向不同学科领域的应用部署与推广。
(5)在科技文献资源领域,首次以RDF三元组大规模发布科技文献的知识节点和知识关系链接,实现多类型、多来源的海量数据基于知识节点的数据融合,以SPARQL引擎实现科技文献数据的开放复用与智能查询,解决和突破知识关联网络的构建、存储、组织、索引和检索等关键问题。
2.1 算法模型
2.1.1 热点主题识别算法
热点主题是指在科技领域中,随着时间推移,逐渐引起人们关注、并被越来越多学者研究的研究领域。热点主题具有以下特征:在特定时空内引起了某研究领域学者们的普遍关注;发表的相关文章达到一定的数量;发表相关研究主题的期刊达到一定数量,热点主题将持续出现一定时间,与该主题相关的研究明显增多。
基于本研究提出的热点主题定义,课题组初步设计了基于改进的TFPDF算法的热点主题识别方法。该方法从概念在文档流中的出现频率和其所处的生命周期两个角度来综合分析识别热点概念,最后按语义类型划分生成热点主题。
该方法分为以下几个步骤:使用TF-PDF算法计算词频权重;使用主题生命周期理论计算主题在时间上的生命值变化率;权重修正系数计算;最终权重计算;热点概念选取;主题获取方法。
2.1.2 突发主题识别算法
突发主题是指科技领域中,伴随着某一科技事件(如重大科学实验进展、重要发明出现等)的发生,在短时间内被突然广泛关注的研究领域。突发主题在某一时间点之前相关报道量较少,在某一科技事件发生后的一个较短时期内被突然大量报道。突发主题的持续时间较短,并且随着时间推移,突发主题有可能转化为热点主题,也可能消逝,或退化为普通意义的主题。
针对本研究提出的突发主题的定义,课题组设计了基于Kleinberg突发监测算法的识别方法,基本思路为提取每个时间片内出现每个概念的文档频次,使用Kleinberg算法计算得到突发概念,最终按语义类型划分获得突发主题。
2.1.3 知识结构与知识演化分析模型
科技文献中的主题、关键词、摘要等信息可以视为文献的"指纹",代表着学术文献的主题。知识结构分析是知识演化分析的基础,所不同的是,知识演化分析的对象是时序知识结构。基于这一思想,知识结构与知识演化分析大体分别包括四个步骤,知识表示、知识识别、知识标识、可视化, 具体流程如下:
以科技文献的主题、关键词、摘要等核心内容为基础数据集,以STKOS参照数据集,对数据集进行词切分、语义抽取等预处理操作,为知识结构与知识演化分析奠定数据基础;
以预处理数据生成共词网络,利用相关聚类指标对共词网络加以修剪,构建知识结构网络,以可视形式分析固定时间窗的主题表现及竞争力。
基于时间窗划分以及类间相似度计算等技术,将连续时间窗下的知识结构网络生成平滑连续的知识演化路径,并利用知识演化现象识别指标来可视探测、识别分析知识演化过程与规律。
2.1.4 基于名词词组的语义抽取算法
该算法主要是基于将词组(即:两个连续停用词间的连续词集)分解成多个高频名词词组的思想,进而利用高频名词词组去构建主题,利用主题词共现链去探测重要主题,并辅以STKOS来提高主题的语义抽取效率。采用POS标注技术对所有的词进行语义标注,进而从文献的题名、摘要、关键词中抽取名词性词组。在此基础上,又以STKOS与抽取的名词词组进行概念匹配的方式对名词词组进行了概念归并及规范化;以规范后的名词词组作为文献的标引词集。
2.1.5 优选簇选取算法
借鉴Newman提出的GN聚类算法的改进算法,该算法不需要设定阈值。所不同的是:在聚类过程中设定了两个参数,sihuatte(Newsman)和Modularity Q(Rousseeuw,1987),利用这两个参数来自动综合选取最优聚类。其中,Sihuatte的取值范围是(-1,1),用于衡量主题之间的核心内容的区分度,Sihuatte的值越趋近于1,说明网络中类与类之间的主题内容的区分度越高;Modularity Q的取值范围为(0,1),用于区分网络中类间的划分界限的清晰度,取值越接近于1,说明网络的结构化越强。
2.1.6 知识演化现象识别算法
界定了知识新增、知识消失、知识融合、知识扩散、知识转移、知识再生六种知识演化现象,并分别对六种知识演化现象提出了识别指标,具体识别指标阐述如下:
设C_i^((t))为t时间窗下的主题类i;
Core(C_i^((t) ))为t时间窗下主题类i的核心节点集;
Node(C_i^((t) ))为t时间窗下主题类i的核心节点集;
C_i^((t))→C_j^((t+1))父节点,子节点;
祖先节点;即:存在连续的父节点,与子节点的衔接。
知识演化现象 | 演化路径 | 识别指标 |
知识新增 | (1)Core(C_i^((t)) )∩Node(C_j^((t+1)) )≠∅ (2) Core(C_j^((t+1)) )∩Node(C_k^((t-m)) )≠∅ (3)C_k^((t-m))=>C_i^((t)) | 某主题簇没有祖先簇 |
知识消失 | 某主题簇没有后续簇 | |
知识扩散 | 某主题簇有一个以上的继承簇 | |
知识融合 | 某主题有一个以上的父簇。 | |
知识转移 | (1)Node (C_i^((t)) )∩Node(C_j^((t+1)) )≠∅ and C_size (Node(C_j^((t+1)) ) )=1 (2) (Core(C_j^((t+1)) )∩Node(C_k^((t-m)) )=∅ C_k^((t-m))=>C_i^((t))) or (C_i^((t))has no ancestor) | 某主题簇有且仅有一个继承簇,且该继承簇没有祖先簇。 |
知识再生 | (1)Core(C_death^((t)) )∩Node(C_birth^((t+1)) )≠∅ | 演化路径中的某个主题在后续时间段重新出现 |
2.1.7 作者主题演化模型AToT
该模型结合了AT和ToT模型的优势,不仅可以揭示科技文献中隐含的主题和科研人员的研究兴趣随时间的演化过程,而且可以挖掘领域深层主题随时间变化不断演化的规律。
图2AToT模型
AToT模型有三个未知参数集 、 和 需要估计。目前估计这些参数的方法有很多,比如变分期望最大化(Variational Expectation Maximization)、期望传播(Expectation Propagation)以及Collapsed Gibbs采样等。每种参数估计方法都各有利弊,选择一种合适的近似算法要在效率、复杂性、准确性和概念简洁性之间综合考虑。由于Gibbs采样方法描述其简单且更易于实现,成为主题模型中最常采用的参数估计方法,也是本项目所采用的参数估计方法。
2.1.8 共同研究兴趣揭示模型coAT
该模型不仅可以挖掘科研人员间共同的研究主题,而且还能够从科研社会网络中识别类似兴趣的其他科研人员。
2.1.9 论文和专利资源领域深层主题关联模型(Topic Linkage)
针对特定领域的论文和专利资源,主题关系分析不仅可以揭示单种资源的主题结构,而且可以捕捉异构资源间的相互影响和排斥关系。
2.1.10 领域学术关系数据自动处理算法
领域学术关系数据自动处理算法,旨在通过一键运行的服务模式,实现领域学术关系网络的示范系统扩展领域数据的自动处理,方便示范系统的快速移植,基本步骤分为:
第一阶段:学术关系分析基础数据处理,包括数据下载、解析、抽取、计算;
第二阶段:学术关系深度分析数据处理,包括学术关系主题、科研主体关系和研究进展数据识别与处理;
第三阶段:数据结构化存储与多维索引创建。 2.1.11 学术关系网络模型与测度算法
根据学术关系网络构建与描述场景,项目设计与实现了相应的网络建模以及对应的测度与计算方法体系,包括:文献引证关系网络测绘、核心文献的发现与测绘、主题演化测绘、科研主体的合作网络发现与测绘、研究进展的发现与识别。
2.1.12 领域科研信息环境核心要素本体模型
对领域科研信息环境的概念和内涵进行深度解析,进一步明确科研信息环境的服务主体(研究机构、学科团队、科研人员等)及其对信息资源和信息服务的需求,提出领域科研信息环境的概念模型及要素组成,主要包括:
科研主体,是科学研究的主体,也是科研信息环境的主要服务对象,包括科研人员、科研团体以及科研机构等。
科研条件,是科研人员开展科学研究的基础科研条件,包括专业期刊、科技文献库、科学数据库(集)、仪器设备、项目基金、专业网站、常用工具等。
科研活动,是科研主体开展科学研究的主要表现形式,也是科研用户为满足其科研需求(研究实践、知识管理、科研协同、查找科研资源、寻找项目机会、了解学科概况、把握学科发展态势、成果展示等)开展的相关活动,包括科研项目、学术会议、科学实验、调查、培训、讲座等。
科研产出,是科学研究的主要成果形式,既涵盖了正式出版物,也包括灰色文献,具体包括期刊论文、学位论文、会议论文、图书、学术报告、科学数据、科技成果等。
其他概念,主要指学科领域、地理位置等统一的概念或分类。
图3领域科研信息环境核心要素本体模型
2.2 示范系统及工具
2.2.1基于STKOS的科技监测应用示范系统
(1)系统简介
该示范系统以NSTL海量的科技文献信息资源为基础,充分发挥科技知识组织系统STKOS的优势,对领域内研究热点和突发主题进行判断、识别和追踪,建立热点和突发主题监测模型,构建科技监测应用示范系统,并在肿瘤领域初步开展应用示范,提供科技热点和突发监测服务。
(2)核心功能
该系统主要由系统管理、数据初始化、热点和突发识别、用户服务等模块组成,其中:
系统管理模块是对系统所涉及到的各个基础信息或参数进行管理,包括角色管理、用户管理、资源管理、系统参数管理、日志管理、代码管理以及文件参数管理等。
数据初始化模块是对数据进行导入、转存、拆分和清洗,为突发热点监测以及用户服务提供标准化数据。数据导入包括STKOS和NSTL文献资源的导入,数据预处理是对导入的NSTL的科技文献资源进行词汇、机构、作者以及国家信息的规范。使用概念映射工具对标题、摘要以及关键词等字段进行概念映射。
热点及突发识别模块,对对突发主题和热点主题分别建立识别模型,首先识别文档集合中热点概念和突发概念,通过概念最终实现热点和突发主题的获取。
用户服务模块,利用用户输入的检索关键词,在文献数据库中检索出符合用户要求的论文文献资料。对检索的数据集进行分析处理(作者分析、机构分析、主题分析等),并以可视化的形式展现给用户,使得用户能在最短时间内获得文献集合中的研究内容、研究人员、研究机构等信息。系统支持可视化的用户交互,用户可以根据自己的需求更改可视化的展现形式和具体的元部件内容和属性。包含文献监测模块、热点与突发指数监测模块。
(3)应用场景及使用说明
该系统提供后台管理和前端服务功能。下图展示了后台对系统所涉及到的各个基础信息或参数进行管理,包括基础数据管理、系统管理、规则管理、数据初始化、检索分析等。
图4科技监测示范系统后台
用户进入前端服务系统后,可以查看浏览文献数据集中最新的详细信息,浏览当前文献数据集中热点值最高的作者及其发布的文献详细信息以及热点值最高的机构及其发布的文献详细信息。用于显示的文献数据信息都是从数据规范表获取,而数据规范表都由数据源表转存而得,所以只需要根据文献的编号从数据源表中获取。包括概念检索、热点、突发词云,主要研究人员、研究机构,文献、新闻动态等板块,如图所示。
图5科技监测应用示范系统首页
以可视化的形式向用户展示检索结果,包括热点、突发主题,概念随时间的变化趋势,检索结果中的文献、作者、概念统计信息,检索结果列表等,以"Malignant Neoplasm of Lung"为例,如图所示。
图6检索结果页面
热点与突发指数页面为用户提供药物、疾病、基因等不同类型概念的热点、突发指数,如图所示。
图7热点与突发指数页面
热点与突发指数监测模块还提供以下功能:数据检索、热点与突发指数分析、概念国家分布三大部分,如图所示。
图8热点与突发指数检索
2.2.2 知识结构与知识演化分析应用示范系统
(1)系统简介
该系统是集主题文献检索、主题文献浏览、知识结构分析、知识演化分析、生成分析报告等功能为一体的面向科研用户开发的一个辅助分析工具,主要目的是为科研人员提供学科领域知识结构和知识演化分析服务。系统所提供的信息资源主要是依托NSTL现有科技文献资源,针对领域内各研究主题的研究表现和竞争力、主题的演化发展过程、主题的结构化描绘和研究特点进行分析,并开展基于主题探测、识别和追踪的关联主题分析。实现全面有效地揭示多态主题间的分布特征、演化关系等,进而更好的支持科学研究和决策。
(2)核心功能
系统主要包括数据管理模块、开放接口服务模块、知识演化分析服务模块和知识结构分析服务模块等四个核心功能模块,其中:
数据管理模块主要负责数据分析的预处理工作,开放接口主要用于与其他相关系统的集成。知识演化分析与知识结构分析服务模块是核心功能模块,分别负责知识演化和知识结构分析过程中的阈值设置、概念关联网络、主题关联网络、文本列表、统计分析报告的生成等任务。
(3)应用场景及使用说明
知识结构与知识演化分析系统主要包括两种分析服务,即领域知识结构分析服务及领域知识演化分析服务。知识结构与知识演化分析均以用户操作开始,如输入检索词,选取时间片,确定参数阈值等。知识结构分析会提供领域的聚类分析图,相关的聚类概念列表及核心文献列表信息、相关统计分析与分布态势分析图、以及相应的分析报告;同样,知识演化分析也会提供领域的知识演化路径图、相关的概念列表及核心文献列表信息、各种知识演化现象的统计分析图,以及分析报告。
系统首页(如图 8)提供了系统概览信息。具体包括知识结构与知识演化相关概念的解释、知识演化中各种现象的图示说明、系统的服务场景图示说明,以及Google相关搜索等信息。
图9系统首页概览功能页面
用户通过检索与分析菜单,在检索框中输入相关主题、检索项、时间片、起止时间等信息后,即可进行实时知识演化分析。如图 15,输入"hybrid rice"检索词,检索项为"题名",检索起止时间为"1995-2010年",时间片为"1年",点击检索按钮,得到主题聚类界面后,点击图 13中的"知识演化图示按钮",便可得到如图 15中的基于主题演化路径的主题演化聚类图。其中,通过主题演化图,用户可以清晰地了解到"hybrid rice"主题的1995-2010年间的主题流向及演变情况,具体的主题演化现象包括主题融合、主题扩散、主题转移、主题新增、主题消失、主题再生。同时,系统还提供了各主题演化现象的核心文献的相关信息(如图 16)以及各演化现象的统计图。
图10系统知识演化分析界面截图
2.2.3 学术关系网络分析应用示范系统
(1)系统简介
系统以NSTL海量科技信息资源的科技文献知识网络和领域知识库为基础,结合STKOS科技知识组织体系,从领域专家、机构与社团、核心文献和主题探测四个层面,从合作网络、同被引用网络、共著网络以及主题共现网络的角度,构建领域学术关系网络,同时揭示相关科研主体的演化趋势,最终实现学术研究活动关系的深度揭示,提高NSTL科技文献信息知识服务能力。
(2)核心功能
该系统由基础数据采集模块、数据处理模块、学术关系模型计算模块和应用服务展示模块几部分组成,其中:
数据采集模块,为了能在多个领域中进行示范应用,提供灵活配置、个性化下载SCI等来源的数据,包括基本DC数据以及引文等描述信息;
数据处理模块,主要负责处理领域文献数据,包括数据的清洗、规范化处理、多维度索引、科研要素实体抽取等;
学术关系模型计算层:主要计算测度指标(如引用频次、H指数、G指数、中心度、密度等),构建共著网络、合作网络、引用网络、共词网络;
应用展示层:分别从领域专家、研究机构/社团、核心主题以及核心文献四种应用服务揭示文献知识网络中的领域学术关系,采用文本、图形、本体三种模式进行应用展示。
(3)应用场景及使用说明
利用NCI肿瘤知识组织体系,开展了领域文献知识网络学术关系应用及可视化展示方法研究,构建了应用示范系统,包括:领域创新内容的分析与揭示、活跃研究方向分析与评估、引文网络的分析与挖掘、领域主题词变化趋势和活跃研究主体及其合作网络。
图11学术关系应用示范—研究进展:新概念发现与识别
图12学术关系应用示范—研究进展:活跃研究方向
图13学术关系应用示范—文献引证追踪
图14学术关系应用示范—活跃研究主体合作关系
2.2.4 关联数据构建平台及服务系统
(1)系统简介
关联数据构建平台及服务系统,是通过应用关联数据对NSTL科技文献资源建立关联关系,完成各类资源的精细化揭示、深度组织、深度序化和知识化整序,实现NSTL科技文献资源的语义数据发布、智能开放获取,以构建支持扩展、整合和混搭的新型信息服务平台,更高效、更智能地满足各类信息需求。
(2)核心功能 主要由关联数据的构建和发布平台、关联数据的应用服务系统和关联数据应用工具三部分组成,其中:
关联数据的构建和发布平台,由三个部分组成:1)发布层:实现关联数据的多种发布和查询,HTML RDF浏览、RDF下载、SPARQL查询和关联数据客户端请求;2)服务层:实现关联关系构建及映射转换,提供关联数据检索引擎;3)工具层:实现关联数据服务网关的管理及数据库配置。该平台适用于将关系型数据转换为关联数据进行发布,为各类调用提供接口。
关联数据的应用服务系统,基于关联数据实现搜索服务示范,具体包括基于对象及属性的动态分面、基于对象属性关联、数据数据与文献数据关联以及与外部数据关联的数据融合、基于字段检索和关系检索的语义检索等。
关联数据应用工具,为上述两个系统的推广应用和本地化剪裁应用所开发的相关工具和接口。具体包括:1)WEB接口:外部系统调用WEB接口,通过输入水稻领域的科学术语及文献对象名称或属性,获得相关的以不同序列表现的关联数据输出;2)辅助工具:服务配置、映射管理、数据管道工具;专利关联数据发布工具等。
(3)应用场景及使用说明
关联数据的构建和发布配置工具,可实现基于关系型数据库进行关联数据的快速发布,并进行数据库连接、语义映射文件、服务器地址等参数进行动态配置管理,如下图所示:
图15关联数据的构建和发布配置工具
关联数据的构建和发布平台,可提供对关系型数据库数据以关联数据的风格进行浏览、导航和SPARQL查询。
图16关联数据的构建和发布平台
联数据的应用服务系统,支持关键词全文检索、三元组检索及其三元组组配检索,提供了动态分面与多维浏览功能,并基于不同类型数据关联点,提供数据之间丰富的关联关系,在数据的展示层和同一页面,提供多样化的相关链接。如下图所示
图17关联数据的应用服务系统
关联数据应用工具,为外部其它数据源或第三方用户提供了通用智能接口,以引用、调用、集成水稻关联数据集。通用接口的输入为专业术语/主题名称,科研实体或其URI等,输出结果为基于NSTL文献深度标注和知识数据关联所构建的关联数据三元组或三元组集,其形式为RDF数据的不同序列形式,接口方式包括URI参引、RDF浏览、SPARQL查询和DUMP下载。使用对象可将输出结果嵌入页面或线下使用,也可供其它用户进行语义标注、分类等语义处理使用,满足用户的知识需求。例如:领域科研信息环境系统向接口提交作者ID,格式为样例:http://base_url/data/expert/102)?output=rdfxml,具体参数如下:
获得数据如下
<?xml version="1.0"?> <rdf:RDF xmlns:db="http://localhost:2020/resource/" xmlns:void="http://rdfs.org/ns/void#" xmlns:xhtml="http://www.w3.org/1999/xhtml/vocab/#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:vocab="http://localhost:2020/resource/vocab/" xmlns:prvTypes="http://purl.org/net/provenance/types#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:sp="http://spinrdf.org/sp#" xmlns:doap="http://usefulinc.com/ns/doap#" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns:dc="http://purl.org/dc/terms/" xmlns:xsd="http://www.w3.org/2001/XMLSchema#" xmlns:prv="http://purl.org/net/provenance/ns#" xmlns:d2rq="http://www.wiwiss.fu-berlin.de/suhl/bizer/D2RQ/0.1#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:map="http://localhost:2020/resource/#"> <rdf:Description rdf:about="http://localhost:2020/resource/expert_work_history/489"> <vocab:expert_work_history_name__ref> <vocab:expert rdf:about="http://localhost:2020/resource/expert/102"> <foaf:page rdf:resource="http://localhost:2020/page/expert/102?output=rdfxml"/> <rdfs:isDefinedBy> <foaf:Document rdf:about="http://localhost:2020/data/expert/102?output=rdfxml"> <prv:containedBy rdf:resource="http://localhost:2020/dataset"/> <void:inDataset rdf:resource="http://localhost:2020/dataset"/> <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime" >2014-12-25T16:41:35.181Z</dc:date> <rdf:type rdf:resource="http://purl.org/net/provenance/ns#DataItem"/> <rdfs:label>RDF Description of expert #102</rdfs:label> <foaf:primaryTopic rdf:resource="http://localhost:2020/resource/expert/102"/> </foaf:Document> </rdfs:isDefinedBy> <rdfs:label>expert #102</rdfs:label> <vocab:expert_id rdf:datatype="http://www.w3.org/2001/XMLSchema#integer" >102</vocab:expert_id> <vocab:expert_activities>Dr. Bjoern Ole Sander joined IRRI in January 2010 and works as Post-doctoral fellow with Dr. Reiner Wassmann on climate change. Dr. Sander analyzes greenhouse gas (GHG) emissions (mainly methane and nitrous oxide) on farmers’ rice fields in the Philippines and also on IRRI experimental fields. His focus lies on mitigation of GHG emissions through water-, fertilizer-, and crop residue management. Especially the water saving method AWD (alternate wetting and drying) offers huge potential to reduce methane emissions. 
 In addition Dr. Sander builds up capacities in Vietnam where he starts the first greenhouse gas measurements in the country in collaboration with the University of Hue.</vocab:expert_activities> <vocab:expert_name>Sander, Bjoern Ole</vocab:expert_name> <vocab:expert_background>Dr. Sander was born and raised in a farming village in northern Germany. He started his career at the University of Kiel, Germany where he studied chemistry. In 2005 he started his PhD and a job as scientific collaborator at Kiel University. His research focus lay in the field of bioinorganic chemistry. In 2009 Dr. Sander received a scholarship from the German Ministry for Economic Cooperation and Development and joined IRRI in January 2010.</vocab:expert_background> </vocab:expert>
2.2.5 领域科研信息环境应用示范系统
(1)系统简介
领域科研信息环境是对专业领域知识进行搜集、组织、抽取、实现知识关联和推送服务,使丰富的科技信息资源得到深层次利用,从而把信息服务推到更高层次的知识服务。该示范系统以NSTL科技信息资源和STKOS为基础,在研究设计领域科研信息环境组成要素、功能模型、相关集成标准与接口规范基础上,建立了领域科研信息环境技术支撑平台,完成基础管理工具及服务组件开发了,搭建的面向选定学科领域的科研信息环境应用示范系统。
(2)核心功能
整个系统由综合科技信息管理工具和领域科研信息环境支撑技术平台等组成,其中:
综合科技信息数据管理工具,通过对科研创新过程所需综合科技信息数据类型及数据格式的全面调研,设计并开发数据抽取、转化和管理的工具,实现领域知识的扩充;实现科研知识组织体系本体和领域本体类知识组织体系、属性等的管理维护,以及资源素材到资源库的加工与转化。
领域科研信息环境支撑技术平台,通过对领域知识组织体系本体和科研本体知识组织体系的推理引擎、语义分析、结构化呈现、语义导航等技术方法加以集成应用和优化改造,构建以知识导航、知识检索为核心服务的领域科研信息环境支撑技术平台,以支持领域科研信息环境示范系统建设。主要提供领域科研信息环境的核心服务,包括领域知识导航、知识检索获取、领域知识关联、知识地图、知识共享、知识管理等功能。
(3)应用场景及使用说明
综合科技信息数据管理工具为知识编辑提供自动和半自动化的构建工具,对现有的数据库资源、互联网资源以及文本资源进行抽取和加工。在加工的过程中,按照规范的知识编辑加工工作流程进行质量控制,每条知识都带有机器或加工人员的标识,便于对加工内容进行回溯管理和统计。同时对已加工的知识内容,提供方便快速的预览模式,并可以图形化的方式展示编辑后的关联关系,同时对整个加工内容提供统计和管理,如下图所示:
图18综合科技信息数据管理工具
应用推广时,可结合选定的应用示范领域,基于综合科技信息数据管理工具,按照知识组织体系实例库建设的数据规范及质量要求,对收集到的国内外科技文献、科研机构、科研人员、基金项目、科学数据等多类型综合科技信息资源的规范性及数据质量进行质量检查,基于科研本体描述框架和语义模型,完成各类信息资源的批量加载和人工审核,完成科研本体实例库的构建和知识资源的深度关联,并通过领域科研信息环境支撑技术平台,进行应用示范系统的快速构建与发布。
下图是水稻领域的科研信息环境应用示范系统首页,提供了领域内的新闻动态、科研人员、科研机构、科研项目、学术活动、专业期刊、科学数据等服务功能。页面中部提供了全站快速检索入口和各类资源分类浏览功能。
图19水稻领域科研信息环境应用示范系统
该系统基于STKOS词表中的语义关系提供了智能检索,并通过挖掘分析,以可视化的方式,提供了知识推送、热点词云、时光隧道和知识地图等功能。
图20智能检索、挖掘分析和可视化展示
2.3 学术产出
发表科技论文 27篇,其中向国外发表5篇;出版科技著作13.5万字。获得软件著作权:6 项
3.1应用示范与用户反馈
目前,课题研究部署的应用示范系统,已经面向"肿瘤"、"水稻"等领域开展了初步应用示范。课题组已经与北京协和医院,医科院基础所、儿研所、中科院植物所、中国农科院水稻所等组织机构的多类用户进行了需求调研、宣传推广、系统试用和交流反馈。例如:
试用用户普遍表示"基于STKOS的科技监测应用示范系统"揭示的热点和突发主题与当前研究领域内的实际情况基本吻合,系统基本可以满足用户的科研、临床需求,并与SCI、PubMed等数据库形成了有益的补充。在医学知识组织体系的应用方面,用户普遍表示有所了解,但均未在实际的临床、科研工作中使用和操作过,因此对医学知识组织体系在监测系统中的应用原理不关注,但是比较系统最终展示的结果,用户普遍认为应用了知识组织体系后,可以更方便的了解到相关研究领域的概貌,从宏观上把握相关研究领域的整体动态。基本达到了本系统的建设目的。
基于知识结构与知识演化分析示范系统,先后完成了hybrid rice, rice breeding, rice yield三个水稻子领域的知识结构与知识演化的案例分析,并生成分析报告及专家用户分析结果反馈调查问卷。分析结果表明:基于STKOS术语的分析结果中知识结构主题标识更规范化、重点领域的揭示更为突出; 知识演化路径中所揭示的各种演化现象同样与实际相符,且更能切合实际地解释科研热点问题的演变过程。
领域科研信息环境示范系统,与中国水稻所服务示范对接,用户需求搜集,水稻专业资源提供,用户服务开展。结合国家"十二五"重大专项,根据中国农业科学院学科建设与发展的实际,选取水稻领域,经过水稻领域专业资源采集与应用本体实例库建设、示范系统本地化部署等步骤,初步完成了水稻领域科研信息环境的搭建,为开展水稻领域的科研研究提供了更专业、深度的知识化服务。
3.2应用前景与服务方式
通过本课题的研究,建立了基于STKOS的科技监测、知识结构与知识演化分析、学术关系网络、领域科研信息环境及科技资源多维关联的资源模型、分析模型和指标体系和各类型应用示范系统。
通过用户试用反馈得出,研制的各类应用示范系统对于科研用户在开展科学研究工作中可以起到较好的辅助作用,有助于系统揭示专家领域的研究热点和突发主题,分析专业领域知识的结构及变化过程,展示专业领域的学术关系网络图谱,更便捷地获取专业领域的各类信息资源和知识服务,具有广泛的应用前景。
课题研究过程中,由于尽量坚持并执行了规范化、标准化和模块化的设计思想和开发要求,因此,研究形成了一系列带有共性技术特点的示范系统和工具,可以在不同专业领域进行快速移植和应用推广。
在应用服务过程中,主要有两种方式:一种方式是可以直接访问已经构建的应用示范系统,并根据用户需要进行资源和功能的丰富完善。另一种方式是建立其他专业领域新的示范系统,重点需要开展新领域示范系统的本地化部署,并收集、整理和丰富示范领域多类型数据,深度加工处理与分析计算各类数据资源,以及开展示范系统的应用测试与功能完善。
序号 | 类型(专利/软件著作权等) | 名称 | 编码 | 说明 |
1 | 软件著作权 | 基于STKOS的科技监测应用示范系统 | ||
2 | 软件著作权 | 知识结构与知识演化分析系统V1.0 | 2013R11L204290 | |
3 | 软件著作权 | 文献内外部特征一体化主题模型软件[简称;IEFeature-TM]V1.0 | 2014SR196638 | |
4 | 软件著作权 | 领域知识服务系统V1.0 | 2012SR114713 | |
5 | 软件著作权 | 科研项目管理与科研协作平台V1.0 | 2012SR001234 | |
6 | 软件著作权 | 农业科学叙词表向关联数据转化系统V1.0 | 2013SR138909 |
序号 | 成果名称 | 成果形式 | 成果说明介绍 |
1 | 基于STKOS的科技监测应用示范系统 | WEB服务网站 软件系统 |
该示范系统以NSTL海量的科技文献信息资源为基础,充分发挥科技知识组织系统STKOS的优势,对领域内研究热点和突发主题进行判断、识别和追踪,建立热点和突发主题监测模型,构建科技监测应用示范系统,并在肿瘤领域初步开展应用示范,提供科技热点和突发监测服务。 |
2 | 知识结构与知识演化分析应用示范系统 | WEB服务网站 软件系统 |
该系统是集主题文献检索、主题文献浏览、知识结构分析、知识演化分析、生成分析报告等功能为一体的面向科研用户开发的一个辅助分析工具,主要目的是为科研人员提供学科领域知识结构和知识演化分析服务。 |
3 | 学术关系网络分析应用示范系统 | WEB服务网站 软件系统 |
系统以NSTL海量科技信息资源的科技文献知识网络和领域知识库为基础,结合STKOS科技知识组织体系,从领域专家、机构与社团、核心文献和主题探测四个层面,从合作网络、同被引用网络、共著网络以及主题共现网络的角度,构建领域学术关系网络,同时揭示相关科研主体的演化趋势,最终实现学术研究活动关系的深度揭示 |
4 | 领域科研信息环境应用示范系统 | WEB服务网站 软件系统 |
领域科研信息环境是对专业领域知识进行搜集、组织、抽取、实现知识关联和推送服务,使丰富的科技信息资源得到深层次利用,从而把信息服务推到更高层次的知识服务。该示范系统以NSTL科技信息资源和STKOS为基础,在研究设计领域科研信息环境组成要素、功能模型、相关集成标准与接口规范基础上,建立了领域科研信息环境技术支撑平台,完成基础管理工具及服务组件开发了,搭建的面向选定学科领域的科研信息环境应用示范系统。 |
5 | 关联数据的构建和发布平台 | 软件系统 | 由三个部分组成:1)发布层:实现关联数据的多种发布和查询,即HTML RDF浏览、RDF下载、SPARQL查询和关联数据客户端请求;2)服务层:实现关联关系构建及映射转换,提供关联数据检索引擎;3)工具层:实现关联数据服务网关的管理及数据库配置。该平台适用于将关系型数据转换为关联数据进行发布,为各类调用提供接口。 |
6 | 关联数据的应用服务系统 | 软件系统 | 实现基于对象及属性的动态分面,基于对象属性关联、数值数据与文献数据关联以及与外部数据关联的数据融合,基于字段检索和关系检索的语义检索等。 |
7 | 基于TFPDF和生命周期理论的热点主题监测算法 | 模型/算法 | 基于改进的TFPDF算法进行热点主题识别。该方法从概念在文档流中的出现频率和其所处的生命周期两个角度来综合分析识别热点概念,最后按语义类型划分生成热点主题。 |
8 | 基于Kleinberg的突发主题监测算法 | 模型/算法 | 基于Kleinberg突发监测算法的识别方法,基本思路为提取每个时间片内出现每个概念的文档频次,使用Kleinberg算法计算得到突发概念,最终按语义类型划分获得突发主题。 |
9 | 知识结构与知识演化分析模型 | 模型/算法 | 知识结构分析是知识演化分析的基础,所不同的是,知识演化分析的对象是时序知识结构。基于这一思想,知识结构与知识演化分析大体分别包括四个步骤,知识表示、知识识别、知识标识、可视化。 |
10 | 基于名词词组的语义抽取算法 | 模型/算法 | 该算法主要是基于将词组分解成多个高频名词词组的思想,进而利用高频名词词组去构建主题,利用主题词共现链去探测重要主题,并辅以STKOS来提高主题的语义抽取效率。 |
11 | 优选簇选取算法 | 模型/算法 | 借鉴Newman提出的GN聚类算法的改进算法,该算法不需要设定阈值。 |
12 | 知识演化现象识别算法 | 模型/算法 | 界定了知识新增、知识消失、知识融合、知识扩散、知识转移、知识再生六种知识演化现象,并分别对六种知识演化现象提出了识别指标 |
13 | 作者主题演化模型AToT | 模型/算法 | 该模型结合了AT和ToT模型的优势,不仅可以揭示科技文献中隐含的主题和科研人员的研究兴趣随时间的演化过程,而且可以挖掘领域深层主题随时间变化不断演化的规律。 |
14 | 共同研究兴趣揭示模型coAT | 模型/算法 | 该模型不仅可以挖掘科研人员间共同的研究主题,而且还能够从科研社会网络中识别类似兴趣的其他科研人员。 |
15 | 论文和专利资源领域深层主题关联模型(Topic Linkage) | 模型/算法 | 针对特定领域的论文和专利资源,主题关系分析不仅可以揭示单种资源的主题结构,而且可以捕捉异构资源间的相互影响和排斥关系。 |
16 | 领域学术关系数据自动处理算法 | 模型/算法 | 通过一键运行的服务模式,实现领域学术关系网络的示范系统扩展领域数据的自动处理,方便示范系统的快速移植。 |
17 | 学术关系网络模型与测度算法 | 模型/算法 | 根据学术关系网络构建与描述场景,项目设计与实现了相应的网络建模以及对应的测度与计算方法体系,包括:文献引证关系网络测绘、核心文献的发现与测绘、主题演化测绘、科研主体的合作网络发现与测绘、研究进展的发现与识别。 |
18 | 领域科研信息环境核心要素本体模型 | 模型/算法 | 明确科研信息环境的服务主体(研究机构、学科团队、科研人员等)及其对信息资源和信息服务的需求,提出领域科研信息环境的概念模型及要素组成,包括科研主体、科研条件、科研活动和科研产出等。 |