面向外文科技知识组织体系的大规模语义计算关键技术研究
成果报告
本课题的主要目标是: 本课题的总体目标是通过概念词汇的结构化计算以及非结构化科技文本的语义标注关键技术研究,为STKOS的概念体系建设和领域知识库建设提供自动化方法和工具。通过开发和集成相关的软件工具,为我国科技文献的微观、中观和宏观层面(词汇、概念、短语、句子、篇章、专题、全库)的语义分析提供技术方法支持。同时为未来科技文献的移动知识服务进行前瞻性研究和布局。
为实现上述课题目标,需要完成下列主要任务内容:
(1)结构化计算工具为STKOS中的基础词汇、术语、概念、领域本体等提供基于相关度、相似度、维度、粒度等特征的计算功能,例如映射、关联、聚类、测度等,结构化计算工具直接为STKOS的建设、维护更新和服务提供技术方法和工具支持。
(2)语义角色标注和深层次标注工具研究语义计算资源融合、高效标注算法,并开发集成名词、短语识别组件、语义角色标注组件、深层次标注组件等。
(3)在研究上述工具系统的基础上,进一步探索专业领域内容分析的所需语料库和知识库构建方法,选择1~2个重点领域展开实践,并在移动知识服务方面展开探索。,
本课题所要解决的技术难点和问题是:
(1)研究和实现科技词汇、术语和概念及其语义关系的描述与组织,以及概念模型的结构化表示 针对科技文献资源的领域、语言和表达形式特点,对科技词汇、术语和概念及其语义关系进行描述与组织,概念模型加以结构化,其关键技术包括:概念结构化描述形式、语义特征提取、特征知识库构建、知识对象多个模态之间的关联性描述与辅助构建。
(2)适用于科技文献文本处理的不同语义资源综合集成利用技术
面向科技文献自然语言处理的语义资源利用问题,将现存的按不同的规范和标准构建的语义知识资源有机地集成起来,是面向科技文献结构化词汇与非结构化文本的大规模语义计算的一个关键技术。
(3)研究并构建句子语义角色标注、领域知识深层次自动标注和语义计算模型 目前句法分析的性能严重制约着语义角色标注的性能。本课题将尝试利用有效的浅层句法分析的高正确性,提出适于科技文献语言特点的语义角色标注方法。另外由于缺乏高质量大规模的词义标注语料库,严重限制了词义标注技术的应用。本课题在对科技文献进行词义标注中,将尝试利用知识与数据驱动结合的语义计算方法,结合词义标料库,训练可靠的统计学习模型,充分发挥统计模型在大规模高频数据上的学习优势,同时通过语义知识库弥补非典型语言现象的统计数据不足问题,以便达到最佳的整体处理效果。
(4) 自适应、可进化的语义计算工具包研发中的关键技术 为了保证系统内核的健壮性和稳定性,以及自适性、可进化的语义工具包研发的顺利进行,需要解决以下几个方面所涉及的关键技术:支持结构化计算和非结构计算模块的多样性、多版本性,异构数据源的管理,和多粒度知识的管理等。
(5)移动知识服务原型系统关键技术
这些关键技术主要包括三个方面:当前移动终端平台处于割据化、非标准化的复杂局面,如何最大限度的实现不同平台上软件的通用或共享将是需要重点考虑与解决的技术难点之一。不同的移动终端具有不同的硬件或软件能力,如何使具有不同能力设备的持有者都能获得良好的知识服务体验既是一个用户体验设计的问题,更是一个让软件支持自适应特性的技术难点。移动终端的用户交互方式非常受限,如何为用户提供方便的输入途径,并尽量准确抓取用户输入的真实意图就显得尤为重要;而在内容的展示上,如何根据本项目其他课题提供的结构化知识库,为用户提供层次化、颗粒化的答案(知识)展示,也将是一个重要的技术问题。
本课题的总体技术框架为:
本课题的主要创新点包括:
(1)采用跨媒体、多模态特征融合的语义建模来挖掘不同模态特征的潜在语义相关性,完成知识组织体系的概念结构化、内容表示语义化,构建针对NSTL科技文献资源数据的语义关联特性,并开发相应的软件工具。
(2)专业领域语义词典和词义标注语料库的互动构建,一方面,依据语义词典对语料库进行词义标注,另一方面,依据词语在语料库中的真实出现修改、扩充和调整语义词典的相关信息。实现语义词典和词义标注语料库构建的良性循环式互动,最终达到语义词典和词义标注语料库的同步最优。
(3)知识与数据驱动结合的语义计算方法,结合词义、句义、篇章义语义标料库,训练可靠的统计学习模型,充分发挥统计模型在大规模高频数据上的学习优势,同时通过语义知识库弥补非典型语言现象的统计数据不足问题,达到最佳的整体处理效果。这是本项目在语义计算方法方面的一个创新。
(4)提出一套全方位、多层次的语义标注体系,从词汇、句子、语篇三个层次对文档进行标引,并开发相关标引工具,可以辅助或者自动标注文档的深层语义关系
(5)本课题构建的科技文献领域通用语义计算工具包是国内首个专门针对科技文献内容分析、处理工具的集成框架体系,通过开放的组件架构设计,可以为我国其它从事相关工作的各类研发群体提供一个可以复用的软件技术框架。
(6)通过语义表示体系中的粒度相关研究,实现基于计算设备能力的知识粒度控制策略,以及知识服务中的交互活动,相关研究具有独创性。
成果说明
(1)数据集(含语料库)2项包括如下:
语义标注语料库:是对皮肤病中文语料300万字做了分词,词性标注,句法分析,浅层语义分析,深层语义分析后的语料库资源。
领域词典:皮肤病领域的词汇资源
细粒度的问答知识库:百度问答数据。
2)系统、软件、工具6项(其中系统4项,软件工具3项)
HQA系统:基于移动平台的皮肤病问答系统,包括知识库管理后台,以及皮肤病问答移动前端。
SCT系统:基于大规模语义计算的工具包集成平台,集成了不同的文本处理工具,各工具是独立的bundles的形式,支持新bundles的扩展及多bundles的组合功能。
STCSAT系统:是基于概念空间的概念分类体系加工处理平台。包括概念分类体系的输入,标注规范化,合并对齐,映射工具,以及可视化展示。
多词表领域文本标注系统:领域知识标注平台。
分词和词性人工标注平台:软件工具 人工标注校对平台
句法和语义人工标注平台:软件工具 人工标注校对平台
篇章内容关系指代人工标注平台 软件工具 人工标注校对平台
(3)Web服务站点: 2项
HQA,可提供web服务
SCT,可提供web服务
多次表标注平台,可提供web服务
(4)算法、模型:8项
基于转换的依存句法分析算法,自动句法分析模型及算法;
浅层语义角色标注,自动浅层语义角色标注的算法;
DeepSemanticAnalyzerBundle,深层语义分析算法;
AutomaticTagging集合工具,包括分词,词性标注,句法分析,浅层语义,深层语义;
基于双序列比对的中文术语语义相似度计算,术语相似度计算方法;
最小二乘支持向量机LSSVM,算法代码
多任务最小二乘支持向量机MTLSSVM,算法代码
映射算法,多维度映射算法
(5)标注规范:1项
现代汉语句法语义标注规范:包括以依存视图为核心的多视图汉语树库;语义关系标注规范;标注工具的基本构成及功能,基于反馈的自动标注,与语法词典的交叉验证。
课题应用前景及成果转化条件:
本课题与国家“科技文献资源建设与共享服务”的建设结合密切,为其提供配套关键技术。“科技文献资源建设与共享服务”的建设为本课题大规模语义计算提供了基础数据内容和长期、稳定的数字化信息来源,而本项目的研究成果将直接应用于“国家科技图书文献中心”等科技文献资源建设与共享服务的重点服务机构和系统,有助于推动海量科技信息资源的深层次开发和利用。
目前,项目成果已经应用于与民生银行签订的考试主观题判卷项目,与湖南情报所的领域知识标注项目,与北京理工大学的专利与图书分类法映射项目当中。
所构建的标注语料库是国际上第一个面向科技文献的覆盖分词、词性标注、句法和语义信息的大规模语料库。
推广应用前景:
本课题的研究成果在自然语言处理和知识组织处理相关领域取得了研究的进展,所开发与集成的工具以独立的bundles的形式集成在一起,提供统一的平台服务,具有良好的实用价值及推广前景。
发表论文
序号 |
责任者 |
题名+出处+页数 |
1 |
李素建 |
TAC 2011 guided summarization of ICL. TAC 2011 workshop, 2011, Gaithersburg, Maryland USA. |
2 |
徐硕 |
Fast but Not Bad Initial Configuration for Metric Multidimensional Scaling. Journal of Information & Computational Science. |
3 |
刘耀 |
A Semantic Analyzing Method in the Ffield of Technological Literature. ICIC International @2011 ISSN 1881-803X. Volume5, Number9(A),September 2011,PP3225-3230. |
4 |
刘耀 |
Research On Semantic Method Of Library Resources' Organizing .ICIC International @2011, Volume5, Number4(A),April 2011,PP1011-1017. |
5 |
徐硕 |
Semi-supervised Least-squares Support Vector Regression Machines. Journal of information & Computational Scinece 8:6(2011) 885-892. |
6 |
李继伟,李素建 |
Update Summarization Using a Multi-level Hierarchical Dirichlet Process Model; |
7 |
王荀,李素建 |
implicit Discourse Relation Recognition by Selecting Typical Training Examples; |
8 |
李文杰,穗志方 |
fine-Grained Classification of Named Entities by Fusing Multi-features; |
9 |
王荀,李素建 |
Exploring Simultaneous Keyword and Key SentenceExtraction: Improve Graph-based Ranking Using Wikipedia; |
10 |
徐硕 |
Fast but Not Bad Initial Configuration for Metric Multidimensional Scaling; Journal of Information & Computational Science9: 2 (2012) 257–265(EI) |
11 |
王睿佳,刘耀 |
面向科技文献的多模态语义关联特征提取与表达体系研究;大学图书馆学报;2012 ,V30(5),P71-76 (中文核心) |
12 |
王睿佳,刘耀 |
Semantic Analysis of Multi-modal Features in Scientific and Technical Literature; ICIC Express Letters,Part B:Applications; 2012,V3(4),P 901-908(EI) |
13 |
刘耀 |
On Automatic Construction of Medical Ontology Concept's Description Architecture;International Journal of Innovative Computing, Information and Control; 2012 V8(5),P 3601-3616(SCI) |
14 |
苏晓妍,刘耀 |
Research of Security Architecture Construction for National Digital Compound Publishing System Project;International Journal of Knowledge and Language Processing;2012,V3,No1,pp28-34(国外期刊) |
15 |
王波,郭剑锋 |
面向STKOS的概念映射及其系统实现,南阳理工学院学报 2012/06 |
16 |
朱礼军 |
multi-viewpiont based dimension control to knowledge organization system,2012(3)6,1403-1408, |
17 |
刘耀 |
Research on semantic metadata online auxiliary construction platform and key technologies ICIC Express Letters,Part B:Applications,2013,V4,4,P897-904. |
18 |
刘耀 |
Research on Methods and Key Technologies of Meaning Extraction from Mathematical Formulas Based on ICIC Express Letters,2013,V7,4,P1431-1436. |
19 |
王泽菡,朱礼军 |
ROI Extraction in Dermatosis Images Using a Method of Chan-Vese Segmentation Lecture Notes in Electrical Engineering,2013,P197-203. |
20 |
徐硕 |
Topic Linkages between Papers and Patents AST2012, pp. 176-183.2013 |
21 |
李继伟,李素建 |
A Novel Topic Model for Automatic term extraction ACM SIGIR 2013, short paper. July 28, Dublin, 2013. |
22 |
李继伟,李素建 |
Evolutionary Hierarchical Dirichlet Process for Timeline Summarization ACL short paper, Aug. 3, 2013, Sophia, Bulgaria. |
23 |
李继伟,李素建 |
A Novel Feature-based Bayesian Model for Query Focused Multi-document Summarization Transactions of the Association for Computational Linguistics, 1 (2013) 89–98. Li Jiwei, Li Sujian. 2013. |
24 |
王荀,李素建 |
Real Time Event Detection in Twitter. WAIM 2013.Baoding, |
25 |
王薇,李素建 |
Exploring Hypergraph-based Semi-supervised Ranking for Query-Oriented Summarization Information sciences doi: 10.1016/j.ins.2013.03.012 (EI, SCI) . |
26 |
李素建 |
A Novel Pairwise Learning to Rank Algorithm in Key Phrase Extraction the Eighth International Conference on Innovative Computing, Information and Control (ICICIC2013), Kumamoto, Japan. Sep. 2013.(ICIC express, Vol.8, 2014) (EI) |
27 |
李素建 |
内容标签和关系标签相结合的汉语篇章标注 CLSW 2013, 2013年5月,郑州, 河南. |
28 |
王宇昕,李素建 |
篇章标注在医学领域问答系统中的应用 苏州. CNCCL 2013., |
29 |
曹自强,李素建 |
HDP与互信息相结合的中文无指导分词 苏州,CNCCL 2013 . |
30 |
穗志方 |
Event-based Time Label Propagation for Automatic Dating of News Articles. EMNLP2013,Tao Ge Baobao Chang |
31 |
穗志方 |
Exploiting Collaborative Filtering Techniques for Automatic Assessment of Student Free-text Responses CIKM 2013, |
32 |
齐建东 |
Research on Mapping Methods of Knowledge Organization System. ICIC Express etters, Part B: Applications, 2013,vol 4, no. 4, p 1089-1094 |
33 |
徐硕 |
Multi-Output Least-Squares Support Vector Regression Machines. |
34 |
徐硕 |
Author-Topic over Time (AToT): A Dynamic Users' Interest Model. |
35 |
张秀,郭剑锋 |
复杂系统视角下面向多学科协同创新的高校数字图书资源共享服务研究. 图书馆学研究. 2013.18(9): 20-23 |
36 |
狄晓峰,郭剑锋 |
基于分布式本体的服务选择.信息与控制. 2013.42(1):89-96 |
37 |
李素建 |
Text-level discourse dependency parsing;ACL; |
38 |
李素建 |
Query-focused Multi-document Summarization:Combining Topic Modeling with Graph-based Semi-supervised Learning;COLING 2014; |
39 |
李素建 |
Joint learning of Words, terms and keywords;EMNLP; |
40 |
吉鹏飞,齐建东 |
改进人工鱼群算法在Hadoop作业调度算法的应用. 计算机应用研究. 2014(12) vol.31:3572:3574
|
41 |
唐守忠,齐建东 |
一种结合关键词与共现词对的向量空间模型. 计算机工程与科学. 2014(5) vol.36: 971-976 |
42 |
时晨,朱礼军 |
基于概念属性聚类的多视角知识组织系统研究初探.数字图书馆论坛,2014(9),23-28 |
43 |
曹自强,李素建 |
A Novel Neural Topic Model and Its Supervised Extension, AAAI 2015. Texas, Austin. |
44 |
曹自强,李素建 |
Ranking with Recursive Neural Networks and Its Application to Multi-document Summarization, AAAI 2015, Texas, Austin. |
45 |
李素建 |
Text-level discourse dependency parsing, Baltimore, U.S., June 22-25, pages 25-35, Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (ACL 2014). |
46 |
李素建 |
Query-focused Multi-document Summarization: Combining Topic Modeling with Graph-based Semi-supervised Learning, Coling 2014. The 25th International Conference on Computational Linguistics, Pages 1197-1207, Dublin, Ireland. Aug. 23-29. |
47 |
李素建 |
Joint learning of Words, terms and keywords. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP 2014). Pages 1774-1778. Doha, Qatar. Oct.26-29, 2014. |
48 |
朱礼军,郭剑锋 |
Mapping discovery modeling and its empirical research for the scientific and technological knowledge concept in unified concept space, Cluster computing (2015)18:103-112. |
49 |
朱礼军郭剑锋 |
Unified Concept Space and Mapping Discovery Algorithm for Heterogeneous Knowledge Systems. Lecture Notes in Electrical Engineering. 2014.274(9):231-237 (EI ) |
50 |
岳芳,郭剑锋 |
概念知识地图协同创作过程中的群体决策模型科研管理 2015 Vol. 36 (1): 127-134 |
51 |
王波,郭剑锋 |
面向STKOS的概念映射与关联算法研究及其实现 2013年 |
52 |
宋涛,李素建 |
词语领域性分析方法研究及应用 |
53 |
王鑫,穗志方 |
基于轻量级句法信息的中文语义角色标注方法研究与实现 |
54 |
孙枫军,朱礼军 |
引文上下文中的概念抽取 |
55 |
欧洁,朱礼军 |
移动问答系统中的问题理解研究 |
56 |
王睿佳,刘耀 |
科技文献的多模态关联特征提取和表达体系研究 ——以数学公式为例 |
57 |
张寅生,朱礼军 |
证明方法与理论 专著 50万字 |
序号 |
类型(专利/软伯著作权等) |
名称 |
编码 |
说明 |
1 |
软著 |
数学公式在线识别平台 |
2014SR182667 |
|
2 |
软著 |
层次化概念树状结构生成系统 |
2012SR062397 |
|
3 |
软著 |
皮肤病问答系统 |
2012SR135643 |
|
4 |
软著 |
大规模语义计算工具包平台软件 |
2014SR192547 |
|
5 |
软著 |
科技文献概念空间关联系统 |
2014SR007341 |
|
6 |
软著 |
篇章内容和篇章关系的辅助标注系统 |
|
|
7 |
软著 |
在线词典编辑校对平台 |
2014SR199456 |
|
8 |
专利 |
一种网页信息抽取方法 |
201110409875.3 |
|
9 |
专利 |
一种论文和专利资源领域深层主题关联强度分析方法. |
201310069541.5 |
|
软件工具
序号 |
成果名称 |
成果形式 |
成果说明介绍 |
1 |
语义标注语料 |
语料库 |
对皮肤病中文语料500万字做了分词,词性标注,句法分析,浅层语义分析,深层语义分析后的语料库资源,xml格式 |
2 |
领域词典 |
词典 |
皮肤病领域的词汇资源txt格式 |
3 |
HQA |
系统代码 |
基于移动平台的皮肤病问答系统 |
4 |
SCT |
系统代码 |
基于大规模语义计算的工具包集成平台 |
5 |
STCSAT |
系统代码 |
基于概念空间的概念分类体系加工处理平台 |
6 |
分词和词性人工标注平台, |
软件工具 |
Txt文本的人工标注平台 |
7 |
句法和语义人工标注平台, |
软件工具 |
Txt文本的人工标注平台 |
8 |
篇章内容关系指代人工标注平台 |
软件工具 |
Txt文本的人工标注平台 |
9 |
HQA, |
Web服务站点 |
可提供web服务 |
10 |
SCT |
Web服务站点 |
可提供web服务 |
11 |
基于转换的依存句法分析算法, |
算法代码 |
自动句法分析模型及算法bundle |
12 |
浅层语义角色标注, |
算法代码 |
自动浅层语义角色标注的算法bundle |
13 |
DeepSemanticAnalyzerBundle, |
算法代码 |
深层语义分析算法bundle |
14 |
AutomaticTagging集合工具(分词,词性标注,句法分析,浅层语义,深层语义), |
算法代码 |
|
15 |
基于双序列比对的中文术语语义相似度计算, |
算法代码 |
术语相似度计算方法bundle |
16 |
最小二乘支持向量机LSSVM, |
算法代码 |
算法bundle |
17 |
多任务最小二乘支持向量机MTLSSVM, |
算法代码 |
算法bundle |
18 |
映射算法 |
算法代码 |
多维度映射算法bundle |
19 |
现代汉语句法语义标注规范 |
规范文档 |
标注规范文档 |