网上彩票购买 >> 社科评价 >> 学术评论
孙建军 裴雷 蒋婷:面向学科领域的学术文献语义标注框架研究
2019年07月25日 09:14 来源:《情报学报》(京)2018年第11期 作者:孙建军 裴雷 蒋婷 字号
关键词:语义标注;学术文献;本体构建;标注本体;

内容摘要:

关键词:语义标注;学术文献;本体构建;标注本体;

作者简介:

  内容提要:海量的学术文献为科研工作者的研究带来了困难。语义标注是实现学术文献的快速阅读和知识的快速获取的基础,因此,本文旨在构建一个面向学科领域的学术文献语义标注框架,以规范和丰富学术文献的标注体系。本文从三个方面进行了研究:一是学术文献标注本体的构建,二是学科领域本体的构建,三是标注本体与领域本体的关联实例。本文从学术文献内容定位、概念关联、方法流程标注及引文标注几个方面给出了标注的实例。

  关 键 词:语义标注;学术文献;本体构建;标注本体  

  标题注释:国家社会科学基金重大招标项目“面向学科领域的网络信息资源深度聚合与服务研究”(12&ZD221)。

  作者简介:孙建军(1962- ),男,南京大学信息管理学院博士生导师,教授,主要研究方向为网络资源管理;裴雷(1981- ),男,南京大学信息管理学院副教授,主要研究方向为信息政策分析,信息资源管理;蒋婷(1988- ),女,南京大学信息管理学院博士研究生,主要研究方向为网络信息资源管理。南京 210093

  1 引言

  20世纪80年代起,随着互联网及计算机软硬件的发展,数字出版的基础设施逐步发展成熟,数字学术出版物应运而生,而随之带来的是数字学术出版物在数量上呈现爆发式增长。2015年《STM报告:科技及学术期刊出版概述》指出:截至2015年,CrossRef数据库包含超过7100万个DOI号,Google学术索引了1亿~1.6亿的学术资源(包括期刊文献、书籍和灰色文献),Web of Science数据库中包含了约9000万条记录;截至2017年9月,《中国学术期刊(网络版)》共收录接近5000万篇中文学术文献。在这种背景下,学术交流产生了重大的变革。

  研究者可以从网络文献数据库中获取到大量的学术文献,这为研究者的研究工作提供了非常好的基础,但同时如此大体量的资源为学术工作的展开也带来了困难。首先,新概念的产生或者新涉足某一领域时,研究者需要学习大量的已有知识才能跟上现有的研究进展。而且,研究者的时间是有限的,获取到的文献越多,分配到单篇学术文献阅读的时间则相应减少,Tenopir等[1]的研究就证实了这一假设研,研究者阅读文献不再是阅读全文,而是获取感兴趣的内容进行阅读:研究者通过浏览许多文章的部分来寻找、评估和利用一系列的信息[2],这种阅读方式也被称作碎片化阅读。因此,第一个问题就是如何快速定位到文章的有用部分。另外,学术文献中的知识元存在大量的关联性,如引文关联、相关概念等,如何组织这些相关的知识元是研究者面临的第二个问题。

  因此,Renear等[3]提出了“策略阅读”的概念,采用学科本体来表示及链接科学数据可以提高研究者阅读学术文献的效率,即需要利用学科本体对学术文献中的相关内容进行语义标注(Semantic Annotation)。语义标注就是将本体或元数据中的概念与资源建立联系的一个过程。其中,语义标注的核心是学科领域本体,本体最广泛的定义是“本体是概念模型的明确的规范说明”[4],它可以灵活地定义事物结构,以元数据的模式,提供概念受控词表,每个概念都包括一个明确定义的机器可理解的语义,且概念与概念之间的关联也显式地进行了定义,这样的结构能够让计算机进行推理应用。

  学术文献的语义标注就是借助领域本体,将学术文献中的相关内容与本体中的知识元(概念或关系)进行链接,当读者需要获取文献中知识元对应的描述时,可以借助语义本体从对应的知识库中进行获取。例如,Textpresso[5]就是一个与本体关联的数据挖掘系统,它所包含的学术文献集依据本体中的术语分为了33个类别,用户输入一个或多个标记或关键词集合就可以定位到学术文献中特定的句子,并可获取本体中词对应的含义,支持语义查询。预先对学术文献的结构、内容或引文信息进行标注后,读者可以通过这些标注信息快速定位到文章的部分内容实现“策略阅读”。

  目前,已有一些研究针对资源语义标注框架提出了标注本体的概念,标注本体旨在针对学术文献提出一个规范的本体框架,进而采用标注本体中的概念对学术文献的内容进行标注。目前已有的标注本体有PAV[6]、PROV-O[7]以及AO[8]本体等。其中,PAV本体用于获取数字科技资源的出处、作者以及版本信息,用以区别资源被获取、转换以及消费的过程;PROV-O是W3C小组制定的用于统一资源交换的本体;AO本体提供了用于标注生物医学领域科技文献的概念及关系。

  但是,现有的研究主要集中在标注本体的制定上,而如何对学术文献进行标注的研究比较少。为了实现学术文献的语义标注,首先需要明确学术文献所包含的知识元类型,在继承已有标注本体的基础上构建一个面向学术文献标注的标注本体,除了包含学术文献的一些标准元数据信息(作者、创建者、创建时间)以外,还包括了学术文献中的主题、发现、方法论等;其次,需要构建一个与某一学术领域相关专业术语的领域本体,包含该领域的概念及概念间的关联;最后,要将学术文献中的内容与本体中的概念一一对应,从而可以通过标注信息实现文献的快速浏览,也可以通过URI对相应概念做进一步了解。

  因此,本文旨在构建学科领域学术文献语义标注框架,提出适用于学术文献语义标注的标注本体,以及针对学术文献具体内容(如引文信息、内容信息等)进行语义标注的方法。本文提出的学术文献语义标注框架也是实现文献语义检索的基础,通过语义标注,给予机器可以理解的语义,让使用者更方便更有效地利用学术文献,另外,提出的学术文献标注本体,可以被其他标注本体进行继承和扩展,具有较高的实践价值。

作者简介

姓名:孙建军 裴雷 蒋婷 工作单位:南京大学信息管理学院

转载请注明来源:中国社会科学网 (责编:赛音)
W020180116412817190956.jpg
我的留言 视频 图片
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道网上彩票购买
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们
彩票购买走势 彩票app 网上彩票购买 彩票开奖查询 网上彩票购买 彩票购买走势 彩票购买走势 彩票开奖结果 彩票购买走势 彩票购买走势