Uploaded by 洛天

项目基本思路

advertisement
o
系统开发:学术大数据管理平台
1、文献数据的采集

多种文献源的数据采集【难度低】:CNKI 或其他数据库,期刊或其他文献类型

文献题录信息采集【难度低】,文献全文采集【难度高】
2、文献数据的挖掘:知识实体抽取

题录中的实体抽取【难度低】:作者、机构、学科、作者关键词等

文献数据中可抽取的知识实体【难度高】:分词获得的关键词【难度低】、知识单元(文
献数据中出现的方法、工具等有价值的知识内容)【难度高】
3、文献数据的输出与利用:

对接文献分析工具进行可视化分析:对应不同文献分析工具的数据导入功能,提供生成不
同格式数据文件的数据导出接口【难度低】

自行开发并实现文献数据的知识图谱【难度高】

o
文献参考:

1)项目整体方案或系统设计:平台架构和实现,可参考:《中医药文献语义标注系统研
究与开发_朱彦》、《生物医学文献分析系统的设计与实现_王璇 2019》、《Medas_一个
基于 Medline 的生物医学文献分析系统_佘玉轩》等

2)文献数据采集:面向文献数据库的网络爬虫设计,可参考:《基于 Python 的文献检索
系统设计与实现_杜兰》、《基于网络爬虫的文献检索系统的研究和实现_杨洋》,以及网
络上的 python 开发技术文档等

3)文献数据挖掘:

文献题录的知识实体抽取,可参考:《文献计量系统的文献_实体关系通用模型研究_肖明
2012》、《基于 CNKI 数据库的文献计量分析工具研究_郭金子》、《基于 CNKI 的文献
题录批量转化程序设计_郭会雨》

从文本中抽取其他知识实体(可选),可参考:《常用中文分词软件在中医文本文献研究
领域的适用性研究_杨海丰》、《科技文献资源中方法知识元的抽取研究_王忠义》、《面
向学术文献全文本的方法论知识抽取系统分析与设计_徐浩 2019》、《面向中文科技文献
非结构化摘要的知识元抽取研究_郑梦悦》、《生物信息学文献中的科学软件利用行为研究
_杨波 2016》

4)文献数据的输出与利用:

数据导出接口,根据不同的文献分析工具的数据要求格式即可,了解常见的文献分析工具
(重点关注 citespace\ucinet\vosviewer 等),包括基本功能和用途,处理的数据格式,
开发技术等,可参考文件夹“文献分析工具参考”

基于文献数据的知识图谱开发(可选),涉及到各种共现分析、聚类算法等数据挖掘方
法,仅列举几篇参考文献启发思路:《文献题录信息挖掘技术方法及其软件 SATI 的实现_
刘启元》、《文献数据库中书目信息共现挖掘系统的开发_崔雷》、《文献计量学共引分析
系统设计与开发_崔雷》、《基于文献情报大数据的智能推荐系统的设计与实现_刘雨江
2019》、《海量网络学术文献自动分类系统_王效岳》
学术知识图谱:
上海交大的 Acemap https://archive.acemap.info/app/AceKG/index.html#about
Springer-Nature 的 ScigGraph https://www.springernature.com/cn/researchers/scigraph
《Springer_Nature_SciGraph 关联开放数据分析_白林林》
Download