科技大数据研究中心简介

1 中心简介

科技大数据研究中心致力于人工智能驱动科技大数据处理、科技创新评价及科技信息创新服务等理论、技术以及行业应用的研发。中心将从以下几方面开展技术探索和成果落地工作:

(1)科技文本格式化理解和知识图谱构建技术;

(2)大模型驱动的科技大数据挖掘;

(3)大模型驱动的问答机器人与人机协同;

(4)数智赋能的科技成果创新评价;

(5)多模态资源融合与知识发现等。

中心面向国家重大需求,以科技大数据为数据基础,以大模型为代表的人工智能技术为技术支撑,数智赋能科技情报分析、科技创新辅助、科技创新评价、智慧图书馆等典型场景,服务国家科技与产业发展宏观决策,助力行业发展和企业运行,目前已经与华为、阿里、科大讯飞、百度、中国科技信息研究所、中国医学信息研究所、泰康人寿等数十家科研院所和企事业单位建立了合作关系。

2. 核心成员介绍

一、团队核心成员

黄永.jpg

陆伟.jpg

胡吉明.jpg胡吉明.jpg

黄永 副教授

陆伟 教授

胡吉明 教授

程奇凯.jpg

严炜炜.jpg

张睿.png

程齐凯 副教授

严炜炜 教授

张睿 副教授

张帆.jpg

于丰畅.jpg

刘家伟.jpg

张帆 特聘副研究员

于丰畅 助理研究员

刘家伟 博士后

黄圣智.jpg

罗卓然.png


黄圣智 博士后

罗卓然 博士后

           


中心负责人:黄 永

研究方向:科技文本挖掘、科学计量、学者主题选择行为、主题演化、科学合作机制

成员:陆 伟

研究方向:信息检索、数据智能、AI治理、人机协同和创新评价等

成员:胡吉明

研究方向:文本语义挖掘与智能计算、知识图谱与信息可视化、档案与政务信息资源管理

成员:程齐凯

研究方向:文本挖掘、信息检索

成员:严炜炜

研究方向:网络用户信息行为、社交网络大数据分析、社会化商务分析、产业创新管理与服务

成员:张 帆

研究方向:信息检索评价、用户行为分析等

成员:张 睿

研究方向:图像处理与图像理解、大数据管理与挖掘、保密科学中的大数据安全等

成员:于丰畅

研究方向:信息挖掘、非格式化文档理解、机器视觉

成员:刘家伟

研究方向:信息检索,文本挖掘,内容安全

成员:黄圣智

研究方向:人工智能,自然语言处理,文本挖掘,科学学,概率图模型

成员: 罗卓然

研究方向:新颖性评价、文献计量、期刊评价


3、科研成果

(一)ScienceAI:科技论文细粒度挖掘平台

科技论文细粒度挖掘工具是由实验室自主开发的用于学术文本细粒度解析的工具集,包括科技实体抽取、科技论文论证区间解析、科技论文引文功能识别、工程科技论文机理抽取等模块,实现科技论文从PDF输入到章节、实体、引用、机理的全链条碎片化数据挖掘流程和可视化,并提供API供外部调用。在国防科技战略先导计划的支持下,已经完成了工具集的构建和平台的开发,代码完全自主可控,拥有“论文-软件著作权-系统”自主产权体系,目前,科技论文碎片化数据化挖掘工具已在军事科学院等机关单位投入实际应用,很大程度地提升了科技论文碎片化信息挖掘能力,推进了科技文本信息的智能理解进程,获得了上级机关的高度认可。

1.png

二)ScholarGPT:学术科技文档GPT

团队研发学术科技ScholarGPT大模型,以嵌入科研人员创新全过程中关键场景和任务的形式,实现对科研人员创新活动的赋能。底层架构上:ScholarGPT大模型采用GPT架构。为了使得模型具备学术知识理解能力,本团队基于WOSSciHubArxivPubmedGitHub等多种数据在底座模型上进行训练调优,结合自指令学习、知识蒸馏、基于AI反馈的强化学习、价值对齐等技术,实现模型能力的构建,除了具备基本的文档信息处理能力,如信息抽取、自动摘要、问答、纠错、续写等,还能够支持多模态信息处理能力、鲁棒分析能力、多样化输出能力、场景适配的专业外部工具理解和调用能力,形成智能知识转化器推动科学知识的快速资源化利用、智能科研助理形成高效人智协作科研创新模式、智能服务平台推动多学科智能技术协同运用。


2.png


(三)SmartReformer:智能版式分析与内容抽取平台

针对各类文档包括科技文献、书籍、专利、标准等数据源多样、版式结构复杂、无法按需进行文档分析的难点,以及可供模型训练的数据量有限、样式单一、标注类别和方式无法改变而按需标注数据成本高昂的痛点,本方法实现了由标注数据集到生成数据集供模型训练的转变,进而构建多模态文档版式分析模型实现对各种文档内各种结构进行按需抽取。整体架构由文档预处理、多模态文档版式分析、细粒度内容抽取以及结构语义重建四个模块组成。


3.png

4.png

(四)ConflictKG:冲突事件情报分析综合平台

ConflictKG是由武汉大学信息检索与知识挖掘研究所研发的面向多源情报的情报分析综合平台,旨在帮助情报人员深入分析冲突事件发生过程、各要素之间的关系以及事件造成的影响,以挖掘事件演化模式、发现事件演化规律,提升情报分析质量与效率,为监管部门的安全管理提供数据支持。

在实验团队的长期积累下,团队针对冲突事件领域特征,从国际关系视角“政治”、“军事”出发,基于多源数据和多类型预训练大模型,实现了冲突事件抽取建模、冲突事件演化本体建模以及冲突事件图谱构建,并以“2022俄乌冲突”为例进行多场景应用。ConflictKG平台围绕抽取模型应用、图谱应用、大模型应用三个维度展开事件的深入分析,具体包含五大模块:

    1)冲突事件情报要素抽取及可视化:该模块为冲突事件关键要素的抽取,覆盖30类冲突事件类型、超200个事件元素类别,支持情报知识的图可视化,为情报人员提供情报文本的事件细粒度解析以及冲突态势的研判。

    2)冲突事件时序脉络可视化:该模块从时间维度,提供冲突事件全局时序关系,以便掌握冲突时序演化规律,利于情报人员对发展趋势的感知。

    3)冲突事件因果关系可视化:该模块从因果维度,帮助情报人员分析冲突事件的前因后果,有助于实时预判冲突事件后续影响结果,为监管者的安全管理提供辅助决策。

    4)冲突事件知识图谱图谱推理:该模块基于全量新闻数据,实现了事件知识、事件关系、实体知识、实体关系的图检索与推理,便于情报人员从数据视角,对特定问题进行解答。

 (5)冲突事件知识智能问答:该模块基于预训练大模型与冲突事件领域知识,构建了冲突事件知识的智能问答系统,大幅提升了自然语言理解、推理和生成能力,为情报人员提供更多样化、灵活的问题解答体验,提升情报知识的分析能力

5.png

(五)新能源电动汽车专利技术产业链交互可视化平台

新能源电动汽车专利技术产业链交互可视化平台是基于新能源电动汽车专利技术和产业的关联研究,围绕专利技术和产业类别的双向关联效应,以及专利技术和产业链目的内在关联机制等实证结果,以覆盖新能源电动汽车上、中、下游的产业链为主脉络,结合宏观和微观视角,综合时间维、空间维、数量维和企业维等多元维度功能模块,设计开发实现的集成式、一体化平台。

该平台旨在高效服务于相应行业和有关人员系统化集成、直观性获取新能源电动汽车的领域性专利及其相关技术、产业、企业等动态多源信息。

6.png

7.png

 

(六)自动填表系统

        自动填表系统是一种能够快速、准确地填写各种表格的高效、智能的计算机程序。随着信息技术的高速发展、电子文档数量的大量增长,企业、政府机构和学术机构等各领域相关组织都迫切需要一种自动识别并填写表格的工具,以提高数据处理的效率和准确性。

自动填表系统的主要功能包括通过识别和解析表格中的数据,自动填写所需的字段。这些字段既包括个人基本信息(如姓名、地址、电话号码、电子邮件等),也包括一些需要总结、分析的内容(如个人评价、研究成果与贡献等)。无论是申请表、报名表还是调查问卷等各种类型的表格,都能够在短时间内完成自动填写,大大减少了填表过程的重复性劳动,提高了工作效率。

8.png

(七)智能问答系统

智能问答系统WHU-Robot初版诞生于2018年,此后历经四个大版本迭代,形成了涵盖问答引擎、知识管理模块、问答调度模块在内的成熟解决方案。系统提供FQA问答、闲聊问答、指令调用外部功能引接、知识图谱增强问答等多种问答场景能力支持,能够轻松应对多轮问答和外部API调用等复杂任务。系统支持单机方案和分布式方案两种部署模式,单机方案可以在普通家用电脑上轻松运行,分布式方案则能够支持百级节点部署,轻松支持万级并发。

系统整体模块包括:(1)知识管理模块,支持问答对、文本文档、图文组合、知识图谱三元组、多模态嵌入、外部接口等多类型知识管理,同时提供高可用性的问答脚本编辑方案;(2)问答引擎,提供了基于软性文本匹配和问答脚本控制的轻量级方案、基于T5类型深度学习匹配模型的中轻量级问答方案、基于机器学习阅读理解的兜底方案以及基于GPT类大模型的重量级通用问答引擎,可以支持不同场景、不同业务下的问答能力需求;(3)问答调度模块,包括基于智能感知的人机切换子模块、人机协同的问答业务调度支持子模块、多机分布式业务分发调度子模块等,支持完善的多机分发、人机协同能力;(4)外部能力支持模块,提供了基于任务-API映射的外部能力调用方案人工编辑模式,以及基于大模型特别是类ToolFormer的重量级外部能力支持方案。

WHU-Robot问答系统在多个企业机构取得了应用,取得了良好的应用成效,应用单位包括泰康在线、华为、中国科学技术信息研究所、深圳市慢病中心、武汉大学图书馆等。系统在实际运行环境中成功支持了万级并发和90%以上的置信度的实际考验。整体系统成熟可靠,具备高人工替代率、高置信度、高系统鲁棒性和可伸缩资源要求等诸多优势。

团队在WHU-Robot研发升级过程中也形成了多项研究成果,相关成果发表在SIGIREMNLPAAAIIPM等国际顶级会议及业界顶级期刊上,取得了较好的学术影响。

9.png

 

四、成果奖励

1. 代表性论文

序号

论文名称

发表年份

作者

刊物名称

收录情况

1

跨社交媒体舆情风险感知: 理论框架的构建与实现

2024

王丹, 刘富康, 陆伟

情报学报

北大核心、CSSCICSCDAMI

2

数智赋能信息资源管理新路径: 指令工程的概念, 内涵和发展

2024

陆伟, 汪磊, 程齐凯, 刘家伟, 黄永

图书情报知识

北大核心、CSSCIAMI

3

ChatGPT 为代表的大模型对信息资源管理的影响

2023

陆伟, 刘家伟, 马永强, 程齐凯

图书情报知识

北大核心、CSSCIAMI

4

数智赋能的科研创新——基于数智技术的创新辅助框架探析

2023

陆伟, 马永强, 刘家伟, 杨金庆, 程齐凯

情报学报

北大核心、CSSCICSCDAMI

5

基于细粒度关键词引用网络的领域知识多维分析

2022

王佳敏, 陆伟, 程齐凯, 秦春秀

情报学报

北大核心、CSSCICSCDAMI

6

人智交互体验研究: 为人本人工智能发展注入新动力

2022

姜婷婷, 许艳闰, 傅诗婷, 陆伟

图书情报知识

北大核心、CSSCIAMI

7

数智赋能的情报学学科发展趋势探析

2022

陆伟, 杨金庆

信息资源管理学报

CSSCIAMI

8

学术文本词汇功能识别——在论文新颖性度量上的应用

2022

罗卓然, 陆伟, 蔡乐, 程齐凯

情报学报

北大核心、CSSCICSCDAMI

9

基于问题-方法组合的科技论文新颖性度量与创新类型识别

2021

钱佳佳, 罗卓然, 陆伟

图书情报工作

北大核心、CSSCIAMI

10

学术论文创新贡献句识别研究

2021

罗卓然, 蔡乐, 钱佳佳, 陆伟

图书情报工作

北大核心、CSSCIAMI

11

学术论文创新性评价研究综述

2021

罗卓然, 王玉琦, 钱佳佳, 陆伟

情报学报

北大核心、CSSCICSCDAMI

12

基于科技文献的新兴主题识别研究综述

2020

杨金庆, 魏雨晗, 黄圣智, 罗威, 陆伟

情报科学

北大核心、CSSCIAMI

13

科技文献新兴话题识别研究进展

2020

杨金庆, 吴乐艳, 魏雨晗, 陆伟, 罗威

情报学进展


14

学术文本词汇功能识别——基于 BERT 向量化表示的关键词自动分类研究

2020

陆伟, 李鹏程, 张国标, 程齐凯

情报学报

北大核心、CSSCICSCDAMI

15

智能科学家——科技信息创新引领的下一代科研范式

2020

罗威, 罗准辰, 雷帅, 程齐凯, 陆伟, 张瑾, 韩涛, 冯岩松, 韩先培, 冯冲, 张均胜, 刘志辉, 乔林波, 李东升, 许儒红, 陈敬一

情报理论与实践

北大核心、CSSCIAMI

16

关键词共现网络视角下的学科基础词汇发现

2019

于丰畅, 陆伟

图书情报工作

北大核心、CSSCIAMI

17

基于机器视觉的 PDF 学术文献结构识别

2019

于丰畅, 陆伟

情报学报

北大核心、CSSCICSCDAMI

18

Bridging the gap in author   names: building an enhanced author name dataset for biomedical literature   system

2024

L Zhang, N Song, S Gui, K Wu, W   Lu

Journal of the American Medical   Informatics Association

SCIESSCI

19

From Detection to Application:   Recent Advances in Understanding Scientific Tables and Figures

2024

J Huang, H Chen, F Yu, W Lu

ACM Computing Surveys

SCI

20

Integrity verification for   scientific papers: The first exploration of the text

2024

X Shi, Y Liu, J Liu, Q Cheng, W   Lu

Expert Systems with   Applications

SCICCF

21

Toward scientific   collaboration: A cost-benefit perspective

2024

L Wu, F Yi, Y Bu, W Lu, Y Huang

Research Policy

SSCI

22

A multiple long short-term   model for product sales forecasting based on stage future vision with prior   knowledge

2023

D Li, X Li, K Lin, J Liao, R   Du, W Lu, A Madden

Information Sciences

SCIE

23

A term function–aware keyword   citation network method for science mapping analysis

2023

J Wang, Q Cheng, W Lu, Y Dou, P   Li

Information Processing &   Management

SCIESSCI

24

Disclosing the interactive   mechanism behind scientists’ topic selection behavior from the perspective of   the productivity and the impact

2023

S Huang, Y Huang, Y Bu, Z Luo,   W Lu

Journal of Informetrics

SCIESSCI

25

From “what” to “how”:   Extracting the Procedural Scientific Information Toward the   Metric-optimization in AI

2023

Y Ma, J Liu, W Lu, Q Cheng

Information Processing &   Management

SCIESSCI

26

Generating keyphrases for   readers: A controllable keyphrase generation framework

2023

Y Jiang, R Meng, Y Huang, W Lu,   J Liu

Journal of the Association for   Information Science and Technology

SCIESSCI

27

H2CGL: Modeling dynamics of   citation network for impact prediction

2023

G He, Z Xue, Z Jiang, Y Kang, S   Zhao, W Lu

Information Processing &   Management

SCIESSCI

28

LAGOS‐AND: A large gold   standard dataset for scholarly author name disambiguation

2023

L Zhang, W Lu, J Yang

Journal of the Association for   Information Science and Technology

SCIESSCI

29

Quantifying scientists’   research ability by taking institutions’ scientific impact as priori   information

2023

S Huang, W Lu, Y Huang, Z Luo

Journal of Information Science

SCIESSCI

30

Scientists’ response to global   public health emergencies: a bibliometrics perspective

2023

L Wu, J Yang, D Wang, Q Cheng,   W Lu

Journal of Information Science

SCIESSCI

31

A comparative study of   automated legal text classification using random forests and deep learning

2022

H Chen, L Wu, J Chen, W Lu, J   Ding

Information Processing &   Management

SCIESSCI

32

Combination of research   questions and methods: A new measurement of scientific novelty

2022

Z Luo, W Lu, J He, Y Wang

Journal of Informetrics

SCIESSCI

33

Disclosing the relationship   between citation structure and future impact of a publication

2022

S Huang, J Qian, Y Huang, W Lu,   Y Bu, J Yang, Q Cheng

Journal of the Association for   Information Science and Technology

SCIESSCI

34

How humans obtain information   from AI: Categorizing user messages in human-AI collaborative conversations

2022

Y Wei, W Lu, Q Cheng, T Jiang,   S Liu

Information Processing &   Management

SCIESSCI

35

Order-disorder: Imitation   adversarial attacks for black-box neural ranking models

2022

J Liu, Y Kang, D Tang, K Song,   C Sun, X Wang, W Lu, X Liu

Proceedings of the 2022 ACM   SIGSAC Conference on Computer and Communications Security

CCF-A

36

Towards transdisciplinary   impact of scientific publications: A longitudinal, comprehensive, and   large-scale analysis on Microsoft Academic Graph

2022

Y Huang, W Lu, J Liu, Q Cheng,   Y Bu

Information Processing &   Management

SCIESSCI

37

Understanding knowledge role   transitions: A perspective of knowledge codification

2022

J Yang, W Lu, Y Huang, Q Cheng,   L Zhang, S Huang

Quantitative Science Studies

ESCI

38

Detecting research topic trends   by author-defined keyword frequency

2021

W Lu, S Huang, J Yang, Y Bu, Q   Cheng, Y Huang

Information Processing &   Management

SCIESSCI

39

How wide is the citation impact   of scientific publications? A cross-discipline and large-scale analysis

2021

Y Bu, W Lu, Y Wu, H Chen, Y   Huang

Information Processing &   Management

SCIESSCI

40

Partitioning highly, medium and   lowly cited publications

2021

Y Huang, Y Bu, Y Ding, W Lu

Journal of Information Science

SCIESSCI

41

Scientific collaboration and   career stages: An ego-centric perspective

2021

W Lu, Y Ren, Y Huang, Y Bu, Y   Zhang

Journal of Informetrics

SCIESSCI

42

Time to transfer: Predicting   and evaluating machine-human chatting handoff

2021

J Liu, Z Gao, Y Kang, Z Jiang,   G He, C Sun, X Liu, W Lu

Proceedings of the AAAI   Conference on Artificial Intelligence

CCF-A

43

Analyzing international   relations from British parliamentary debates

2020

J Wang, Y Zhang, J Huang, J   Shen, Y Wang, J Wang, J Hu, W Lu

Proceedings of the ACM/IEEE   Joint Conference on Digital Libraries in 2020

CPCI-SCPCI-SSH

44

Tracing the evolution of AI:   conceptualization of artificial intelligence in mass media discourse

2020

Y Zhai, J Yan, H Zhang, W Lu

Information discovery and   delivery

ESCI

45

From zero to one: A perspective   on citing

2019

Y Huang, Y Bu, Y Ding, W Lu

Journal of the Association for   Information Science and Technology

SCIESSCI

 

2.专利与软件著作权

[1]陆伟,应德浩,程齐凯,等.细粒度标注的文档版式分析数据集的自动生成方法及系统[P].湖北省:CN117634447A,2024-03-01.

[2]陆伟,罗卓然,钱佳佳,等.面向精细化内容重组的服务内容多重语义自动编码方法[P].湖北省:CN113343638B,2023-10-13.

[3]陆伟,于丰畅,黄佳妮.一种跨域跨源的数据对齐方法、系统及电子设备[P].湖北省:CN116050374A,2023-05-02.

[4]陆伟,罗卓然,刘沛鹞,等.一种针对内容资源的编目自动化方法及系统[P].湖北省:CN113342920B,2022-07-19.

[5]陆伟,杨金庆,魏雨晗,等.科技情报分析中结合时滞计算的学科主题演化推理方法[P].湖北省:CN111046167B,2021-04-16.

[6]陆伟,于丰畅,程齐凯.一种PDF文件向OFD文件转化的方法[P].湖北省:CN108415887B,2021-04-16.

[7]陆伟,李鹏程,张国标,等.一种基于极简摘要策略的科技文本问题方法抽取的方法[P].湖北省:CN112487134A,2021-03-12.

[8]陆伟,丁恒,方龙.基于图像处理与序列标注的学术文献语义再结构化方法[P].湖北省:CN105260727B,2018-09-21.

[9]陆伟,乐兴虎,程齐凯.基于查询扩展的有限数据源数据获取方法[P].湖北省:CN105005620B,2018-04-20.

[10]程齐凯,陆伟,杨韵寒.一种学术文本词汇功能框架构建方法[P].湖北:CN107015967A,2017-08-04.

 

3. 获奖

(1)系列论文《学术文本的结构功能识别》,教育部第八届高等学校科学研究优秀成果奖(人文社会科学),二等奖,教育部, 2020-10

(2)论文《Analyzing evolution of research topics with NEViewer: a new method based on dynamic co-word networks》, 教育部第八届高等学校科学研究优秀成果奖(人文社会科学), 二等奖, 教育部,2020-10
(3)论文《图像语义标注与检索建模(系列论文)》,第十二届湖北省社会科学优秀成果奖,三等奖,省级社科优秀科研成果奖,湖北省人民政府, 2020-10

4. 项目

序号

项目名称

立项年度

项目级别

项目类型

1

 人工智能治理与安全能力评估研究

2022

科技创新2030-“新一代人工智能重大项目

纵向科研项目

2

数智赋能的信息资源与知识管理理论变革

2022

国家自然科学基金重点项目

纵向科研项目

3

服务内容资源管理技术研发

2019

国家重点研发计划

纵向科研项目

4

基于认知计算的学术论文评价理论与方法研究

2017

国家社科基金重大项目

纵向科研项目

5

面向重大项目的研究成果匹配度智能评估研究

2024年

国家自然科学基金项目

纵向科研项目

6

基于机器阅读理解的科学命题文本论证逻辑识别 

2022年

国家自然科学基金项目

纵向科研项目

           7

主题演化中个体选择行为与整体主题分布的交互影响机制研究

2021年

国家自然科学基金项目

纵向科研项目

8

基于知识融合的科技文献大模型可靠性增强技术研究

2024年

国家自然科学基金 青年项目

纵向科研项目

 




Copyright Since 2016 武汉大学大数据研究院 地址:武汉大学原研究生院大楼(石屋)三楼 电话:027-87888520