武汉大学大数据研究院技术研发中心开展大数据方法技术与工具平台的研发,主要研究方向为对象代理数据库系统、大数据管理、大数据分析、知识图谱构建与应用等,旨在为大数据时代人文社科领域研究提供技术支撑。同时,中心也支撑研究院其他各个中心研发面向领域的大数据平台,为人文社科大数据的研究提供方法技术和工具平台。技术研发中心集成果转化、平台研发、技术服务等于一体,注重产学研合作,将持续在多模态数据管理、知识图谱构建等关键技术的研发和应用进行创新。技术研发中心将人文社科领域的问题与大数据方法技术结合,为大数据研究院核心项目与研究中心提供相关的技术支持,并支撑武汉大学相关学科的发展,培养一流的大数据管理与应用人才。
一、团队核心成员
彭智勇 教授 大数据研究院副院长 | 洪亮 教授 大数据研究院院长助理 | 曾桢 教授 技术研发中心副主任 |
宋伟 副教授 | 余伟 副教授 | 郭玮 讲师 |
李蓉蓉 讲师 |
二、主持项目
(1)国家自然科学基金面上项目“面向医疗数据交易与服务的数据隐私保护理论研究”(62072349)
在隐私医疗数据定价机制及价值链构建及演化规律研究方向上,提出了一种差分隐私条件下,考虑数据集关系的用户差异化数据定价机制,与现有隐私数据定价研究方法相比,该机制充分考虑数据购买者的数据背景,基于隐私数据的隐私预算,利用医疗数据的知识商品本质特性,研究数据定价机制和价格演化规律,综合考虑医疗数据的私密性和可用性,保障医疗数据交易的公平性和合理性,激励患者、医疗机构、研究机构参与医疗数据共享和交易。
在面向有限域医疗数据的隐私保护聚类挖掘算法研究方向上,课题组针对医疗数据具有的高维时空特征,提出一种具有ORE(Order Revealing Encryption)特征的同态加密算法,实现针对加密数据的时空数据多项式评估方法。能够为现有海量医疗数据提供灵活、高效的密文数据挖掘服务。与现有研究方式相比,设计的基于ORE的同态加密数据分析方法可以支持任意形式的多项式评估目标函数,可以更好地适应不同数据分析任务需求。
(2)国家自然科学基金联合基金重点项目“基于教育大数据的精准教学评价与学习行为预测方法研究”(U1811263)
信息技术对于教育发展具有革命性的影响,近年来以MOOC为代表的在线教育模式正强力冲击着传统教育生态,对于我国充分利用教学资源,优化教育资源配置都有着举足轻重的积极意义。然而这种新型教学环境仍然缺乏精准教学评价和学习行为预测方法和手段,极大地限制了其优势的发挥,制约了其在教育领域的普及。本项目旨在重点关注解决学习者的量化和可计算性,学习行为的评价与可预测性及教学成果和学习者的可评价性等关键科学问题,从在线教育环境中的学习者建模、学习共同体建模与管理、全面精准的教学评价、海量学习者行为分析与预测,以及群体学习协同和激励机制等研究内容入手,在教育大数据的精准教学评价及学习行为分析与预测方法方面取得突破性进展和理论成果。基于项目研究成果,利用研究团队现有学者网教育大数据资源和天河二号平台超算能力,研发 SCHOLAT+在线教育大数据平台,提升大规模在线教育中学习者的参与度和学习成效。
针对知识追踪数据集中问题的ID信息相对稀疏,同时现有模型无法充分利用问题ID所包含的内容,提出基于多维项目反应理论(Multidimensional Item Response Theory, MIRT)的问题编码方法融合知识点与问题的信息以充分捕捉问题与知识技能之间的关系。由于当前知识追踪模型的位置编码不够灵活,提出了一种基于循环神经网络的自注意力知识追踪模型(Sequential Self-Attentive model for Knowledge Tracing),该模型采用循环神经网络对数据序列的位置信息进行编码,并对学习者的遗忘行为进行建模来预测学习者未来的知识状态。
针对学习者在搜索与学习海量教育资源时出现“资源过载和信息迷航”的问题,提出了一种基于层次注意机制的群体推荐模型(Group Recommendation Using Hierarchical Attention Mechanism,GRHAM),该模型由两层注意力网络组成,其中第一层学习群体决策过程中每个成员的偏好权重;第二层学习群体中成员之间的交互,以动态地调整成员的影响力权重,从而融合群体决策过程中不同成员之间的偏好以实现向群体推荐合适资源。
(3)国家自然科学基金面上项目"基于科学共同体知识大图的隐性合作关系发现与深度挖掘" (72074172)
科研合作的多样性使得科学共同体中广泛存在无法通过数据直接反映的隐性合作关系。知识关联视角,隐性合作关系是学者之间通过知识的流动和转化形成的多类型、多层次知识关 联。针对当前研究体系化不足,缺少大数据技术的问题,本项目基于知识关联理论,“5W1H ”六个方面深入研究科学共同体隐性合作关系发现和深度挖掘的技术,首先对隐性合作关系进行规范化的定义和分类,研究隐性合作知识组织和表示模型,以及人机协同迭代式的知识大图 构建方法,基于学术大数据构建科学共同体知识大图;然后研究基于知识推理的隐性合作关系 发现方法,通过知识大图中的知识关联发现隐性合作关系的知识关联;在此基础上基于社区画 像揭示隐性合作方式并进行对比分析,基于特征抽取探测隐性合作动机并建立影响模型,最后基于时空模式分析和建模隐性合作的时空演化。本研究对于揭示科研合作的内在规律,促进学科交叉和协同创新,掌握科研的动态和方向具有重要意义
(4)湖北省重点研发计划项目“文旅科技大数据关键技术研发与应用示范”(2020BAB117)
面向“十三五”规划纲要确定的“实施国家大数据战略”需求,以解决文旅融合背景下的文旅科技大数据应用关键科学问题为目标,突破文旅科技大数据多模态融合、交互式智能分析、高维动态可视化等关键技术问题,主要研究文旅大数据多模态融合技术,构筑文化和旅游融合的数据基础;研究文旅科技大数据交互式智能分析技术,提升文旅科技数据的多粒度、智能化、层次化分析效率;研究文旅科技大数据高维动态可视化技术,提升用户动态感知、表达信息关联、发掘潜在知识;并开展文旅科技大数据应用示范,辅助政企决策,提升治理水平。
(5)湖北省重点研发计划项目“知识图谱与机器学习融合及高效推理关键技术研究” (2020BAB026)
针对知识图谱与机器学习融合、基于知识图谱的高效推理关键技术进行重点技术攻关,实现知识图谱构建的高度自动化以及通过多模态的知识推理方法,辅助进行知识挖掘、知识分析等多项知识应用服务支撑。基于关键技术攻关成果,进行知识图谱与机器学习融合的知识实体与关系抽取工 具以及知识推理引擎研发,并将研发成果应用于武汉大学简帛研究中心、 湖北省文物考古研究所等单位开展典型示范应用,提升我省在人工智能领域的技术研究水平与产学研进程。
三、主持项目
(1)对象代理数据库在人文领域的应用技术与平台
珞珈图腾数据库Totem为了管理结构复杂、语义丰富的大数据,武汉大学珞珈图腾数据库实验室在国家863数据库重大专项课题支持下研制了对象代理数据库系统TOTEM。TOTEM数据库基于我们提出的具有原创性的对象代理模型。该模型既具有关系数据模型的柔软性又具有面向对象数据模型表现复杂语义能力,发表在了国际数据库顶级会议IEEE International Conference on Data Engineering和权威期刊IEEE Transaction on Knowledge and Data Engineering上得到学术界认可和引用。相比目前世界上普遍采用的对象关系数据库管理系统,对象代理数据库系统能够提供灵活对象视图、动态分类、跨类查询等先进功能,形成了自主知识产权,获教育部高等学校科技进步二等奖。它是大数据与人工智能时代的应需之作,可广泛应用于非结构、跨媒体、多模态数据管理与分析。
人文社科大数据资源共享平台是一个支持人文社科研究,促进学术交流,推动开放获取的数据管理平台,满足学者和科研人员科研需要,促进研究数据的有效管理和交流共享。系统针对实际需求和目前科学数据管理平台个性化功能缺失的现状,结合对象代理数据库的丰富语义表达特性,设计了面向人文社科学者的个性化数据空间,并利用对象代理数据库 TOTEM 的更新迁移机制实现了个性化数据空间中主题数据的自动推送。此外,为了满足研究学者的数据安全共享需求,设计了基于 RBAC 的访问控制机制,按照武汉大学学科分类组织的公开数据集,以及数据文件评论交流机制,以进行数据文件的共享。使用对象代理的建模方式对个性化数据空间管理平台进行建模,在构建基本类的基础上通过选取合适的代理规则构建代理类,实现个性化数据空间构建和管理。
云原生数据服务平台是一个基于云原生技术的资源及应用管理平台,主要是为人文社科领域研究平台提供Platform as a Service (PaaS)平台即服务的功能。该平台采用异构微服务架构,提供根据用户自定义配置,⾃动生成数据对外接口服务功能,实现数据接口自动发布。系统支持用户基于数据源MySQL、Redis、ElasticSearch、Hbase、TOTEM的API创建,解决系统由于对接的中间存储不同,涉及的访问API各异导致的数据接入效率低下的问题,同时数据服务为数据开发屏蔽了形式各异的中间存储,应用开发使用统一的API接口访问数据,实现数据开发和数据应用解耦,从而提高数据应用的开发效率。
基于对象代理数据库的隐私保护医疗大数据服务平台,针对个人医疗数据现实应用中隐私信息敏感、数据应用场景众多和数据类型丰富等特点,基于对象代理数据库和密码学技术设计并开发了基于对象代理数据库的隐私保护医疗大数据服务平台。该平台利用对象代理数据库对多源异构的个人医疗数据进行存储与管理,并利用对象代理机制和视图机制构建面向数据拥有者的个人医疗数据个性化空间;在该空间内,数据拥有者可根据自身及外界的数据需求对个人医疗数据进行灵活、有效的组织与管理;为了提供安全高效的数据共享服务,该平台采用密文封装策略对个人医疗数据进行加密,保证了数据在服务平台中存储的安全性,同时采用支持代理重加密的密文策略属性加密技术,在降低客户端计算与通信开销的同时,保证了个人医疗数据密文状态下数据共享服务的效率,实现了安全性与效率性的平衡。
(2)大数据计算和存储资源维护与应用
目前技术研发中心管理并运维高性能计算服务器8台、GPU服务器1台、存储服务器1台以及阿里云ECS服务器1台,共有CPU核心354个、内存近2T、存储超161T。
部署并运维基础性服务平台
· 云原生服务平台
部署并运维多个大数据研究院研发的系统和平台
· 中国简帛文献综合数字平台
· 人文社科大数据共享平台
· 人文领域通用知识图谱开发平台
· 大学生思想政治数字平台
· 知融大数据平台
· 珞珈图腾家谱系统
管理和运维高性能计算服务器和GPU服务器,为大数据研究院的老师和同学们完成各项科研任务提供了强有力的计算资源支持
大数据研究院网站的开发与维护
面向大数据研究院的发展,对研究院网站进行改版升级,形成了新闻资讯、活动宣传、机构展示、人才成果、特色服务、交流互动为核心的大数据网站平台,形成面向公有云的大数据资源聚合服务,建立统一身份认证系统实现跨域资源互联互通,形成大数据研究院多中心、多用户的资源协同共享模式,有效促进大数据研究院的成果展示和应用推广。
四、成果奖励
(1)代表性论文
[1] Yan Li, Liwei Wang, Sheng Wang, Yuan Sun, Zhiyong Peng. A Resource-Aware Deep Cost Model for Big Data Query Processing. International Conferences on Data Engineering, in: Proc. of ICDE 2022.
[2] Juntao Zhang, Nanzhou Lin, Xuelong Zhang, Wei Song, Xiandi Yang, Zhiyong Peng, Learning Concept Prerequisite Relations from Educational Data via Multi-Head Attention Variational Graph Auto-Encoders, in: Proc. of International Conference on Web Search and Data Mining (WSDM), 2022.
[3] Wei Song, Mengfei Tang, Qiben Yan, Yuan Shen, Yang Cao, Qian Wang, Zhiyong Peng, Privacy-Preserving Polynomial Evaluation over Spatio-Temporal Data on an Untrusted Cloud Server, in: Proc. of Database Systems for Advanced Applications (DASFAA), 2021, pp. 474 490
[4] Nanzhou Lin, Juntao Zhang, Xiandi Yang, Wei Song, Zhiyong Peng: GRHAM: Towards Group Recommendation Using Hierarchical Attention Mechanism. APWeb/WAIM (2) 2021: 295-309
[5] Xuelong Zhang, Juntao Zhang, Nanzhou Lin, Xiandi Yang: Sequential Self-Attentive Model for Knowledge Tracing. ICANN (1) 2021: 318-330
[6] Zheng Zhang, Wei Song, Yuan Shen: A Reasonable Data Pricing Mechanism for Personal Data Transactions with Privacy Concern. in: Proc. of APWeb/WAIM (2) 2021: 64-71
(2)专利
[1] 彭智勇,林南州,宋伟,杨先娣. 一种基于层次注意力机制的群组推荐方法. 中国国家专利.
[2] 彭智勇,王淞,杨浩,张舸, 陈河堆, 屠要峰, 彭煜玮. MMasterDB——一种多主分布式数据库系统. 中国国家专利.
[3] 彭煜玮, 王淞, 杨浩, 张舸, 陈河堆, 屠要峰, 彭智勇. OCCSUB——一种基于乐观并发控制的分布式并发事务提交协议. 中国国家专利.
(3)获奖
[1] 彭智勇,当选中国计算机学会常务理事
[2] 杨先娣,“2021年度海纳奖——分布式数据库十大先锋人物”奖。
[3] 彭煜玮,CCF数据库专委会2021年第二次常委会评选中被评为数据库专委会2021年度优秀委员。
[4] 宋伟,2021年度第十四届全国大学生信息安全竞赛二等奖,指导教师奖。
五、学术交流
· 2021年11月27日,彭智勇教授在武汉计算机软件工程学会年会暨学术研讨会上做大会主旨报告,并在武汉光谷参加了CCF武汉会员活动中心(以下简称“CCF武汉”)联合YOCSEF武汉在武汉光谷鼎创国际举办的首届“青年教师学术风采展示论坛”,并担任本次论坛的专家评委。本次活动为湖北地区相关高校的优秀青年教师提供了一个学术分享和交流的平台,展示了各自在学术上的工作进展和成果,秀出了风采。
· 2021年12月31日,彭智勇教授在武汉大学主持了由中国计算机学会主办、CCF武汉分部承办的线下/线上学术报告“智能计算/历史文化/交叉科学发展”。该报告嘉宾是来自武汉大学信息管理学院的王晓光教授。报告中,在科技与人文融合理念指导下,提出文化遗产智能计算的基本概念及相关理论,分析其目标方向、实现逻辑和发展趋势,并开展文化遗产智慧数据资源建设,理论和智慧数据资源建设理念的提出,不仅有利于支撑数字人文研究范式的发展,也有助于推动文化产业数字化转型,对数字中国和文化强国战略实施具有重要意义。
· 2021年7月12日,彭智勇教授出席阿里云联合PG中文社区、白玉兰开源共同打造的“七天玩转PolarDB for PostgreSQL开源创造营”,彭教授在开幕式上做报告,解读数据库前沿技术趋势。
· 2021年11月17日,彭智勇教授出席中国计算机学会主办、CCF武汉分部承办的线上学术报告“大数据/基于社交位置信息的挖掘与推荐/差分隐私技术现状与发展”成功举办。彭教授担任本次学术报告主持,报告嘉宾是来自日本京都大学的马强副教授和曹阳副教授。本次报告内容涉及数据挖掘、人工智能和隐私保护,也为大数据和一些具体的应用如个性化旅游景点推荐指明了方向。
· 2021年5月17日, 彭智勇教授参加了中国计算机学会(CCF)数据库专委走进腾讯,联合腾讯举办主题为“云时代数据库基础研究的创新与挑战”的数据库技术论坛。彭教授代表CCF数据库专委致辞,并主持了闭门研讨会。论坛上,CCF数据库专委与腾讯的专家学者们针对事务处理、高可用性等分布式数据库核心技术体系进行深入求索的报告分享,同时带来了在云计算、云融合的时代背景下,数据库与AI智能、新硬件等前沿技术生态融合应用的实践探索分析。
· 2021年12月3日至5日,彭智勇教授、洪亮教授在云南省昆明市参加了第38届CCF中国数据库学术会议(NDBC 2021),本次会议关注数据库领域所面临的新挑战,新问题和新方向,着眼于我国数据库技术研究的最新进展,为科研院所、科技企业的数据库研究、开发和应用相关人员搭建了良好的交流平台。
· 2021年12月24日,彭智勇教授出席了由全国信息技术标准化技术委员会秘书处(简称“全国信标委”)组织的数据库国家标准研讨会,会议以“提升数据库标准技术水平,筑牢产业发展根基”为主题,围绕国内数据库产业发展和数据库核心技术攻关过程中的标准化需求展开研讨交流。
· 2021年7月10日,由中国计算机学会(CCF)主办,中国计算机学会信息系统专业委员会、燕山大学承办的“2021 CCF中国信息系统战略研讨会(FISS)在新疆库尔勒成功召开,宋伟副教授作青年学术报告。
· 2021年12月11日,洪亮教授受邀在中华医学会第二十七次全国医学信息学术会议做在线学术报告,报告题目是“医学知识图谱构建与智能服务”。
· 2021年12月17日,洪亮教授受邀参加中国计算机大会第四届智慧城市与城市计算论坛,并作了题为“基于时空数据管理技术的实时可达区域发现”的特邀报告,介绍了新型时空索引和查询优化技术,使得实时可达区域能够被更有效地查询,以及在智慧城市中的应用。
· 2021年12月27日,洪亮教授应广州大学邀请作线上学术报告,题目是《金融股权知识图谱构建与查询分析平台》。
· 2021年6月20日至25日,洪亮教授与硕士研究生梁哲、宋睿、徐豪帅、司恬歌、和陈昊冉参加2021年ACM数据管理国际会议(SIGMOD 2021).
· 2021年9月28日至29日,洪亮教授与硕士研究生侯雯君、朱丽雅和张珺参加2021年中国情报学年会。
六、人才培养
毕业生沈忱(硕士毕业后就职于达梦数据库,从事数据智能化管理工作)、 毕业生莫松松(硕士毕业后前往新加坡南洋理工攻读博士,从事数据管理调度优化的研究)、毕业生刘傲寒(硕士毕业后就职于华为,从事SparkSQL查询优化工作)、毕业生吴煜(硕士毕业后加入平安科技数据库产品团队,从事云数据服务安全工作)、毕业生林南州(硕士毕业后就职于杭州华为企业通信技术有限公司),从事社区智能构建与群组推荐方法研究工作)、毕业生张艺缤(硕士毕业后就职于深圳华为有限公司,从事数据授权与访问行为审计工作)、毕业生孙燕(硕士毕业后就职于上海平安银行,从事云数据库数据安全交易工作),毕业生蔡涛(硕士毕业后就职于钉钉中国信息技术有限公司,从事数据管理智能优化工作)、毕业生林博(硕士毕业后就职于深圳计算科学研究院,从事数据库执行计划管理技术研究工作) 。硕士毕业生欧阳晓凤(毕业后就职于腾讯控股有限公司,从事知识图谱构建工作)、硕士毕业生洪亮和殷伟分别就职于华为和中兴技术岗、硕士研究生侯雯君(多次获得国家奖学金、武汉大学“优秀研究生”等荣誉)、陈昊冉、梁哲、石中路(参与第七届中国国际“互联网+”大学生创新创业大赛获国家级银奖)等。