金融大数据中心以金融大数据间的知识关联为研究视角,致力于金融领域的价值分析、发现及协同创新机制。中心从股权结构关联视角出发,融合了全量的工商注册企业数据以及商业银行股权结构数据,面向资本市场构建了亿级实体-关系三元组的知识大图。在此基础上构建金融时序知识图谱,实现金融舆情的全面监测和风险发现、风险推演与实时风险防控,并支持金融风险的可视化分析,为解决实体经济痛点问题提供金融风控大脑的技术解决方案。
一、团队核心成员
马费成 教授 | 潘敏 教授 | 洪亮 教授 |
李斌 教授 | 张俊 数据中心总监 (深圳证券信息有限公司) | 刘岩 副教授 |
李旭晖 副教授 | 毛瑞彬 数据中心副总监 (深圳证券信息有限公司) |
二、主持项目
(一)已结项项目
金融大数据研究中心与深圳证券信息有限公司共同承担了国家自然科学基金委员会重大研究计划“大数据驱动的管理与决策研究”重点支持项目“基于知识关联的金融大数据价值分析、发现及协同创造机制”(项目号:91646206)。
研究内容:
(1)研究金融知识表示建模方法,建立描述语义数据演化和知识关联的理论模型,形成面向大数据价值分析发现的演化知识表示方法。
(2)构建金融股权知识大图,为金融价值分析发现提供丰富全面的数据来源。
(3)研究基于知识大图的金融大数据价值分析框架和分析方法与技术。
(4)研发金融大数据协同创新服务平台,支撑面向行业的应用服务。
项目成果:
已发表和被接收学术期刊论文75篇;出版学术专著 2 部;获得专利 5 项;软件著作权 13 项;建设金融大数据平台 1个;成果在深圳证券交易所、深圳证券信息公司和国融证券股份有限公司得到应用,已有应用证明。
深圳证券信息有限公司
深圳证券交易所
国融证券股份有限公司
该项目已经于2021年5月11日在北京西郊宾馆结题验收,会上马费成资深教授做工作报告,洪亮教授做学术报告;专家组一致通过对该项目的结题验收,项目结题获评优秀。
(二)执行中项目
金融大数据中心还承担了科技创新2030-“新一代人工智能”重大项目“亿级节点时序图谱实时智能分析关键技术与系统”课题“金融时序知识图谱查询与分析平台及应用验证”;国家自然科学基金面上项目“金融部门控制权网络与重大风险防范化解研究”等。
“金融时序知识图谱查询与分析平台及应用验证”研究框架
1通过基于大数据中知识的多层次、多角度关联结构设计知识组织和表示方法、构建金融大数据的知识大图
2面向多源、异构、时序金融大数据,研发金融数据汇聚、联邦管理架构、图谱可视化分析等关键技术,针对金融跨领域应用的共性和个性化需求,研发亿级金融时序知识图谱查询与分析平台
3实现金融舆情智能监控与实时风险防控,并在银行、证券、担保等领域的金融机构进行银行信贷风险管控、资本市场金融舆情监测、金融股权网络穿透式监管等典型应用验证
三、年度进展
(一)研发亿级金融时序知识图谱查询与分析平台
1金融跨领域数据汇聚技术:构建了一个适用于当前中国金融体系的金融全场景本体,涵盖了金融、经济、股票、货币、银行等相关六大领域,提供了与中国金融体系现实一致的概念体系和反映中国金融体系关联特征的关系体系;基于Django和Scrapy构建了金融跨领域数据采集系统对互联网多源异构数据进行自动化可配置爬取存储;针对金融跨领域多源异构数据,提出基于GNN的层级多标签文本分类模型,从而为进一步的非结构化文本数据的实时分类提供支持;针对非结构化文本数据的信息抽取问题,提出了一种知识注入模型KGANN,基于该模型进行金融实体和关系抽取,从而为金融时序知识图谱构建提供支持。
2联邦型分布式知识图谱管理方法:提出了一个支持异构数据源站点的联邦型分布式知识图谱查询方案,该方案基于openrdf对sparql查询进行分解重写并选择匹配数据源,最后将各个异构数据源站点的查询结构进行匹配连接,在多方异构数据源站点不共享数据的场景下实现联邦查询。
3金融时序知识图谱可视化分析技术:研究金融图立方的可视化分析技术,通过不同层次的知识图谱摘要,为用户展示了复杂知识图谱中的不同粒度的结构语义模式。层次化的知识图谱摘要不仅有利于用户理解复杂的金融时序知识图谱,也提供了一种交互式的可视化分析方法,使得金融图立方的分析变得高效、可行。
金融时序知识图谱查询与分析平台
(二)研发金融舆情分析和风险识别防控智能应用
1银行信贷风险管控:在中小微企业信贷过程的事前风险管控场景中,采用Louvain算法从交易角度对中小企业网络进行社区划分构建了存疑企业社区划分模型;在事中风险管控场景中,利用“连通分量”思想构建了高风险企业资金中介虚假增资团伙侦测模型,利用多度关联关系、资金回流构建了虚假资金用途侦测模型;利用授信客户及邻里关系等数据,构建了基于风险传导概率的行业风险链路发现模型;针对上市公司财务造假预警场景,构建中国所有A股上市公司的基本面数据与财务造假数据库,开发了基于非平衡机器学习和公司基本面数据的财务造假预警算法与系统。
2资本市场金融舆情监测:构建了金融领域事件本体,基于FinBERT构建了事件分类模型,基于FinBERT和Bi-LSTM-CRF构建了事件元素抽取模型,基于依存句法分析构建了实体关系抽取模型,利用上述模型精准识别资本市场发生的金融舆情事件并以金融事件本体为模式层构建了金融事件图谱,从而为舆情风险传导建模提供支持。
3金融股权网络穿透式监管:提出了一种复杂的增量股权计算的遍历算法,引入修正系数处理环路计算解决交叉持股问题,从而支持实际控股股东的识别;考虑持股、控股等金融语义关系和股权比例提出了一种关键股权路径发现算法,从而发现企业之间的Top-k持股路径;构建外部关系强度计算模型并引入外部关系结合公司股权提出了一种控制权指数计算算法,从而识别企业的实际控制人等关键结点。
金融股权网络穿透式监管示例
四、成果奖励
(一)代表性论文
[1] 袁歌骋,潘敏(通讯作者). 家庭部门杠杆变动对经济增长的影响分析,《财贸经济》,2021年第2期;
[2] 潘敏,张新平.供给侧结构性改革下的积极财政政策效果—兼论货币政策锚的选择,《经济学动态》,2021年第3期;
[3] 潘敏、张新平:新冠疫情、宏观经济稳定与财政政策选择—基于动态随机一般均衡模型的研究,《财政研究》,2021年第5期。
[4] 洪亮, 马费成. 面向大数据管理决策的知识关联分析与知识大图构建. 管理世界, 2022.
[5] 洪亮, 欧阳晓凤. 金融股权知识大图的知识关联发现与风险分析. 管理科学学报, 2022.
[6] 刘岩(通讯作者),葛新宇、庄嘉莉.“贸易政策不确定性如何影响商业银行风险?——对企业经营渠道的检验”,《中国工业经济》,2021年第8期.
[7] 张志剑,刘政昊,马费成(通讯作者).面向互联网舆情事件的企业风险识别——基于KGANN模型,《工程管理科技前沿》,2022.
[8] Liang Hong, Haoshuai Xu, Xiaoyue Shi. Constructing Ontology of Brain Areas and Autism to Support Domain Knowledge Exploration and Discovery. International Journal of Computational Intelligence Systems. 2021.
[9] Li R, He H, Wang R, Ruan S, He T, Bao J, Zhang J, Hong L, Zheng Y. TrajMesa: A Distributed NoSQL-Based Trajectory Data Management System. IEEE Transactions on Knowledge and Data Engineering. 2021.
[10] Li B , Sun C , Zhou Y . The Cross Section of Chinese Commodity Futures Return[J]. Journal of Management Science and Engineering, 2021.
[11] Zhang Y , Zhao P , Li B , et al. Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, PP(99):1-1.
[12] Qiyan Li, Yuanyuan Zhu, Junhao Ye, Jeffrey Xu Yu. Skyline Group Queries in Large Road-social Networks Revisited. TKDE, 2021-9.
[13] Xiaobo Tang, Weigang Fu, and Yan Liu,“ Knowledge Big Graph Fusing Ontology with Property Graph: A Case Study of Financial Ownership Network,” Knowledge Organization, 2021, 48(1) pp. 55 – 71.
[14] Li, X., Liu, L., Wang, X., Li, Y., Wu, Q. and Qian, T. (2021), "Towards evolutionary knowledge representation under the big data circumstance", The Electronic Library, Vol. 39 No. 3, pp. 392-410. https://doi.org/10.1108/EL-11-2020-0318
[15] Peng, Min & Zhu, Jiahui & Wang, Hua & Li, Xuhui & Zhang, Yanchun & Zhang, Xiuzhen & Tian, Gang. (2018). Mining Event-Oriented Topics in Microblog Stream with Unsupervised Multi-View Hierarchical Embedding. ACM Transactions on Knowledge Discovery from Data. 12. 1-26. 10.1145/3173044.
(二)专利与软件著作权
[1] 洪亮, 欧阳晓凤, 陈昊冉.一种金融股权知识大图的多层股权穿透算法. 中国国家专利.
[2] 张志剑,马费成,洪亮,桂文瑄.一种基于KGANN的命名实体识别方法.中国国家专利
[3] 基于KGANN的金融命名实体识别应用软件V1.0. 计算机软件著作权. 2021.
[4] 基于知识图谱的科技安全风险预警系统. 计算机软件著作权. 2021
[5] 基于知识图谱的金融风险分析与预警系统. 计算机软件著作权. 2021.
[6] 张志剑,马费成,洪亮,刘政昊,王丹丹,倪珍妮.一种基于KGANN的面向互联网舆情事件的企业风险识别方法.计算机软件著作权. 2021.
(三)获奖
[1] 洪亮. 全国高等教师教学创新大赛三等奖
[2] 李斌. 第十八届中国金融学年会优秀论文二等奖,2021年
[3] 李斌. 第一届香樟金融学英文论坛获奖论文二等奖, 2021年
[4] 李斌. 上海期货交易所优秀对外合作课题三等奖,2021年
[5] 刘政昊,吕文龙,钱宇星等. 第三届全国高校数据驱动创新研究大赛优秀奖(指导教师:洪亮)
五、学术交流
· 2021年5月18日,中心成员潘敏教授,洪亮教授,李斌教授,代军勋副教授,刘岩副教授,祝圆圆副教授与研究生赴郑州中原银行总行进行数据和业务调研,与中原银行行长和部门负责人进行了深入交流,明确了科技创新2030课题的研究思路,并确立了下一步的合作意向。
· 2021年7月12日,中心组织所承担课题“金融时序知识图谱查询与分析平台及应用验证”课题研讨会,与深圳证券信息有限公司、交通银行股份有限公司深入交流。
· 2021年7月30日,中心参加在华中科技大学网络空间安全学院举行的科技创新2030项目年度研讨会,会上潘敏教授、洪亮教授分别就课题的研究进展进行了汇报,并回答了项目责任专家的问题,并与其他课题组成员进行了深入的学术交流。
六、人才培养
人才项目:洪亮教授,入选第四批武汉大学人文社会科学优秀青年学者
研究生培养:毕业生欧阳晓凤(硕士毕业后就职于腾讯控股有限公司,从事知识图谱构建工作)、博士毕业生张新平和梁虎分别就职于人民银行武汉分行研究处和无锡市地方金融监管局资本市场处; 博士研究生张志剑、刘政昊(申请“3+3”项目继续攻读数据科学博士)、硕士研究生侯雯君(多次获得国家奖学金、武汉大学“优秀研究生”等荣誉)、陈昊冉、梁哲、石中路(参与第七届中国国际“互联网+”大学生创新创业大赛获国家级银奖)等。