金融大数据

首页 > 研究领域  > 金融大数据
金融大数据研究中心简介
2018年10月23日09时 人评论

金融大数据中心以金融大数据间的知识关联为研究视角,致力于金融领域的价值分析、发现及协同创新机制。在系统性风险识别的研究中,中心团队成员以作为中国金融业核心的银行业为研究对象,聚焦于银行控制结构的核心—银行股权结构,从股权结构关联视角出发,融合了全量的工商注册企业数据以及商业银行股权结构数据,面向资本市场构建了亿级实体-关系三元组的知识大图。在此基础上构建金融时序知识图谱,实现金融舆情的全面监测和风险发现、风险推演与实时风险防控,并支持金融风险的可视化分析,为解决实体经济痛点问题提供金融风控大脑的技术解决方案。

金融大数据中心目前已推出知融金融大数据平台服务,该平台研发了超大规模图数据管理关键技术,对亿级三元组的大规模知识图谱实现了准确、高效、鲁棒的查询与管理,实现了对资本市场的实体、实体关系和实体属性的知识关联查询,以及多层股权结构的发现与揭示。同时,提出了基于知识关联的金融风险模式发现算法,对交叉持股,资本系等蕴含潜在金融风险的股权结构进行了准确发现。该平台已应用于深圳证券交易所的资本市场风险评估服务。

 

金融大数据中心承担了国家自然科学基金重大研究计划“大数据驱动的管理与决策研究”中的重点支持项目“基于知识关联的金融大数据价值分析、发现及协同创新机制”和科技创新2030-“新一代人工智能”重大项目“亿级节点时序图谱实时智能分析关键技术与系统”的子课题“金融时序知识图谱查询与分析平台及应用验证”,通过基于大数据中知识的多层次、多角度关联结构设计知识组织和表示方法、构建金融大数据的知识大图;同时面向多源、异构、时序金融大数据,研发金融数据汇聚、联邦管理架构、图谱可视化分析等关键技术,针对金融跨领域应用的共性和个性化需求,研发亿级金融时序知识图谱查询与分析平台,并在构建统一的金融时序知识图谱“金融图立方”的基础上实现金融舆情智能监控与实时风险防控,并将在银行、证券、担保等领域的金融机构进行银行信贷风险管控、资本市场金融舆情监测、金融股权网络穿透式监管等典型应用验证。

 

一、主要成果

l 科研产出方面

[1]     Bin Li, Cheng Sun, and Yang Zhou. The Cross Section of Chinese Commodity Futures Returns. Journal of Management Science and Engineering, 2020, forthcoming.

[2]     Chen, Xinyun, Yan Liu, and Tao Zeng. Does the T+1 Rule Really Reduce Speculation? Evidence from Chinese Stock Index ETF,” Accounting and Finance, 2017, 57(5) pp. 1287 – 1313.

[3]     Chen, Y., & Qian, T. (2020). Relation constrained attributed network embedding. Information Sciences, 515, 341-351. doi:https://doi.org/10.1016/j.ins.2019.12.033.

[4]     Chen, Y., Qian, T., Liu, H., & Sun, K. (2018). "Bridge": Enhanced Signed Directed Network Embedding. Paper presented at the Proceedings of the 27th ACM International Conference on Information and Knowledge Management, Torino, Italy. https://doi.org/10.1145/3269206.3271738.

[5]     Di Bu, Yin Liao, Jing Shi, Hongfeng Peng. Dynamic expected shortfall: A spectral decomposition of tail risk across time horizons[J]. Journal of Economic Dynamics and Control, 2019, Volume 108, November, Article 103753

[6]     Dong, Qingxing; Zhou, Xin; Martinez, Luis. A hybrid group decision making framework for achieving agreed solutions based on stable opinions[J]. Information Sciences, 2019, 490: 227-243.

[7]     Doyen Sahoo, Steven Hoi, and Bin Li. Large Scale Online Multiple Kernel Regression with Application to Time-Series Prediction ACM Transactions on Knowledge Discovery from Data, 2019, 13(1), 9:1-33.

[8]     Hong LLuo M QWang RLu P XLu DBig Data in Healthcare: Applications and ChallengesData and Information Management201720171.

[9]     Hu, Ting, and Chi, Yanzhe. Can short selling activity predict the future returns of non-shortable peer firms?[J]. Pacific-Basin Finance Journal, 2019, 53(C): 165-185.

[10] Hu, Ting; Chi, Yanzhe. Can short selling activity predict the future returns of non-shortable peer firms?[J]. Pacific-Basin Finance Journal, 2019, 53(C): 165-185.

[11] Huo ChaoguangMa FeichengQiu YifeiWang Yuchao. Exploring the determinants of health knowledge adoption in social media: An intention-behavior-gap perspectiveInformation Development.

[12] Jose Blanchet, and Xinyun Chen (2020) Rates of Convergence to Stationarity for Reflected Brownian Motion. Mathematics of Operations Research 45(2):660-681.

[13] Li B, Wang J, Huang D and Hoi S. Transaction Costs Optimization for Online Portfolio Selection[J], Quantitative Finance, forthcoming.

[14] Li B, Zhang D and Zhou Y. Do Trend Following Strategies Work in Chinese Futures Markets?[J], Journal of Futures Markets,2017, 37(12): 1226 –

[15] Li R Y, Bao J, Ruan S J, Hong L and Zheng Y.Reachability Query based on Real-Time Trajectories, Submitted to IEEE International Conference on

[16] Li X H.,Sun D W, Liu M C,Ma F C.Towards a graph-based data model for semantics evolution[C]. IConference 2017, research track, full paper.

[17] Li, B., Wang, J., Huang, D. and Hoi, S. Transaction Costs Optimization for Online Portfolio Selection, Quantitative Finance, 201818(8), pp 1411-1424.

[18] Li, Bin, Dingjiang Huang, Shunchang Yu, Steven Hoi, and Shuigeng Zhou. Combination forecasting reversion strategy for online portfolio selection, ACM Transactions on Intelligent Systems and Technology, 2018, 9(5), 58:1-22.

[19] Li, Xuhui; Wu, Yanqiu; Wang, Xiaoguang; Qian, Tieyun; Hong, Liang. Towards a semantics representation framework for narrative images[J]. The Electronic Library, 2019.

[20] Li, Xuhui; Wu, Yanqiu; Wang, Xiaoguang; Qian, Tieyun; Hong, Liang. Towards a semantics representation framework for narrative images[J]. The Electronic Library, 2019.

[21] Liang, Y., Qian, T., & Yu, H. (2020). ARTAN: Align reviews with topics in attention network for rating prediction. Neurocomputing, 403, 337-347. doi:https://doi.org/10.1016/j.neucom.2020.04.054.

[22] Liu, Yan; Xie, Tian. Machine learning versus econometrics: prediction of box office[J]. Applied Economics Letters, 2019, 26(2): 124-130.

[23] Peng H, Liu Z, and Chang T.Revisiting purchasing power parity in brics countries using more powerful quantile unit-root tests with stationary

[24] Peng M , Zhu J , Wang H , et al. Mining Event-Oriented Topics in Microblog Stream with Unsupervised Multi-View Hierarchica.

[25] Qian T Y,Zhu P S, Li X H*,Sun D W. Identifying Users’ Gender via Social Representations[C]. IConference 2017, research track, full paper.

[26] Qian, T.-Y., Liu, B., Hong, L., & You, Z.-N. (2018). Time and Location Aware Points of Interest Recommendation in Location-Based Social Networks. Journal of Computer Science and Technology, 33(6), 1219-1230. doi:10.1007/s11390-018-1883-7.

[27] Shi Y, Pan M, Peng D. Replicator dynamics and evolutionary game of social tolerance: The role of neutral agents[J]. Economics Letters, 2017,

[28] Shi Y, Pan M. Evolutionary dynamics of social tolerance in the economic interaction model with local social cost functions[J]. Applied Econo

[29] Sun, K., & Qian, T. J. a. e.-p. (2019). Seq2seq Translation Model for Sequential Recommendation. arXiv:1912.07274. https://ui.adsabs.harvard.edu/abs/2019arXiv191207274S.

[30] Sun, K., Qian, T., Yin, H., Chen, T., Chen, Y., & Chen, L. (2019). What Can History Tell Us? Paper presented at the Proceedings of the 28th ACM International Conference on Information and Knowledge Management, Beijing, China. https://doi.org/10.1145/3357384.3358050.

[31] Tang, X., Qian, T., & You, Z. (2020). Generating behavior features for cold-start spam review detection with adversarial learning. Information Sciences, 526, 274-288. doi:https://doi.org/10.1016/j.ins.2020.03.063.

[32] Tang, Xiaobo, Weigang Fu, and Yan Liu. “Knowledge Big Graph Fusing Ontology with Property Graph: A Case Study of Financial Ownership Network,” Knowledge Organization, forthcoming.

[33] Xiaobo Tang, Weigang Fu, Yan Liu, “Knowledge Big Graph Fusing Ontology with Property Graph: A Case Study of Financial Ownership Network,” Knowledge Organization, forthcoming.

[34] Xiaobo Tang, Weigang Fu, Yan Liu, “Knowledge Big Graph Fusing Ontology with Property Graph: A Case Study of Financial Ownership Network,” Knowledge Organization, forthcoming.

[35] Yang Bao, Bin Ke, Bin Li, Julia Yu, and Jie Zhang. “Detecting Accounting Frauds in Publicly Traded US Firms Using a Machine Learning Approach”, Journal of Accounting Research, 2020, 58(1), 199-235.

[36] Yifan Zhang, Peilin Zhao, Qingyao Wu, Bin Li, Junzhou Huang, Mingkui Tan. Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning, IEEE Transactions on Knowledge and Data Engineering, 2020, forthcoming.

[37] Yong Li, Jun Yu, Tao Zeng, “Specification Tests Based on MCMC Output,” Journal of Econometrics, 2018, 207(1), pp 237-260.

[38] You, Z., Qian, T., & Liu, B. (2018, aug). An Attribute Enhanced Domain Adaptive Model for Cold-Start Spam Review Detection. Paper presented at the Proceedings of the 27th International Conference on Computational Linguistics, Santa Fe, New Mexico, USA.

[39] Yu, H., Qian, T., Liang, Y., & Liu, B. (2020). Adversarial Generation of Target Review for Rating Prediction, Cham.

[40] Zha, Xianjin; Liu, Kunfeng; Yan, Yalan; Yan, Guanxiang; Guo, Jia; Cao, Fenfang; Wang, Yunzhi. Comparing digital libraries with social media from the dual route perspective[J]. Online Information Review, 2019.

[41] Zhang, M., & Qian, T. (2020, nov). Convolution over Hierarchical Syntactic and Lexical Graphs for Aspect Level Sentiment Analysis. Paper presented at the Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Online.

[42] Zhu, P., & Qian, T. (2018, aug). Enhanced Aspect Level Sentiment Classification with Auxiliary Memory. Paper presented at the Proceedings of the 27th International Conference on Computational Linguistics, Santa Fe, New Mexico, USA.

[43] Zhu, P., Chen, Z., Zheng, H., & Qian, T. (2019). Aspect Aware Learning for Aspect Category Sentiment Analysis. 13(6 %J ACM Trans. Knowl. Discov. Data), Article 55. doi:10.1145/3350487.

[44] 何国华、李洁、刘岩. “金融稳定政策的设计:基于利差扭曲的风险成因考察”,《中国工业经济》,201708.

[45] 洪亮 ; “金融学术研究能力提升大讲堂”公益直播系列讲座,教育部高等学校金融类专业教学指导委员会,2020-4-1.

[46] 洪亮, 欧阳晓凤,金融股权知识大图的知识关联发现与风险分析[J/OL]. 管理科学学报,已录用.

[47] 洪亮;基于知识图谱的金融风险分析与预警系统V1.02021SR0186800,原始取得,全部权利,2018-11-10.

[48] 黄宪、刘岩、童韵洁. “金融发展对经济增长的促进作用及持续性研究——基于英美、德过、法国法系的比较视角”,《金融研究》,2019年第12.

[49] 李斌,冯佳捷.中国股票市场的质量因子研究.管理评论, forthcoming.

[50] 李斌,林彦,唐闻轩.ML-TEA:一套基于机器学习和技术分析的量化投资算法系统[J].工程理论与实践, 2017, 37(5):1089-1100.

[51] 李斌,张迪,唐松慧.基于次梯度投影的在线泛投资组合选择策略[J].管理科学学报,forthcoming.

[52] 李瑞远, 洪亮. 一种基于包含度的子图匹配方法[J]. 软件学报, 2017.

[53] 李旭晖, 吴燕秋, 王晓光. 基于角色关联的叙事型文化遗产知识表示方法[J]. 图书情报工作, 2017(9):116-122.

[54] 李旭晖,凡美慧.大数据中的知识关联[J].情报理论与实践,2019,42(02):68-73+107.

[55] 李旭晖,刘洋.时空数据建模方法研究综述[J].数据分析与知识发现,2019,3(03):1-13.

[56] 李旭晖,秦书倩,吴燕秋,马费成.从计算角度看大规模数据中的知识组织[J].图书情报知识,2018(06):94-102.

[57] 李旭晖,吴燕秋,王晓光. 演化视角下图像的语义表示[J/OL]. 图书情报知识,2017,(06):79-86.

[58] 李旭晖,于滔,李婷,李逸文,顾进广. 一种面向演化的模式元数据描述机制[J].数据分析与知识发现,2019.

[59] 刘岩、谢天. “跨国增长实证研究的模型不确定性问题:机器学习的视角”,《中国工业经济》,2019年第12.

[60] 吕华揆,洪亮,马费成.金融股权知识图谱构建与应用[J].数据分析与知识发现,2020,4(05):27-37.

[61] 吕华揆,刘政昊,钱宇星,洪旭东.异质性财经新闻与股市关系研究[J/OL].数据分析与知识发现:1-18[2021-01-05].

[62] 马费成 ; Knowledge Connection in Big Data, The Annual Conference on Data, Information, and Society, 南京, 2018-7-42018-7-6.

[63] 马费成 ; 基于股权知识大图的系统性金融风险研究, 第八届全国社会媒体处理大会, 深圳,2019-8-6.

[64] 毛瑞彬,吕华揆,朱菁.上市公司公告篇章级信息抽取框架与实现[J].情报科学,2019,37(11):73-78+88.

[65] 毛瑞彬; 胡世磊; 彭令陶; 张俊 ; 一种基于区块链的上市公司评价方法及相关设备,2019-3-12 中国,CN201910185 , 093.2.

[66] 毛瑞彬; 朱菁; 张俊; 王仁勇; 邓永翠; 赵洪杰 ; 一种创建知识图谱的方法及装置,2020-8-25 ,中国,2017108905481.

[67] 深圳证券信息有限公司 ; 深证信息投融资事件抽取系统软件V1.0, 2018SR107184, 原始取得, 全部权利, 2018-2-9.

[68] 司登奎、葛新宇、曾涛、李小林. 房价波动、金融稳定与最优宏观审慎政策,《金融研究》,2019年第11期,38-56.

[69] 唐旭丽(#) ,马费成(*) ,傅维刚,张瑞.知识关联视角下的金融知识表示及风险识别[J].情报学报,2019,38(03):286-298.

[70] 王仁勇; 张俊; 毛瑞彬; 邢精平 ; 一种关系图谱绘制方法、系统及相关装置,2018-12-29,中国,CN201811645121.6

[71] 张俊; 毛瑞彬; 邓永翠; 朱菁; 邢精平 ; 投融资事件要素抽取方法、装置及设备,2018-3-12 中国,CN20181019978, 9.6.

[72] 张瑞,唐旭丽,王定峰,潘建鹏.基于知识关联的金融数据可视化分析[J].情报理论与实践,2018,41(10):131-136. 1.

2. 平台打造方面

    逐步完善知融金融大数据平台的建设,集成多样化数据源,提供全方位的金融服务;实现了金融资本市场知识图谱的构建,股权图谱包含9000万行数据,520万实体。在平台建设中,整合了全球14个主流交易所数据,而且通过爬取、交换、购买等多种方式,收集全国4700万家企业的各类公开信息资源和和泛舆情类数据;在数据的基础上,构建知融大数据平台,该平台实现了基本面信息查询 、图结构信息查询(族谱) 和证券行业相关应用服务(如深沪实时行情、投融资等)服务,并提供开放数据API

在知识图谱建设上,研究团队针对多方获取的数据初步构建了金融领域知识图谱,理论上提出一种以角色为基础,事件为导向,适于描述主题、分类知识关联的金融知识表示建模方法;对图挖掘算法进行探索,并申请了相关专利;针对金融数据实际情况设计并优化了信息抽取技术。

未来,团队将致力于研发金融时序知识图谱查询与分析平台,对金融领域知识进行规范化、体系化的分类,研究金融跨领域数据汇聚技术,以及分布式系统集成技术,构建统一的金融时序知识图谱,即金融图立方,设计统一数据访问接口,同时实现对金融数据的全程管理及高效安全接入。研发金融舆情分析和风险识别和防控智能应用,包括银行信贷风险管控、资本市场金融舆情监测、金融股权网络穿透式监管等进行典型应用验证,实现跨领域的金融风险识别、监测、预警与防控,从而建立面向海量金融交易数据实时风险防控重大问题的金融风控大脑。

3. 成果创新性

1知识关联理论方法为金融大数据的价值发现奠定了理论基础。研究团队提出了知识关联的概念,通过多层次、多角度的知识关联建模方法描述金融大数据中丰富的语义信息,并以此为基础构建基于金融知识大图的计算理论模型,该研究方法与成果可以形成金融知识计算的理论框架,形成金融价值分析、发现与创造的系统性解决方案。

2)构建基于金融知识大图的知识计算框架,形成金融价值分析、发现与创造的系统性解决方案。从知识关联出发,通过对大数据的事实知识、规则知识以及知识的各种关联进行总体分析,以得到知识关联结构上关联特征和规律。基于对金融大数据的数理统计分析和语义关联分析,构建蕴含丰富语义信息和知识关联的金融知识大图。在知识大图构建的数据层,针对各类典型结构化数据源,研究面向知识关联模型的数据转换方法;针对以企业基本面数据为代表的各类半结构化数据源,研究数据清洗转换等半自动数据预处理方法。在应用层,研究基于知识关联模型的异构数据源融合技术,针对以网络文本数据为代表的非结构化金融数据源,结合金融领域的本体知识和语料,研究金融文本的实体抽取、关系抽取、事件抽取以及情感分析方法,在紧密结合了金融领域的特点与金融数据的特征后多维度穿透风险,能穿透识别背后的主体企业挖掘潜在风险的关联企业,尽早地规避风险,为金融股权知识大图的构建提供主要技术支撑。

3)金融股权知识大图为系统性金融风险的识别和分析提供了新的视角和思路。从知识协同与行为协同相结合的角度研究金融领域的协同价值创造方法,通过对多主体协同计算的相关支持服务研究金融股权知识大图上的协同价值创造模式和关键技术,系统性金融风险的识别和防控等重要问题提供新的解决思路和方法。本项目根据金融知识大图的结构特征和对其进行多方面分析的应用需求,设计了多种计算模式和算法,使得以股权网络分析为代表的多种分析需求能够高效实现。

4)建设金融大数据协同创新应用平台并设计实现金融价值分析发现与创造的关键应用服务。“知融”金融大数据系统利用各种知识关联模式将金融知识上的价值计算与知识融为一体,构成了一个金融知识系统演化的统一框架,并提供基础设施服务以实现知识大图的知识利用、发现与演化等功能,对亿级三元组的大规模知识图谱实现了准确、高效、鲁棒的查询与管理,包括实体、实体关系和实体属性的知识关联查询,以及多层股权结构的穿透式分析。

三、主要特色

从理论上构建了基于知识图谱的金融大数据价值分析发现的知识关联模型和理论体系;在实践应用上,一方面,基于知识图谱模型,设计了基于知识大图的银行股权知识关联模型,构建了基于知识大图的银行股权信息系统,能够复原相关商业银行所有层级的股权嵌套关系,绘制完整的基于知识大图的银行股权结构网络,从而实现对银行股东及股权结构信息的穿透性揭示,为我国金融体系的监管提供了一个全新的思路、方法、模型和可行路径,助推银行股权结构穿透式监管目标的实现,从而为防范系统性金融风险提供大数据支撑;另一方面,构建金融风控大脑所要解决的金融领域风险识别和控制的主要现实问题及其对金融服务实体经济、防范金融风险和促进金融改革发展的现实意义,面对现实问题,研究金融风控大脑应具备的功能和需要解决的关键技术,基于金融风控大脑功能,设计面向跨领域金融机构的共性和个性化需求,解决跨领域不同金融机构面临风险识别和控制问题的验证方案,最终检验金融风控大脑在银行信贷风险管控、资本市场金融舆情监测、股权网络穿透等场景中风险发现、风险推演、实时风险防控等功能的实现效果,实现银行、证券、保险等领域的全流程的金融风险识别、监测、预警与防控。

提出了大数据价值分析发现的一个新的途径:从知识关联的角度来探讨大数据价值分析发现与创造的一般方法,并以此为基础构建领域大数据价值发现和创造的统一框架。通过知识关联集成各类金融知识,并通过知识服务降低了金融大数据处理的技术门槛,既提高了知识的利用率,又加快了价值创造的效率,从而形成一个由金融大数据、人、计算机构成的完整、高效的金融大数据应用生态系统。

 


版权所有 ©武汉大学大数据研究院 | copyright © 2008-2019 Big Data Institute, Wuhan University. All Rights Reserved.