武汉大学大数据研究院传媒大数据研究中心主要以全球社交媒体大数据、新闻舆情大数据、传媒产业大数据等互联网大数据的采集、分析、挖掘为主要业务,对全球舆情进行监测,对政治思潮的动态进行跟踪,对重大历史事件下的社会情绪、社会心态和社会认知的演变规律进行解释,以互联网时代的舆论战、信息战和认知战的演变规律为研究目标,服务于中国崛起时代的对外传播战略、中华文化的国际传播战略以及国家文化软实力的提升与建设。朱静雯教授带领的媒至酷团队聚焦传媒上市公司发展,持续采集、挖掘和分析传媒行业大数据,已建立我国主板与新三板传媒上市公司财务信息数据库、投融资数据库和创新能力数据库,并已实现数据自动抓取和可视化处理,自2017年以来,持续发布传媒上市公司年度综合绩效数据系列报告30余份,致力于为传媒产业行政管理部门制定产业政策和各类传媒公司战略制定提供数据支持与服务。
一、核心成员介绍
齐中祥 沃民高科董事长 | ||
江昊 武汉大学电子信息学院教授 | 喻丰 武汉大学心理系教授 | 谢天 武汉大学心理系副教授 |
郭明飞 华中师范大学教授 | 浙江万里学院 羊晚成博士 |
二、中心工作进展
(一)数据库建设
近年来传媒大数据研究中心在全球舆情大数据资源的集成方面做出实质性推进。本团队在社交媒体大数据、新闻舆情大数据的数据库建设方面取得了突出成效,形成多个TB量级的数据库,为全球舆情监测和分析提供了坚实的数据支撑,并以TB级别的海量数据开发为基础,在文本的语义计算、情感计算,认知计算等方面形成了体系化的技术积累。
表1 社交媒体大数据的建设情况
数据库名称 | 数据量 | 数据格式与主要字段 |
Twitter用户基本信息数据集 | 2.1亿推特用 户基本信息 | Id,username,location,bio, tweets,followers,following, likes,join_date,join_time |
基于Twitter用户的历史数据集 | 3000万推特用户所自2019年以来的历史数据信息,大约50亿条推文.可根据需求随时扩充数据量 | Id,username,text,date, retweets,favorites, mentions,hashtags |
基于Twitter关键词的历史数据集 | 数据量大约为30亿条左右的推文,基于多个关键词提取推特用户信息。可根据需求随时扩充数据量 | Id,username,text,date, retweets,favorites, mentions,hashtags |
Facebook用户基本信息数据集 | Facebook全体5.3亿用户基本信息 | tel, facebookid, lastname, surname, gender, liveplace, hometown, marriage_inf, workorganization, account_time, email, birthday, country |
在社交媒体大数据方面,2019-2021年,中心先后在华为云、谷歌云等平台上部署100多台服务器,建构面向多种社交媒体用户的信息采集程序,先后获取5.3亿左右的Facebook用户信息,1.5亿左右的推特用户信息,常年监测2000万重点地区社交媒体账户信息,采集的推特用户信息高达100亿条左右,对于监测和分析全球社交媒体和舆情动态提供了实时数据资源。
在新闻舆情大数据方面,以全球所有国家在线新闻舆情为监测对象,汇集全球30多万个新闻网站自2015-2021年间大约15亿个新闻网页的主要内容信息,并实施动态更新数据库内容,对世界各地区的舆情动态进行监测和数据采集,借助于自然语言处理的多种算法,包括重要实体抽取、主题提取以及情感词库计算,从非结构化海量文本信息中提取重要的结构化信息,对全球在线新闻舆情的动态形成较强的跟踪能力和计算传播分析能力。
表2 新闻舆情大数据的建设情况
数据库名称 | 数据量 | 数据格式与主要字段 |
全球在线新闻舆情数据 | 13TB,全球在线舆情14亿张网页的新闻标题和文本内容 | GKGRECORDID,URL, DocumentIdentifier, SourceCommonName title, newstext |
(二)传媒上市公司绩效数据报告制作与发布
(1)传媒上市公司年度绩效数据报告和五年综合动态绩效数据报告评价指标体系修订
2021年传媒上市公司年度绩效数据报告制作在原有评价系统基础上对评价指标进行升级,以期更加科学、客观和准确地反映传媒上市公司的经营绩效。新评价指标从价值规模、市场表现、盈利能力、运营能力、偿债能力和成长能力六个维度构建二级指标,下设经济附加值、Beta值、资产收益率、应收账款周转率、主营收入增长率、资产负债率等22个具体指标。为提高五年综合报告评估指标的科学性,每年数据绩效和五年综合数据绩效的算法均考虑或综合上一年业绩,从而形成与以往静态数据不同的动态绩效。此外,在算法方面也有部分修订,通过基于熵权的突变级数评价方法,计算各公司在单个年份的静态绩效和动态绩效,加权复合后得出年度绩效值。然后,根据时间权重法对年度动态绩效值进行加权处理,得出五年综合动态绩效。
(2)传媒上市公司绩效数据报告制作与发布进展
目前,已编制发布33份主板传媒上市公司年度绩效数据报告,2021年发布6份传媒上市公司年度绩效数据报告和1份传媒上市公司五年综合动态绩效数据报告,另外,还有5份传媒上市公司子行业五年综合动态绩效数据报告正在编制过程中。目前,与媒至酷团队同步发布报告的机构有:文化产业评论、中国出版传媒商报、北京开卷、百道网、出版人杂志等多家机构。
(三)主要代表作
(1)龚为纲等,文化圈层与西方政治话语的全球传播机制分析——基于全球新闻舆情大数据的分析,《社会学研究》等顶级期刊;
作品介绍:互联网时代产生了海量的舆情数据,借助于这些数据信息刻画互联网时代政治话语、政治思潮的演变和传播特征,是计算社会科学的一个重要研究方向。借助于自然语言处理算法和计算传播算法,龚为纲及其研究团队根据舆情大数据的海量信息,刻画全球网络空间中西方所主导的“中国威胁论”等话语的全球影响力及其传播网络,据此展示当前西方舆论战的基本形式及其信息传播结构。
这项研究的数据来源为全球新闻数据库,数据来源于全球30万个新闻网站上13亿篇新闻的标题与文本内容,数据体量高达10TB左右,基于云计算平台所提供的超强算力对数据进行开发和处理。
中国威胁论的语义计算及其可视化:基于BERT等句向量算法
借助于谷歌云在Vertex AI中最近推出的通用句子编码算法(Universal Sentence Encoding,下面简称USE),我们对新闻文本中有关“中国威胁论”的文本进行语义编码,将相关文本语义信息结构化为512维向量,图中每一个点代表一个向量,借助于K-Meams算法,以512维向量为运算对象,对上述数组进行聚类,基于奇异值发现算法将无关信息进行剔除,并将分类结果纳入到谷歌云的Tensorboard Projector中进行可视化。结合K-means算法和Tensorboard Projector的可视化结果,去掉向量空间中那些明显与中国威胁论在语义上无关的奇异点,中国威胁论的话语空间及其语义结构如上图,在上图的话语空间结构中,语义集群1、2、5分别表示经济威胁、贸易威胁和科技威胁,由于经济威胁(第1类)和贸易威胁(第2类)、科技威胁(第5类)密切关联,所以我们看到语义空间结构中第1类分别和第2类与第5类在语义上密切关联;语义集群3、4、6、7则主要是中国军事威胁,第4类主要是在炒作中国军事实力和尖端武器的发展对美国所构成的军事威胁,而3、6、7则分别在炒作中国在东北亚(日本与韩国)、东南亚(南海)和南亚对美国亚太盟友所造成的军事威胁,由于这4个语义集群都是在炒作中国军事和安全威胁,所以它们在向量空间中密切关联,中国军事威胁话语非常侧重于炒作中国崛起对周边国家的威胁。
新闻文本网络超链接所展示的全球媒介信息传播结构
基于全球新媒体语料库中18亿个超链接,展示国家之间的媒介互动关系。这张图显示的是各国媒介超链接互动的网络结构,每一个节点代表一个国家,节点越大,代表与其他国家建立的链接数量越多,这些国家在全球舆情空间中的话语权越大。节点与节点之间根据超链接互动数量形成边。节点之间因为联系密切,形成各种各样的凝聚子群和圈群结构,通过社区探索算法,我们一共识别出六个文化圈群,圈群内部超链接互动关系更加紧密。
通过这张网络关系图,我们可以清晰地呈现当前新媒体中的媒介信息传播网络,既能从中看到经典的媒介帝国主义理论中“核心-边缘”机制所提供的洞见,也能从中看到基于地理区域、共同语言和历史文化的 “文化圈群”(即网络结构中的“凝聚子群”)。也就是说,当前全球新媒体互动所展示的全球传播秩序,既在很大程度上延续了过去的“核心-边缘”机制,同时也展示了共同语言和历史文化等因素在塑造媒介传播景观方面的重要意义。除此之外,图6也刻画了不同圈群内部以及圈群之间的媒介互动关系,这实际上是当今世界主要文明之间,在信息共享、经济文化上的交流网络,表达了文明内部的亲缘关系以及文明之间的边界。
(2)龚为纲等,中美贸易战进程中两国社会心态的比较分析——基于全球新闻舆情大数据的分析,《南京大学学报》(哲社版),2022;
大国博弈中社会心态的监测、跟踪和计算,是国家治理的重要命题。本研究基于全球舆情大数据,分析了中美贸易战不同阶段,中美两国社会的市场信心变动,以及世界不同地区在贸易战期间的市场景气状况的变动。研究发现,社会心态和市场信心的演变构成大国重要背景。一方面,市场信心随着贸易战期间重大事件的发生而剧烈波动,大国博弈背景下的重大事件以及各种相关信号的发出,都会对社会预期和信心构成重要影响,比如说在贸易战的预演阶段,贸易威胁的信号释放导致积极性市场信心指数大幅度下挫,而合作和谈判信号的释放,则会在很大程度上缓和紧张的市场信心,贸易战期间的重大事件比如说贸易战开始、贸易战升级、贸易战暂停等都会对市场信心产生重要影响,因此,在大国博弈加剧的背景下,如何引导和调控市场信心和社会预期,是国家治理的重要命题;另一方面,随着中国崛起与世界影响力的快速上升,经济贸易往来遍及全球,产业链在全球的分布错综复杂,中国社会发生的重大事件也具有世界影响并波及全球,这种影响也会体现在全球市场信心和市场信心的反应上,比如说,在中美贸易战期间,一带一路沿线国家的市场信心受中美贸易战的影响非常明显,市场信心的变动与中国社会高度关联,因此,在中国崛起时代,从全球治理的角度来看,需要密切监测全球舆情的变动,进而为全球治理提供决策参考依据。
贸易战期间中美两国综合市场信心指数的周变动
贸易战期间中美两国综合市场信心指数的月度变动
贸易战期间中国社会的焦虑情绪变动
贸易战期间美国社会的焦虑情绪变动
注释:从中美贸易战的预演阶段(大约从2017年11月份开始)到贸易战升级和暂停阶段,中国社会的焦虑情绪大幅度上涨,整个社会弥漫在烦躁不安当中,这种焦虑和烦躁不安的程度不亚于2020年2、3月份新冠疫情期间的焦虑程度;相比而言,美国社会在贸易战期间的焦虑情绪反应则明显要低很多,其幅度与新冠疫情期间的焦虑不可同日而语。
三、其他代表成果
[1] 重大疫情下世界主要疫情爆发地区社会恐慌等心理危机的比较——基于社交媒体大数据Twitter的分析,审稿中;
[2] 王强、江昊、羿舒文等,复杂网络的双曲空间表征学习方法,软件学报,2020.
[3] 朱静雯等.2018年度中国新闻出版上市公司绩效数据分析.出版科学,2020(3)
[4] 朱静雯、周小莉、羊晚成.2019中国影视传媒上市公司绩效数据报告.传媒经济与管理,2020(4)
[5] 朱静雯、姚俊羽、羊晚成.2020中国新闻出版上市公司绩效数据报告.传媒经济与管理,2021(4)
[6] 许丽颖, 喻丰. (2020).机器人接受度的影响因素.科学通报, 65(6),496-510.该文为,对于人工智能接受度的完整综述和理论思考。
[7] 喻丰, 许丽颖, 韩婷婷, 彭凯平, 刘知远, 胡晓萌. (2020). 道德节律:基于新浪微博的道德动机每分变化.科学通报, 65(19),2055-2061.该研究,对每天里道德动机的变化进行了时间维度上的细致刻画。
[8] Qimei Chen, Kexin Yang, Hao Jiang*, Meikang Qiu, Joint beamforming coordination and user selection for CoMP enabled NR-U networks, IEEE IoTJ, early access, 2021.
[9] Qimei Chen, Hao Jiang*, Guanding Yu, Service Oriented Resource Management in Spatial Reuse-Based C-V2X Networks. IEEE Wirel. Commun. Lett. 9(1): 91-94 (2020)
[10] S. Yi, H. Jiang, Y. Jiang, P. Zhou and Q. Wang, "A Hyperbolic Embedding Method for Weighted Networks," in IEEE Transactions on Network Science and Engineering, doi: 10.1109/TNSE.2020.3046746.
[11] H. Jiang, L. Li, Xian, Y. Hu, H. Huang and J. Wang, "Crowd Flow Prediction for Social Internet-of-Things Systems Based on the Mobile Network Big Data," in IEEE Transactions on Computational Social Systems, doi: 10.1109/TCSS.2021.3062884.
[12] Q. Nie, Y. Liu, D. Zhang and H. Jiang, "Dynamical SEIR Model With Information Entropy Using COVID-19 as a Case Study," in IEEE Transactions on Computational Social Systems, doi: 10.1109/TCSS.2020.3046712.
[13] Jiang H, Nai H. AI and machine learning for Industrial Security with a Level Discovery Method. IEEE Internet of Things Journal. 2020. (SCI Index)
[14] Jiang H, Nai H,Jiang Y. An Adversarial Examples Identification Method for Time Series in Internet of Things System. IEEE Internet of Things Journal. 2020. (SCI Index)
[15] Chen Qimei, Xu Xiaoxia, Jiang H*. An Energy-Aware Approach for Industrial Internet of Things in 5G Pervasive Edge Computing Environment. IEEE Transactions on Industrial Informatics.2020.
[16] Weigang Gong; Tingshao Zhu;Examining the impact of COVID-19 lockdown in Wuhan and Lombardy: A psycholinguistic analysis on Weibo and Twitter ,International Journal of Environmental Research and Public Health,SSCI一区;
[17] Weigang Gong ,The Lineage Theory of the Regional Variation of Individualism/Collectivism in China;Frontier of psychology;SSCI;
[18] Wancheng Yang, Hailin Ning. Knowledge graphtechnology application in Chinese SSCI: An example of short videos research.Journal of Librarianship and Information Science.;SSCI
[19] Li, S., Xu, L., Yu, F., & Peng, K. (2020). Trait loneliness rejects social robot? Less attribution of the unique humanness gives an answer: Exploring the effect of trait loneliness on anthropomorphism and acceptance of social robot. International Conference on Human-Robot Interaction 2020 (HRI 2020).该研究,发现特质孤独者对社交机器人的拒绝及其机制。
[20] Zhao, Y., Yu, F., Jing, B., Hu, X., Luo, A., & Peng, K. (2019). An analysis of well-being determinants at the city level in China Using Big Data. Social Indicator Research, 143(3), 973-994. (SSCI)。该研究,发现社交媒体的城市幸福可以与多种经济社会指标相关。
四、主持项目
(1)郭明飞,龚为纲等《基于大数据的世界民粹主义思潮发展动态及其有效引导》,18VZL018, 2018度国家社科基金重大专项项目2018.8-2020.12;
(2)龚为纲等,基于大数据的全球主要社会思潮的互联网传播机制分析,教育部人文社科研究项目;
(3)龚为纲,郭明飞等,武汉大学“大数据与计算社会科学”青年团队项目;
(4)江昊等,国家自然科学基金企业联合创新基金重点项目:开放环境下个体及群体行为发现辨识与风险监测预警。
【摘要】我国公共安全形势比较严峻,提高公共安全管理水平的关键在于及时发现辨识人的行为,并做出风险评估。利用多源数据能够有效理解人的行为,但面临着信息维度高、人口规模大、动态性强、模式多等多个挑战,需要研究人群信息“表达与表征”、群体/个体行为“发现与辨识”、与行为相关的公共安全“风险评估与预测”三个基本科学问题。本项目拟采用张量模型、有权复杂网络双曲空间嵌入、时变网络模型等方法研究人群信息统一表达模型、表征方法与多域个体行为表示方法;利用双曲空间坐标角度距离信息,研究群体行为发现方法与跨域演化模型;采用多信号小波分解方法获取特定个体行为多维度微小尺度特征,基于图网络模型研究特定个体行为辨识与预测方法;构建基于关系网络的公共安全风险模型,采用图深度学习、图信号处理的方法研究群体/个体行为风险评估、预测方法。本项目研究将有助于提升公共安全管理的分析、预判能力,为公共安全管理提供原理方法支撑。
(5)江昊等,传播内容认知国家重点实验室重点项目“面向主流价值观引导的智能舆论生成系统”。
【摘要】利用自然语言处理技术,对中英文社交平台语料数据进行清洗、处理、分析;结合平台及应用场景需求,利用新闻数据及政策文件数据,构建主流价值观知识图谱,优化并训练相应的社交媒体文本生成模型,针对相应场景建立可自动评论、回复的智能评论系统。且该系统所生成的评论满足下述基本需求:符合主流价值观要求;生成的评论内容包括中英两个语种,具有相应平台的语言风格;生成评论中所包含的知识可更新迭代;可对博文进行多轮回复。
(6)羊晚成等,企业社会网络对传媒上市公司并购行为的影响及作用路径研究,教育部人文社会科学研究青年基金项目。
五、学术交流与人才培养
时间 | 主办单位 | 内容 | 参会人 |
2021年7月,费孝通群学讲坛 | 中国社会科学院 | 大数据与人工智能的社会科学应用 | 龚为纲 |
2021年12月,数字宗教学与智库发展论坛 | 四川大学 | 重大疫情下宗教的情感治理功能 | 龚为纲 |
2021年7月,数据悦读学术训练营 | 武汉大学 | 机器学习在社会科学领域的应用 | 龚为纲 |
2021年5月,2021年珞珈大数据论坛 | 武汉大学 | 云计算在社会科学领域的应用 | 龚为纲 |
2021年1月,第三届全国计算社会科学高端论坛 | 清华大学 | 云计算在文本大数据分析领域的应用 | 龚为纲 |
13th ACM Web Science Conference(全球计算科学顶级会议) | 清华大学 | 可解释机器学习算法在因果推断中的应用 | 龚为纲 |