传媒大数据研究中心简介

传媒大数据研究中心主要以全球社交媒体大数据、新闻舆情大数据、网络论坛大数据、短视频平台大数据等互联网大数据的采集、分析、挖掘为主要业务,对全球舆情进行监测,对西方政治话语的动态进行跟踪,对重大政治思潮的演变进行透析,对重大历史事件下的社会情绪、社会心态和社会认知的生成与演化规律进行解释,以人工智能时代与数字社会的网络舆论战、信息战和认知战的驱动逻辑为研究目标,服务于中国崛起时代的对外传播战略、中国话语的国际传播战略、中华文化的国际传播战略以及国家文化软实力的提升与建设


一、核心成员介绍


clip_image003.jpg

微信图片_20220121132135.jpg

clip_image005.jpg

      龚为纲  武汉大学社会学院教授

        朱静雯  武汉大学信管学院教授

江昊  武汉大学电子信息学院教授

微信图片_20240711190313.jpg微信图片_20240711190313.jpg

8bea860c6569c27472e88d5e301d786.jpg

clip_image011.jpg

吴世文  武汉大学新闻与传播学院教授

谢天  武汉大学新闻与传播学院副教授

浙江万里学院 羊晚成博士


二、主持项目

1.某国家部委重点项目:富语义增强的社交媒体用户认知倾向与取态刻画技术,(主持人:龚为纲,125万)

研究内容:基于海量的社交媒体大数据以及新闻舆情大数据,借助于人工智能技术,对世界主要国家和地区重要政治人物的对华言论、对华态度、对华决策信息进行抽取和分析,刻画政治人物的认知倾向和对华态度,开展面向网络舆论战和认知战的认知与观念体系建构、政治人物认知倾向多维度评估与刻画方法,填补了网络舆论战中认知与观念体系的空白,为有效化解我国在强敌深度博弈、认知心理作战领域面对的严峻态势做出了重大贡献。

数据来源

图片1.png

 

分析策略

图片2.png

 

系统展示(武汉大学文科大楼“智慧决策”展厅)

 

图片3.png

图片4.png

 

2.龚为纲.国家社科基金,基于大数据的社会情绪风险感知与网络集群事件治理研究。2022年度获批。

3.龚为纲.国家科技部重大研发计划子课题,面向特定个体的多维度人物画像与情感特征发现技术研究。2022年度获批。

4.龚为纲.教育部人文社会科学基金,基于大数据的西方社会思潮发展动态与引导策略研究。2018年度获批。

5.武汉大学人文社会科学院,青年学术团队项目。大数据与计算社会科学,武汉大学青年团队项目,负责人龚为纲,2019-2022。2019年度获批。

6.武汉大学数据智能研究院,社会科学数智创新研究团队项目。大国竞争背景下的战略情报分析团队,负责人龚为纲,2024-2027。

7.江昊等,国家自然科学基金企业联合创新基金重点项目:开放环境下个体及群体行为发现辨识与风险监测预警。

【摘要】我国公共安全形势比较严峻,提高公共安全管理水平的关键在于及时发现辨识人的行为,并做出风险评估。利用多源数据能够有效理解人的行为,但面临着信息维度高、人口规模大、动态性强、模式多等多个挑战,需要研究人群信息“表达与表征”、群体/个体行为“发现与辨识”、与行为相关的公共安全“风险评估与预测”三个基本科学问题。本项目拟采用张量模型、有权复杂网络双曲空间嵌入、时变网络模型等方法研究人群信息统一表达模型、表征方法与多域个体行为表示方法;利用双曲空间坐标角度距离信息,研究群体行为发现方法与跨域演化模型;采用多信号小波分解方法获取特定个体行为多维度微小尺度特征,基于图网络模型研究特定个体行为辨识与预测方法;构建基于关系网络的公共安全风险模型,采用图深度学习、图信号处理的方法研究群体/个体行为风险评估、预测方法。本项目研究将有助于提升公共安全管理的分析、预判能力,为公共安全管理提供原理方法支撑。

8.江昊等,传播内容认知国家重点实验室重点项目“面向主流价值观引导的智能舆论生成系统”。

【摘要】利用自然语言处理技术,对中英文社交平台语料数据进行清洗、处理、分析;结合平台及应用场景需求,利用新闻数据及政策文件数据,构建主流价值观知识图谱,优化并训练相应的社交媒体文本生成模型,针对相应场景建立可自动评论、回复的智能评论系统。且该系统所生成的评论满足下述基本需求:符合主流价值观要求;生成的评论内容包括中英两个语种,具有相应平台的语言风格;生成评论中所包含的知识可更新迭代;可对博文进行多轮回复。

 

三、数据库建设

近年来传媒大数据研究中心在全球舆情大数据资源的集成方面做出实质性推进。本团队在社交媒体大数据、新闻舆情大数据的数据库建设方面取得了突出成效,形成多个TB量级的数据库,为全球舆情监测和分析提供了坚实的数据支撑,并以TB级别的海量数据开发为基础,在文本的语义计算、情感计算,认知计算等方面形成了体系化的技术积累。

表1 社交媒体大数据的建设情况

数据库名称

数据量

数据格式与主要字段

Twitter用户基本信息数据集

2.1亿推特用

户基本信息

Id,username,location,bio,tweets,followers,following,

likes,join_date,join_time

基于Twitter用户的历史数据集

3000万推特用户所自2019年以来的历史数据信息,大约50亿条推文.

Id,username,text,date,retweets,favorites,

mentions,hashtags

基于Twitter关键词的历史数据集

数据量大约为30亿条左右的推文,基于多个关键词提取推特用户信息。可根据需求随时扩充数据量

Id,username,text,date,retweets,favorites,mentions,hashtags

Facebook用户基本信息数据集

Facebook全体5.3亿用户基本信息

tel, facebookid, lastname,     surname, gender, liveplace, hometown, marriage_inf, workorganization,     account_time, email, birthday, country

微博用户数据集

120万活跃微博用户,推文50亿条

 url, sid, `source`,   hashtag, created_at, text, comments_count, reposts_count, username

 

在社交媒体大数据方面,2019-2021年,中心先后在华为云、谷歌云等平台上部署100多台服务器,建构面向多种社交媒体用户的信息采集程序,先后获取5.3亿左右的Facebook用户信息,1.5亿左右的推特用户信息,常年监测2000万重点地区社交媒体账户信息,采集的推特用户信息高达100亿条左右,对于监测和分析全球社交媒体和舆情动态提供了实时数据资源。

在新闻舆情大数据方面,以全球所有国家在线新闻舆情为监测对象,汇集全球30多万个新闻网站自2015-2021年间大约15亿个新闻网页的主要内容信息,并实施动态更新数据库内容,对世界各地区的舆情动态进行监测和数据采集,借助于自然语言处理的多种算法,包括重要实体抽取、主题提取以及情感词库计算,从非结构化海量文本信息中提取重要的结构化信息,对全球在线新闻舆情的动态形成较强的跟踪能力和计算传播分析能力。


四、科研论文

(一)龚为纲等,《媒介霸权、文化圈群与东方主义话语的全球传播——基于互联网大数据GDELT的分析》,《社会学研究》,2019年第5期。

作品介绍:互联网时代产生了海量的舆情数据,借助于这些数据信息刻画互联网时代政治话语、政治思潮的演变和传播特征,是计算社会科学的一个重要研究方向。借助于自然语言处理算法和计算传播算法,龚为纲及其研究团队根据舆情大数据的海量信息,刻画全球网络空间中西方所主导的“中国威胁论”等话语的全球影响力及其传播网络,据此展示当前西方舆论战的基本形式及其信息传播结构。

这项研究的数据来源为全球新闻数据库,数据来源于全球30万个新闻网站上13亿篇新闻的标题与文本内容,数据体量高达10TB左右,基于云计算平台所提供的超强算力对数据进行开发和处理。

1.png

图1 中国威胁论的语义计算及其可视化:基于BERT等句向量算法

 借助于谷歌云在Vertex AI中最近推出的通用句子编码算法(Universal Sentence Encoding,下面简称USE),我们对新闻文本中有关“中国威胁论”的文本进行语义编码,将相关文本语义信息结构化为512维向量,图中每一个点代表一个向量,借助于K-Meams算法,以512维向量为运算对象,对上述数组进行聚类,基于奇异值发现算法将无关信息进行剔除,并将分类结果纳入到谷歌云的Tensorboard Projector中进行可视化。结合K-means算法和Tensorboard Projector的可视化结果,去掉向量空间中那些明显与中国威胁论在语义上无关的奇异点,中国威胁论的话语空间及其语义结构如上图,在上图的话语空间结构中,语义集群1、2、5分别表示经济威胁、贸易威胁和科技威胁,由于经济威胁(第1类)和贸易威胁(第2类)、科技威胁(第5类)密切关联,所以我们看到语义空间结构中第1类分别和第2类与第5类在语义上密切关联;语义集群3、4、6、7则主要是中国军事威胁,第4类主要是在炒作中国军事实力和尖端武器的发展对美国所构成的军事威胁,而3、6、7则分别在炒作中国在东北亚(日本与韩国)、东南亚(南海)和南亚对美国亚太盟友所造成的军事威胁,由于这4个语义集群都是在炒作中国军事和安全威胁,所以它们在向量空间中密切关联,中国军事威胁话语非常侧重于炒作中国崛起对周边国家的威胁。

 

2.png

图2 新闻文本网络超链接所展示的全球媒介信息传播结构

基于全球新媒体语料库中18亿个超链接,展示国家之间的媒介互动关系。这张图显示的是各国媒介超链接互动的网络结构,每一个节点代表一个国家,节点越大,代表与其他国家建立的链接数量越多,这些国家在全球舆情空间中的话语权越大。节点与节点之间根据超链接互动数量形成边。节点之间因为联系密切,形成各种各样的凝聚子群和圈群结构,通过社区探索算法,我们一共识别出六个文化圈群,圈群内部超链接互动关系更加紧密。

通过这张网络关系图,我们可以清晰地呈现当前新媒体中的媒介信息传播网络,既能从中看到经典的媒介帝国主义理论中“核心-边缘”机制所提供的洞见,也能从中看到基于地理区域、共同语言和历史文化的 “文化圈群”(即网络结构中的“凝聚子群”)。也就是说,当前全球新媒体互动所展示的全球传播秩序,既在很大程度上延续了过去的“核心-边缘”机制,同时也展示了共同语言和历史文化等因素在塑造媒介传播景观方面的重要意义。除此之外,图6也刻画了不同圈群内部以及圈群之间的媒介互动关系,这实际上是当今世界主要文明之间,在信息共享、经济文化上的交流网络,表达了文明内部的亲缘关系以及文明之间的边界。


(二)龚为纲等,《重大疫情下社会情绪的演变机制——基于社交媒体大数据Twitter和GDELT等大数据的分析》,《社会学研究》,2023年第3期。

社会情绪是社会心态的重要组成部分,也是社会系统运行状态的晴雨表。透过这一晴雨表,研究者可以监测和理解社会系统的结构特征与运行逻辑。社会系统在正常状态下有一系列社会情绪表现,在异常状态下也有一系列情绪表现,尤其是每当重大公共事件暴发时,比如说股市的动荡、帝国的崩溃、战争冲突的出现等,社会情绪都会出现异常变动,观测社会情绪的变动有助于研究者理解社会系统的运行逻辑。本研究试图以2020—2022年全球疫情期间社会恐慌、焦虑和抑郁等常见社会情绪的演变为分析对象,理解重大疫情下政府行为、媒介信息传播等风险治理因素与社会情绪演变之间的关联及其逻辑。

基于Twitter和GDELT等互联网大数据,结合风险沟通、风险应对等风险治理因素,分析重大疫情下社会恐慌、焦虑和抑郁等社会情绪的演变机制。研究发现,重大疫情下主要负面情绪包括恐慌、焦虑和抑郁等,这些负面情绪大规模爆发主要集中在第一波疫情初期,后期疫情反弹期间负面情绪波动幅度明显要小。本文分别从威胁感知与应对效能、社会压力与社会支持的分析框架解释恐慌和抑郁情绪的演变。世界各地负面情绪的变动既有相似性,也有多样性,这与世界各地抗疫模式的多样性以及文化特征因素密切相关。本研究的发现对于应急管理和社会心态引导具有重要参考意义。


图3 2020年第一波疫情期间部分国家主要负面情绪的演变

 

(三)龚为纲等,大数据视野下的大国博弈与社会心态变化——基于全球新闻舆情大数据的分析,《系统工程》,2024。

大国博弈中社会心态的监测、跟踪和计算,是国家治理的重要命题。本研究基于全球舆情大数据,分析了中美贸易战不同阶段,中美两国社会的市场信心变动,以及世界不同地区在贸易战期间的市场景气状况的变动。研究发现,社会心态和市场信心的演变构成大国重要背景。一方面,市场信心随着贸易战期间重大事件的发生而剧烈波动,大国博弈背景下的重大事件以及各种相关信号的发出,都会对社会预期和信心构成重要影响,比如说在贸易战的预演阶段,贸易威胁的信号释放导致积极性市场信心指数大幅度下挫,而合作和谈判信号的释放,则会在很大程度上缓和紧张的市场信心,贸易战期间的重大事件比如说贸易战开始、贸易战升级、贸易战暂停等都会对市场信心产生重要影响,因此,在大国博弈加剧的背景下,如何引导和调控市场信心和社会预期,是国家治理的重要命题;另一方面,随着中国崛起与世界影响力的快速上升,经济贸易往来遍及全球,产业链在全球的分布错综复杂,中国社会发生的重大事件也具有世界影响并波及全球,这种影响也会体现在全球市场信心和市场信心的反应上,比如说,在中美贸易战期间,一带一路沿线国家的市场信心受中美贸易战的影响非常明显,市场信心的变动与中国社会高度关联,因此,在中国崛起时代,从全球治理的角度来看,需要密切监测全球舆情的变动,进而为全球治理提供决策参考依据。 

7.png

图4 贸易战期间中美两国综合市场信心指数的周变动

8.png

图5 贸易战期间中美两国综合市场信心指数的月度变动

9.png

图6 贸易战期间中国社会的焦虑情绪变动

10.png

图7 贸易战期间美国社会的焦虑情绪变动


注释:从中美贸易战的预演阶段(大约从2017年11月份开始)到贸易战升级和暂停阶段,中国社会的焦虑情绪大幅度上涨,整个社会弥漫在烦躁不安当中,这种焦虑和烦躁不安的程度不亚于2020年2、3月份新冠疫情期间的焦虑程度;相比而言,美国社会在贸易战期间的焦虑情绪反应则明显要低很多,其幅度与新冠疫情期间的焦虑不可同日而语。


(四)其他科研论文

4.龚为纲等,《当代中国社会情绪的结构性分布特征及其逻辑——基于互联网大数据GDELT的分析》,《政治学研究》,2018年第4期。人大复印资料全文转载。

5.龚为纲等,《大数据视野中19世纪“海上丝绸之路”——基于文本大数据Google Books的分析》,《学术论坛》2015年第6期,《新华文摘》全文转载。

6.龚为纲等,《大语言模型与计算社会科学:工具、议题与挑战》,《学术月刊》,2024

7.龚为纲,《计算社会科学的三驾马车:大数据、云计算与大语言模型》,《中国社会学年鉴》(2024),2024。

8.龚为纲等,《国际自媒体中涉华舆情传播机制的大数据分析——基于网络论坛大数据Reddit的分析》,《学术论坛》,2017/02。

9.龚为纲,《数字化电商平台中符号资本生产与再生产机制——以A直播电商为例》,《中国社会科学评价》,2023年第2期。人大复印资料全文转载。

10.龚为纲,《从大数据看民粹主义及其相关社会思潮的历史经纬——基于文本大数据Google Books的分析》,《信息资源管理学报》,2018/02。

11.龚为纲等,《当代民粹主义思潮的社会经济基础分析——基于社交媒体大数据Twitter和GDELT的分析》,《社会学刊》,2019年第3期。

12.龚为纲等,《从大数据看西方视野中的伊斯兰世界——基于网络百科大数据Wikipedia和Google Books的分析》,《战略与管理》,2016年发表。

13.龚为纲,《大语言模型助力计算社会科学迭代》,《中国社会科学报》,2024-01-11。

14.龚为纲,《迈向云计算的社会科学研究》,《社会学研究》公众号,2023/07。

15.Gong Weigang,Zhang ForrestQianBetting on the big:State-brokered land Transfers,Large-scale Agriculture producers,and Rural Policy implementation,The China Journal,2018/01SSCI(Q1)。

16.Gong WeigangBurak Gürel,Xie Tian,The Lineage Theory of the Regional Variation of Individualism/Collectivism in China,  Frontiers in Psychology. SSCI(Q2)

17. Gong Weigang ,Chen Yunsong,Wang Senhu,Guo Wei,Exploring the Longitudinal Relationship Between Lockdown Policy Stringency and Public Negative Emotions Among 120 Countries During the COVID-19 Pandemic: Mediating Role of Population Mobility.Frontiers in Psychiatry ,2022/01,SSCI(Q2)

18.Gong WeigangBurak Gürel, Regional Variation of Lineage Culture and Fertility Transition in Rural ChinaRural China2013/02BILL Press

19.Gong Weigang, Burak Gürel,Project-Based State Intervention and Agrarian Change in Contemporary China:The Case of Rice Production in Pingwan County, HunanRural China,2019/05. BILL Press

20. .Gong Weigang.Evolutionary Mechanisms of Social Sentiment under Pandemics: An Analysis Basedon Big Data such as Twitter and GDELT.The Journal of Chinese Sociology.2024

21.Wancheng Yang, Hailin Ning. Knowledge graphtechnology application in Chinese SSCI: An example of short videos research.Journal of Librarianship and Information Science.SSCI


五、学术专著

1.龚为纲,《计算社会学的方法与实践》,武汉大学出版社,2024年出版。

2.陈云松、吴愈晓、郭未、龚为纲等,《定量社会研究方法》,南京大学出版社,2024

 

六、学术交流与人才培养

时间

主办单位

内容

参会人

2021年7月,费孝通群学讲坛

中国社会科学院

大数据与人工智能的社会科学应用

龚为纲

2021年12月,数字宗教学与智库发展论坛

四川大学

重大疫情下宗教的情感治理功能

龚为纲

2021年7月,数据悦读学术训练营

武汉大学

机器学习在社会科学领域的应用

龚为纲

2021年5月,2021年珞珈大数据论坛

武汉大学

云计算在社会科学领域的应用

龚为纲

2021年1月,第三届全国计算社会科学高端论坛

清华大学

云计算在文本大数据分析领域的应用

龚为纲

13th ACM Web Science   Conference(全球计算科学顶级会议)

清华大学

可解释机器学习算法在因果推断中的应用

龚为纲

 


Copyright Since 2016 武汉大学大数据研究院 地址:武汉大学原研究生院大楼(石屋)三楼 电话:027-87888520