学术动态

首页 > 新闻公告  > 学术动态
龚为纲副教授在“费孝通群学讲坛”做主题报告
2021年07月30日17时 人评论

  通过大数据、人工智能等技术赋能人文社会科学研究,是当下新文科建设的关键和重点。7月25日-7月30日,由中国社会科学院社会学研究所、中国社会科学院大学社会学院、百度公司主办的“费孝通群学讲坛·社计未来”——社会科学家的第一节人工智能课(2021计算社会科学师资班)在兰州大学举行,并在中国社会科学院社会学所公众号“社计未来”直播平台上进行全程同步直播。本次师资培训班共持续5日,讨论数字社会的前沿理论与定量研究方法,并进行大量的案例讲解与实操,旨在提高人文社科类人才的AI素养与技能,扩宽技术型人才的社科视野。来自全国各地的400余名师资学员通过线上、线下的方式共同出席了本次盛会,并吸引观看人次5671人。

  武汉大学大数据研究院传媒大数据研究中心副主任龚为纲副教授以《自然语言处理——机器学习、文本分析和情感分析》为题,为线下和线上共计400余名师生授课。

  龚老师以“数据决定命运,算法改变未来”作为开场白,强调数据资产对社会科学家而言的重要性。龚老师借助几个经典案例,向学员展示了可供使用的大数据集的获取方式。首先是全球在线新闻舆情大数据(GDELT),该数据库汇聚了世界所有国家的网络舆情信息。社会科学家可以借助它进行社会结构分析和社会变迁分析。在未来的计算社会科学研究中,该数据库将成为一个重要的数据来源,使研究者能够实时掌握全球新闻动态。其次是推特(Twitter)数据。推特作为社交平台,优势在于拥有庞大的用户和他们上传的丰富内容,使研究者可以轻松地进行社交媒体研究。疫情期间,龚老师团队通过通用网络爬虫程序获得了2000万推特用户的31亿条疫情相关推文,并据此对重大疫情背景下用户的风险感知和情绪反应进行计算,为重大突发公共卫生事件的应急管理提供了对策建议。此外,还向学员展示了Facebook和新浪微博等社交媒体大数据的获取和分析方法。 

  当研究者获得可供分析的大数据后,另一个挑战便是如何利用和开发大数据。将这个问题进一步细化便是社会科学家如何处理庞大的非结构化数据。常有学员对于如何使用机器学习分析文本大数据感到困惑,龚老师提供了一个简明的框架。如果研究者没有自己的训练集,则可以调用Google,Baidu等企业已经训练好的人工智能API。如果研究者有自己的训练集,但不希望自己写代码,则可以使用各种自动化机器学习(AotoML)工具。如果既有自己的训练集,又拥有较高的代码写作水平,则可以考虑自己撰写代码进行处理和分析。

  自然语言处理领域的一个重要方向是情感计算。龚老师指出,文本的情感计算有三个层次。最简单的是采用二分法,将人类感情划分为积极的和消极的。其次是使用LIWC(linguistic inquiry and word count)等情感词库技术区分出基本情绪,比如喜怒哀乐惊恐憎等。第三种是通过Wordnet等情感词库以及机器学习模型挖掘互联网用户的具体情绪。龚老师总结道,虽然情感是人类的一种非理性现象,但它也是可以被计算的。 

  近年来,在社会科学领域发展极快的一种内容分析方法是主题模型。它通过机器学习的方法,将经常共同出现的词汇分为若干组群,从而实现对文本主题的识别。相比于传统的人工编码,主题模型更为标准化和客观,而且往往能发掘出文本中未被发现的特征。龚老师指出,未来越来越多的社会科学研究将采用主题模型的方法,而非采用词表匹配的方式。因为主题模型能更好地体现人类语言的情境性。

  然而,虽然相较于词表匹配,主题模型已经取得了明显进步,但仍然存在损失有效信息的问题。这一缺陷,在文本向量化计算方法出现后得到了有效弥补。龚老师介绍了Universal Sentence Encoding、Bert等模型处理得到高维句向量后,便可以使用线性代数、图论中的经典算法对高维向量进行聚类、分类,或者通过余弦相似度等办法计算文本的相似性。总而言之,文本的向量化方法为文本大数据的计算开辟了广阔的通道,必将大幅度推动文本等非结构化数据的开发与分析,加速计算社会科学研究的推进。 

  在实操环节,龚老师展示了如何借助GPU运算对百万甚至千万量级的推特文本进行向量化、降维和聚类的方法,展示了计算方法在开发非结构化文本数据领域的广阔应用前景。


版权所有 ©武汉大学大数据研究院 | copyright © 2008-2019 Big Data Institute, Wuhan University. All Rights Reserved.