洪亮教授团队在Information Processing & Management发文提出基于规则知识图谱的弱监督数据标注新方法

近日,我院技术研发中心主任洪亮教授在信息资源管理领域顶刊 Information Processing & Management 上在线发表题为” KGRED: Knowledge-graph-based rule discovery for weakly supervised data labeling”(《KGRED:基于知识图谱的弱监督数据标注规则发现》)的论文。该论文由洪亮教授、洪亮教授的博士生侯雯君以及本科生朱子奕合作完成。

                      

 图片1.png

数智时代,信息量呈爆炸式增长。尽管模型拥有强大的学习能力,精确的标注数据有助于模型进一步理解特定的上下文模式与情景特征。然而随着数据量的增加,手动标注所需的时间和成本也随之增加,这限制了模型训练和应用的规模;再次,领域专家的稀缺也使得精确标注变得不切实际。因此,弱监督学习为解决这些问题提供了一种可行的途径。

在弱监督学习中,标注规则可以自动标注数据以训练模型。然而,由于缺乏足够的先验知识,规则发现通常会受到语义漂移的影响。因为错误匹配的句子会生成错误分类的规则,导致这些规则匹配的句子从目标标签漂移到其他标签。值得注意的是,规则并不是孤立存在的。规则之间的多维语义关联可以为规则生成施加语义约束,同时丰富规则匹配的语义信息。因此,本文提出了一种基于知识图谱的规则发现方法(KGRED)该方法可以利用规则之间的多维语义关联来缓解规则发现中的语义漂移问题。具体而言,为了减少错误分类的规则,本文设计了一种标签感知的规则生成方法,基于规则知识图谱将传播先验知识从种子规则给候选规则。为了减少错误匹配的句子,我们提出了一种基于交叉注意力的语义匹配机制,在丰富规则语义信息的同时,细化句子的语义信息。此外,本文提出了一种基于不一致性导向的主动学习策略,以验证在规则生成和匹配中表现不一致的规则。实验结果证明了该工作的有效性。

 


全文链接:https://doi.org/10.1016/j.ipm.2024.103816


Copyright Since 2016 武汉大学大数据研究院 地址:武汉大学原研究生院大楼(石屋)三楼 电话:027-87888520