近期,学院自然语言处理团队柳吉炎同学、姜也副教授等撰写的论文“TAMA: Target-Aware Multilingual Abuse Detection by Cascaded Conditional Multi-Task Learning”被ACL 2026 Main Conference接收。论文合作作者包括信息学院刘有政同学、信息学院汪太行同学、数据学院王宜敏副教授、英国谢菲尔德大学Diana Maynard研究员,通讯作者为姜也副教授。该论文围绕面向公众人物的多语种社交平台辱骂信息检测问题展开研究,提出了新的基准数据集与级联式多任务学习方法。
ACL(Annual Meeting of the Association for Computational Linguistics)是国际计算语言学协会(ACL)年会,也是自然语言处理与计算语言学领域最具代表性和影响力的顶级国际学术会议之一。ACL2026为第64届会议,长期汇聚全球高校、科研机构和头部企业的前沿成果,在语言理解、大语言模型、多语言智能、人工智能安全与治理等方向具有广泛而深远的学术影响。在中国计算机学会(CCF)推荐目录中,ACL被列为A类国际学术会议。
题目:TAMA: Target-Aware Multilingual Abuse Detection by Cascaded Conditional Multi-Task Learning
作者:柳吉炎、刘有政、汪太行、王宜敏、姜也*、Diana Maynard
合作单位:谢菲尔德大学
简介:
针对社交媒体平台中公众人物频繁遭受定向辱骂、威胁与名誉攻击的问题,该论文提出了一个面向公众人物保护场景的目标感知多语种辱骂信息检测研究框架。论文首先构建了TAMA基准数据集,涵盖 9,386 条来自 X(Twitter)的帖子,并为每条样本对齐标注了三项关联任务:面向公众人物的指定目标检测、细粒度辱骂类型识别,以及短语级辱骂证据定位。这一数据集为更细粒度、更可解释的在线内容安全研究提供了新的评测基础。
在方法上,论文提出了Cascaded-MTL级联条件多任务学习框架,通过 Cross-Task Feature Fusion(CTF)、Task-Adaptive Gating(TAG) 和 Label-Guided Span Detection(LGSD) 三个轻量化模块,显式建模“目标识别—类型判别—证据定位”三者之间的层级依赖关系,从而提升模型在复杂多语种辱骂信息检测场景下的鲁棒性与可解释性。实验结果表明,该在多种多语种编码器上均取得了稳定提升,体现出良好的泛化能力与应用潜力。
此外,TAMA聚焦政治人物与新闻从业者等公众人物保护场景,覆盖英语、俄语、菲律宾语、西班牙语、意大利语等多种语言,有助于推动面向真实社交媒体环境的多语种内容审核、网络暴力识别与人工智能道德伦理研究。
源代码地址:https://github.com/zgjiangtoby/CASCADED-MTL
(一审:解懿莹,二审:马天晨,三审:陶冶)