加拿大舍布鲁克大学计算机科学助理教授布林辛·奥格布奥基里(Blessing Ogbuokiri)正带领团队致力于消除人工智能对混杂英语(Pidgin English)的偏见。混杂英语是一种在西非及加拿大部分人群中使用的方言。
例如,“我想要切菜。来切菜。”这两句话在西非超过1.4亿人使用的混杂英语中,表达的是一种友好的共餐邀请。然而,奥格布奥基里指出,由于现有AI模型对尼日利亚及世界其他地区非洲英语方言的固有偏见,这些语句可能被系统负面解读。
“当人工智能错误理解混杂英语及其他少数语言的真实含义时,会为其附加有害的解释或情感倾向,导致我们所说的‘偏见放大’。”奥格布奥基里表示,这种负面偏见可能威胁混杂英语使用者的健康与福祉——他们可能被医疗聊天机器人排除在外、遭遇账户审查或关闭,或在各类在线服务系统中受到歧视。
奥格布奥基里与约克大学助理教授莱莱·塞耶德-卡兰塔里(Laleh Seyyed-Kalantari)共同主导一项新项目,旨在通过调整大型语言模型对非标准英语的识别机制,系统性减少对混杂英语的偏见。
该研究将在“缓解方言偏见解决方案网络”中展开。此网络由加拿大高等研究院旗下加拿大人工智能安全研究所的研究计划创建,并获得加拿大政府资助。此外,奥格布奥基里与塞耶德-卡兰塔里的项目还获得了国际发展研究中心的额外支持。
圣凯瑟琳斯选区议员克里斯·比特尔(Chris Bittle)评论道:“这一高度创新的项目不仅能提升西非地区居民所使用AI的准确性,也将帮助加拿大境内使用非标准英语变体的移民与原住民群体。得知奥格布奥基里博士及其在舍布鲁克大学的实验室具备这样的专业能力,令人鼓舞。”
奥格布奥基里在研究中将混杂英语描述为一种融合了简略词汇、独特发音及地方术语的方言体系。由于大型语言模型主要基于标准英语训练,它们往往无法准确识别混杂英语,并容易曲解部分词汇。
他举例说明,一句用非裔美国人白话英语(AAVE)写成的“these ppl irking my nerves”,与标准英语中“these people are getting on my nerves”含义相同,但大型语言模型却可能对前者赋予负面情感,对后者赋予正面情感。
为此,研究团队计划为混杂英语建立一套基准测试体系,审计现有大型语言模型中存在的偏见,并开发相应工具以降低这些模型中的方言歧视。奥格布奥基里解释,基准测试如同为标准语言学习提供的参照框架,能够帮助AI模型进行训练与评估,使其逐渐适应不同语言变体。
“就像人与人之间的交流——初次听到某种方言时可能难以理解,但通过持续接触,你会逐渐熟悉其表达方式,最终沟通无碍。”他说。
该项目团队由加拿大与非洲学者共同组成,并计划与尼日利亚的行业专家、语言学家、政策制定者、终端用户及其他社区成员协作,共同开发并运用新的训练模型。
奥格布奥基里强调:“我们相信,这项研究将确保使用非主流方言的群体在未来人工智能发展中获得真实代表,推动构建更安全、负责任且公平的技术生态,进而使所有依赖AI系统的人——尤其是那些语言身份多元的加拿大用户——都能被理解与尊重。”

