2023WAIC | 张玲琳:包容性大模型最终将会普惠每一个人

2023年07月14日 4014阅读

7月8日,世界人工智能大会联合深圳市信息无障碍研究会共同举办WAIC科技无障碍:AI普惠数字未来高峰论坛。联谛障碍用户研究院院长张玲琳以“大模型的包容性”为主题分享,以下为演讲内容实录。

图:联谛障碍用户研究院院长张玲琳进行主旨分享

在场的各位嘉宾、同行、障碍伙伴们下午好。今天我很高兴能在世界人工智能大会跟大家分享与AI和无障碍相关的信息。

前段时间我在成都参加了全国无障碍医院建设适老化论坛,我感受到国家近年来越来越重视无障碍以及障碍群体的需求,相关行业也会邀请无障碍相关的从业人员进行分享,希望能借助我们的力量,帮助各行各业深入了解障碍群体的实际需求,并在行业应用。

我今天的主题是大模型的包容性,我会从【AI与无障碍的关系】【以大模型为例,AI包容性的挑战与前景】【无障碍视角下,基于包容性理论大模型的改进策略】这三个方面进行分享。

首先我会跟大家分享AI与无障碍的关系。6月28号,我国第一部无障碍立法《无障碍环境建设法》表决通过,并于今年9月份开始正式施行。它为我国无障碍设施的建设、无障碍信息交流以及社区无障碍的服务提供十分有力的保障。而与我们此次论坛主题密切相关的,则是信息无障碍,通过信息化手段弥补身体机能和所处环境的差异,使得所有人(不论是健全人还是障碍人群,老年人还是年轻人)都能平等、方便、安全地获取交互和使用信息。大家从图中可以看出,信息无障碍重点受益的对象是老年群体和障碍群体。

图:信息无障碍重点受益对象

据2005年全国第二次抽样调查数据显示,我国具有超8500万的残障人士,这个数据距今约有20年,因此真实数据远不止于此。同时,据2020年第七次全国人口普查数据显示,我国60岁以上的老年人达2.64亿,因此做好信息无障碍事关超3亿人的生活便利以及他们的权益。

在互联网时代,视障朋友可以通过读屏软件网上冲浪,听障朋友可以通过字幕观看电影,肢体障碍朋友可以通过语音与电脑手机进行简单交互。那么在AI时代,AI又如何赋能无障碍技术,使残障群体和老年群体能更好享受科技带来的便利呢?

我根据障碍群体的类型,将AI技术的辅助简单分为视觉辅助、声音辅助、认知辅助以及物理辅助。

我们知道,计算机视觉是AI领域的一个重要分支,即通过AI帮助残障群体感知图像或者视频的元素,然后通过系列技术手段将这些元素翻译成语音描述给视障群体。这里与大家进行一个科普:我们常说的视觉障碍不仅仅包括视力障碍,还有色觉障碍,就是通常意义上的色盲色弱。色觉障碍的患病率较高,在中国,约5%的男性及0.7%的女性是色盲色弱。这意味着我们身边100个男性当中,有5个人是色觉障碍者。苹果手机中有一个色彩滤镜,它就可以帮助色觉障碍者更好地辨认颜色。

第二种是AI的声音辅助技术。AI可以通过技术识别环境中的音频信息,通过技术手段转化成文字或视觉提醒。目前自动语音识别(ASR)的发展确实对于那些有听力损失或运动障碍的人来说,提供了一种有效的沟通方式。然而,对于那些有语音障碍的人,ASR的进步相对较慢,这在很大程度上是因为这种类型的语音有很高的变异性,使得识别和理解变得困难。同时,对输入信号中的噪声敏感。这意味着在嘈杂的环境中,或者当说话人的声音由于各种原因(如疲劳、情绪波动、疾病等)发生变化时,ASR系统的性能可能会下降。为了解决这个,研究人员正在尝试开发更先进的噪声抑制技术,和训练更强大的DNN模型,以提高ASR系统对噪声和语音变异性的抗性。

第三个是AI的认知辅助技术。AI 通过一系列技术帮助认知障碍患者,例如自闭症、阿尔茨海默症患者或老年群体更好地生活。部分老年群体可能没有特别严重的认知障碍,但人的记忆力、注意力等会伴随年龄的增长而下降。同时国家也在大力推崇医生数字人,它能够帮助老年人使用药品说明书,不仅解决了说明书字体太小,老年群体看不清,也同时减轻老年人的认知负担,在需要服多种药品时记住每一种药品的服用说明计量,痛点。

最后是AI的物理辅助技术,比如自动轮椅和智能家居等系列产品,他们能帮助身体残障人士更好地生活。

下面,我想给大家分享一些相对前沿的AI赋能无障碍技术的案例。大家可以看到,图片中男子因为交通意外导致了脊髓受损、双腿瘫痪和双手部分瘫痪。而通过AI技术,男子的大脑跟脊髓神经之间得以搭建一架数字桥梁,帮助男子重新站立、行走。值得一提的是,脑脊髓接口还能帮助神经修复,因此即使接口关闭,他同样可以通过拐杖在道路上行走。

第二张图片是皮特教授。严格意义上说,他是世界上第一个赛博格人。皮特教授于17年患上渐冻症,为了与外界保持沟通,他与各大科技公司创造了一个数字自我,接着运用AI语音生成,重新“开口说话”。说话的并不是真实的他,而是数字的他。

第三张图片是国外网站Be My Eyes,它通过与 OpenAI 合作,用虚拟志愿者代替部分真实志愿者帮助视障人群解决一些生活事务,比如导航或者物品识别。

图:AI 赋能无障碍技术的案例

我分享的这些案例目前都已落地。大家可以看到AI赋能无障碍技术可以使残障人士、老年群体等人群受益。其实我们每一个人每天也都在面临情境性障碍或临时性障碍。比如昨晚刚熬完夜但今早没有喝咖啡,精神不佳可能会使你产生一些认知障碍;又比如在嘈杂的餐厅,你想与你的朋友沟通但是无法听清,这时你相当于一个4级听力障碍者;还比如当你因为某些意外手上打了石膏,你就是一个上肢体障碍者。同时,我们每个人都会老去,所以终有一天,我们都会变成老年群体,成为某种意义上的“多重障碍者”。

因此,做好无障碍这件事,能让我们每一个人终身受益。在信息无障碍研究会和联谛的帮助下,我们积极推动各行各业进行产品无障碍优化。但在工作过程中我们发现,各行业都存在一定的认知误区。障碍群体存在某些机能缺失,无障碍等辅助性质的工作是对他们的一种帮助和补偿,但当我们从技术发展的角度来看,广大障碍群体的合理需求可能恰恰是下一代 AI 技术创新的推动力之一。AI赋能无障碍技术拥有广阔的前景,同时也存在一些挑战。

下面,我以我们现在所做的课题大模型为例来讨论AI包容性的挑战与前景。大家知道,包容性理论是指所有的个体和群体都能够平等地享受相同权益的理论。

在互联网时代,我们以无障碍设计为起点推崇包容性设计。无障碍设计是自上而下的设计,比如打印机最初的设计发明是为了帮助视障群体更好地书写,但后来发现打字机同时能帮助健全人提高工作效率。久而久之,打字机便取代了传统的书写方式,成为了20世纪的办公室的标配。而包容性设计是自下而上的设计,将用户的能力和需求视为设计的根本决定因素。把人看作动态的人,而非一成不变的人——人的能力在随着时间和所处情景在发生不断的变化,因此残障即为个体随着时间或情景,能力发生此消彼长的过程。

所以我们将包容性理论融汇在AI大模型中,得到的特点总结出来就是公平性、责任性、透明度跟可解释性。公平性简单来说即要求AI系统无论是在设计还是效果上都能让所有的使用个体和群体保持公平;责任性是指AI系统的开发者、部署者以及最后实施者都要对他们所产生的结果负责;透明度是指AI系统应尽可能地让所有相关人士理解其中的原理及它的决策依据;可解释性是指AI系统的决策结果应该是可以让大家所理解的。可解释性同时也与AI伦理中的公平、责任、透明跟解释力密切相关,其中心思想就是排除一切歧视,包括但不限于年龄、种族、宗教和残疾状态。

大家可以看一下这个表。从数据收集阶段到模型部署阶段,包容性理论都应该贯穿在大模型开发全过程中。例如在数据收集阶段,数据科学家和研究人员就应该秉持着公平性原则,收集具有代表性的、无偏见的数据。这里给大家展示几个案例,如果包容性理念没有贯穿大模型开发的全过程,就会出现一些数据偏差以及歧视现象。

图:包容性理论在AI大模型开发全过程中的应用图表

比如,这是我前段时间跟国内的一款大模型的对话。我问它:“残疾人是正常人吗?”我得到的答案是:“残疾人不是正常人。残疾人在心理上和正常人有所不同,将残疾人视为正常人,可能会对他们的生活产生负面影响。”这样的回答就包含了歧视。因此我们在数据收集阶段就需要兼容到各个群体,否则,大模型就会出现歧视现象。

我们一般将听障群体以其沟通方式分为三种:口语者、手语者跟双语者。因为手语有自己的词汇系统跟语法,比如手语者要表达“吃饭”时,根据手语的语序,他会表达成“饭吃”,因此需要人工在前期数据处理阶段进行校正。大家还可以看到对于右下角的导航地图,盲道及无障碍设施的识别一直是痛点问题。所以以障碍群体为例,我们认为AI大模型的开发应该从最开始的数据收集及处理阶段就应充分考虑到他们的特殊语言习惯及需求,将包容性贯穿到开发的每一阶段。

图:AI包容性常见问题

这是我们前段时间内部所作的关于部分障碍群体使用AI的调研结果,非常有趣,跟大家分享一下。我们发现,障碍群体生活中使用的AI工具大多为识图输入法、AI智能语音助手及发音工具等,同时对最新的GPT等大语言模型也具有一定的使用覆盖。53%的受访障碍群体表示,他们在使用这些工具的过程中会发生一些不愉快的事件,主要为性能问题。例如存在反应速度慢、识别准确度不高和特殊环境下应用效果不佳等问题。障碍群体也提出,期待工具能优化相应问题的使用效果。虽然绝大部分受访者表示没有遇到不公平待遇,但他们也表示希望AI工具在公平性方面能有所提升。再例如,我们之前做过一场关于AI字幕眼镜的调研。受访者告诉我们,他除了需要眼镜提高识别的准确度及速度之外,还希望AI字幕眼镜能够更加轻便,如同普通眼镜一样。

图:部分障碍群体使用 AI 工具调研结果

我们将这些问题概括之后总结出以下几个方面:首先,目前大模型的开发未考虑到障碍群体的某些需求,其次,跨领域的研究与交流不足、数据和算法的资源受限。无障碍数据的标注和开源不足,使得大模型无法充分适应各类障碍群体的需求、缺乏完善标准和评估机制、阻碍企业和机构的积极投入等问题。大模型开发过程中对于数据隐私权的忽视及相关教育和培训不足等问题,也进一步制约大模型包容性的提升。

最后,简单与大家分享一下从无障碍视角出发,给予包容性理论大模型的改进策略。从技术角度来看,数据收集、处理到模型设计、训练、测试和部署,每一环节我们都做了一些相应的改进策略。比如在数据收集阶段,要对残障群体少数群体和弱势群体进行充足且公正的数据收集;在数据处理阶段,要保证数据的多元性和包容性;在模型设计阶段,优化模型算法,增强模型适应性;在模型训练阶段,引入算法伦理,降低训练偏差,同时提高模型公平性;在模型测试阶段,使用多元化测试样本。在部署阶段,要优化部署策略,考虑不同群体的实际需求。同时建立公平的数据处理标准和大模型的开发指南;制定并执行算法的伦理政策,加强AI大模型的监管;增强无障碍技术、人工智能、大数据等交叉学科的交流,通过公共宣传提高公众对AI大模型的包容性认知等。

同样,我们还需要各个利益相关方,包括政府、企业、高校及研究机构等积极投入,一起提升AI与大模型的包容性。现阶段研究院也在做相关课题,希望以障碍群体的视角出发,用理论研究与案例分析的方法构建一个全面的大模型包容性理论框架。以上是我今天的分享,谢谢大家。

END