向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
东西问·中外对话 | 马丁·雅克:如果只能照搬西方模式,谈何理解中国?******
马丁·雅克是英国著名学者、作家。他是剑桥大学博士,并曾长期担任该校高级研究员。马丁·雅克是西方世界解读中国最著名的声音之一,他于2009年首次出版的《当中国统治世界:西方世界的衰落和中国的崛起》是全球范围内的现象级畅销书,已被翻译成15种语言。
中新社德国分社首席记者、中新网研究院副院长彭大伟近日对话马丁·雅克。
马丁·雅克表示,要理解中国发展取得的成功,必须理解中国文明的特性,要明白中国不仅仅是一个民族国家(nation state),而是一个文明型国家(civilization state)。他指出,西方许多人试图强行让中国接受西方人权等价值观的心态使得西方几乎不可能真正理解中国。他同时建议西方国家如果真的想理解中国抗疫为何取得成功,就应该先去了解孔子的儒家思想。
以下为对话全文摘编:
彭大伟:在您看来,中国成功的根源是在于其选择的制度路径还是其独有的政治领导力?
马丁·雅克:我们必须在更广的维度上进行探讨,而非仅仅是(西方政治学意义上的)政治领导力或政治体制的讨论。按照美国政治学者福山的观点,中国的政治体制展现出比其它任何国家都强大的延续性。如果回顾中国从秦朝以来的治理模式,能够看到这中间经历了很多不同的阶段,但一些重要的特征始终是十分相似的。1949年以来,中国共产党一直是领导中国的政治力量,但即使在这一阶段,中国仍然从传统社会治理中传承了许多重要的因素。
优秀的政治领导力无疑是一个国家所必须的。我认为从毛泽东、邓小平一直到习近平的中国领导人都有着极为突出的政治领导力。今天的中国处在一个新的时期,已取得的发展成就令中国在国际上扮演更加严肃、更加活跃、更加积极的角色成为可能。
中国的体制极其成功地打造了一支富有才干的领导团队和一群治理人才。从历史的尺度来看,从1978年至今,中国的政府出色地完成了其使命。我还想补充的一点是,政党的自我革新是非常重要的,我认为中国共产党迄今为止在这方面做得非常好。西方一直对中国共产党颇有微词,然而让我们直面现实吧——在过去40多年里,中国领导层的表现远远好于同时期的美国领导层。
资料图:上海外滩,游客欣赏“永远跟党走”光影秀。殷立勤 摄彭大伟:当美军仓惶撤离时,美国总统拜登说,美军在阿富汗的使命从来不是“国家构建”(nation building)。中国是否正是因为在中国共产党领导下完成了国家构建,才避免了四分五裂、生灵涂炭的厄运?
马丁·雅克:当下在中国共产党领导下的中国无疑处在一个非常好的时代,很可能是中国曾经经历过的任何时代当中最好的一个。这是站在中国漫长历史的肩膀上实现的。正是由于从中国历史中获得的智慧,中国共产党能够纠正其早期犯下的错误,探索出一条成功的治理之道。
中国文明自身的特性也是很重要的一个方面,中国不仅仅是一个(西方意义上的)民族国家(nation state),它是一个文明型国家(civilization state)——如果不能理解这一点的话,也就无法真正理解任何有关中国的问题。
彭大伟:您曾提到西方理解中国抗疫模式需要先了解孔子的学说,您还提到西方对此缺乏应有的认知。能否详细阐述这一问题?
马丁·雅克:西方的许多中国问题专家并未真正理解中国,造成这一点的原因是西方人在成长阶段接受的教育是“西方做事情的方式是全世界其它地方学习的模范”,西方的范式比全球其它任何地方的都要优越——西方的运作方式、制度、规范……都成为了用来衡量其它国际的准绳。
例如,在“人权”这样的争议话题上,西方从未真正尝试着去理解中国是如何实践其人权理念的。这是由于双方截然不同的历史传统,可追溯到孔子的时代。在孔子的学说中,个体不是世界的中心,人们重视的是集体,集体可以是一个家庭,也可以是范围更大的集体,一直到整个中国。只有当置身于一个集体、一个社会当中时,个体才具有意义。
资料图:南京小学生行古礼点朱砂“开笔破蒙”,孩子们在南京夫子庙大成殿内的孔子像前留影。泱波 摄在我看来,围绕人权问题的大部分争吵都是基于西方希望想将其思维模式输送给中国,而后者并未接受。这么做意味着这些人并不真正需要理解中国,因为最终他们还是会相信自己是对的、中国是错的。如果动辄就向中国喊话“你们只需要照我们的方式来”,那还谈何理解中国呢?
在诚实和谦虚这两方面,西方在疫情期间的表现无疑都是不及格的。(对中国抗疫方式的指责和后来围绕病毒溯源的纷争)真的都只是一种可耻的、用于分化和转移注意力的借口。
中国是如何取得抗疫成功的?第一,中国政府有非常好、非常清晰的抗疫策略。第二点,也是西方从未探讨过的一点,就是人的因素非常重要。中国人拥有很强大的社会凝聚力和团结度,这种传统深深地植入到中华民族的国族意识当中。这也是为什么美国在抗疫中的表现如此差劲——美国没有中国重视集体的观念。
彭大伟:白宫和美国共和党政客热衷于在新冠溯源等议题上攻击中国,这完全无关严肃的科学研究,而是一种将病毒作为武器的诡辩术?
马丁·雅克:这是一种转移视线的企图,由于美国在疫情期间表现得糟糕透顶,而中国表现得非常突出,政客们不得不出手掩盖这一事实,而这种做法已经给西方带来了国际关系层面上的危机。美国和整个西方抗疫是如此乏善可陈,以至于他们只能一再转向病毒起源的问题。我认为西方国家政府和媒体在这当中的角色是可悲的——并非每一家都是这样,但有太多政府和太多的媒体都热衷于甩锅了。
彭大伟:您如何看待中国共产党带领中国实现复兴的百年历程?
马丁·雅克:这一切成就是属于全体中国人民的,每个中国人都为中国今天的成就作出了一份贡献。当然,要想实现这一切,就必须得有卓越的政治领导,中国共产党恰好是这样一支领导力量。从1949年到1978年再到如今,中国发生的变化是常人无法想象的,非常伟大。中国共产党在我看来是现代人类世界最成功的政治组织,而且遥遥领先其它政党。西方时常会拿苏共进行比较,但中国共产党和苏共完全没有可比性。中国共产党在自我革新、自我重塑方面做得非常好,事实上他们不仅重塑了党,也重塑了中国。执政地位不是理所当然的,政党必须与时俱进,总是着眼未来。中国文化很善于着眼未来。中国共产党传承了中国文化的这一思维特质。这也是为什么中国共产党总能带领自身和国家走出低谷。
邓小平的改革从经济政策上引入了市场的作用。很多人事后说这是“西化”,但恰恰相反,中国开创了一种全新的独特体制,破除了改革开放前束缚发展的要素,将自身发展融入了全球市场。改革开放对中国而言是一种极为自信的思路,因为一旦选择对外开放,中国就得和资本主义世界竞争,面对的竞争对手来自(当时)富裕得多、受教育程度高得多的西方国家。这是非常关键的决断,西方当时没有多少人相信中国能够取得成功,但是中国仍然以强大的自信选择了开放。
资料图:山东港口青岛港自动化码头进行卸货作业。张进刚 摄彭大伟:您对中国推进实现共同富裕有何看法?
马丁·雅克:这是令人非常感兴趣的一项最新发展。西方目前已有的反应都是基于一种几乎是本能的反华态度在驱动——条件反射地认为这是“负面的”。然而西方也正在面临和中国同样的贫富分化问题。
尽管有很强烈的呼声,但美国没有为消除其巨大的不平等问题做任何事。欧洲也不同程度地存在这一问题。20世纪80年代以来,新自由主义的盛行造成不平等问题持续蔓延。中国如今正在试着找到应对之策。互联网成瘾的问题也是一样。这些问题都是真实存在的,必须得到应对、提出解决方案。
中国网客户端 国家重点新闻网站,9语种权威发布 |