打开失声者的另一扇窗!爱尔兰创企推唇语识别app,准确率达90%

编辑:admin 发布时间:2023-11-20 浏览:734次

智东西(公众号:zhidxcom)

编译|杨畅

编辑|李水青

智东西6月25日消息,据加拿大媒体VICE报道,近日,视觉语音识别(VSR)领域又迎来重大突破,爱尔兰初创公司Liopa开发出一种名为SRAVI的针对语音障碍情况下语言识别app。并且SRAVI有望成为首款可供公众购买的唇语识别工具。

唇语识别是一项集机器视觉与自然语言处理于一体的技术,通过分析说话人唇部运动,结合大数据匹配出有最大可能性自然语句。英特尔、谷歌和我国的搜狗等公司都训练人工智能(AI)读懂唇语。并且唇语识别AI也开始实验性的应用于医院、电力公司、公共交通等领域。

一、SRAVI可识别短语,准确率达90%

一位患者坐在病床上,他脖子上缠有带开口的绷带,供氧气管套管通过并固定住。由于最近接受手术,这位患者无法发声。医生拿起智能手机,记录下病人说的短语。这款名为SRAVI的app会分析唇部运动,并在两分钟内返回其识别结果——“我需要吸引器”。

这似乎只是一个简单的互动,在某些方面,SRAVI非常简单。它能准确识别几十个短语,准确率约为90%。

VSR领域主要是训练人工智能在没有任何音频输入的情况下读懂唇语。几十年来,研究人员一直致力于此类技术,但事实证明,即使深度学习系统的进步,帮助解决了其他具有里程碑意义问题,AI读懂唇语仍是一项具有挑战性的任务。这项研究受到广阔商业应用前景预期推动——从应用于监控工具到静音通信app,以及改进虚拟助手性能。

Liopa公司正在为SRAVI申请欧洲I类医疗器械认证,并希望能在8月之前完成。这样公司就可以向医疗服务商销售该产品了。

二、唇语识别AI商业化不仅面临隐私问题

唇语识别并不是一个全新的人工智能方向,许多科技巨头也一直在研究唇语识别AI,早在2003年,英特尔公司就开发出了唇语识别软件AudioVisualSpeechRecognition(AVSR),2016年谷歌子公司DeepMind唇语识别技术已经可以支持17500个词,新闻测试集上识别准确率首次达到50%以上,2017年搜狗推出中文唇语识别系统。

随着唇语识别AI成为一种可行的商业工具,技术人员和隐私监管机构越来越担心,它未来会被开发成什么样以及会部署在哪些领域。

例如,SRAVI并不是Liopa正在研究的唯一一款唇语识别AI。该公司还和英国一家国防研究机构合作开发另一种工具,使执法机构能够通过无声闭路电视录像进行搜索,并识别人们何时说出过某些特定关键词。

美国摩托罗拉公司(MotorolaSolutions)有一项旨在帮助警察的唇语系统专利。

美国无人机初创企业SkylarkLabs创始人告诉Motherboard(VICE旗下科技版块),其唇语系统目前已部署在印度的一些私人住宅和一家国有电力公司中,以检测粗俗语言。

唇语识别AI的出现让人想起了人脸识别技术。几十年来,人脸识别技术一直是个小众研究领域,然后它从2000年代初开始作为监视工具悄然迅速商业化。

人脸识别技术的许多问题直到最近才被公之于众,很大程度上还要归功于人脸识别受害者积极研究和行动。具体来说,麻省理工计算机科学家乔伊·博拉姆维尼(JoyBuolamwini)和前谷歌AI伦理学家提姆尼特·格布鲁(TimnitGebru)在2018年发表了一篇具有重要意义的论文,论文中首次揭示了人脸识别用于女性和有色人种识别准确性较低。当这些担忧进入主流话语体系时,电话、私人企业中人脸识别的应用已经无处不在。

监控摄像头遍布美国许多城市的街头巷角。至少有三名黑人男子因为人脸识别不准而被错误逮捕,实际数字几乎肯定更高,而且该技术还被用于追踪美国“BlackLivesMatter”运动的抗议者,以及其他各种可疑人员。在过去两年中,也就是在该技术首次大规模公开部署近20年后,美国草根运动导致十多个城市和州的警察和个人开始禁止使用人脸识别技术。

大众对人脸识别技术的强烈反对推动了AI研究人员思维转变,即他们该如何考虑其研究发现的未来应用。例如,神经信息处理系统进展大会(NeurIPS)去年首次要求研究人员在提交论文时,加上关于新研究可能会对社会产生哪些影响的论述。

《人工智能:计算机如何误解世界(ArtificialUnintelligence:HowComputersMisunderstandtheWorld)》一书作者梅雷迪思·布鲁萨德(MeredithBroussard)告诉Motherboard:“研究很棒,但是当我们发现某一特定知识或者研究路线具有毁灭性后果时,作为研究人员,我们有责任停止它并实施相应措施。”

三、监控领域应用唇语识别需受管控

“这项技术刚开始发展的确太快了,不过在去年,开始有论文围绕VSR技术伦理问题进行讨论。”斯塔夫罗斯·佩特里迪斯(StavrosPetridis)说,他最近在Facebook工作,但与Motherboard谈到了他之前在英国帝国理工学院(ImperialCollegeLondon)的研究。“鉴于目前还没有可商用的唇语识别app,这次很有可能在唇语识别AI技术完全商业化之前才考虑伦理问题。”

帝国理工学院博士生罗德里戈·米拉(RodrigoMira)告诉Motherboard,他和他的同事知道自己研究的领域是有争议的。他将该研究工作和渗透测试进行了比较——渗透测试是一种在计算机系统中寻找漏洞以修复它们的网络安全实践。换句话说,这项研究是允许受道德规范约束的学术机构在新技术被犯罪分子利用之前发现它。

米拉表示:“唇语识别AI的主要问题是人们总是会谈论政治。这不是我们是否应该停止研究,而是我们有能力通过观察人们来了解他们在说什么时,我们应该用它做什么?阻止不道德地使用该技术的方法,不是关闭帝国理工学院,解决这个问题的方法是把它作为一个政治问题来处理。”

人工智能伦理学家同意,政府对人脸识别和唇语识别AI等生物识别监控技术应尽早和大力度监管,这对于防止歧视和伤害是必要的,但到目前为止,许多政府未能制定相应法律。这就是为什么研究人员不仅有责任考虑技术应用的潜在后果,而且要主动将最可能受到该技术伤害人群纳入研究决策过程的原因。不过专家表示,现有VSR系统并未考虑这些因素。

美国AINowInstitute研究员莎拉·迈尔斯·韦斯特(SarahMyersWest)告诉Motherboard:“这是为了积极创造一种技术,或许会有有害用途,而不仅停留在识别和减轻现有技术中的漏洞。研究人员并不是总能够自己进行这些伦理性评估。这就是为什么在整个过程中让可能受影响的群体参与进来,以预测和避免潜在有害的其他用途,是如此重要。”

四、唇语识别技术不断优化,完整对话识别仍需时间

Liopa的CEO利亚姆·麦奎伦(LiamMcQuillan)告诉Motherboard,该公司至少需要一年的时间才能拥有满意的从闭路电视录像中读出关键词的系统,公司已经考虑过隐私问题。“这里可能会有人担心实际最终会禁止使用该技术……我们当然不会这样把Liopa押在这个项目上面,即使有充足研究资金——该项目由英国国防部国防与安保加速器(BritishDefenseandSecurityAccelerator)资助。”

Motherboard找到了一家声称正在积极销售唇语识别AI系统的公司SkylarkLabs。SkylarkLabs已经将唇语识别技术融入监控市场。

SkylarkLabs创始人兼CEO阿玛乔特·辛格(AmarjotSingh)告诉Motherboard,该公司最初向印度的警察局推销其包含唇语识别、人脸识别、暴力和武器检测算法的技术套件。该公司发现,鉴于在拥挤公共场所使用唇语识别功能面临的挑战,用户对此功能兴趣不大。

SkylarkLabs已经转向研究其他唇语识别在其他场合的用途。辛格表示,公司的唇语识别AI技术目前正在印度旁遮普邦电力公司有限公司进行试点,以检测员工互相打扰的情况。他说,有几个人还购买了这项技术来监控他们的保姆。SkylarkLabs指出,它的唇语识别AI可以检测大约50个与诅咒、虐待和暴力相关的不同词语。不过根据当地媒体报道,辛格发表过关于暴力检测和人脸识别的研究,印度警方确实使用Skylark的无人机来增加社交距离,不过辛格和公司都没有发表任何关于唇语识别AI的研究。

Motherboard联系了旁遮普邦电力公司有限公司,有人表示家里使用过唇语识别技术,但没有收到更多回复。

辛格说:“我们正在自然场景中进行研究,并试图解决对人身安全有直接影响的用例。我认为这有好处,因为设计师能够控制系统应该标记的词,所以我认为它还可以。这里风险是,一旦你开始校准系统在自然场景中获取日常语言,词语在是否符合道德规范方面可能会有瑕疵。”

接受采访的研究人员和公司高管告诉Motherboard,实现唇语识别AI能解释完整对话,还需要数年时间。

当涉及到单个关键字唇读领域,Liopa和SkylarkLabs同样正在追求的目标,唇语识别技术准确度要高得多,并且仅在去年就有显著提高。2017年,在Wild数据集中唇语阅读基准准确率最高是83%。2020年之前,这一最高纪录保持不变,根据帝国理工学院与三星合作发表的这篇论文,准确率现在突破到88.5%。

但是,很难知道真正的顶峰是什么。DeepMind在2018年之后没有发表任何关于唇语项目的进一步研究,并且拒绝讨论。与Motherboard沟通的许多研究人员都不愿随意推测大型科技公司打算用这种新兴技术做什么,或者它何时何地开始对公众产生明显影响。

米拉说,人工智能和机器学习过去10年向大家展示的一件事是,未来难以预测。但低估技术发展确实是不明智的。

结语:AI唇语识别超人类,隐私保护引担忧

目前,唇语识别技术的准确率已经超过人类,普通人的唇语识别率在10%,受过训练的残障人士可能会达到40%。唇语识别工具大都已经超过50%,例如搜狗唇语识别技术在口语测试集上准确率为60%以上,在车载、智能家居等垂直场景下会有90%以上的准确率。


参考资料

Copyright © 2002-2030 上海捷届科技有限公司 联系我们|上海市杨浦区铁岭路32号16层1601室、1602室(集中登记地) 沪ICP备2024052595号-1 上海泰东方试管网站地图sitemap.xml tag列表