人机交互技术简析

人工智能 2022-01-31 74 次浏览 0 条评论 次点赞

让计算机能听、能说、能看、能感觉,是未来人机交互(Human-computer interaction,HCI)的发展方向,其中语音已成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。目前,语音服务存在于各种场景中,包括实时会议记录、视频实时直播字幕、呼叫中心语音质检、实时会议记录等。

1_8r7kdCZMnso7XYk6V8Go7w.png


语音人机交互


语音人机交互主要涉及自动语音合成(Text to Speech,TTS)和自动语音识别(ASR),它们互为逆过程,涉及声学、语言学、数字信号处理和计算机科学。新型的呼叫中心使用ASR响应用户所有可能的语音输入,通过内容分析和搜索引擎得出用户需求的文本结果,最后通过TTS将文本信息转换为语音信息播放给客户。而传统的呼叫中心基于交互式语音应答(IVR,Interactive Voice Response),用户利用音频按键电话输入信息、从系统中获得事先录制的数字或合成语音信息。显然前者使使服务更加的快捷、节约成本并提高交互的质量。

自动语音合成(Automatic Speech Synthesis)技术又称为文本转语音(TTS)技术,它可以将任何文字信息转换成标准流畅的语音且进行朗读。TTS常用于导航、语音播报、教育、娱乐、智能客服等场景,科大讯飞在该领域占领结构性优势。

自动语音识别(Automatic Speech Recognition,ASR)技术又称为语音转文本( STT )技术,通过计算机将口语识别和翻译成文本。ASR常用于搜索引擎、智能音箱等场景。

FakeYou

FakeYou Text to Speech 本质是一个TTS程序,但使用深度伪造技术,使用欧美名人(如比尔·克林顿或者比尔·盖茨)的口音,朗读用户输入的任何文本。

图中我们让“比尔·盖茨”朗读比尔·盖茨2021新年致辞的第一句话。

英伟达发布了 NVIDIA Riva 对话式 AI 应用服务框架,是一个 GPU 加速的 SDK,整合了 TTS 和 ASR 等智能算法引擎,提供现成的语音服务,旨在帮助用户轻松、快速地访问会话 AI 功能。


雷达 vs. 摄像头


再以自动驾驶为例说明计算机“能看”的技术。

自动驾驶系统分为三个层级:感知层、决策层和执行层。感知层收集周围的环境信息并做出预处理;决策层类似于人类的大脑,会基于感知层获取的信息,做出任务规划、行为决策和动作规划;执行层负责精准地执行决策层规划好的动作。其中,环境感知是全面实现自动驾驶的关键一环,为实现环境感知,雷达(超声波雷达、毫米波雷达、激光雷达)和摄像头的路线之争正酣。绝大多数车企利用激光雷达(Laser Detecting and Ranging,LiDAR)可提供高分辨率、高精度和抗有源干扰能力强的几何图像、距离图像、速度图像等特点,均有激光雷达搭载计划(包括通用汽车的Super Cruise),但特斯拉仍坚持摄像头纯视觉感知路线。

大脑对眼睛的视觉信号进行大量的后期处理,并试图创建一个向量空间。基于这个原理,特斯拉的FSD(Full Self-Driving)软件基本上是利用视觉算法和神经网络做到自动驾驶,摄像头感知图像之后形成数字信号,需要将数字信号映射到向量空间中,最终可以识别汽车、人、车道线、曲线和红绿灯等等。

更进一步,人类的大脑有时超越了向量空间,变成概念空间,这就要求自动驾驶系统建立向量空间,然后对这些空间进行实际预测。

比如当你开车时,前面有一辆卡车,还有一些孩子准备过马路,当你距离卡车较近的时候,卡车挡住了你的视线,你看不到那些小孩了。这时,你心里想的是这些孩子现在在什么位置,需要提前预测一下(位置)。

特斯拉投入巨量资源重写了算法的Tesla Autopilot配合Dojo超级计算机对神经网络视频训练优化自动驾驶技术。

实际上,还有雷达+摄像头这样的融合方案,中肯地评价是,明面上是用更低的成本带来信息获取能力的提升,实际上是弥补算法和算力的不足,毕竟大多车企无法回避软件之殇。


本文由 cds 整理发布,参考 CC-BY-SA 3.0 协议共享,欢迎转载、引用或改编。
感谢您的支持,以让我们持续关注中国学子的STEAM旅程!

还不快抢沙发

添加新评论