人机交互技术简析

让计算机能听、能说、能看、能感觉，是未来人机交互（Human-computer interaction，HCI）的发展方向，其中语音已成为未来最被看好的人机交互方式，语音比其他的交互方式有更多的优势。目前，语音服务存在于各种场景中，包括实时会议记录、视频实时直播字幕、呼叫中心语音质检、实时会议记录等。

语音人机交互

语音人机交互主要涉及自动语音合成（Text to Speech，TTS）和自动语音识别（ASR），它们互为逆过程，涉及声学、语言学、数字信号处理和计算机科学。新型的呼叫中心使用ASR响应用户所有可能的语音输入，通过内容分析和搜索引擎得出用户需求的文本结果，最后通过TTS将文本信息转换为语音信息播放给客户。而传统的呼叫中心基于交互式语音应答（IVR，Interactive Voice Response），用户利用音频按键电话输入信息、从系统中获得事先录制的数字或合成语音信息。显然前者使使服务更加的快捷、节约成本并提高交互的质量。

自动语音合成（Automatic Speech Synthesis）技术又称为文本转语音（TTS）技术，它可以将任何文字信息转换成标准流畅的语音且进行朗读。TTS常用于导航、语音播报、教育、娱乐、智能客服等场景，科大讯飞在该领域占领结构性优势。

自动语音识别（Automatic Speech Recognition，ASR）技术又称为语音转文本( STT )技术，通过计算机将口语识别和翻译成文本。ASR常用于搜索引擎、智能音箱等场景。

FakeYou

FakeYou Text to Speech 本质是一个TTS程序，但使用深度伪造技术，使用欧美名人（如比尔·克林顿或者比尔·盖茨）的口音，朗读用户输入的任何文本。

图中我们让“比尔·盖茨”朗读比尔·盖茨2021新年致辞的第一句话。

英伟达发布了 NVIDIA Riva 对话式 AI 应用服务框架，是一个 GPU 加速的 SDK，整合了 TTS 和 ASR 等智能算法引擎，提供现成的语音服务，旨在帮助用户轻松、快速地访问会话 AI 功能。

雷达 vs. 摄像头

再以自动驾驶为例说明计算机“能看”的技术。

自动驾驶系统分为三个层级：感知层、决策层和执行层。感知层收集周围的环境信息并做出预处理；决策层类似于人类的大脑，会基于感知层获取的信息，做出任务规划、行为决策和动作规划；执行层负责精准地执行决策层规划好的动作。其中，环境感知是全面实现自动驾驶的关键一环，为实现环境感知，雷达（超声波雷达、毫米波雷达、激光雷达）和摄像头的路线之争正酣。绝大多数车企利用激光雷达（Laser Detecting and Ranging，LiDAR）可提供高分辨率、高精度和抗有源干扰能力强的几何图像、距离图像、速度图像等特点，均有激光雷达搭载计划（包括通用汽车的Super Cruise），但特斯拉仍坚持摄像头纯视觉感知路线。

大脑对眼睛的视觉信号进行大量的后期处理，并试图创建一个向量空间。基于这个原理，特斯拉的FSD（Full Self-Driving）软件基本上是利用视觉算法和神经网络做到自动驾驶，摄像头感知图像之后形成数字信号，需要将数字信号映射到向量空间中，最终可以识别汽车、人、车道线、曲线和红绿灯等等。

更进一步，人类的大脑有时超越了向量空间，变成概念空间，这就要求自动驾驶系统建立向量空间，然后对这些空间进行实际预测。

比如当你开车时，前面有一辆卡车，还有一些孩子准备过马路，当你距离卡车较近的时候，卡车挡住了你的视线，你看不到那些小孩了。这时，你心里想的是这些孩子现在在什么位置，需要提前预测一下（位置）。

特斯拉投入巨量资源重写了算法的Tesla Autopilot配合Dojo超级计算机对神经网络视频训练优化自动驾驶技术。

实际上，还有雷达+摄像头这样的融合方案，中肯地评价是，明面上是用更低的成本带来信息获取能力的提升，实际上是弥补算法和算力的不足，毕竟大多车企无法回避软件之殇。

👍

酷玛DS

酷玛DS