越来越火的智能互动设备该如何设计?来看阿里这个实战案例! II

无尘    点击:    日期:2018-09-18    资讯分享
    2. 感知层面的设计策略:听觉层

    在描述完视觉设定后,来看一下听觉的方面,也就是语音的互动。

    首先,语音互动的核心能力还是在算法上面,因此语音交互也是和技术能力相辅相成,5号小蜜的技术手段也比较丰富,主要是以下几种:ASR、TTS、QA、面部跟踪、面部重塑面部跟踪渲染等 AI 技术模块。理论上只要获得充足的人物视频+语音数据,技术可模拟任意指定人物。数据越多,面部和语音的还原度越逼真。

    其中,为获取原始数据,需要进行数据的采集,主要是在采集室里对语音、图像进行收录,大致技术的流程如下所示:

    在这些技术背景下,语音的互动更多的是考虑如何在与真人的对话中,体验更加顺畅。

    下图为核心的 Flow:

    在小蜜与用户交流的部分做了标记,也是语音交互的核心内容区。为了方便整个流程连贯起来,还是从最初的部分开始,讲述一个完整的剧本。

    用户从行政楼走进,一般会有几种意图:开会(查找会议室)、来访(了解阿里文化等)、参观(闲聊)根据这些场景我们进行了两个关键节点的设定:吸引、交流。由于结束对话属于弱互动,所以暂不列入重点。

    以上为语音互动的核心部分,其余还有用户结束对话的声音动作反馈——「再见」+挥手等;未知问题的回复处理——进行多种兜底话术的配置;中途离场的用户——小蜜15S内回复初始状态等。

    3. 物理层面策略:硬件、场景

    在考虑界面语音互动的同时,也要考虑硬件方面带给体验的影响,比如设备的主要构成,MIC、音响、支架、外观显示器等主要硬件。

    MIC 的技术手段是单轨拾音,因此需要保证在有效距离内收音(机器前会张贴最佳距离的脚印贴纸,以保证对话收音)。显示器会制作可调整的15°角倾斜,考虑反光、身高视角等情况。机器总高度控制在1.8M,用户眼睛与小蜜眼睛保持平视,最佳观看高度在1.7M左右的平均值,以覆盖大部分用户的使用感受。

    △ 年会亮相图

    下图为整个硬件的构成部分以及运作传输图。

    在硬件组装完毕后,会进行收音的测试,在实际使用场景 – 公共环境(嘈杂环境)下用录音(ASR识别)的方式来收集不同位置的收音状况(保证同等条件下,比如分贝相同)来收集数据,最后判定这个 MIC 的硬件是不是最合适的。

    经过综合多方位设计后,设备才能见到雏形,本身智能互动领域就是多维度的综合体,设计师参与在其中也会从单一的视觉、交互维度去向更全面的维度思考,使每一个环节串联起来,打造更好的 UX体验。

    最后的思考

    从这次的项目来看,我们在做事情的初期就需要有一个完整的目标定义,Lot设备的应用场景考量等等,这次综合升级只是考虑了单一的行政场景,解决的是咨询类的问题,因此设计的链路也是单一且浅薄的。但是产品的发展一定是要向商业化迈步的,比如:热门的导购场景,与淘系新零售的战役契合,结合淘宝生态配合多种垂直行业,机器人作为智能客服出现在售前、售中、售后的服务等等。

    设计也需要在每个场景中分别做出判断,行业通用的部分沉淀,以及行业特性的个性化设计思考,都是需要不断的去尝试和打磨的。而智能互动设备作为一种趋势,也是设计师去发挥所长的沃土。

     


     (文章来源于网络,最终版权归原作者所有)