如何“读懂人话”？任务型多轮对话的实践与探索-中关村科金

产品动态

2022-12-22

文章摘要：公司动态

移动互联网带来了大数据的普及，摩尔定律预言了计算机硬件的发展，深度学习则借助这阵东风实现了技术上的突破，人工智能成功进入大众视野，并改变了人们的日常生活。

“小X同学，请打开电视”、“小X小X，请播放音乐”......如今，很多年轻人的生活不再像以前一样，只需要动动嘴，就可以控制家里的各种设备。根据全球著名调研咨询机构IDC发布的《中国全屋智能设备和解决方案市场回顾和展望》，2021年中国智能家居设备出货量超过2.2亿台，同比增长9.2%；2022年中国全屋智能市场销售额将突破百亿，预计同比大幅增长近55%；到2023年，智能家居将会成为物联网支出最高的领域之一。

而想要实现通过语音对话的方式来控制家中智能设备，对话式AI技术是必不可少的一环。

任务型多轮对话

是对话式AI的必由之路

目前，对话式AI主要应用的场景有三种，分别是闲聊型、问答型和任务型。

闲聊型：多用于情感陪伴，但由于整体技术水平还未达到人们的心理预期，现阶段商业化并不太成功；

问答型：多见于客服系统，能够解决用户的一些事实性问题，但功能上较为局限；

任务型：多用于B2C类应用，能够将非结构化数据充分利用起来，沉淀企业知识，是企业数字化转型赛道上的关键技术。

由于目前的技术水平还处于弱人工智能阶段，全面实现对话式AI比较困难。任务型多轮对话因具有较好的可解释性，且易于把控，是以点及面实现完整的对话式AI的理想途径。

任务型多轮对话是对话式AI的外延之一，专注于封闭域下的问题解决。任务型多轮对话的定义是：根据上下文内容，进行连续的、以达到解决某一类特定任务为目的的对话。需要注意的是，任务型多轮对话有三个关键要素，多轮、连续性、封闭域。

多轮：与单轮的问答不同，多轮对话解决复杂条件下的问答，需要结合上下文理解多项约束条件，每一次应答都与上下文有强关联关系。

连续性：对话需要具备连贯性，一旦捕获到用户意图，则将以完成此任务为目标，进行持续性的对话。

封闭域：某一类特定问题表明了对话是受限的，即这是一个封闭域上的问题。对话系统仅负责某个领域下已知的一系列任务，比如说订机票，订外卖，或者查天气等等。

任务型多轮对话系统的

技术架构设计

目前主流的任务型多轮对话系统依然沿用了模块化的方法，其技术架构如下所示，包含以下几个模块：

输入模块：接收用户传达的信息，包括语音、图像、文本等。对于语音类信息，通常使用语音识别（Automatic Speech Recognition, ASR）技术转化为文本。而对于图像类信息，目前研究较少，可行的方案包括通过文字识别（Optical Character Recognitionm, OCR）技术将识别图像中的文字转化为文本，或者使用机器学习训练编码器，将图像转化成视觉语义编码。

解析模块：对输入的信息进行解析，转化为机器可理解的语义表示。以文本信息及框架语义表示为例，此模块依赖于自然语言理解（Natural Language Understanding, NLU）技术，需要从文本信息中识别出用户的意图（Intent）以及该意图下的语义槽（Slot）。例如”附近有什么比较火的粤菜馆？“，用户意图是”搜寻餐厅“，语义槽是”地点“为”附近“，”热度“为“高”，“菜系”为“粤菜”。

对话管理模块：根据解析模块输出的语义表示，更新对话状态，并根据策略选择应答动作。此模块主要包括对话状态跟踪（Dialogue State Tracker, DST）和对话策略学习（Dialogue Policy Learning, DPL）。对话状态跟踪负责维护多轮对话的状态，根据历史对话状态、解析模块当前的输入以及背景知识库综合得到新的对话状态。此模块的主要功能就是记忆与预测，通过与用户间的不断交流，逐渐完善对用户状态的观察。对话策略学习根据DST模块输出的当前对话状态，来决策系统采取的动作。例如解析模块的例子，此模块则会选择“搜索”动作，查询以用户当前定位为中心，一定范围内的高浏览量粤菜餐厅。

解码模块：与解析模块相反，此模块的任务是将系统结果以人类可以理解的方式解码，通常就是转化为自然语言。例如系统查询到的餐馆在数据表中ID为"r008"，转化为自然语言可以是“您好，附近热度最高的粤菜馆是金鼎轩，位于xxx路xxx号，距您1.1km。"

输出模块：此模块以输入模块相同的形式将解码模块产生的结果反馈给用户，如聊天框、麦克风等。而自然语言想要转化为语音，则需要使用到语音合成（Text To Speech, TTS)技术。

业内主流的

任务型多轮对话系统平台

经过多年的发展，任务型多轮对话领域涌现了众多优秀的公司，尽管基础技术差异不大，但在钻研方向上各家却有着自身的特色，下面介绍几个典型案例。

预训练对话模型——谷歌LaMDA

谷歌LaMDA是工业级端到端的预训练对话模型。众所周知，目标决定方向，如何定义模型的训练任务与损失函数，将决定训练方向与最终效果。谷歌重新定义了三个评价指标，Sensibleness, Specificity, Interestingness（是否合理、符合上下文、有创造力）、Safety（是否有风险、不公正）、Groundedness、Informativeness（在知识型问答中，是否包含真实的信息、并引用相关链接），并借此构建分类任务精调模型，提升了模型的对话能力。

相比其他对话系统，LaMDA具有蕴含知识、回复更加灵活等优势，但其不可控性、逻辑能力差等缺点也是极为明显的。然而就在大众对于此类“人工智障”逐渐失望之际，12月openAI推出的同类型的大模型chatGPT着实让人惊艳，或许此类对话系统依然是通往终点的一条途径。

领域预建模型——Senseforth.ai

Senseforth成立于2017年，是一家印度对话式人工智能服务商。根据Gartner统计，目前Senseforth的企业级对话式人工智能平台每月处理超过1.9亿次对话，准确率超过96%。

通过大量行业实践，Senseforth创建了对话式人工智能机器人商店，该商店拥有行业预建模型和领域知识，适用于一系列垂直行业，包括银行、保险、零售、医疗保健、电信和酒店等。Senseforth尤其专注于NLU模块，将意图与实体分开训练，支持快速新增、修改意图，其解决方案中包含4万多意图与大量的预置意图库。

除了对话式人工智能机器人外，Senseforth还涉足对话式分析、对话式营销、代理协助、知识管理和智能搜索等技术服务。

低代码与自动化——Cognigy

Cognigy是一家总部位于德国的对话式AI服务提供商，成立于2016年，旨在提高企业客户服务团队的工作效率。通过将对话式AI技术与商业智能、客户关系管理、企业资源规划工具整合，Cognigy帮助企业用户通过简单对话形式访问实时数据，实现无缝连接关键操作触点。

Cognigy亦专注于低代码平台搭建，结合流程自动化技术，允许企业使用智能AI机器人和聊天机器人自动化客户和员工通信。

任务型多轮对话

在中关村科金的实践

目前任务型多轮对话系统的技术框架、各模块的细化技术选型都已经较为成熟，但是在实际实践中，我们发现依然存在着定制化程度高、回答生硬、使用门槛高等诸多问题

以零售行业为例，某世界500强企业旗下的高品质购物中心，其线上业务面临重复性问题繁多、人力工作时长有限、数据价值难以被有效利用等痛点。得助智能文本机器人运用自然语言处理、知识图谱、流程挖掘等技术，实现企业知识沉淀，辅助构建客服场景下的SOP树，解决客户在购物中心遇到的85%以上的问题。依赖于闭环迭代，文本机器人能在与客户沟通中自主学习，不断强化处理问题的能力，满足客户的多元个性化需求。

以营销行业为例，中关村科金基于对话式AI技术，通过将MAP平台、智能外呼机器人、文本机器人、RPA结合，构建一体化营销云产品。在为某消金线上业务服务中，将营销的SOP流程标准化后沉淀下来，配置在营销自动化模块中，基于用户分层实现自动化群发、自动化回复、自动化标签等，打造全新的私域自动化运营体系，营销转化率提升30%、人力成本下降60%，帮助客户实现降本增效。

任务型多轮对话的未来发展趋势

因其可控性，在可预见的未来任务型多轮对话依然将是对话系统的主要表现形式之一。随着技术的不断提高，中关村科金认为以下三个方面会是任务型多轮对话的未来发展方向。

1）冷启动始终是AI所不可避免的问题，如何基于现有的大量未标注数据，快速实现对话系统的搭建值得深入研究；

2）机器学习模型目前还停留在感知智能的阶段，并没有真正理解对话中的含义，同时欠缺对于领域知识、常识知识的应用。引入领域知识和常识知识，并且能够进行知识的推理，将极大的提高对话系统的实用性与竞争力；

3）语言不是唯一的交互途径，人类的表达方式是多种多样的，人机对话系统的交互方式必将向多模态的方向发展。

未来，中关村科金将不断提升多模态对话式AI，尤其是任务型对话的技术实力与场景落地能力，抓住这一企业数字化转型赛道上的关键技术，助力企业数字化变革。

联系我们

您的数字化转型伙伴

方案咨询

首页

新闻资讯

产品

解决方案

客户案例

核心技术

关于我们

智能营销

智能运营

知识管理

行业产品

企业出海

银行

保险

证券

信托

消费金融

零售

制造

政务

医疗

家装

通用

财富&保险

金融

政府公共服务

企业服务

如何“读懂人话”？任务型多轮对话的实践与探索-中关村科金