以人为中心的对话式推荐系统评估与多 Agent 协同设计探索

发布时间:2025-09-26 07:34  浏览量:1

导读在人工智能日益融入我们生活的今天,对话式推荐系统(Conversational Recommender Systems, CRS)作为一种融合自然语言交互与智能推荐的关键技术,正在广泛应用于电商、音乐、影视等领域。本文分享了金昱成教授在“以人为中心的对话推荐系统”上的研究进展,聚焦于系统的评估框架设计,并简要介绍相关应用示例。

今天的介绍会围绕下面五点展开:

1. 对话式推荐系统

2. 以人为中心的评估方法(Human-centric Evaluation)

3. CRS-Que 评估框架框架

4. 基于 ChatGPT 的推荐系统评估

5. Q&A

01

对话式推荐系统

对话式推荐系统(Conversational Recommender Systems, CRSs),可以从一个简单的对比图开始理解: 左边是我们熟悉的聊天机器人(Chatbot),右边则是亚马逊、淘宝等平台上的推荐内容。对话式推荐系统的基本思想就是将这两者整合,把内容推荐功能以及用户交互的部分统一在一个对话 Agent 中。事实上,这类系统并不是在大语言模型兴起之后才出现的,早在十年前,就已经有类似系统的研究与应用。

在一篇关于对话式推荐系统的综述论文中,对其进行了系统梳理与总结。根据该文的定义,对话式推荐系统具有两个核心特征:

第一,它属于任务型对话系统,而非闲聊类系统;其任务就是向用户推荐内容。

第二,它通过多轮对话的方式逐步实现推荐目标。

目前,这类系统已经广泛应用于多个业务场景,如音乐推荐、旅游推荐和电影推荐等。

在淘宝或天猫中的客服推荐场景示例下,当用户想咨询关于衣服的推荐时,系统会通过多轮对话与用户互动,询问其偏好,并在过程中持续优化推荐内容。相比传统的网页式推荐系统,对话式推荐具有几个明显优势:

首先,它具有良好的交互性,系统能根据用户反馈实时调整推荐内容;其次,它的交互方式是基于自然语言的,更贴近人类交流方式;此外,它还支持内容的动态更新。传统推荐系统在用户点击或反馈后,推荐结果往往不会即时更新,而对话式系统能在下一轮对话中立即给出更新的推荐结果。

上面这张系统架构图看起来较为复杂,实际上它是我们在那篇综述论文中所总结的对话式推荐系统的一般性架构。这套架构主要适用于早期的系统设计,比如 2017~2018 年间的智能客服推荐系统。

这种系统通常包括以下几个模块:

对话管理器,用于控制对话流程;用户建模模块,用于抽取和更新用户画像;推理与推荐引擎,结合产品库和知识库进行匹配与推荐。

流程上:系统首先从用户的输入中抽取偏好信息,更新用户画像,再到产品库与知识库中进行推理匹配,最终输出推荐内容。

例如,如果用户想看一部喜剧电影,系统会根据其地理位置、历史偏好等条件进行筛选,推荐最合适的结果。假如用户是英国人,我们可能会优先推荐英国最受欢迎的内容,最终以对话的形式向他展示推荐结果。在这个过程中,系统主要包含两类模块:计算模块和知识模块。这是一种较为经典的架构,是早期对话式推荐系统的典型模式。但如今,基于大语言模型(LM,Language Model)的新一代对话推荐系统已经在一定程度上颠覆了上述架构。GPT 这类模型能够在一个统一模型中整合意图识别、偏好建模、自然语言生成等多个环节,显著简化了系统结构。

02

以人为中心的评估方法(Human-centric Evaluation)

1. 技术背景

事实上,以人为中心的评估方法在推荐系统领域并不是新话题。早在 2006 年,就有相关论文提出相关理念。那是一篇发表在人机交互顶会(CHI)上的扩展摘要(extended abstract),尽管篇幅不长,但具有很大影响力,目前引用数已超过 1400 次。

该论文指出,推荐系统领域过于关注推荐算法的准确性(accuracy),实际上反而有可能削弱了推荐内容的价值。通俗来说,就是系统在客观指标上表现很好,但用户的主观体验却未必满意。

造成这种背离的原因可能有很多,例如:

忽视用户个体属性的差异;未能有效建模用户的历史交互;用户画像的构建中存在偏差(bias)等。

因此,一系列研究开始批判这种仅依赖客观指标进行推荐系统评估的方式,呼吁引入以人为中心的评估维度。这种评估理念也与当前人工智能领域所倡导的人本智能(Human-Centered AI)高度契合。我们不仅需要改变评估的方法论,还需要开发合适的评估工具。

具体而言,我们并不打算在此详细介绍所有可能的方法(如用户实验、共创工作坊等)。这些方法在人机交互领域已有广泛应用。而我们更希望强调一个重点:设计一套高质量的量表(问卷)工具,让用户在实际使用系统后,通过主观反馈对系统进行系统化评估。

2. 经典框架

如下图所示,我们参考了 ACM RecSys 会议上一篇具有代表性的研究,提出了用于传统推荐系统的用户体验主观评估框架。该框架包括以下四个核心维度:

感知质量用户信念主观态度行为意向

这些维度下还细分出多个具体影响因子,能够较为全面地评估用户对推荐系统的整体满意度和接受程度。

在此基础上,另有一项非常有影响力的扩展研究引入了两个新的重要维度:

场景特性:引入上下文;个人特征:如个人便好、技术依赖等。

研究者构建了一个因果模型,用于量化用户体验,解释这些变量之间的因果关系。例如:个性化设计可正向影响用户对推荐质量的感知;感知质量进一步提升用户的满意度;满意度又正向影响用户对系统的反馈意愿。

这种因果关系图帮助系统设计者更好地理解用户体验,并据此优化系统架构。

在上述框架基础上,我们结合了对话式推荐系统的特点,进一步扩展了评估体系。对话推荐不同于传统推荐系统的最大特点在于其交互形式为“对话”,因此在评估中必须引入“对话维度”的评估方法。为此,我们借鉴了对话系统(不局限于推荐领域)中的大量质量评估工作,构建了适用于对话推荐系统的对话质量评估维度。

首先是推荐内容的准确性与解释性,其次是内容的新颖度,以及用户是否能够对推荐内容进行有效反馈。关于“信念”维度,指的是用户对系统推荐的可控性:如果用户觉得推荐结果不理想,是否可以通过某种方式影响系统,从而纠正对其偏好的理解。此外,我们还考虑了系统的易用性与有用性,这些维度在信息系统评估中是非常常见的。最后,我们也评估了系统的透明度,这一维度与当前广泛关注的可解释性 AI 设计密切相关。

在对话层面,我们也做了相应的总结,并映射到了前文提到的四个主要模块中的前两个维度。对话质量主要体现在系统对用户语言的理解力及其回复的质量。同时,我们关注系统是否能够适应用户不断变化的偏好,以及系统在对话过程中是否表现出足够的专注性,避免偏离当前任务话题。

协同性也是一个重要指标,衡量系统与用户的交流是否同步,避免出现“鸡同鸭讲”的情况。对话的积极性指系统在用户未回应时,AI 是否会主动关心用户是否存在理解障碍,是否愿意重新说明内容,从而体现对话的主动性与人性化。

我们还关注用户在对话中是否建立了与 agent 之间的亲密感,以及对话是否足够有吸引力,让用户愿意持续互动。此外,人性化程度也是评价对话质量的重要因素,即系统是否表现得像一个真实的人,而非仅仅是一个冷冰冰的机器。

在用户态度与行为意向方面,我们采用的是通用维度,不区分推荐还是对话场景。这包括用户对系统的信任、对推荐内容的信心、整体满意度,以及用户是否有意愿采纳或购买推荐内容。这些维度在信息系统评估中同样非常常见。

03

CRS-Que 框架

在此基础上,我们进一步构建了一个新的评估框架。我们将其命名为“CRS-Que”,实际上是对先前介绍的 ResQue 框架的扩展版本。我们将对话模块纳入其中,并整合为四个主要评估方面,以检验该框架是否能有效评估对话推荐系统。

我们设计了两个用户实验,借助实验心理学的方法(如结构方程模型)来分析不同因素间的因果关系:

第一个实验系统基于音乐推荐对话系统,第二个系统则聚焦于手机推荐。两个实验的区别在于用户参与度的不同:音乐推荐通常对用户影响较小,因此用户交互频率低,而手机推荐则更为关键,用户更倾向于花时间深入互动,以做出更慎重的决策。

1. 音乐推荐系统测量

在音乐推荐实验中,我们设置了两种用户反馈机制:一种由用户主导,用户主动提出需求;另一种由系统主导,系统根据用户的历史行为主动提出建议。后一种方式实际上是混合模式,在适当时机会触发系统引导。我们希望通过比较这两种方式,了解它们对用户体验的具体影响。

例如,用户主导的方式下,用户可能主动提出希望听一些更有活力的音乐,系统会据此响应。而在系统主导的方式中,系统可能根据历史数据提出新的音乐风格建议。这两种方式体现了用户反馈机制的不同。

我们还展示了实验的受试者招募情况,以及用于衡量不同潜变量的量表的可靠性检测。我们评估了内部一致性与收敛效度,以确保问卷中设计的问题能够准确测量对应维度(如新颖性)。最终,我们保留了一系列有效问题,用于后续的用户评估。

实验结果显示,推荐内容与对话质量都会对用户体验产生显著影响,二者之间还存在交叉效应。

在音乐推荐中,系统如果能更好地适应用户偏好,将提升用户对回复质量的感知,以及建立更强的亲密感。这一发现是以往研究中较少关注的。

2. 手机推荐系统测量

第二个实验聚焦于手机推荐,我们操控了两个变量:一个是系统的人性化程度,另一个是推荐内容的解释性。

我们设计了一个 2×2 实验,其中人性化程度通过是否展示系统身份和对话方式体现,解释性则通过是否提供推荐理由体现。例如,有解释性的系统会向用户说明推荐与其偏好的匹配逻辑,而无解释性系统则直接给出推荐而不加说明。

我们展示了用户样本的基本信息及量表的可靠性指标,并基于选定的评估维度分析结果。

实验发现,提供解释性推荐能显著提升用户对对话的感知,特别是在系统倾听能力、人性化程度等方面。此外,更高的人性化设计也能提高用户对系统的满意度与信任度。

3. 结论

综合来看,我们的研究发现推荐内容与对话设计往往是交织在一起的。无论是推荐还是对话,其最终影响路径都通过用户态度间接影响其行为意向。而“亲密感”是影响对话推荐系统用户体验的关键因素之一。

我们提供的问卷设计是开放的,研究人员可以根据具体任务场景和算法灵活选用问题项。我们还设计了一个简化版本,每个维度仅选一个问题用于快速评估。

当然,我们的研究也存在一些局限:当前实验系统并未基于大模型,交互方式以文本为主,样本量也相对较小。因此,我们随后又设计了一个以 ChatGPT 为基础的推荐评估实验。

04

基于 ChatGpt 的推荐系统评估

截图展示了 ChatGPT 在推荐任务中的表现:系统在每次推荐后主动引导用户反馈,并根据反馈持续优化推荐内容。

这种大模型推荐系统在对话能力上有明显优势,但也存在幻觉问题,或在用户交互学习方面有所欠缺。

在这个实验中,我们设置了两个变量:一是是否辅助用户构建 prompt,二是推荐内容的不同应用场景(如书、职场)。我们采用前述简化问卷对用户进行评估。

实验发现,引导用户构建 prompt 能够有效提升其对系统可解释性、易用性、透明度及自适应性的感知。

我们发现,在 domian 层面图书推荐场景中,相较于传统方式,通过引导 prompt 的方式所生成的推荐结果,其新颖度更高,用户的使用意愿也更强。

这从实验结果上验证了不同提示方式(prompt framing)之间确实存在显著差异。同时,我们也观察到了两个因素之间的交叉效应,即 prompt 方式与用户响应之间会相互影响,从而影响到我们对用户体验的评价。

此外,用户过往使用推荐系统的经验也会对 prompt 引导的效果产生影响。特别是在可解释性、易用性和系统透明度这几个维度上,不同用户背景带来的差异表现得更为明显。

总结而言,基于大语言模型(LLM)的对话式推荐系统在个性化、易用性以及响应速度方面表现出色,能够快速给出反馈,并时常带来一些出人意料的、有趣的推荐内容。但它同样存在一些明显的不足,例如缺乏对细节的深入理解,以及用户对系统生成内容真实性存在一定的担忧。

这项研究的一个重要启示是,在设计 prompt 引导方式时,应充分考虑不同 domain 方式之间的差异。同时,LLM 的发展也对提示词设计带来了深远影响,随着技术演进,prompt 的设计策略也应不断调整和优化。尤其是,应根据用户的个体差异进行个性化的 prompt 设计,以适配不同用户的需求和特性。

最后,我们认为,在评估对话式推荐系统的过程中,必须关注“人”的价值,即以人为中心进行系统设计和评估。当我们研究这类系统如何影响人机交互时,应同时考虑它所带来的新机遇与挑战。

05

Q&A

Q:由于对话推荐系统处于推荐与对话的交叉点上,那么它在对话系统层面的建模是否足够深入?比如,一个理想的对话系统往往会具备良好的记忆机制、个性化调试能力,以及针对题。当前主流的对话推荐系统,更关注的是如何通过对话获取用户偏好,从而构建更准确的用户模型,以提升推荐效果。换言之,对话更多被视为获取偏好的手段,而非真正被深入建模与理解。

A:许多研究者在将对话内容解析后,用于改进用户建模,但并未充分利用对话中所蕴含的丰富信息。例如,用户的语气、语言风格、表达方式等,往往都反映了其对推荐内容的态度与情感。而如果仅关注表层的语言内容,显然是不完整的。

未来,推荐系统的发展应更加注重全面的信息捕捉,甚至引入多模态信息处理(如语音、情绪等),将对话模块与推荐模块进行有机融合,而非将前者仅作为后者的输入。这样,系统才能实现真正的深度整合,提供更具人性化与智能化的推荐体验。

以上就是本次分享的内容,谢谢大家。