Personalized Dialogue Generation with Diversified Traits

0.Abstract

是否可以考虑嵌入隐式特征？

本文使用的数据库中特征包括年龄、性别、位置、兴趣、标签(Tags)等等

提出：seq2seq框架中的性格感知对话生成模型

显式性格特征用键值对构成，解码过程中用性格感知注意力 persona-aware attention和性格感知偏置 persona-aware bias来捕捉并处理与特征有关的信息。

1.Introduction

总结过去

性格设置包括年龄、性别、语言、说法风格、知识水平、专业领域甚至合适的口音。

个性化可分为显式和隐式

显式：用户用个人画像（键值对）或文字描述的性格依赖手工标注的数据或众包对话，因此对于大规模数据集不具备扩展性

隐式：用户用向量表示简单成功/可解释性差；数据稀疏

自己的工作

性格可视为多种性格特征的综合

一个个性化的对话agent应该拥有多种特性，并能够决定在不同的语境中应该表现哪种性格。

每个说话者的性格用许多性格特征代表，性格特征用键值对的形式给出，特征值相同（例如都是女性）可以共享特征表示（trait representations）
the use of such persona information can be captured implicitly by data-driven methods that are scalable to large-scale corpora.这些性格信息的使用可以用可扩展的数据驱动的方法隐式捕捉
研究性格特征如何在语言表达中表示出来。

每个说话者的特征编码成嵌入向量，不同特征合并来产生性格表示
产生表示的过程中应用了两种方法：性格感知注意力机制（性格表示用于产生注意力权重来在每一个解码位置获取context vector），性格感知偏置（估计词的生成分布）

We propose persona-aware models which apply a trait fusion module in the encoder-decoder framework to capture and address personality traits in dialogue generation. We devise a persona-aware attention mechanism and persona-aware bias to incorporate the persona information in the decoding process. Experiments demonstrate that our model is able to address proper traits in different contexts.我们提出了一种基于特征融合模块的角色感知模型，该模型采用编解码器框架中的特征融合模块来捕获和处理对话生成中的性格特征。我们设计了一种角色感知注意机制和角色感知偏见来将角色信息融入解码过程。实验表明，我们的模型能够在不同的环境下处理合适的特征。

建模电影角色：3，8;隐式+神经模型:20,23,31,45,46,48;显式：26,47

3 A Movie Dialogue Corpus for Research and Development. ACL 2012

8 Chameleons in imagined conversations: A new approach to understanding coordination of linguistic style in dialogs. ACL 2011

20 Exploring Personalized Neural Conversational Models, IJCAI 2017

23 A Persona-Based Neural Conversation Model, Li Jiwei, 2016

31 Addressee and response selection for multiparty
conversation, EMNLP 2016

45 Group Linguistic Bias Aware Neural Response Generation. 2017 Workshop Ijcnlp

46 Addressee and response selection in multi-party conversations with speaker interaction rnns, arXiv 2017

48 Neural personalized response generation as domain adaptation, WWW 2017

26 Training Millions of Personalized Dialogue Agents, 2018 arXiv

47 Personalizing Dialogue Agents: I have a dog, do you have pets too? ACL 2018

3.Model

关系的亲疏？
在seq2seq中配备一个性格特征融合模块 a personality trait fusion module，用它计算一个整体的性格表示$v_p$, 然后令其作用于解码过程。
两种利用$v_p$解码的方法：

persona-aware attention mechanism 可识别人格的注意力机制
persona-aware bias 可识别人格的偏置机制

3.1 Task Definition and Overview

$Y* = \mathop{\arg\max}_{Y} P(Y|X,T)$

T是特征集，其中每个$t_i$是键值对
三种用于生成人物角色表示$v_p$的性格特征融合方法，两种将$v_p$引入解码过程的方法。（三种编码方法，两种解码方法）
解码：

使用$v_p$在每个解码位置生成注意力权重，使得在每个位置计算的context vector受$v_p$的约束
直接在估计生成分布时使用能识别人格的bias

3.2 seq2seq

带attention
encoder:两层双向GRU；decoder:两层GRU

3.3 编码 Personality Trait Fusion

每个特征->representation vector $v_{t_i}$
所有特征融合成$v_p$。特征表示集合${v_{t_1} ,v_{t_2}, …,v_{t_N} }$使用人格特征融合函数表示成persona representation $v_p$
我们首先计算一个整体的性格表示$v_p$, 然后令其作用于解码过程。
$v_p$是特征融合，因此要先表示出每一个特征。$v_p$的构建开始于将每个特点$t_i$使用相应的特征编码器(corresponding trait encoder)映射为一个嵌入表示$v_{t_i}$。本文考虑的特征全部都是单值的single-valued，故可以直接查表look-up tables.
其它类型特征e.g.一个个人介绍句子：可以用LSTM

使用了三种不同的合并方法：

Traits Attention 权重
Traits Average 平均 $v_p = \frac{1}{N} \sum^N_{i=1}v_{t_i}$ 是所有特征权重相等的attention特例。
Traits Concatenation 串联
$v_p$长度(=$d_p$)要能被$N$整除,每个特征的向量表示$v_{t_i}$是$d_p/N$

3.4 解码 Decoding with Persona Representation

3.4.1 Persona-Aware Attention(PAA)

扩展了decoder中注意力权重的计算，不仅依赖于decoder的状态，还依赖于人格表示$v_p$

$\begin{align} e_i &= MLP(s_{t-1},h_i,v_p) &= V·tanh(W^1_{\alpha}s_{t-1}+W^2_{\alpha}h_i+W^3_{\alpha}v_p) \end{align}$

其中$V \in \mathbb{R}^{d_s},W_{\alpha}^1 \in \mathbb{R}^{d_s × d_s},W_{\alpha}^2 \in \mathbb{R}^{d_s × d_s},W_{\alpha}^3 \in \mathbb{R}^{d_s × d_p}$是可学习的参数。$e_i$是计算注意力权重时softmax的输入。

3.4.2 Persona-Aware Bias(PAB)

原始seq2seq的输出层：

$y_t = softmax(W^1_os_t+b_{out})\\ s_t=RNN(S_{t-1},c_t,w_{t-1})$

尝试在decoder输出层包含$v_p$。特别的，将人格偏置包含上面的公式中来获取生成分布。设计一个门gate来平衡原始项和人格偏置项。

$y_t = softmax(a_t · W_o^1s_t +(1-a_t)·W_o^2v_p + b_{out})\\ a_t=\sigma(V^T_o·s_t)$

其中$w^1_o \in \mathbb{R}^{|V|× d_s},W^2_o \in \mathbb{R}^{|V|× d_p},V_o \in \mathbb{R}^{d_s},b_{out} \in \mathbb{R}^{|V|}$是可学习的参数。
尽管$v_p$带来的偏置看起来是上下文独立的（可能会在每个解码步独立选择词语），计算得的scalar variable $a_t \in [0,1]$起到门的作用，控制多少人格相关的特征可以包含在每个时间步里。它可以决定是使用特征相关词语trait related word还是语义相关词语semantic related word，并因此作出一致的回复。
PAB在影响生成分布时更为直接，且效果通常好于PAA。《Low-Rank RNN Adaptation for Context-Aware Language Modeling》《Emotional chatting machine: Emotional conversation generation with internal and external memory》（ECM）使用了相似的模型结构。

4.`PERSONALDIALOG`数据集

5.

joint learning 与（从语句中抽取属性）联合训练
关系会演进，而不是一成不变~感情会变-emotion~人工智能是万能的而人不是（考虑百科词典的例子）——情感何时转换？