指点成金-最美分享吧

登录

最新库里动态壁纸超清

admin 举报

最新库里动态壁纸超清与库里

最终我们使用的有效可用的推荐原因训练数据量超出,基本达到了目前淘宝平台上可用训练数据的极限。

6.2型号

该领域最近的发展主要得益于参考NMT领域的突破。下图显示了NMT的标准结构。在该阶段,将输入序列的信息传递到固定向量h_|F|,并根据h_|F|,对输出序列逐个解码。

但是在标准结构中,源信息是通过RNN_forwardencoder编码成固定大小的向量,而RNN本身就存在长距离依赖的问题,将任意长度的句子编码成固定长度会导致句子过长时无法充分表达源文本信息,句子过短时不仅浪费存储和计算资源,而且容易过拟合。显然,是时候让《关注》上台了。注意机制允许在解码过程中动态搜索源文本中与预测的目标单词相关的部分,这很好地解决了上述问题。下图是大家比较熟悉的Bahdanau-Attention对齐模型的算法原理和对齐效果示意图,不再赘述。

我们的Data2Seq(D2S)模型主要借鉴了NMT基于注意力的data2 seq 2 seq模型,其核心框架也是编解码。然而,通过深入思考下两个任务的特点,我们可以很容易地发现,D2S与NMT有很大的不同,正是这些不同决定了我们不能简单地用适用于NMT领域的编解码结构来理解D2S模型。以下是NMT和D2S的对比图:

NMT和D2S最大的区别在于,其任务中的输入和输出可以理解为一一对应和可逆的。例如,在上图中的汉英翻译的例子中,“团结就是力量”和“联合就是力量”是可逆的,这意味着它们在虚拟的“世界语”语义空间中共享相同的代码,这也是NMT可以进行迁移学习的一个重要原因,即通过汉英翻译和汉英翻译,英语翻译可以很容易地被翻译。

在D2S任务中,即使输入相同,不同的输出可能是正确的,也就是说,输入和输出是一对多的。显然,无法将输出文本还原为输入文本。这个很好理解。比如不同专家选择的卖点和最终的介绍文字可以完全不同,但也可能都是正确的。从这个观点来看,输入端的额外设计控制条件是由D2S模型的一对多特性决定的,甚至是必要的。模型的最终控制能力是结果而不是原因,不是为了控制而控制。从另一个角度来看,控制部分实际上对应于第三部分中描述的传统NLG过程中的通信目标模块。

因此,基于上述考虑,我们建议将整个D2S模型分为三个部分:数据/序列/控制:

数据端:

它涉及到数据表达和建模的方式,即如何体现素材库的内容。本章介绍了数据端的编码器方法,重点介绍了数据端的三种测试模式和动态数据的训练。

序列末端

:核心在于生成文本序列的能力。一般来说,最简单的Seq端是N-Gram模型。Seq指基于RNN(或其变体LSTM/GRU)的语言模型。我们在这里可以发挥的是,解码器设计更复杂或更精细的模型,使用越来越精确的训练数据,使模型具有很强的表达能力。本文主要介绍深度剩余连接网络的应用。

控制端

这也是D2S独特而又非常重要的一部分。如上所述,产生流利的语音从来都不困难。重要的是如何从不同维度精确控制Seq的生成,引入重复问题控制、结果正确性、话题相关性、长度控制、风格控制、卖点选择控制、多样性控制等。这也是NLG研究的热点。为了实现这种控制,需要同时对模型的编码器和解码器施加力,并且在解码和预测的同时进行控制。

下图显示了D2S模型的整体结构。我们实际使用的模型是这个模型结构的一个子集。编码器分为两部分。编码方式包括CNN美国有线电视新闻网和简单嵌入。解码器生成文本时,通过注意力机制选择卖点,控制信号在DecoderRnn和预测下一个单词的Softmax层输入之前参与控制。接下来,我们将按照数据/序列/控制的顺序介绍我们的工作。最后,我们将简要介绍我们在库存生成方面的工作。

6 . 2 . 1数据侧

6 . 2 . 1 . 1数据表示

如下图所示,D2S的输入数据(即“卖点”或“话题”)由两个字段联合表示:关键字和值。其中KEY是知识库的词条类型ID,即KID,Value是由知识图谱中同义词的知识统一后的词条ID。比如产品原文有‘Channel’,对应型号的输入题目是“KID=brand沃勒=香奈儿”。除了KID识别和同义统一,我们还利用知识地图的扩展信息来扩展主题的覆盖范围。例如,对于香奈儿,我们还将扩展“品牌产地:法国”、“品牌等级:奢侈品”等信息,以丰富我们的输入信息。

KID识别和同义统一有两个优点。第一,KID的引入赋予了模型很强的泛化能力,可以起到类似‘模板’的作用。对于一个稀有值,我们可以通过KID知道如何表达和描述。后面要介绍的动态信息的训练也是借助KID实现的。其实,其实Copy机制其实是实现了的;其次,通过同义词对Value进行归一化后,噪声数据更少,更容易学习模型,因为数据方更关心语义信号而不是表达多样性,语义归一化的必要性自然是非常必要的选择。

在模型的具体语义表达方面,主题的键和值有一个独立的嵌入信息来获得它们的语义维度表示,它们连接在一起得到模型中主题的表示。对于整个输入的表示,我们对比测试了三种模式的编码器方法:RNN、CNN和Concat。最后使用的方案是Concat模式,即只使用主题的Key和Value的Embedding语义编码作为编码器级的输出,输入不需要RNN或CNN提取特征。

Encoder使用的Concat模式乍听起来很奇怪。除了考虑降低计算复杂度,最重要的原因是RNN和CNN都是通过捕捉局部相关性来发挥作用的。在自然语言领域,他们提取类似于n-gram的信息。但在Data2Seq模型的设计中,实际上不同的话题是独立的、无序的,CNN和RNN模型在这样无序的假设下是无法工作的。否则,对于同样的输入,打乱顺序后捕获的语义表示会发生变化,这显然不是我们想要的。实际数据的检验也证实了我们的假设。即使在我们不认同的ROUGE指数和mleloss上,RNN模型也没有表现出明显的优势,具体的实验数据需要回归。

6 . 2 . 1 . 2数据数据内容和结构

在解决了数据的表示后,数据包含什么内容,采用什么结构是一个亟待解决的问题。我们参照百度论文的实践,设计了一个基于规划的D2S模型。百度诗歌写作的训练数据见下图,直接提取KeyWord(下图第一列)作为目标内容(即诗句)中的数据部分,将前面的诗句训练为Context。在预测阶段(下图二),用户的查询经过关键词提取关键词扩展阶段后,规划四个关键词,然后一步一步生成每行诗。

这种结构看似流畅,其优点是可以借助知识图谱,通过Keyword进行扩展。如下图所示,也可以通过输入“奥巴马”来规划“西风/巴马”“总统”“美国”“民主”。但是这种方法最大的问题是规划非常困难。另外,诗景前后两句虽然有联系,但本质上是独立的,在一定程度上是可以断开的。所以无论百度写诗还是微软萧冰写诗,都可以用这个结构。但是,我们推荐商品的原因是连续段落,因此我们不能在此级别使用基于计划的方法,但我们可以尝试在段落粒度使用计划。

在实践中,我们发现基于计划的方法的优点是可以随意控制题目,但具体问题是计划题目之间的匹配会导致更多不尽人意的案例;另外,这个模型只能学习直接关系。比如输入题目是“五条裤子”,生成的文本很难有类似“半条裤子”这样的词,也就是模型有点“直”。为了解决这个问题,下图显示了数据端的内容和结构设计:

如上图所示,DATA部分有两个来源,一个是图中的蓝色部分,来自商品理解的结果,另一个是目标文本理解的结果,两部分有一定的交集。基于计划的模式是我们前面说过的。数据结构分为两部分,一部分是核心主题,另一部分是上下文主题;第二和第三模式只有一层平面输入。不同的是,Item-Topicsmode中的所有话题都来自商品本身,而All-Topicsmode则是商品和目标聚集的结果。

最后,在模型中选择了全主题模式,在预测中使用了项目主题。Item-Topicsmode之所以最后没有使用,除了mleloss明显下降之外,主要原因是,根据我们的分析,其实内容中的话题和商品中的话题的交集远没有我们想象的那么高,只有20%左右,也就是说模型会学习没有卖点a的情况下,撰写卖点a相关文字的模式,会导致很多产生的内容与源卖点不匹配的情况。但是很容易理解,从内容中提取的话题并不完全存在于商品话题中。有些是专家通过图片或细节页面获取的,难以提取信息。有差集很正常。

All-Topicsmode最大的贡献就是保证了预测结果的正确性。此外,与基于计划的模式相比,这种方法的最大优势在于它使模型能够选择卖点。下图是8月份搜挑顶货场景中导购短句的整句举例,也是商品的短裙类。仔细看四种商品的导购短句,每种商品提到的卖点还是很独特的。

6.2.1.3动态数据培训

以上主要是针对静态数据训练相关的设计,但是前面提到过,D2S模型很重要的一点就是通过动态数据获取更多的信息,写出更多的干货。然而,动态数据的样本实际上很难标注。接下来以‘时尚潮流’等动态数据的训练为例,简单介绍一下我们的实践。

在训练阶段,我们首先通过先验规则和W2V语义相似度挖掘与流行趋势相关的词,如“热门”、“热门”、“热门”,然后用“KID=热门”替换短句最可能卖点的原KID。在预测阶段,将从数据中挖掘出的热门卖点替换为“热门”,生成的数据效果如下:

第一款产品,我们把“KID=color Value=深棕色”的KID换成了“KID=popular”,单款产品推荐理由是:“这件深棕色毛衣今年很流行,很有女人味。西装穿在身上很显瘦,还能很好的拉长腿部线条,很高。”它准确地描述了深棕色的流行趋势,这是有根据的,关于流行趋势的说法很多。

当然,完全替换KID会导致商品丢失,并且丢失了原有的KID信息,所以我们在补一个实验,在加两个KID后得到一个新的KID。

最新库里动态壁纸超清与库里

6 . 2 . 2均衡结束

基于6.2.2.1的单层RNN语言模型

简要介绍基本的RNN-语言模型。语言模型本身就是计算一个句子E=e_1,e_2,e_T(e_t是第T个单词)是一种自然语言。语言模型的目标是

不难看出,语言模型的核心问题可以转化为预测P(e_t|e_1~e_t-1),即根据e_1~e_t-1预测e_t,最简单的是基于统计的n-grammm(language model),即预测e_t时只考虑前n-1个词,下图是基于NerualNetwork的三grammm。显然,在估计e_t值时应考虑e_t-1和e _ t-2。我们常用的Word2Vec是NN-LM的查找表的中间产物。

但显然NN-LM无法摆脱其本质是n-gram模型的缺陷,即建模长度有限,最多只能使用前n-1个单词,上图中的concat模式下增加了N个单词,由于之前位置的权重相同,模型的学习效果会下降。其实在自然语言中,远距离依赖是很常见的。例如,在下面的例子中,在估计‘他自己’和‘她自己’时,显然分别依赖于句前的‘he’和‘She’。

下图是RNN-LM的公式。m_t是第t-1个字的嵌入结果。与NN-LM不同,RNN-LM只有一个输入,因为之前的信息集成到h_t-1中,所以不需要直接把之前的序列作为输入。当然,RNN本身就有梯度消失的问题,而内容生成模型的解码器端实际上使用的是RNN的variantLSTM。

6.2.2.2多层剩余连接网络

因为我们使用大量的训练数据,所以它可以支持我们在模型的解码阶段尝试复杂的模型和大容量的模型。我们在这方面的主要尝试是从网络宽度和网络深度的角度。在网络宽度方面,我们主要测试了增加num _ hiddensize,效果相当明显。在网络深度方面,我们测试了下图中剩余连接模式的stackedRNN。

以下是不同版本的电子邮件丢失的变化。单层网络剩余连接的损耗下降意味着在估计前一个词时,直接将前一个词作为输入是有益的。增加网络的宽度和深度可以减少损失,但是受到模型容量问题的限制。目前只有num_hidden=100,4层的剩余网络可以在16G单卡GPU中测试到最大。

在这一部分,我们打算尝试DenselyConnected Deep Network和RecurrentHighwayNetworks这两个被其他项目优先级挤压的项目,暂时搁置,待后续实验后再进行补充。

双层RNN网络在6.2.2.3的尝试

我们在Seq的网络结构上进行了尝试,如下图所示。核心点是将句子维度和单词维度的两层RNN网络拆分,也是两层注意力在卖点选择上的联合作用。我们之所以尝试双层RNN,是希望模型在较长的空间里能有更好的书写能力,只是暂时的实验效果不明显。分析的主要原因是推荐原因的训练数据并不像诗词那样自然有很好的断句效果,人才的内容断句质量很差,对效果影响很大。

6 . 2 . 2 . 4复制机制

本质上,复制机制基于组合生成和提取模型。这方面的研究很多,主要是为了解决OOV的问题。我们使用的方法将指针和生成器分开,以分别训练指针/生成器和概率网络。另一个例程,如上面的整体框图所示,使用P/G值来对源处的注意力向量的概率和每个单词找到max的概率进行求和。这种方法的原理比较合理,但是训练非常慢,没有在实践中使用。

事实上,当我们最新库里动态壁纸超清的训练数据充足且网络规模较大时,词粒度OOV带来的问题相对较少,词粒度效益检验不明显。在对复制机制更深层次的思考中,我们更想尝试的是如何将抽象的内容生成和生成性的内容生成有机地结合起来。比如我们分析,发行人的推荐原因数据和详细页面上的句子的交集还是比较高的,也就是说,在主写内容的时候,他也引用了详细页面的内容,这样的“引用”动作就是Copy机制需要携带的东西,远远不是词汇粒度的Copy而是句子-或者片段-粒度的Copy。我相信如果能很好的解决这个问题,对内容生成的技术领域会有很大的贡献,这部分工作我们还在推进中,就暂时放在这里,等有了结果再补充。

6 . 2 . 3控制结束

6.2.3.1软硬结合的控制策略

在控制端,需要完成对目标文本的控制,控制策略一般分为两类:软方法,即设计机制让模型自己学习目标端

相关阅读

  • 谁知道透明背景动态图片啊 透明背景gif动态图片
  • 手机性感美女舔屏动态壁纸图片大全
  • 最新库里动态壁纸超清