1.lstm

在人工智能研究领域,有两个挑战,那就是如何建立一种模型,能够通过多重计算步骤,解决一个问答任务的同时能够清楚的描述这些语料序列的长距离的依赖关系。

换句人话就是:揣摩圣意,投其所好,不能瞎蒙。

揣摩圣意就要了解领导的一举一动,所有信息都要收集,一点都不能放过,

于是,科学家们想出了无限循环神经网络RNN。这个无限循环网络包含一个存储结构,能够无限存储所 有经过它的信息。

大家一起拍手称快,但是问题来了,无限存储的本质其实就是什么都没有存,工程师们很严肃的提出了这个问题。

于是,为了这么一个人神共愤的难题,科学家们又多了许多白头发。

于是,时势造英雄,LSTM闪亮登场。。。。

这里撒个花,初看LSTM,真TM的惊艳啊,主要是太花了,直接看懵了。

来同学们先感受一下:



LSTM干了什么解决了无限存储的问题?

那就是记忆网络,记忆网络的本质就是选择性存储,你不是无限循环最后存不下来吗,选择一下不就行了,把那些不需要的都删除。

于是,这个基于无限循环神经网络RNN发展出来的记忆网络真是喜大普奔,人见人爱,花见花开。最红的当然是LSTM还有它的好基友GRU。

让我们看看LSTM都干了些什么这么招人喜欢,

三大门神+市场反馈,上面LSTM结构图中,右边三个红色的圆圈就是三大门神,控制着左边红色圆圈中的存储体的信息存储,同时有来自结果的反馈控制着三个门神。

这三个门神的作用如下:

忘记门:控制着库房(存储系统)该清理清理,该删除该删除。
输入门:什么东西合格可以进,什么东西不能进。
输出门:最近市场不错,库里正好有一批赶紧能出去卖了。

市场反馈:然后卖完东西之后,市场反应不太好,三大门神都有责任,立马换人,新一轮周期开始。

多么完美的一套现代企业运作机制。

神马?你看的更懵了?同学,这样不好。。。

好吧,让我们实际的感受一下,http://smartanni.com/write

2.LSTM的问题

关于深度学习有这么一种说法,

“大部分深度学习模型都缺乏一种途径能够简单的读写具有长效记忆的内存组件,那么这些模型就无法从这种组件中提取有用的记忆。”

这就话通俗解释就是不理解记忆,永远都不会提高。

比如说,当人们听到一个故事或者解决一个困难后,大脑就会提取这个故事中的有用信息并且存储,下次碰到同样问题立刻就能将这种经验信息提取出来,快速解决问题,假如没有这种记忆系统,那么这个人就永远处于一种婴儿状态,没办法成长。

有人说LSTM不就可以记忆,LSTM模型的记忆系统主要解决的问题是长时间序列的选择记忆,

也就是说LSTM能够根据时间顺序,来记忆一个事件或者序列的前后关系,通俗讲就是模仿,

例如一首诗,LSTM能通过反复学习来记忆词与词之间的搭配,然后就能简单的做出类似于它所学习到的诗,

但是要是说根据一个主题来创造一首诗,I am sorry,,LSTM同学做不到。

那么问题出在哪里?那就是注意力(Attention),LSTM 在学习的时候不会去关注它所学习的东西的深层意义。


3.注意力模型(Attention Model)

什么是注意力?有人说注意力 (Attention)类似于女人的第六感。。。

太玄了,太唯心了,作为一个唯物主义劳动者,还是说点人话吧。

当我们观察这个世界的时候,总有一个焦点,整个世界在你面前,但是你的眼里只有一个关注点,

一个人,一个物体,或者一个事件,

这个关注点就是注意力,在互联网时代赢得注意力,就赢得了整个世界。

那么问题来了,再怎么唯物主义,这种关注点都带有某种心理学的影子,怎么把这种注意力转入AI的世界,让机器也有这种第六感呢?

那就是注意力模型(Attention Model)。

AI的时间没有玄幻,没有心理学,一切都是模型说话。

从注意力到注意力模型是一个怎么样的转变?

人类在成长过程中因为环境,个人因素,会形成不同的关注点存储在大脑里,比如男人关注女人,女人关注购物,小孩子关注玩具等等,并且随着时间的推移不断在变化,当一个新世界摆在面前时,这些存储在大脑中的关注点记忆就会发挥作用,影响眼睛和大脑聚焦在与关注点相关的东西上。

相关性(correlation),没错这个在机器学习中普遍的不能在普遍的概念就是注意力模型的核心所在。



4.记忆网络

了解了注意力模型,我们该怎么把它与深度学习系统有机的结合起来呢?

那就是记忆网络:




记忆网络由记忆系统M和四个控制组件组成。

这个记忆网络是一个框架结构,每个组件都可以是一个独立的系统,

可能是一个门,一个RNN,一个LSTM,或者一个机器学习模型(SVM),具体结构取决于特定的功能。

I系统:这个组件系统将输入序列转换成一种特征数据的表达。

G系统:存储更新系统,根据输入信息来更新存储信息。

O输出:根据I系统和G系统,来决定输出信息

R反馈:根据I,G,O来决定反馈。

整个系统的输出在R,在得到系统输出的同时,将误差反馈回系统,更新系统。

《问答系统的设计》更多后续内容,
请下载客户端观看,
基于lstm的问答系统的设计(2)