RNN理论发展历程
2014年 Seq2seq - GRU
- Learning phrase representations
- Seq2Seq Learning with NN
2015年 Attention 出现
- Neural Machine Translation https://arxiv.org/pdf/1409.0473.pdf
2015年 Attention 概念延伸
4.Etfective Approaches to Attention-based
2017年 Cnn 取代Rnn,做Attention
5.Convolutional Seq2seq Learning
2017年 Self-Attention取代Cnn-Rnn
- Attention is all you need https://arxiv.org/pdf/1706.03762.pdf
- Atrank: An Attention-Based User Behavior
特征提取的预处理
1 分词(Tokenization)
把句子按照单词进行划分, 分割成单词的列表.
2 去掉停用词
3 归一化处理(Normalization)
4 特征提取
n元语法(n-gram),一元语法(unigram), 二元语法(bigram), 三元语法(trigram)
通过多个单词的组合, 可以容易得到统计概率最高的n元语法的单元, 从而获得单词之间最有用的组合.
统计一个文档中n元语法出现的次数(如果是一元语法, 则统计的是某个单词的出现次数). 工具:sklearn
词嵌入层
单词的独热编码(One-Hot Encoding), 能够作为神经网络的输入,用于自然语言处理深度学习模型的训练.