人工智能自然语言处理NLP

Posted by laosuan on July 4, 2022

RNN理论发展历程

2014年 Seq2seq - GRU

  1. Learning phrase representations
  2. Seq2Seq Learning with NN

2015年 Attention 出现

  1. Neural Machine Translation https://arxiv.org/pdf/1409.0473.pdf

2015年 Attention 概念延伸

4.Etfective Approaches to Attention-based

2017年 Cnn 取代Rnn,做Attention

5.Convolutional Seq2seq Learning

2017年 Self-Attention取代Cnn-Rnn

  1. Attention is all you need https://arxiv.org/pdf/1706.03762.pdf
  2. Atrank: An Attention-Based User Behavior

特征提取的预处理

1 分词(Tokenization)

把句子按照单词进行划分, 分割成单词的列表.

2 去掉停用词

3 归一化处理(Normalization)

4 特征提取

n元语法(n-gram),一元语法(unigram), 二元语法(bigram), 三元语法(trigram)

通过多个单词的组合, 可以容易得到统计概率最高的n元语法的单元, 从而获得单词之间最有用的组合.

统计一个文档中n元语法出现的次数(如果是一元语法, 则统计的是某个单词的出现次数). 工具:sklearn

词嵌入层

单词的独热编码(One-Hot Encoding), 能够作为神经网络的输入,用于自然语言处理深度学习模型的训练.