NLP經(jīng)典論文推薦:baseline paper(文本分類)

Word2Vec詞向量扛鼎之作
期刊日期
ICLR2013
論文名稱
Efficient Estimation of Word Representation in Vector Space
描述
提出兩個新穎的模型來計算詞的連續(xù)向量表示,這些表示的質(zhì)量用詞的相似度來計算,結(jié)果和其他表現(xiàn)最好的技術(shù)進行比較。我們發(fā)現(xiàn)有很大的提高而且計算量低,比如1.6百萬的詞只需要不到一天的計算,而且這些向量對于語義和語法的相似度的計算獲得最好的成績。
論文鏈接
https://arxiv.org/pdf/1301.3781v3.pdf
關(guān)注公眾號后臺回復(fù)“Word2Vec”,領(lǐng)取資料。
Glove最出名的詞向量訓(xùn)練方法之一
期刊日期
EMNLP2014
論文名稱
GloVe: Global Vectors for Word Representation
描述
學(xué)習(xí)詞的向量空間表示可以很好捕獲語法和語義規(guī)則信息,但是這些規(guī)則的起源并不透明。我們分析和闡明模型需要的這些規(guī)則。這是logbilinear regression模型,集合了全局矩陣分解和本地窗口大小的方法。模型訓(xùn)練在詞和詞的共現(xiàn)矩陣中,而不是整個語料庫的稀疏矩陣。
論文鏈接
http://emnlp2014.org/papers/pdf/EMNLP2014162.pdf
Char Embedding第一篇介紹字符嵌入的論文
期刊日期
EMNLP2015
論文名稱
Compositional character models for open vocabulary word representation
描述
我們引入了一種通過使用雙向 LSTM 組合字符來構(gòu)建單詞向量表示的模型。相對于每個詞類型都有獨立向量的傳統(tǒng)詞表示模型,我們的模型只需要每個字符類型一個向量和一組固定的組合模型參數(shù)。盡管這個模型很緊湊,更重要的是,語言中形式-功能關(guān)系的任意性,我們的“組合”詞表示在語言建模和詞性標注方面產(chǎn)生了最先進的結(jié)果。在形態(tài)豐富的語言(例如土耳其語)中,優(yōu)于傳統(tǒng)基線的優(yōu)勢尤為明顯。
論文鏈接
https://arxiv.org/pdf/1508.02096.pdf
代碼:
https://github.com/wlin12/JNN
TextCNN第一篇CNN用于文本分類的文章
期刊日期
EMNLP2014
論文名稱
Convolutional Neural Network for Sentence Classification
描述
本文報告了在預(yù)訓(xùn)練詞向量之上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的一系列實驗,用于句子級分類任務(wù)。我們表明,具有很少超參數(shù)調(diào)整和靜態(tài)向量的簡單 CNN 在多個基準測試中取得了出色的結(jié)果。通過微調(diào)學(xué)習(xí)特定于任務(wù)的向量可進一步提高性能。我們還建議對架構(gòu)進行簡單的修改,以允許使用特定于任務(wù)的向量和靜態(tài)向量。此處討論的 CNN 模型在 7 個任務(wù)中的 4 個任務(wù)上改進了現(xiàn)有技術(shù),其中包括情感分析和問題分類。
論文鏈接
https://arxiv.org/pdf/1408.5882.pdf
CharTextCNN第一篇字符級別文本分類模型
期刊日期
NIPS2015
論文名稱
Character-level Convolutional Networks for Text Classification
描述
一方面目前文本分類技術(shù)主要考慮詞或詞的組合;另一方面,研究表明,卷積神經(jīng)網(wǎng)絡(luò)在從原始信號中抽取信息的方面,非常有用。在這篇論文中,作者將字符級的文本當做原始信號,并且使用一維的卷積神經(jīng)網(wǎng)絡(luò)來處理它。研究表明,單詞嵌入表示可以直接用于卷積神經(jīng)網(wǎng)絡(luò),而無需考慮語言的語法或語義結(jié)構(gòu)。
這篇論文,僅僅使用字符,運用在卷積神經(jīng)網(wǎng)絡(luò)上。作者發(fā)現(xiàn),當訓(xùn)練大規(guī)模數(shù)據(jù)集的時候,深度卷積神經(jīng)網(wǎng)絡(luò)并不需要單詞層面的意義(包括語言的語法和語義)。這是非常激動人心的工程簡化,因為不管什么語言,它都是由字符組成的,因此這對于構(gòu)建跨語言的系統(tǒng)至關(guān)重要。還有一個好處,對于異常的字符組成(比如拼寫錯誤)和表情符,該模型依然能夠應(yīng)付。
論文鏈接
https://proceedings.neurips.cc/paper/2015/file/250cf8b51c773f3f8dc8b4be867a9a02-Paper.pdf
FastText細粒度的文本分類
期刊日期
EACL2017
論文名稱
Bag of Tricks for Efficient Text Classification
描述
本文提出了一種簡單而有效的文本分類和表示學(xué)習(xí)方法。我們的實驗表明,我們的快速文本分類器fastText在準確性方面通常與深度學(xué)習(xí)分類器保持一致,并且在訓(xùn)練和評估中速度快很多。我們可以在不到10分鐘的時間內(nèi)使用標準的多核CPU對超過10億個單詞進行快速文本訓(xùn)練,并在不到一分鐘的時間內(nèi)對312K類中的50萬個句子進行分類。
論文鏈接
https://arxiv.org/pdf/1607.01759v2.pdf
代碼:
https://github.com/facebookresearch/fastText
Deep_NMT使用LSTM解決機器翻譯問題
期刊日期
NLPS 2014
論文名稱
Sequence to Sequence Learning with Neural Networks
描述
DNN可以在有大量標記訓(xùn)練集下表現(xiàn)很好,但是無法處理用于序列映射到序列。在本文中,我們提出了一種端到端的序列訓(xùn)練方法,可以對序列結(jié)構(gòu)做最小的假設(shè)。我們的方法使用了多層LSTM將輸入序列映射成一個固定維度的向量,然后用另一個深度LSTM從向量中解碼出目標序列。
論文鏈接
https://arxiv.org/pdf/1409.3215.pdf
公眾號【學(xué)姐帶你玩AI】回復(fù)LSTM 領(lǐng)取論文資料
Bahdanau_NMT第一篇介紹attention的論文
期刊日期
ICLR2015
論文名稱
Neural Machine Translation by Jointly Learning to Align and Translate
描述
近年來,基于神經(jīng)網(wǎng)絡(luò)的機器翻譯模型經(jīng)常被用來處理機器翻譯任務(wù)。與傳統(tǒng)基于統(tǒng)計的翻譯方法相比,神經(jīng)機器翻譯模型意在構(gòu)建單個神經(jīng)網(wǎng)絡(luò)模型來提升整體翻譯準確率,主要的模型架構(gòu)基本都是seq2seq家族的。在本論文中,作者認為該模型的瓶頸主要在于中間轉(zhuǎn)換的固定緯度大小的向量。
因此,作者提出了一種新的解碼方式,其解碼的源頭并不僅僅包括該向量,他們希望構(gòu)建一種為當前預(yù)測詞從輸入序列中自動搜尋相關(guān)部分的機制(soft-search,也就是注意力機制)。作者運用這種新的機制來搭建升級版的神經(jīng)機器翻譯模型,取得了卓越的效果,并且也通過定量分析來證明這種注意力機制的合理性。
論文鏈接
https://arxiv.org/abs/1409.0473
Han_Attention attention用于文本分類
期刊日期
NAACL2016
論文名稱
hierarchical attention networks for document classification
描述
文本分類問題一直是自然語言處理(NLP)中一個廣受人們關(guān)注的問題??赡芎枚鄤偨佑|深度學(xué)習(xí)做NLP的項目就是使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對IMDB影評進行分類。但使用循環(huán)神經(jīng)網(wǎng)絡(luò)時一般會遇到一個問題,那就是當所要處理的序列較長時,就會導(dǎo)致網(wǎng)絡(luò)容易忘記之前的東西,這在機器翻譯、對話系統(tǒng)中會經(jīng)常出現(xiàn),為解決這一問題,大佬們就根據(jù)心理學(xué)原理提出了“注意力”機制,使得網(wǎng)絡(luò)工作過程中可以像人一樣將注意力放在不同部位。那么對于文本分類能否使用“注意力”機制呢?答案是肯定的,這篇論文就針對文本分類問題提出了層級注意力模型結(jié)合雙向RNN實現(xiàn)對文本的分類,其效果明顯好于其他方法。
論文鏈接
https://www.cc.gatech.edu/~dyang888/research.html
(代碼就自己發(fā)消息問作者要吧)
SGM第一篇使用序列生成做多標簽文本分類
期刊日期
Coling2018
論文名稱
SGM: Sequence Generation Model for Multi-label Classification
描述
多標簽分類是自然語言處理中一項重要但具有挑戰(zhàn)性的任務(wù)。它比單標簽分類更復(fù)雜,因為標簽往往是相關(guān)的?,F(xiàn)有方法傾向于忽略標簽之間的相關(guān)性。此外,文本的不同部分對預(yù)測不同標簽的貢獻不同,這是現(xiàn)有模型沒有考慮的。在本文中,我們建議將多標簽分類任務(wù)視為序列生成問題,并應(yīng)用具有新穎解碼器結(jié)構(gòu)的序列生成模型來解決該問題。大量的實驗結(jié)果表明,我們提出的方法大大優(yōu)于以前的工作。
論文鏈接
https://arxiv.org/abs/1806.04822
參考代碼:
https://github.com/lancopku/SGM

覺得有用就點贊吧!
每天18:30分更新
關(guān)注【學(xué)姐帶你玩AI】+星標+在看
不迷路看好文