手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » NLP經(jīng)典論文推薦：baseline paper（文本分類）

NLP經(jīng)典論文推薦：baseline paper（文本分類）

2022-01-20 18:56 作者:深度之眼官方賬號 0人讀過 | 我要投稿

Word2Vec詞向量扛鼎之作

期刊日期

ICLR2013

論文名稱

Efficient Estimation of Word Representation in Vector Space

描述

提出兩個新穎的模型來計算詞的連續(xù)向量表示，這些表示的質(zhì)量用詞的相似度來計算，結(jié)果和其他表現(xiàn)最好的技術(shù)進行比較。我們發(fā)現(xiàn)有很大的提高而且計算量低，比如1.6百萬的詞只需要不到一天的計算，而且這些向量對于語義和語法的相似度的計算獲得最好的成績。

論文鏈接

https://arxiv.org/pdf/1301.3781v3.pdf

關(guān)注公眾號后臺回復(fù)“Word2Vec”，領(lǐng)取資料。

Glove最出名的詞向量訓(xùn)練方法之一

期刊日期

EMNLP2014

論文名稱

GloVe: Global Vectors for Word Representation

描述

學(xué)習(xí)詞的向量空間表示可以很好捕獲語法和語義規(guī)則信息，但是這些規(guī)則的起源并不透明。我們分析和闡明模型需要的這些規(guī)則。這是logbilinear regression模型，集合了全局矩陣分解和本地窗口大小的方法。模型訓(xùn)練在詞和詞的共現(xiàn)矩陣中，而不是整個語料庫的稀疏矩陣。

論文鏈接

http://emnlp2014.org/papers/pdf/EMNLP2014162.pdf

Char Embedding第一篇介紹字符嵌入的論文

期刊日期

EMNLP2015

論文名稱

Compositional character models for open vocabulary word representation

描述

我們引入了一種通過使用雙向 LSTM 組合字符來構(gòu)建單詞向量表示的模型。相對于每個詞類型都有獨立向量的傳統(tǒng)詞表示模型，我們的模型只需要每個字符類型一個向量和一組固定的組合模型參數(shù)。盡管這個模型很緊湊，更重要的是，語言中形式-功能關(guān)系的任意性，我們的“組合”詞表示在語言建模和詞性標注方面產(chǎn)生了最先進的結(jié)果。在形態(tài)豐富的語言（例如土耳其語）中，優(yōu)于傳統(tǒng)基線的優(yōu)勢尤為明顯。

論文鏈接

https://arxiv.org/pdf/1508.02096.pdf

代碼：

https://github.com/wlin12/JNN

TextCNN第一篇CNN用于文本分類的文章

期刊日期

EMNLP2014

論文名稱

Convolutional Neural Network for Sentence Classification

描述

本文報告了在預(yù)訓(xùn)練詞向量之上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的一系列實驗，用于句子級分類任務(wù)。我們表明，具有很少超參數(shù)調(diào)整和靜態(tài)向量的簡單 CNN 在多個基準測試中取得了出色的結(jié)果。通過微調(diào)學(xué)習(xí)特定于任務(wù)的向量可進一步提高性能。我們還建議對架構(gòu)進行簡單的修改，以允許使用特定于任務(wù)的向量和靜態(tài)向量。此處討論的 CNN 模型在 7 個任務(wù)中的 4 個任務(wù)上改進了現(xiàn)有技術(shù)，其中包括情感分析和問題分類。

論文鏈接

https://arxiv.org/pdf/1408.5882.pdf

CharTextCNN第一篇字符級別文本分類模型

期刊日期

NIPS2015

論文名稱

Character-level Convolutional Networks for Text Classification

描述

一方面目前文本分類技術(shù)主要考慮詞或詞的組合；另一方面，研究表明，卷積神經(jīng)網(wǎng)絡(luò)在從原始信號中抽取信息的方面，非常有用。在這篇論文中，作者將字符級的文本當做原始信號，并且使用一維的卷積神經(jīng)網(wǎng)絡(luò)來處理它。研究表明，單詞嵌入表示可以直接用于卷積神經(jīng)網(wǎng)絡(luò)，而無需考慮語言的語法或語義結(jié)構(gòu)。

這篇論文，僅僅使用字符，運用在卷積神經(jīng)網(wǎng)絡(luò)上。作者發(fā)現(xiàn)，當訓(xùn)練大規(guī)模數(shù)據(jù)集的時候，深度卷積神經(jīng)網(wǎng)絡(luò)并不需要單詞層面的意義（包括語言的語法和語義）。這是非常激動人心的工程簡化，因為不管什么語言，它都是由字符組成的，因此這對于構(gòu)建跨語言的系統(tǒng)至關(guān)重要。還有一個好處，對于異常的字符組成（比如拼寫錯誤）和表情符，該模型依然能夠應(yīng)付。

論文鏈接

https://proceedings.neurips.cc/paper/2015/file/250cf8b51c773f3f8dc8b4be867a9a02-Paper.pdf

FastText細粒度的文本分類

期刊日期

EACL2017

論文名稱

Bag of Tricks for Efficient Text Classification

描述

本文提出了一種簡單而有效的文本分類和表示學(xué)習(xí)方法。我們的實驗表明，我們的快速文本分類器fastText在準確性方面通常與深度學(xué)習(xí)分類器保持一致，并且在訓(xùn)練和評估中速度快很多。我們可以在不到10分鐘的時間內(nèi)使用標準的多核CPU對超過10億個單詞進行快速文本訓(xùn)練，并在不到一分鐘的時間內(nèi)對312K類中的50萬個句子進行分類。

論文鏈接

https://arxiv.org/pdf/1607.01759v2.pdf

代碼：

https://github.com/facebookresearch/fastText

Deep_NMT使用LSTM解決機器翻譯問題

期刊日期

NLPS 2014

論文名稱

Sequence to Sequence Learning with Neural Networks

描述

DNN可以在有大量標記訓(xùn)練集下表現(xiàn)很好，但是無法處理用于序列映射到序列。在本文中，我們提出了一種端到端的序列訓(xùn)練方法，可以對序列結(jié)構(gòu)做最小的假設(shè)。我們的方法使用了多層LSTM將輸入序列映射成一個固定維度的向量，然后用另一個深度LSTM從向量中解碼出目標序列。

論文鏈接

https://arxiv.org/pdf/1409.3215.pdf

公眾號【學(xué)姐帶你玩AI】回復(fù)LSTM 領(lǐng)取論文資料

Bahdanau_NMT第一篇介紹attention的論文

期刊日期

ICLR2015

論文名稱

Neural Machine Translation by Jointly Learning to Align and Translate

描述

近年來，基于神經(jīng)網(wǎng)絡(luò)的機器翻譯模型經(jīng)常被用來處理機器翻譯任務(wù)。與傳統(tǒng)基于統(tǒng)計的翻譯方法相比，神經(jīng)機器翻譯模型意在構(gòu)建單個神經(jīng)網(wǎng)絡(luò)模型來提升整體翻譯準確率，主要的模型架構(gòu)基本都是seq2seq家族的。在本論文中，作者認為該模型的瓶頸主要在于中間轉(zhuǎn)換的固定緯度大小的向量。

因此，作者提出了一種新的解碼方式，其解碼的源頭并不僅僅包括該向量，他們希望構(gòu)建一種為當前預(yù)測詞從輸入序列中自動搜尋相關(guān)部分的機制（soft-search，也就是注意力機制）。作者運用這種新的機制來搭建升級版的神經(jīng)機器翻譯模型，取得了卓越的效果，并且也通過定量分析來證明這種注意力機制的合理性。

論文鏈接

https://arxiv.org/abs/1409.0473

Han_Attention attention用于文本分類

期刊日期

NAACL2016

論文名稱

hierarchical attention networks for document classification

描述

文本分類問題一直是自然語言處理（NLP）中一個廣受人們關(guān)注的問題?？赡芎枚鄤偨佑|深度學(xué)習(xí)做NLP的項目就是使用循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）對IMDB影評進行分類。但使用循環(huán)神經(jīng)網(wǎng)絡(luò)時一般會遇到一個問題，那就是當所要處理的序列較長時，就會導(dǎo)致網(wǎng)絡(luò)容易忘記之前的東西，這在機器翻譯、對話系統(tǒng)中會經(jīng)常出現(xiàn)，為解決這一問題，大佬們就根據(jù)心理學(xué)原理提出了“注意力”機制，使得網(wǎng)絡(luò)工作過程中可以像人一樣將注意力放在不同部位。那么對于文本分類能否使用“注意力”機制呢？答案是肯定的，這篇論文就針對文本分類問題提出了層級注意力模型結(jié)合雙向RNN實現(xiàn)對文本的分類，其效果明顯好于其他方法。

論文鏈接

https://www.cc.gatech.edu/~dyang888/research.html

（代碼就自己發(fā)消息問作者要吧）

SGM第一篇使用序列生成做多標簽文本分類

期刊日期

Coling2018

論文名稱

SGM: Sequence Generation Model for Multi-label Classification

描述

多標簽分類是自然語言處理中一項重要但具有挑戰(zhàn)性的任務(wù)。它比單標簽分類更復(fù)雜，因為標簽往往是相關(guān)的?，F(xiàn)有方法傾向于忽略標簽之間的相關(guān)性。此外，文本的不同部分對預(yù)測不同標簽的貢獻不同，這是現(xiàn)有模型沒有考慮的。在本文中，我們建議將多標簽分類任務(wù)視為序列生成問題，并應(yīng)用具有新穎解碼器結(jié)構(gòu)的序列生成模型來解決該問題。大量的實驗結(jié)果表明，我們提出的方法大大優(yōu)于以前的工作。

論文鏈接

https://arxiv.org/abs/1806.04822

參考代碼：

https://github.com/lancopku/SGM

覺得有用就點贊吧！

每天18：30分更新

關(guān)注【學(xué)姐帶你玩AI】+星標+在看

不迷路看好文

標簽：