散文網(wǎng) » 生活 »日常 » NLP方向文本分類常見面試題6道|含解析

NLP方向文本分類常見面試題6道|含解析

2023-02-23 12:21 作者:七月在線-julyedu 0人讀過 | 我要投稿

9本電子書放文末，自取~

1、文本分類任務(wù)有哪些應(yīng)用場景？

文本分類時機(jī)器學(xué)習(xí)匯總常見的監(jiān)督學(xué)習(xí)任務(wù)質(zhì)疑，常見的應(yīng)用場景如情感分類、新聞分類、主題分類、問答匹配、意圖識別、推斷等等。分類任務(wù)根據(jù)具體的數(shù)據(jù)集的標(biāo)簽情況，還可以分為二分類、多分類、多標(biāo)簽分類等。

2、文本分類的具體流程？

文本分類的流程一般包括文本預(yù)處理、特征提取、文本表示、最后分類輸出。

文本處理通常需要做分詞及去除停用詞等操作，常會使用一些分詞工具，如hanlp、jieba、哈工大LTP、北大pkuseg等。

3、fastText的分類過程？fastText的優(yōu)點？

fastText首先把輸入轉(zhuǎn)化為詞向量，取平均，再經(jīng)過線性分類器得到類別。輸入的詞向量可以是預(yù)先訓(xùn)練好的，也可以隨機(jī)初始化，跟著分類任務(wù)一起訓(xùn)練。

fastText是一個快速文本分類算法，與基于神經(jīng)網(wǎng)絡(luò)的分類算法相比有兩大優(yōu)點： 1、fastText在保持高精度的情況下加快了訓(xùn)練速度和測試速度 2、fastText不需要預(yù)訓(xùn)練好的詞向量，fastText會自己訓(xùn)練詞向量 3、fastText兩個重要的優(yōu)化：使用層級 Softmax提升效率、采用了char-level的n-gram作為附加特征。

4、TextCNN進(jìn)行文本分類的過程?

卷積神經(jīng)網(wǎng)絡(luò)的核心思想是捕捉局部特征，對于文本來說，局部特征就是由若干單詞組成的滑動窗口，類似于N-gram。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于能夠自動地對N-gram特征進(jìn)行組合和篩選，獲得不同抽象層次的語義信息。因此文本分類任務(wù)中可以利用CNN來提取句子中類似 n-gram 的關(guān)鍵信息。

第一層為輸入層。將最左邊的7乘5的句子矩陣，每行是詞向量，維度=5，這個可以類比為圖像中的原始像素點了。

圖中的輸入層實際采用了雙通道的形式，即有兩個 n × k

的輸入矩陣，其中一個用預(yù)訓(xùn)練好的詞嵌入表達(dá)，并且在訓(xùn)練過程中不再發(fā)生變化；另外一個也由同樣的方式初始化，但是會作為參數(shù)，隨著網(wǎng)絡(luò)的訓(xùn)練過程發(fā)生改變。

第二層為卷積層。然后經(jīng)過有 filter_size=(2,3,4) 的一維卷積層，每個filter_size 有兩個輸出 channel。第三層是一個1-max pooling層，這樣不同長度句子經(jīng)過pooling層之后都能變成定長的表示了。

最后接一層全連接的 softmax 層，輸出每個類別的概率。

每個詞向量可以是預(yù)先在其他語料庫中訓(xùn)練好的，也可以作為未知的參數(shù)由網(wǎng)絡(luò)訓(xùn)練得到。

5、TextCNN可以調(diào)整哪些參數(shù)？

輸入詞向量表征：詞向量表征的選取(如選word2vec還是GloVe)
卷積核大?。阂粋€合理的值范圍在1~10。若語料中的句子較長，可以考慮使用更大的卷積核。另外，可以在尋找到了最佳的單個filter的大小后，嘗試在該filter的尺寸值附近尋找其他合適值來進(jìn)行組合。實踐證明這樣的組合效果往往比單個最佳filter表現(xiàn)更出色
feature map 特征圖個數(shù)：主要考慮的是當(dāng)增加特征圖個數(shù)時，訓(xùn)練時間也會加長，因此需要權(quán)衡好。這個參數(shù)會影響最終特征的維度，維度太大的話訓(xùn)練速度就會變慢。這里在100-600之間調(diào)參即可。當(dāng)特征圖數(shù)量增加到將性能降低時，可以加強(qiáng)正則化效果，如將dropout率提高過0.5
激活函數(shù)：ReLU和tanh
池化策略：1-max pooling表現(xiàn)最佳，復(fù)雜任務(wù)選擇k-max
正則化項(dropout/L2)：指對CNN參數(shù)的正則化，可以使用dropout或L2，但能起的作用很小，可以試下小的dropout率(<0.5)，L2限制大一點

6、文本分類任務(wù)使用的評估指標(biāo)有哪些？

準(zhǔn)確率、召回率、ROC，AUC，F(xiàn)1、混淆矩陣? $，$

看完本篇如果對你有用請三連，你的支持是我持續(xù)輸出的動力，感謝，筆芯~

↓ ↓ ↓以下9本書電子版免費領(lǐng)，直接送，想要哪本私我下說聲，我發(fā)你↓ ↓ ↓

《2022年Q3最新大廠面試題》電子書，部分截圖如下：

標(biāo)簽：