国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

NLP方向文本分類常見面試題6道|含解析

2023-02-23 12:21 作者:七月在線-julyedu  | 我要投稿

9本電子書放文末,自取~

1、文本分類任務(wù)有哪些應(yīng)用場景?

文本分類時機(jī)器學(xué)習(xí)匯總常見的監(jiān)督學(xué)習(xí)任務(wù)質(zhì)疑,常見的應(yīng)用場景如情感分類、新聞分類、主題分類、問答匹配、意圖識別、推斷等等。分類任務(wù)根據(jù)具體的數(shù)據(jù)集的標(biāo)簽情況,還可以分為二分類、多分類、多標(biāo)簽分類等。

2、文本分類的具體流程?

文本分類的流程一般包括文本預(yù)處理、特征提取、文本表示、最后分類輸出。

文本處理通常需要做分詞及去除停用詞等操作,常會使用一些分詞工具,如hanlp、jieba、哈工大LTP、北大pkuseg等。

3、fastText的分類過程?fastText的優(yōu)點?

fastText首先把輸入轉(zhuǎn)化為詞向量,取平均,再經(jīng)過線性分類器得到類別。輸入的詞向量可以是預(yù)先訓(xùn)練好的,也可以隨機(jī)初始化,跟著分類任務(wù)一起訓(xùn)練。

fastText是一個快速文本分類算法,與基于神經(jīng)網(wǎng)絡(luò)的分類算法相比有兩大優(yōu)點: 1、fastText在保持高精度的情況下加快了訓(xùn)練速度和測試速度 2、fastText不需要預(yù)訓(xùn)練好的詞向量,fastText會自己訓(xùn)練詞向量 3、fastText兩個重要的優(yōu)化:使用層級 Softmax提升效率、采用了char-level的n-gram作為附加特征。

4、TextCNN進(jìn)行文本分類的過程?

卷積神經(jīng)網(wǎng)絡(luò)的核心思想是捕捉局部特征,對于文本來說,局部特征就是由若干單詞組成的滑動窗口,類似于N-gram。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于能夠自動地對N-gram特征進(jìn)行組合和篩選,獲得不同抽象層次的語義信息。因此文本分類任務(wù)中可以利用CNN來提取句子中類似 n-gram 的關(guān)鍵信息。

第一層為輸入層。將最左邊的7乘5的句子矩陣,每行是詞向量,維度=5,這個可以類比為圖像中的原始像素點了。

圖中的輸入層實際采用了雙通道的形式,即有兩個 n × k

的輸入矩陣,其中一個用預(yù)訓(xùn)練好的詞嵌入表達(dá),并且在訓(xùn)練過程中不再發(fā)生變化;另外一個也由同樣的方式初始化,但是會作為參數(shù),隨著網(wǎng)絡(luò)的訓(xùn)練過程發(fā)生改變。

第二層為卷積層。然后經(jīng)過有 filter_size=(2,3,4) 的一維卷積層,每個filter_size 有兩個輸出 channel。第三層是一個1-max pooling層,這樣不同長度句子經(jīng)過pooling層之后都能變成定長的表示了。

最后接一層全連接的 softmax 層,輸出每個類別的概率。

每個詞向量可以是預(yù)先在其他語料庫中訓(xùn)練好的,也可以作為未知的參數(shù)由網(wǎng)絡(luò)訓(xùn)練得到。

5、TextCNN可以調(diào)整哪些參數(shù)?

  • 輸入詞向量表征:詞向量表征的選取(如選word2vec還是GloVe)

  • 卷積核大?。阂粋€合理的值范圍在1~10。若語料中的句子較長,可以考慮使用更大的卷積核。另外,可以在尋找到了最佳的單個filter的大小后,嘗試在該filter的尺寸值附近尋找其他合適值來進(jìn)行組合。實踐證明這樣的組合效果往往比單個最佳filter表現(xiàn)更出色

  • feature map 特征圖個數(shù):主要考慮的是當(dāng)增加特征圖個數(shù)時,訓(xùn)練時間也會加長,因此需要權(quán)衡好。這個參數(shù)會影響最終特征的維度,維度太大的話訓(xùn)練速度就會變慢。這里在100-600之間調(diào)參即可。當(dāng)特征圖數(shù)量增加到將性能降低時,可以加強(qiáng)正則化效果,如將dropout率提高過0.5

  • 激活函數(shù):ReLU和tanh

  • 池化策略:1-max pooling表現(xiàn)最佳,復(fù)雜任務(wù)選擇k-max

  • 正則化項(dropout/L2):指對CNN參數(shù)的正則化,可以使用dropout或L2,但能起的作用很小,可以試下小的dropout率(<0.5),L2限制大一點

6、文本分類任務(wù)使用的評估指標(biāo)有哪些?

準(zhǔn)確率、召回率、ROC,AUC,F(xiàn)1、混淆矩陣?,?Precision?=????+??,?Recall?=????+??,F1-score=2?????+?

看完本篇如果對你有用請三連,你的支持是我持續(xù)輸出的動力,感謝,筆芯~

↓ ↓ ↓以下9本書電子版免費領(lǐng),直接送 ,想要哪本私我下說聲,我發(fā)你↓ ↓ ↓

《2022年Q3最新大廠面試題》電子書,部分截圖如下:


NLP方向文本分類常見面試題6道|含解析的評論 (共 條)

分享到微博請遵守國家法律
蒙阴县| 雷州市| 聂拉木县| 明溪县| 化州市| 迭部县| 财经| 页游| 读书| 孝昌县| 湖南省| 嘉义市| 肇东市| 克山县| 托克托县| 莎车县| 定结县| 吉木萨尔县| 吉林市| 故城县| 边坝县| 来凤县| 乐清市| 金平| 松潘县| 廊坊市| 石阡县| 庐江县| 金秀| 沙坪坝区| 潮州市| 灌云县| 柞水县| 金阳县| 鄂托克前旗| 吉隆县| 隆林| 广平县| 桐柏县| 布尔津县| 定陶县|