国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

訓(xùn)練自然語言處理(NLP)的7個優(yōu)秀數(shù)據(jù)集

2023-03-15 08:00 作者:小牛翻譯NiuTrans  | 我要投稿

本文首發(fā)于網(wǎng)站 機(jī)器翻譯學(xué)堂

轉(zhuǎn)載事宜請后臺詢問哦

作者 | Kevin Vu

譯者 | 唐歡、劉曉倩

NLP現(xiàn)在是熱門領(lǐng)域,但想要掌握它卻很難。在剛開始學(xué)習(xí)NLP時的主要問題是缺乏適當(dāng)?shù)闹笇?dǎo)和領(lǐng)域的過度寬廣,很容易迷失在各種論文和代碼中,試圖接受所有信息。

需要意識到的是,NLP作為一個廣闊的領(lǐng)域,學(xué)習(xí)者不可能學(xué)到所有東西,但可以嘗試著循序漸進(jìn)。如果能夠堅持到最后,就會發(fā)現(xiàn)自己比其他人了解得更多。也就是說,學(xué)習(xí)NLP需要采取漸進(jìn)式步驟。

首先第一步是在數(shù)據(jù)集上訓(xùn)練NLP模型,在剛起步時無需創(chuàng)建自己的數(shù)據(jù)集,因?yàn)檫@需要做大量的工作。

每天都會有大量的開源數(shù)據(jù)集被發(fā)布,集中在單詞、文本、語音、句子、俚語以及其他能想到的任何內(nèi)容。請記住,開源數(shù)據(jù)集并非沒有問題,在獲取任何舊數(shù)據(jù)集進(jìn)行測試時,學(xué)習(xí)者必須先處理好偏差、數(shù)據(jù)不完整等一系列其他問題。

但是,網(wǎng)上有些地方在整理數(shù)據(jù)集方面做得很好,可以更容易找到想要查找的內(nèi)容:

  • Papers With Code?(opens new window)——近5000個機(jī)器學(xué)習(xí)數(shù)據(jù)集已分類且易于查找。

  • Hugging Face?(opens new window)——一個很棒的網(wǎng)站,可以找到專注于音頻、文本、語音和其他專門針對NLP的數(shù)據(jù)集。

除此之外,我們還推薦以下列表作為開始學(xué)習(xí)NLP的一些最佳開源數(shù)據(jù)集,或者也可以嘗試各種模型并按照這些步驟進(jìn)行操作。

Quora Question Incincerity數(shù)據(jù)集

這個數(shù)據(jù)集相當(dāng)有趣。Quora 是國外的問答網(wǎng)站,Kaggle曾經(jīng)舉辦過相關(guān)比賽,主辦方會提供一個不真誠問題(這里對不真誠問題的定義是在發(fā)表聲明而不是尋找有用答案的問題,包括但不僅限于非中性語氣、貶低或煽動、不立足于現(xiàn)實(shí)、通過性來獲得震撼等內(nèi)容)的分類數(shù)據(jù)集,即Quora Question Incincerity數(shù)據(jù)集,要求參賽者根據(jù)問題的內(nèi)容去預(yù)測這個問題是否真誠,簡而言之就是解決文本分類問題。其目的是通過比賽開發(fā)出更具擴(kuò)展性的方法來檢測有毒和誤導(dǎo)性內(nèi)容。

除此之外,學(xué)習(xí)者還可以參考該數(shù)據(jù)集上NLP 文本分類系列的文章以更深入地學(xué)習(xí)NLP。

  • 《Text Preprocessing Methods for Deep Learning》一文討論了適用于深度學(xué)習(xí)模型和提高【W(wǎng)ord2Vec】嵌入覆蓋率的文本預(yù)處理方法。

  • 在第二篇文章《Conventional Methods for Text Classification》中,我們將帶你了解一些應(yīng)用于文本分類的常規(guī)模型,如TFIDF、CountVectorizer、Hashing等,并嘗試訪問它們的性能以創(chuàng)建基線。

  • 第三篇文章深入研究了Attention、CNN以及不用于文本分類的深度學(xué)習(xí)模型,重點(diǎn)介紹了解決文本分類問題的不同架構(gòu)。

  • 最后一篇講的是如何使用BERT和ULMFit進(jìn)行遷移學(xué)習(xí)。

斯坦福問答數(shù)據(jù)集(SQuAD)

斯坦福問答數(shù)據(jù)集(SQuAD)?源自維基百科文章中的問答對集合,包含10萬組帶注釋的三元組(passage,question,answer),通過給定一篇來自英文維基百科文章(passage)及準(zhǔn)備相應(yīng)的問題(question),需要算法給出截取自文章片段的答案(answer)。

簡單來說,這就是一個閱讀理解數(shù)據(jù)集,它會給我們一個問題和該問題答案所在的一個文本,然后接下來的任務(wù)是找出答案所在的文本范圍。此任務(wù)通常被稱為問答任務(wù)。

倘若你想對其進(jìn)行更深入的研究,請參閱《Understanging BERT with Hugging Face》,該文章分享了如何使用此數(shù)據(jù)集和Hugging Face庫的BERT模型來預(yù)測問題的答案,實(shí)現(xiàn)一個問答神經(jīng)網(wǎng)絡(luò)。

UCI ML藥物審查數(shù)據(jù)集

藥物審查使用NLP預(yù)測疾病狀況,照片由MichaèParzuchowski在Unsplash上拍攝

UCI ML藥物審查數(shù)據(jù)集提供了患者對特定藥物的評論以及相關(guān)情況和一個反映患者總體滿意度的10星患者評級系統(tǒng),以方便用戶根據(jù)藥物審查預(yù)測病情。

該數(shù)據(jù)集大致有7列,其中數(shù)據(jù)字段的說明如下:

(1)uniqueID:患者唯一ID

(2)drugName:藥品名

(3)condition:患者情況

(4)review:患者用藥反饋

(5)rating:患者滿意度評分(1-10分)

(6)date:反饋日期

(7)usefulCount:“贊同”數(shù)量(若其他人認(rèn)為該條信息有幫助,會點(diǎn)擊“useful”按鈕,則該條信息獲得1個“贊同”)

學(xué)習(xí)者可以根據(jù)以下思路來處理數(shù)據(jù):

(1)分類:你能根據(jù)評論預(yù)測病人的病情嗎?

(2)回歸:你能根據(jù)評論預(yù)測藥物的評級嗎?

(3)情感分析:評論的哪些元素使其對其他人更有幫助?哪些患者往往有更多的負(fù)面評價?你能確定評論是正面的、中性的還是負(fù)面的?

(4)數(shù)據(jù)可視化:有哪些藥物?這些患者有哪些情況?

有意思的是UCI ML藥物審查數(shù)據(jù)集還可用于多類分類,如《Using Deep Learning for End Multiclass Text Classification》中所發(fā)表的,也可以嘗試通過各種文本和數(shù)字特征來使用該數(shù)據(jù)集以解決多類文本分類問題。

如果有人想要親身體驗(yàn)NLP,那么這個小型數(shù)據(jù)集就是一個不錯的選擇。

Yelp評論數(shù)據(jù)集

Yelp本是美國著名商戶點(diǎn)評網(wǎng)站,囊括各地餐館、購物中心、酒店、旅游等領(lǐng)域的商戶,用戶可以在Yelp網(wǎng)站中給商戶打分,提交評論,交流購物體驗(yàn)等,類似于國內(nèi)的大眾點(diǎn)評。而Yelp 評論數(shù)據(jù)集是用戶評論數(shù)據(jù)的子集,以 JSON 文件的形式提供。

在此數(shù)據(jù)集?(opens new window)中可獲得 Yelp 餐廳評論及營業(yè)時間和關(guān)閉時間等其他信息。學(xué)習(xí)者可以通過創(chuàng)建一個系統(tǒng)來對菜肴進(jìn)行分類,或者利用命名實(shí)體識別 (NER) 的方法來找出評論中的菜肴,總之最好能夠找出或創(chuàng)建一個系統(tǒng)來了解 Yelp 并獲取餐廳的評論亮點(diǎn)。

并且通過Yelp評論數(shù)據(jù)集還能夠很好地了解到 Yelp 業(yè)務(wù)和搜索功能,用戶想怎么使用這個數(shù)據(jù)集都是沒有限制的。

這個開源數(shù)據(jù)集包含了來自11個大都市地區(qū)的6,990,280條餐廳評論;資料來源;Yelp

IMDB電影數(shù)據(jù)集

NLP開源數(shù)據(jù)集用于收集IMDB電影信息,照片由Marques Kaspbrak在Unsplash上拍攝

IMDB(Internet Movie Databas)是互聯(lián)網(wǎng)電影資料庫,里面包括了幾乎所有的電影以及1982 年以后的電視劇集。它還有一個由影迷自己來打分的評分系統(tǒng),平均每月有高達(dá)2000萬電影愛好者進(jìn)行訪問,因此被認(rèn)為是權(quán)威的影片評分平臺。

而該數(shù)據(jù)集的創(chuàng)建者在IMDB上爬取了電影數(shù)據(jù),包含來自IMDB的5萬部電影的簡介、平均評分、票數(shù)、類型和演員等信息。

除了方便訓(xùn)練NLP模型,這個數(shù)據(jù)集還可以通過多種方式使用。使用此數(shù)據(jù)集的最常見方法是構(gòu)建推薦引擎、類型分類和查找相似電影。

20個新聞組

20個新聞組數(shù)據(jù)集是用于文本分類的國際標(biāo)準(zhǔn)數(shù)據(jù)集之一,其中包含有20個不同主題的新聞組集合(共收集了1.8萬左右的新聞組文檔),主要分為兩個子集:一個用于訓(xùn)練(或開發(fā)),另一個用于測試(或性能評估)。主題多種多樣,涵蓋體育,無神論,政治等各個領(lǐng)域。

在獲取該數(shù)據(jù)集的網(wǎng)站上,還詳細(xì)地介紹了使用方法、如何將文本轉(zhuǎn)換為矢量以及如何過濾文本以獲得更真實(shí)的訓(xùn)練,你將使用樸素貝葉斯算法進(jìn)行文本分類。

這是一個多類文本分類數(shù)據(jù)集,你也可以使用它來學(xué)習(xí)主題建模(從大量文本中提取隱藏主題的技術(shù),含有關(guān)于文本信息的概率模型),如在Python中使用Gensim-LDA進(jìn)行主題建模。

IWSLT(國際口語翻譯討論會)數(shù)據(jù)集

該機(jī)器翻譯數(shù)據(jù)集符合翻譯任務(wù)的事實(shí)標(biāo)準(zhǔn),涉及了 TED 和 TEDx 演講的德語、英語、意大利語、荷蘭語和羅馬尼亞語等不同主題的翻譯。值得高興的是,學(xué)習(xí)者可以在任何一對語言之間訓(xùn)練這些翻譯,同時也能夠通過 PyTorch 使用 torchtext.datasets 訪問。

如果有人想深入了解如何使用此數(shù)據(jù)集來創(chuàng)建自己的transformer,請閱讀這篇介紹了BERT Transformers及其工作原理的《BERT Transformers – How Do They Work?》文章,又或者參考《Understanding Transformers, the Programming Way》一文,有助于學(xué)習(xí)者理解怎樣基于BERT從頭創(chuàng)建翻譯器。

最后,你可以通過以上數(shù)據(jù)集去尋找解決問題的方法,以及獲得更多關(guān)于NLP的信息以解決各種任務(wù)。


原文鏈接:
https://www.kdnuggets.com/2021/11/top-open-source-datasets-nlp.html


hi,這里是小牛翻譯~

想要看到更多我們的文章,可以關(guān)注下

機(jī)器翻譯學(xué)堂(公號或網(wǎng)站)

筆芯~?

往期精彩文章


訓(xùn)練自然語言處理(NLP)的7個優(yōu)秀數(shù)據(jù)集的評論 (共 條)

分享到微博請遵守國家法律
衡南县| 沙坪坝区| 玉林市| 雅江县| 甘南县| 句容市| 林芝县| 汝州市| 高雄县| 临泉县| 广南县| 陵川县| 明溪县| 方正县| 静乐县| 吴桥县| 双辽市| 临湘市| 长武县| 普兰店市| 宜都市| 泸州市| 临邑县| 怀远县| 荥经县| 晋宁县| 利辛县| 嘉禾县| 汝城县| 宜丰县| 郴州市| 桃江县| 平陆县| 沈阳市| 清水河县| 延安市| 台中县| 正定县| 铜山县| 寻乌县| 千阳县|