面向《海賊王》領(lǐng)域數(shù)據(jù)的知識圖譜項目
訪問【W(wǎng)RITE-BUG數(shù)字空間】_[內(nèi)附完整源碼和文檔]
本次任務(wù)試圖為《海賊王》中出現(xiàn)的各個實體,包括人物、地點、組織等,構(gòu)建一個知識圖譜,幫助我們更好的理解這部作品。 項目內(nèi)容包括數(shù)據(jù)采集、知識存儲、知識抽取、知識計算、知識應(yīng)用五大部分
. 項目背景
《海賊王》(英文名ONE PIECE) 是由日本漫畫家尾田榮一郎創(chuàng)作的熱血少年漫畫,因為其宏大的世界觀、豐富的人物設(shè)定、精彩的故事情節(jié)、草蛇灰線的伏筆,受到世界各地的讀者歡迎,截止2019年11月7日,全球銷量突破4億6000萬本,并被吉尼斯世界紀錄官方認證為“世界上發(fā)行量最高的單一作者創(chuàng)作的系列漫畫”。
《海賊王》從1997年開始連載至今,以及將近22年,在900多話的漫畫中大量性格鮮明的角色相繼登場,故事發(fā)生的地點也在不斷變化,這既給我們帶來閱讀的樂趣,同時也為我們梳理故事脈絡(luò)帶來了挑戰(zhàn)。
本次任務(wù)試圖為《海賊王》中出現(xiàn)的各個實體,包括人物、地點、組織等,構(gòu)建一個知識圖譜,幫助我們更好的理解這部作品。
2. 項目內(nèi)容
本項目內(nèi)容包括數(shù)據(jù)采集、知識存儲、知識抽取、知識計算、知識應(yīng)用五大部分
數(shù)據(jù)采集
本次項目主要采集構(gòu)建了兩個知識圖譜和一個關(guān)系抽取數(shù)據(jù)集
人物知識圖譜:主要包含各個人物的信息
關(guān)系抽取數(shù)據(jù)集:標注出自然語言中存在的實體以及他們之間的關(guān)系
實體關(guān)系知識圖譜:構(gòu)建《海賊王》中各個實體之間關(guān)系的知識圖譜
知識存儲
嘗試使用了三元組數(shù)據(jù)庫Apace Jena和原生圖數(shù)據(jù)庫Neo4j,并分別使用RDF結(jié)構(gòu)化查詢語言SPARQL和屬性圖查詢語言Cypher,在知識圖譜上進行查詢。知識抽取
基于之間構(gòu)建的關(guān)系抽取數(shù)據(jù)集,利用deepke中提供的工具進行關(guān)系抽取實踐,測試了包括PCNN、GCN、BERT等模型在我們構(gòu)建數(shù)據(jù)集上的效果知識計算
圖計算:在Neo4j上對實體關(guān)系知識圖譜進行了圖挖掘,包括最短路徑查詢、權(quán)威結(jié)點發(fā)現(xiàn)、社區(qū)發(fā)現(xiàn)等
知識推理:在Apache Jena上對關(guān)系知識圖譜進行了知識推理,補全了一部分的數(shù)據(jù)
知識應(yīng)用
智能問答:基于REfO實現(xiàn)一個對于《海賊王》中人物的知識庫問答系統(tǒng)(KBQA)。
可視化圖片:通過D3對實體關(guān)系圖片進行可視化,并整合了人物知識圖譜中的信息,進行展示。
3. 數(shù)據(jù)采集
3.1. 數(shù)據(jù)來源
本次項目中所使用的數(shù)據(jù)主要來源為兩個:一個是從別的知識圖譜中獲取已經(jīng)存在的知識信息,另一個是從相關(guān)網(wǎng)頁中爬取解析半結(jié)構(gòu)化的自然語言文本信息
3.2. 人物知識圖譜構(gòu)建
3.2.1. 抽取通用知識圖譜中已有的目標域知識
知識圖譜技術(shù)近些年來快速發(fā)展,一些公司機構(gòu)已經(jīng)構(gòu)建了許多通用知識圖譜,我們可以從中抽取出我們目標領(lǐng)域內(nèi)相關(guān)的實體知識信息,作為我們知識圖譜的冷啟動數(shù)據(jù)。
CN-DBpedia是由復旦大學知識工場實驗室研發(fā)并維護的大規(guī)模通用領(lǐng)域結(jié)構(gòu)化百科,我們選擇其作為通用知識圖譜來源。
整個處理流程如下:
構(gòu)建《海賊王》實體詞匯庫
獲取實體列表
篩選實體列表
獲取圖譜中對應(yīng)實體的三元組知識



