基于ERNIELayout&UIE-X的多方案學術(shù)論文信息抽取

本項目鏈接:https://aistudio.baidu.com/aistudio/projectdetail/5196032?contributionType=1 基于ERNIELayout&pdfplumber-UIE的多方案學術(shù)論文信息抽取,小樣本能力強悍,OCR、版面分析、信息抽取一應俱全。
具體代碼見項目鏈接
0.問題描述
可以參考issue: ERNIE-Layout在(人名和郵箱)信息抽取的諸多問題闡述#4031
ERNIE-Layout因為看到功能比較強大就嘗試了一下,但遇到信息抽取錯誤,以及抽取不全等問題
使用PDFPlumber庫和PaddleNLP UIE模型抽取,遇到問題:無法把姓名和郵箱一一對應。
1.基于ERNIE-Layout的DocPrompt開放文檔抽取問答模型
ERNIE-Layout以文心文本大模型ERNIE為底座,融合文本、圖像、布局等信息進行跨模態(tài)聯(lián)合建模,創(chuàng)新性引入布局知識增強,提出閱讀順序預測、細粒度圖文匹配等自監(jiān)督預訓練任務,升級空間解偶注意力機制,在各數(shù)據(jù)集上效果取得大幅度提升,相關工作ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-training for Document Understanding已被EMNLP 2022 Findings會議收錄[1]??紤]到文檔智能在多語種上商用廣泛,依托PaddleNLP對外開源業(yè)界最強的多語言跨模態(tài)文檔預訓練模型ERNIE-Layout。

支持:
發(fā)票抽取問答
海報抽取
網(wǎng)頁抽取
表格抽取
長文檔抽取
多語言票據(jù)抽取
同時提供pipelines流水線搭建
更多參考官網(wǎng),這里就不展開了
ERNIE-Layout GitHub地址:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout
Hugging Face網(wǎng)頁版:https://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout
可以看到效果不好,多個實體不能一同抽取,需要構(gòu)建成單個問答,比如姓名和郵箱分開抽取,嘗試構(gòu)造合理的開放式prompt。
小技巧
Prompt設計:在DocPrompt中,Prompt可以是陳述句(例如,文檔鍵值對中的Key),也可以是疑問句。因為是開放域的抽取問答,DocPrompt對Prompt的設計沒有特殊限制,只要符合自然語言語義即可。如果對當前的抽取結(jié)果不滿意,可以多嘗試一些不同的Prompt。
支持的語言:支持本地路徑或者HTTP鏈接的中英文圖片輸入,Prompt支持多種不同語言,參考以上不同場景的例子。
可以看出得到的效果不是很好,比較玄學,原因應該就是ocr識別對應姓名人名準確率相對不高,無法全部命中;并且無法一一對應。
這塊建議看看paddleocr具體實現(xiàn)步驟,研究一下在看看怎么處理。
下面講第二種方法
2.基于PDFplumber-UIE信息抽取
2.1 PDF文檔解析(pdfplumber庫)
安裝PDFPlumber !pip install pdfplumber --user
官網(wǎng)鏈接:https://github.com/jsvine/pdfplumber
pdf的文本和表格處理用多種方式可以實現(xiàn), 本文介紹pdfplumber對文本和表格提取。這個庫在GitHub上stars:3.3K多,使用起來很方便, 效果也很好,可以滿足對pdf中信息的提取需求。
pdfplumber.pdf中包含了.metadata和.pages兩個屬性。
metadata是一個包含pdf信息的字典。
pages是一個包含pdfplumber.Page實例的列表,每一個實例代表pdf每一頁的信息。
每個pdfplumber.Page類:pdfplumber核心功能,對PDF的大部分操作都是基于這個類,類中包含了幾個主要的屬性:文本、表格、尺寸等
page_number 頁碼
width 頁面寬度
height 頁面高度
objects/.chars/.lines/.rects 這些屬性中每一個都是一個列表,每個列表都包含一個字典,每個字典用于說明頁面中的對象信息, 包括直線,字符, 方格等位置信息。
一些常用的方法
extract_text() 用來提頁面中的文本,將頁面的所有字符對象整理為的那個字符串
extract_words() 返回的是所有的單詞及其相關信息
extract_tables() 提取頁面的表格
2.1.1 pdfplumber簡單使用
!pip install xlwt
更多功能(表格讀取,圖片提取,可視化界面)可以參考官網(wǎng)或者下面鏈接:
https://blog.csdn.net/fuhanghang/article/details/122579548
2.1.2 學術(shù)論文特定頁面文本提取
發(fā)表論文作者信息通常放在論文首頁的腳末行或參考文獻的后面,根據(jù)這種情況我們可以進行分類(只要獲取作者的郵箱信息即可):
第一種國外論文:首頁含作者相關信息 or 首頁是封面第二頁才是作者信息 【獲取前n頁即可,推薦是2頁】
第二種國內(nèi)論文:首頁含作者信息(郵箱等)在參考文獻之后會有各個做的詳細信息,比如是職位,研究領域,科研成果介紹等等 【獲取前n頁和尾頁,推薦是2頁+尾頁】
這樣做的好處在于兩個方面:
節(jié)約了存儲空間和數(shù)據(jù)處理時間
節(jié)約資源消耗,在模型預測時候輸入文本數(shù)量顯著減少,在數(shù)據(jù)面上加速推理
針對1簡單闡述:PDF原始大小614.1KB
| 處理方式 | pdf轉(zhuǎn)文字時延 | 存儲占用空間 | | -------- | -------- | -------- | | 保存指定前n頁面文字 | 242ms | 2.8KB | | 保存指定前n頁面文字和尾頁 | 328ms | 5.3KB | | 保存全文 |2.704s | 64.1KB |
針對二:以下6中方案提速不過多贅述,可以參考下面項目
模型選擇 uie-mini等小模型預測,損失一定精度提升預測效率
UIE實現(xiàn)了FastTokenizer進行文本預處理加速
fp16半精度推理速度更快
UIE INT8 精度推理
UIE Slim 數(shù)據(jù)蒸餾
SimpleServing支持支持多卡負載均衡預測
UIE Slim滿足工業(yè)應用場景,解決推理部署耗時問題,提升效能?。篽ttps://aistudio.baidu.com/aistudio/projectdetail/4516470?contributionType=1
之后有時間重新把paddlenlp技術(shù)路線整理一下
2.2 UIE信息抽取(論文作者和郵箱)
2.2.1 零樣本抽取
2.3長文本的答案獲取
UIE對于詞和句子的抽取效果比較好,但是對應大段的文字結(jié)果,還是需要傳統(tǒng)的正則方式作為配合,在本次使用的pdf中,還需要獲得法院具體的判決結(jié)果,使用正則表達式可靈活匹配想要的結(jié)果。
start_word = '如下' end_word = '特此公告' start = re.search(start_word, record) end = re.search(end_word, record) print(record[start.span()[1]:end.span()[0]]) : ???谥性赫J為:新達公司的住所地在海口市國貿(mào)大道 48 號新達商務大廈,該司是由海南省工商行政管理局核準登記 的企業(yè),故??谥性簩Ρ景赣泄茌牂?quán)。因新達公司不能清償 到期債務,故深物業(yè)股份公司提出對新達公司進行破產(chǎn)清算 ? 1 ? 的申請符合受理條件。依照《中華人民共和國企業(yè)破產(chǎn)法》 第二條第一款、第三條、第七條第二款之規(guī)定,裁定如下: ?受理申請人深圳市物業(yè)發(fā)展(集團)股份有限公司對被 申請人海南新達開發(fā)總公司破產(chǎn)清算的申請。 ?本裁定自即日起生效。 ?二、其他情況 ?本公司已對海南公司賬務進行了全額計提,破產(chǎn)清算對 本公司財務狀況無影響。 ?具體情況請查閱本公司2011年11月28日發(fā)布的《董事會 決議公告》。 ?
2.4正則提升效果
對于長文本,可以根據(jù)關鍵詞進行分割后抽取,但是對于多個實體,比如這篇公告中,通過的多個議案,就無法使用UIE抽取。
# 導入正則表達式相關庫 import re ?schema = ['通過議案'] start_word = '通過以下議案' start = re.search(start_word, record) input_data = record[start.span()[0]:] print(input_data) ie = Taskflow('information_extraction', schema=schema) pprint(ie(input_data)) # 正則匹配“一 二 三 四 五 六 七 八 九 十” ?print(re.findall(r"[\u4e00\u4e8c\u4e09\u56db\u4e94\u516d\u4e03\u516b\u4e5d\u5341]、.*\n", input_data)) ['一、2021 年第三季度報告 \n', '二、關于同意全資子公司收購擔保公司 60%股權(quán)的議案 詳見公司于 2021 年 10 月 29 日刊登在《證券時報》、《中國證券\n', '三、關于同意控股子公司廣西新柳邕公司為認購廣西新柳邕項\n', '四、關于續(xù)聘會計師事務所的議案 \n', '五、關于向銀行申請綜合授信額度的議案 \n', '一、向中國民生銀行股份有限公司深圳分行申請不超過人民幣 5\n', '二、向招商銀行股份有限公司深圳分行申請不超過人民幣 6 億\n', '六、經(jīng)理層《崗位聘任協(xié)議》 \n', '七、經(jīng)理層《年度經(jīng)營業(yè)績責任書》 \n', '八、經(jīng)理層《任期經(jīng)營業(yè)績責任書》 \n', '九、關于暫不召開股東大會的議案 \n']
3.基于基于UIE-X的信息提取
3.1 跨模態(tài)文檔信息抽取
跨模態(tài)文檔信息抽取能力 UIE-X 來了。 信息抽取簡單說就是利用計算機從自然語言文本中提取出核心信息,是自然語言處理領域的一項關鍵任務,包括命名實體識別(也稱實體抽?。㈥P系抽取、事件抽取等。傳統(tǒng)信息抽取方案基于序列標注,需要大量標注語料才能獲得較好的效果。2022年5月飛槳 PaddleNLP 推出的 UIE,是業(yè)界首個開源的面向通用信息抽取的產(chǎn)業(yè)級技術(shù)方案 ,基于 Prompt 思想,零樣本和小樣本能力強大,已經(jīng)成為業(yè)界信息抽取任務上的首選方案。
除了純文本內(nèi)容外,企業(yè)中還存在大量需要從跨模態(tài)文檔中抽取信息并進行處理的業(yè)務場景,例如從合同、收據(jù)、報銷單、病歷等不同類型的文檔中抽取所需字段,進行錄入、比對、審核校準等操作。為了滿足各行業(yè)的跨模態(tài)文檔信息抽取需求,PaddleNLP 基于文心ERNIE-Layout[1]跨模態(tài)布局增強預訓練模型,集成PaddleOCR的PP-OCR、PP-Structure版面分析等領先能力,基于大量信息抽取標注集,訓練并開源了UIE-X–––首個兼具文本及文檔抽取能力、多語言、開放域的信息抽取模型。
支持實體抽取、關系抽取、跨任務抽取
支持跨語言抽取
集成PP-OCR,可靈活定制OCR結(jié)果
使用PP-Structure版面分析功能
增加渲染模塊,OCR和信息抽取結(jié)果可視化
項目鏈接: https://aistudio.baidu.com/aistudio/projectdetail/5017442
3.2 產(chǎn)業(yè)實踐分享:基于UIE-X的醫(yī)療文檔信息提取
PaddleNLP全新發(fā)布UIE-X ??,除已有純文本抽取的全部功能外,新增文檔抽取能力。
UIE-X延續(xù)UIE的思路,基于跨模態(tài)布局增強預訓練模型文心ERNIE-Layout重訓模型,融合文本、圖像、布局等信息進行聯(lián)合建模,能夠深度理解多模態(tài)文檔?;赑rompt思想,實現(xiàn)開放域信息抽取,支持零樣本抽取,小樣本能力領先。
官網(wǎng)鏈接:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction
本案例為UIE-X在醫(yī)療領域的實戰(zhàn),通過少量標注+模型微調(diào)即可具備定制場景的端到端文檔信息提取
目前醫(yī)療領域有大量的醫(yī)學檢查報告單,病歷,發(fā)票,CT影像,眼科等等的醫(yī)療圖片數(shù)據(jù)?,F(xiàn)階段,針對這些圖片都是靠人工分類,結(jié)構(gòu)化錄入系統(tǒng)中,做患者的全生命周期的管理。 耗時耗力,人工成本極大。如果能靠人工智能的技術(shù)做到圖片的自動分類和結(jié)構(gòu)化,將大大的降低成本,提高系統(tǒng)錄入的整體效率。
項目鏈接: https://aistudio.baidu.com/aistudio/projectdetail/5261592
4.總結(jié)
本項目提供了基于ERNIELayout&PDFplumber-UIEX多方案學術(shù)論文信息抽取,有興趣同學可以研究一下UIE-X。
UIE-X延續(xù)UIE的思路,基于跨模態(tài)布局增強預訓練模型文心ERNIE-Layout重訓模型,融合文本、圖像、布局等信息進行聯(lián)合建模,能夠深度理解多模態(tài)文檔?;赑rompt思想,實現(xiàn)開放域信息抽取,支持零樣本抽取,小樣本能力領先.