散文網(wǎng) » 科技 »學習 » 基于ERNIELayout&UIE-X的多方案學術(shù)論文信息抽取

基于ERNIELayout&UIE-X的多方案學術(shù)論文信息抽取

2023-01-05 14:44 作者:汀丶人工智能 0人讀過 | 我要投稿

本項目鏈接：https://aistudio.baidu.com/aistudio/projectdetail/5196032?contributionType=1 基于ERNIELayout&pdfplumber-UIE的多方案學術(shù)論文信息抽取，小樣本能力強悍，OCR、版面分析、信息抽取一應俱全。

具體代碼見項目鏈接

0.問題描述

可以參考issue： ERNIE-Layout在（人名和郵箱）信息抽取的諸多問題闡述#4031

ERNIE-Layout因為看到功能比較強大就嘗試了一下，但遇到信息抽取錯誤，以及抽取不全等問題
使用PDFPlumber庫和PaddleNLP UIE模型抽取，遇到問題：無法把姓名和郵箱一一對應。

1.基于ERNIE-Layout的DocPrompt開放文檔抽取問答模型

ERNIE-Layout以文心文本大模型ERNIE為底座，融合文本、圖像、布局等信息進行跨模態(tài)聯(lián)合建模，創(chuàng)新性引入布局知識增強，提出閱讀順序預測、細粒度圖文匹配等自監(jiān)督預訓練任務，升級空間解偶注意力機制，在各數(shù)據(jù)集上效果取得大幅度提升，相關工作ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-training for Document Understanding已被EMNLP 2022 Findings會議收錄[1]?？紤]到文檔智能在多語種上商用廣泛，依托PaddleNLP對外開源業(yè)界最強的多語言跨模態(tài)文檔預訓練模型ERNIE-Layout。

支持：

發(fā)票抽取問答
海報抽取
網(wǎng)頁抽取
表格抽取
長文檔抽取
多語言票據(jù)抽取
同時提供pipelines流水線搭建

更多參考官網(wǎng)，這里就不展開了

ERNIE-Layout GitHub地址：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout

Hugging Face網(wǎng)頁版：https://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout

可以看到效果不好，多個實體不能一同抽取，需要構(gòu)建成單個問答，比如姓名和郵箱分開抽取，嘗試構(gòu)造合理的開放式prompt。

小技巧

Prompt設計：在DocPrompt中，Prompt可以是陳述句（例如，文檔鍵值對中的Key），也可以是疑問句。因為是開放域的抽取問答，DocPrompt對Prompt的設計沒有特殊限制，只要符合自然語言語義即可。如果對當前的抽取結(jié)果不滿意，可以多嘗試一些不同的Prompt。
支持的語言：支持本地路徑或者HTTP鏈接的中英文圖片輸入，Prompt支持多種不同語言，參考以上不同場景的例子。

可以看出得到的效果不是很好，比較玄學，原因應該就是ocr識別對應姓名人名準確率相對不高，無法全部命中；并且無法一一對應。

這塊建議看看paddleocr具體實現(xiàn)步驟，研究一下在看看怎么處理。

下面講第二種方法

2.基于PDFplumber-UIE信息抽取

2.1 PDF文檔解析（pdfplumber庫）

安裝PDFPlumber !pip install pdfplumber --user

官網(wǎng)鏈接：https://github.com/jsvine/pdfplumber

pdf的文本和表格處理用多種方式可以實現(xiàn)，本文介紹pdfplumber對文本和表格提取。這個庫在GitHub上stars:3.3K多，使用起來很方便，效果也很好，可以滿足對pdf中信息的提取需求。

pdfplumber.pdf中包含了.metadata和.pages兩個屬性。

metadata是一個包含pdf信息的字典。
pages是一個包含pdfplumber.Page實例的列表，每一個實例代表pdf每一頁的信息。

每個pdfplumber.Page類:pdfplumber核心功能，對PDF的大部分操作都是基于這個類，類中包含了幾個主要的屬性：文本、表格、尺寸等

page_number 頁碼
width 頁面寬度
height 頁面高度
objects/.chars/.lines/.rects 這些屬性中每一個都是一個列表，每個列表都包含一個字典，每個字典用于說明頁面中的對象信息，包括直線，字符，方格等位置信息。

一些常用的方法

extract_text() 用來提頁面中的文本，將頁面的所有字符對象整理為的那個字符串
extract_words() 返回的是所有的單詞及其相關信息
extract_tables() 提取頁面的表格

2.1.1 pdfplumber簡單使用

!pip install xlwt

更多功能（表格讀取，圖片提取，可視化界面）可以參考官網(wǎng)或者下面鏈接：

https://blog.csdn.net/fuhanghang/article/details/122579548

2.1.2 學術(shù)論文特定頁面文本提取

發(fā)表論文作者信息通常放在論文首頁的腳末行或參考文獻的后面，根據(jù)這種情況我們可以進行分類（只要獲取作者的郵箱信息即可）：

第一種國外論文：首頁含作者相關信息 or 首頁是封面第二頁才是作者信息【獲取前n頁即可，推薦是2頁】
第二種國內(nèi)論文：首頁含作者信息（郵箱等）在參考文獻之后會有各個做的詳細信息，比如是職位，研究領域，科研成果介紹等等【獲取前n頁和尾頁，推薦是2頁+尾頁】

這樣做的好處在于兩個方面：

節(jié)約了存儲空間和數(shù)據(jù)處理時間
節(jié)約資源消耗，在模型預測時候輸入文本數(shù)量顯著減少，在數(shù)據(jù)面上加速推理

針對1簡單闡述：PDF原始大小614.1KB

| 處理方式 | pdf轉(zhuǎn)文字時延 | 存儲占用空間 | | -------- | -------- | -------- | | 保存指定前n頁面文字 | 242ms | 2.8KB | | 保存指定前n頁面文字和尾頁 | 328ms | 5.3KB | | 保存全文 |2.704s | 64.1KB |

針對二：以下6中方案提速不過多贅述，可以參考下面項目

模型選擇 uie-mini等小模型預測，損失一定精度提升預測效率
UIE實現(xiàn)了FastTokenizer進行文本預處理加速
fp16半精度推理速度更快
UIE INT8 精度推理
UIE Slim 數(shù)據(jù)蒸餾
SimpleServing支持支持多卡負載均衡預測

UIE Slim滿足工業(yè)應用場景，解決推理部署耗時問題，提升效能?。篽ttps://aistudio.baidu.com/aistudio/projectdetail/4516470?contributionType=1

之后有時間重新把paddlenlp技術(shù)路線整理一下

2.2 UIE信息抽取（論文作者和郵箱）

2.2.1 零樣本抽取

2.3長文本的答案獲取

UIE對于詞和句子的抽取效果比較好，但是對應大段的文字結(jié)果，還是需要傳統(tǒng)的正則方式作為配合，在本次使用的pdf中，還需要獲得法院具體的判決結(jié)果，使用正則表達式可靈活匹配想要的結(jié)果。

start_word = '如下' end_word = '特此公告' start = re.search(start_word, record) end = re.search(end_word, record) print(record[start.span()[1]:end.span()[0]]) ： ??？谥性赫J為：新達公司的住所地在海口市國貿(mào)大道 48 號新達商務大廈，該司是由海南省工商行政管理局核準登記的企業(yè)，故?？谥性簩Ρ景赣泄茌牂?quán)。因新達公司不能清償到期債務，故深物業(yè)股份公司提出對新達公司進行破產(chǎn)清算 ? 1 ? 的申請符合受理條件。依照《中華人民共和國企業(yè)破產(chǎn)法》第二條第一款、第三條、第七條第二款之規(guī)定，裁定如下： ?受理申請人深圳市物業(yè)發(fā)展（集團）股份有限公司對被申請人海南新達開發(fā)總公司破產(chǎn)清算的申請。 ?本裁定自即日起生效。 ?二、其他情況 ?本公司已對海南公司賬務進行了全額計提，破產(chǎn)清算對本公司財務狀況無影響。 ?具體情況請查閱本公司2011年11月28日發(fā)布的《董事會決議公告》。 ?

2.4正則提升效果

對于長文本，可以根據(jù)關鍵詞進行分割后抽取，但是對于多個實體，比如這篇公告中，通過的多個議案，就無法使用UIE抽取。

# 導入正則表達式相關庫 import re ?schema = ['通過議案'] start_word = '通過以下議案' start = re.search(start_word, record) input_data = record[start.span()[0]:] print(input_data) ie = Taskflow('information_extraction', schema=schema) pprint(ie(input_data)) # 正則匹配“一二三四五六七八九十” ?print(re.findall(r"[\u4e00\u4e8c\u4e09\u56db\u4e94\u516d\u4e03\u516b\u4e5d\u5341]、.*\n", input_data)) ['一、2021 年第三季度報告 \n', '二、關于同意全資子公司收購擔保公司 60%股權(quán)的議案詳見公司于 2021 年 10 月 29 日刊登在《證券時報》、《中國證券\n', '三、關于同意控股子公司廣西新柳邕公司為認購廣西新柳邕項\n', '四、關于續(xù)聘會計師事務所的議案 \n', '五、關于向銀行申請綜合授信額度的議案 \n', '一、向中國民生銀行股份有限公司深圳分行申請不超過人民幣 5\n', '二、向招商銀行股份有限公司深圳分行申請不超過人民幣 6 億\n', '六、經(jīng)理層《崗位聘任協(xié)議》 \n', '七、經(jīng)理層《年度經(jīng)營業(yè)績責任書》 \n', '八、經(jīng)理層《任期經(jīng)營業(yè)績責任書》 \n', '九、關于暫不召開股東大會的議案 \n']

3.基于基于UIE-X的信息提取

3.1 跨模態(tài)文檔信息抽取

跨模態(tài)文檔信息抽取能力 UIE-X 來了。信息抽取簡單說就是利用計算機從自然語言文本中提取出核心信息，是自然語言處理領域的一項關鍵任務，包括命名實體識別（也稱實體抽?。㈥P系抽取、事件抽取等。傳統(tǒng)信息抽取方案基于序列標注，需要大量標注語料才能獲得較好的效果。2022年5月飛槳 PaddleNLP 推出的 UIE，是業(yè)界首個開源的面向通用信息抽取的產(chǎn)業(yè)級技術(shù)方案，基于 Prompt 思想，零樣本和小樣本能力強大，已經(jīng)成為業(yè)界信息抽取任務上的首選方案。

除了純文本內(nèi)容外，企業(yè)中還存在大量需要從跨模態(tài)文檔中抽取信息并進行處理的業(yè)務場景，例如從合同、收據(jù)、報銷單、病歷等不同類型的文檔中抽取所需字段，進行錄入、比對、審核校準等操作。為了滿足各行業(yè)的跨模態(tài)文檔信息抽取需求，PaddleNLP 基于文心ERNIE-Layout[1]跨模態(tài)布局增強預訓練模型，集成PaddleOCR的PP-OCR、PP-Structure版面分析等領先能力，基于大量信息抽取標注集，訓練并開源了UIE-X–––首個兼具文本及文檔抽取能力、多語言、開放域的信息抽取模型。

支持實體抽取、關系抽取、跨任務抽取
支持跨語言抽取
集成PP-OCR，可靈活定制OCR結(jié)果
使用PP-Structure版面分析功能
增加渲染模塊，OCR和信息抽取結(jié)果可視化

項目鏈接： https://aistudio.baidu.com/aistudio/projectdetail/5017442

3.2 產(chǎn)業(yè)實踐分享：基于UIE-X的醫(yī)療文檔信息提取

PaddleNLP全新發(fā)布UIE-X ??，除已有純文本抽取的全部功能外，新增文檔抽取能力。

UIE-X延續(xù)UIE的思路，基于跨模態(tài)布局增強預訓練模型文心ERNIE-Layout重訓模型，融合文本、圖像、布局等信息進行聯(lián)合建模，能夠深度理解多模態(tài)文檔?；赑rompt思想，實現(xiàn)開放域信息抽取，支持零樣本抽取，小樣本能力領先。

官網(wǎng)鏈接：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction

本案例為UIE-X在醫(yī)療領域的實戰(zhàn)，通過少量標注+模型微調(diào)即可具備定制場景的端到端文檔信息提取

目前醫(yī)療領域有大量的醫(yī)學檢查報告單，病歷，發(fā)票，CT影像，眼科等等的醫(yī)療圖片數(shù)據(jù)?，F(xiàn)階段，針對這些圖片都是靠人工分類，結(jié)構(gòu)化錄入系統(tǒng)中，做患者的全生命周期的管理。耗時耗力，人工成本極大。如果能靠人工智能的技術(shù)做到圖片的自動分類和結(jié)構(gòu)化，將大大的降低成本，提高系統(tǒng)錄入的整體效率。

項目鏈接： https://aistudio.baidu.com/aistudio/projectdetail/5261592

4.總結(jié)

本項目提供了基于ERNIELayout&PDFplumber-UIEX多方案學術(shù)論文信息抽取，有興趣同學可以研究一下UIE-X。

UIE-X延續(xù)UIE的思路，基于跨模態(tài)布局增強預訓練模型文心ERNIE-Layout重訓模型，融合文本、圖像、布局等信息進行聯(lián)合建模，能夠深度理解多模態(tài)文檔?；赑rompt思想，實現(xiàn)開放域信息抽取，支持零樣本抽取，小樣本能力領先.

標簽：