国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

基于ERNIELayout&UIE-X的多方案學術(shù)論文信息抽取

2023-01-05 14:44 作者:汀丶人工智能  | 我要投稿

本項目鏈接:https://aistudio.baidu.com/aistudio/projectdetail/5196032?contributionType=1 基于ERNIELayout&pdfplumber-UIE的多方案學術(shù)論文信息抽取,小樣本能力強悍,OCR、版面分析、信息抽取一應俱全。

具體代碼見項目鏈接

0.問題描述

可以參考issue: ERNIE-Layout在(人名和郵箱)信息抽取的諸多問題闡述#4031

  1. ERNIE-Layout因為看到功能比較強大就嘗試了一下,但遇到信息抽取錯誤,以及抽取不全等問題

  2. 使用PDFPlumber庫和PaddleNLP UIE模型抽取,遇到問題:無法把姓名和郵箱一一對應。

1.基于ERNIE-Layout的DocPrompt開放文檔抽取問答模型

ERNIE-Layout以文心文本大模型ERNIE為底座,融合文本、圖像、布局等信息進行跨模態(tài)聯(lián)合建模,創(chuàng)新性引入布局知識增強,提出閱讀順序預測、細粒度圖文匹配等自監(jiān)督預訓練任務,升級空間解偶注意力機制,在各數(shù)據(jù)集上效果取得大幅度提升,相關工作ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-training for Document Understanding已被EMNLP 2022 Findings會議收錄[1]??紤]到文檔智能在多語種上商用廣泛,依托PaddleNLP對外開源業(yè)界最強的多語言跨模態(tài)文檔預訓練模型ERNIE-Layout。

支持:

  • 發(fā)票抽取問答

  • 海報抽取

  • 網(wǎng)頁抽取

  • 表格抽取

  • 長文檔抽取

  • 多語言票據(jù)抽取

  • 同時提供pipelines流水線搭建

更多參考官網(wǎng),這里就不展開了

ERNIE-Layout GitHub地址:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout

Hugging Face網(wǎng)頁版:https://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout


可以看到效果不好,多個實體不能一同抽取,需要構(gòu)建成單個問答,比如姓名和郵箱分開抽取,嘗試構(gòu)造合理的開放式prompt。

小技巧

  • Prompt設計:在DocPrompt中,Prompt可以是陳述句(例如,文檔鍵值對中的Key),也可以是疑問句。因為是開放域的抽取問答,DocPrompt對Prompt的設計沒有特殊限制,只要符合自然語言語義即可。如果對當前的抽取結(jié)果不滿意,可以多嘗試一些不同的Prompt。

  • 支持的語言:支持本地路徑或者HTTP鏈接的中英文圖片輸入,Prompt支持多種不同語言,參考以上不同場景的例子。


可以看出得到的效果不是很好,比較玄學,原因應該就是ocr識別對應姓名人名準確率相對不高,無法全部命中;并且無法一一對應。

這塊建議看看paddleocr具體實現(xiàn)步驟,研究一下在看看怎么處理。

下面講第二種方法

2.基于PDFplumber-UIE信息抽取

2.1 PDF文檔解析(pdfplumber庫)

安裝PDFPlumber !pip install pdfplumber --user

官網(wǎng)鏈接:https://github.com/jsvine/pdfplumber

pdf的文本和表格處理用多種方式可以實現(xiàn), 本文介紹pdfplumber對文本和表格提取。這個庫在GitHub上stars:3.3K多,使用起來很方便, 效果也很好,可以滿足對pdf中信息的提取需求。

pdfplumber.pdf中包含了.metadata和.pages兩個屬性。

  • metadata是一個包含pdf信息的字典。

  • pages是一個包含pdfplumber.Page實例的列表,每一個實例代表pdf每一頁的信息。

每個pdfplumber.Page類:pdfplumber核心功能,對PDF的大部分操作都是基于這個類,類中包含了幾個主要的屬性:文本、表格、尺寸等

  • page_number 頁碼

  • width 頁面寬度

  • height 頁面高度

  • objects/.chars/.lines/.rects 這些屬性中每一個都是一個列表,每個列表都包含一個字典,每個字典用于說明頁面中的對象信息, 包括直線,字符, 方格等位置信息。

一些常用的方法

  • extract_text() 用來提頁面中的文本,將頁面的所有字符對象整理為的那個字符串

  • extract_words() 返回的是所有的單詞及其相關信息

  • extract_tables() 提取頁面的表格

2.1.1 pdfplumber簡單使用


!pip install xlwt


更多功能(表格讀取,圖片提取,可視化界面)可以參考官網(wǎng)或者下面鏈接:

https://blog.csdn.net/fuhanghang/article/details/122579548

2.1.2 學術(shù)論文特定頁面文本提取

發(fā)表論文作者信息通常放在論文首頁的腳末行或參考文獻的后面,根據(jù)這種情況我們可以進行分類(只要獲取作者的郵箱信息即可):

  • 第一種國外論文:首頁含作者相關信息 or 首頁是封面第二頁才是作者信息 【獲取前n頁即可,推薦是2頁】

  • 第二種國內(nèi)論文:首頁含作者信息(郵箱等)在參考文獻之后會有各個做的詳細信息,比如是職位,研究領域,科研成果介紹等等 【獲取前n頁和尾頁,推薦是2頁+尾頁】

這樣做的好處在于兩個方面:

  1. 節(jié)約了存儲空間和數(shù)據(jù)處理時間

  2. 節(jié)約資源消耗,在模型預測時候輸入文本數(shù)量顯著減少,在數(shù)據(jù)面上加速推理

針對1簡單闡述:PDF原始大小614.1KB

| 處理方式 | pdf轉(zhuǎn)文字時延 | 存儲占用空間 | | -------- | -------- | -------- | | 保存指定前n頁面文字 | 242ms | 2.8KB | | 保存指定前n頁面文字和尾頁 | 328ms | 5.3KB | | 保存全文 |2.704s | 64.1KB |

針對二:以下6中方案提速不過多贅述,可以參考下面項目

  • 模型選擇 uie-mini等小模型預測,損失一定精度提升預測效率

  • UIE實現(xiàn)了FastTokenizer進行文本預處理加速

  • fp16半精度推理速度更快

  • UIE INT8 精度推理

  • UIE Slim 數(shù)據(jù)蒸餾

  • SimpleServing支持支持多卡負載均衡預測

UIE Slim滿足工業(yè)應用場景,解決推理部署耗時問題,提升效能?。篽ttps://aistudio.baidu.com/aistudio/projectdetail/4516470?contributionType=1

之后有時間重新把paddlenlp技術(shù)路線整理一下


2.2 UIE信息抽取(論文作者和郵箱)

2.2.1 零樣本抽取


2.3長文本的答案獲取

UIE對于詞和句子的抽取效果比較好,但是對應大段的文字結(jié)果,還是需要傳統(tǒng)的正則方式作為配合,在本次使用的pdf中,還需要獲得法院具體的判決結(jié)果,使用正則表達式可靈活匹配想要的結(jié)果。

start_word = '如下' end_word = '特此公告' start = re.search(start_word, record) end = re.search(end_word, record) print(record[start.span()[1]:end.span()[0]]) : ???谥性赫J為:新達公司的住所地在海口市國貿(mào)大道 48 號新達商務大廈,該司是由海南省工商行政管理局核準登記 的企業(yè),故??谥性簩Ρ景赣泄茌牂?quán)。因新達公司不能清償 到期債務,故深物業(yè)股份公司提出對新達公司進行破產(chǎn)清算 ? 1 ? 的申請符合受理條件。依照《中華人民共和國企業(yè)破產(chǎn)法》 第二條第一款、第三條、第七條第二款之規(guī)定,裁定如下: ?受理申請人深圳市物業(yè)發(fā)展(集團)股份有限公司對被 申請人海南新達開發(fā)總公司破產(chǎn)清算的申請。 ?本裁定自即日起生效。 ?二、其他情況 ?本公司已對海南公司賬務進行了全額計提,破產(chǎn)清算對 本公司財務狀況無影響。 ?具體情況請查閱本公司2011年11月28日發(fā)布的《董事會 決議公告》。 ?

2.4正則提升效果

對于長文本,可以根據(jù)關鍵詞進行分割后抽取,但是對于多個實體,比如這篇公告中,通過的多個議案,就無法使用UIE抽取。

# 導入正則表達式相關庫 import re ?schema = ['通過議案'] start_word = '通過以下議案' start = re.search(start_word, record) input_data = record[start.span()[0]:] print(input_data) ie = Taskflow('information_extraction', schema=schema) pprint(ie(input_data)) # 正則匹配“一 二 三 四 五 六 七 八 九 十” ?print(re.findall(r"[\u4e00\u4e8c\u4e09\u56db\u4e94\u516d\u4e03\u516b\u4e5d\u5341]、.*\n", input_data)) ['一、2021 年第三季度報告 \n', '二、關于同意全資子公司收購擔保公司 60%股權(quán)的議案 詳見公司于 2021 年 10 月 29 日刊登在《證券時報》、《中國證券\n', '三、關于同意控股子公司廣西新柳邕公司為認購廣西新柳邕項\n', '四、關于續(xù)聘會計師事務所的議案 \n', '五、關于向銀行申請綜合授信額度的議案 \n', '一、向中國民生銀行股份有限公司深圳分行申請不超過人民幣 5\n', '二、向招商銀行股份有限公司深圳分行申請不超過人民幣 6 億\n', '六、經(jīng)理層《崗位聘任協(xié)議》 \n', '七、經(jīng)理層《年度經(jīng)營業(yè)績責任書》 \n', '八、經(jīng)理層《任期經(jīng)營業(yè)績責任書》 \n', '九、關于暫不召開股東大會的議案 \n']

3.基于基于UIE-X的信息提取

3.1 跨模態(tài)文檔信息抽取

跨模態(tài)文檔信息抽取能力 UIE-X 來了。 信息抽取簡單說就是利用計算機從自然語言文本中提取出核心信息,是自然語言處理領域的一項關鍵任務,包括命名實體識別(也稱實體抽?。㈥P系抽取、事件抽取等。傳統(tǒng)信息抽取方案基于序列標注,需要大量標注語料才能獲得較好的效果。2022年5月飛槳 PaddleNLP 推出的 UIE,是業(yè)界首個開源的面向通用信息抽取的產(chǎn)業(yè)級技術(shù)方案 ,基于 Prompt 思想,零樣本和小樣本能力強大,已經(jīng)成為業(yè)界信息抽取任務上的首選方案。

除了純文本內(nèi)容外,企業(yè)中還存在大量需要從跨模態(tài)文檔中抽取信息并進行處理的業(yè)務場景,例如從合同、收據(jù)、報銷單、病歷等不同類型的文檔中抽取所需字段,進行錄入、比對、審核校準等操作。為了滿足各行業(yè)的跨模態(tài)文檔信息抽取需求,PaddleNLP 基于文心ERNIE-Layout[1]跨模態(tài)布局增強預訓練模型,集成PaddleOCR的PP-OCR、PP-Structure版面分析等領先能力,基于大量信息抽取標注集,訓練并開源了UIE-X–––首個兼具文本及文檔抽取能力、多語言、開放域的信息抽取模型。

  • 支持實體抽取、關系抽取、跨任務抽取

  • 支持跨語言抽取

  • 集成PP-OCR,可靈活定制OCR結(jié)果

  • 使用PP-Structure版面分析功能

  • 增加渲染模塊,OCR和信息抽取結(jié)果可視化

項目鏈接: https://aistudio.baidu.com/aistudio/projectdetail/5017442

3.2 產(chǎn)業(yè)實踐分享:基于UIE-X的醫(yī)療文檔信息提取

PaddleNLP全新發(fā)布UIE-X ??,除已有純文本抽取的全部功能外,新增文檔抽取能力。

UIE-X延續(xù)UIE的思路,基于跨模態(tài)布局增強預訓練模型文心ERNIE-Layout重訓模型,融合文本、圖像、布局等信息進行聯(lián)合建模,能夠深度理解多模態(tài)文檔?;赑rompt思想,實現(xiàn)開放域信息抽取,支持零樣本抽取,小樣本能力領先。

官網(wǎng)鏈接:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction

本案例為UIE-X在醫(yī)療領域的實戰(zhàn),通過少量標注+模型微調(diào)即可具備定制場景的端到端文檔信息提取

目前醫(yī)療領域有大量的醫(yī)學檢查報告單,病歷,發(fā)票,CT影像,眼科等等的醫(yī)療圖片數(shù)據(jù)?,F(xiàn)階段,針對這些圖片都是靠人工分類,結(jié)構(gòu)化錄入系統(tǒng)中,做患者的全生命周期的管理。 耗時耗力,人工成本極大。如果能靠人工智能的技術(shù)做到圖片的自動分類和結(jié)構(gòu)化,將大大的降低成本,提高系統(tǒng)錄入的整體效率。

項目鏈接: https://aistudio.baidu.com/aistudio/projectdetail/5261592

4.總結(jié)

本項目提供了基于ERNIELayout&PDFplumber-UIEX多方案學術(shù)論文信息抽取,有興趣同學可以研究一下UIE-X。

UIE-X延續(xù)UIE的思路,基于跨模態(tài)布局增強預訓練模型文心ERNIE-Layout重訓模型,融合文本、圖像、布局等信息進行聯(lián)合建模,能夠深度理解多模態(tài)文檔?;赑rompt思想,實現(xiàn)開放域信息抽取,支持零樣本抽取,小樣本能力領先.



基于ERNIELayout&UIE-X的多方案學術(shù)論文信息抽取的評論 (共 條)

分享到微博請遵守國家法律
汝阳县| 保靖县| 三河市| 岳池县| 伊金霍洛旗| 科技| 周口市| 尚志市| 华坪县| 扎鲁特旗| 清丰县| 江城| 房山区| 永嘉县| 常山县| 长子县| 嫩江县| 文化| 滦南县| 五常市| 罗田县| 彭州市| 新源县| 鄂温| 台中市| 万州区| 连州市| 合阳县| 阿勒泰市| 秀山| 伊春市| 山东| 洪泽县| 林州市| 西城区| 合川市| 镇原县| 泌阳县| 类乌齐县| 浮梁县| 辽阳市|