男女下面一进一出无遮挡-久久婷婷色综合一区二区-俺去啦网站-一个人在线观看www高清视频

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資訊

淺談智能文檔處理技術與應用

來源:易道博識 發布時間:2023-04-26
智能文檔處理介紹
智能文檔處理(IDP)是利用人工智能技術,自動從復雜的非結構化和半結構化文檔中抽取關鍵數據,并將其轉換成結構化數據的技術。IDP又稱為認知數據處理(Cognitive Data Processing)或智能數據捕獲(Intelligent Data Capturing)技術。
眾所周知,商業數據是企業數字化轉型的核心。然而,現實中80%的商業數據都是非結構化格式,比如郵件、圖片和各種企業文檔,其中非結構化文檔占據了絕大多數。據統計,到2025年,全球企業數據總量將達到175ZB。借助于IDP技術,企業能夠實現文檔自動化處理、文檔語義理解、智能審核和數據智能分析等方面的功能,提升企業用戶文檔處理的效率和質量,為企業降本增效。
智能文檔處理難點
從文檔的結構特點上,我們可以將現實世界的文檔劃分為結構化、半結構化和非結構化三種類型。對應到版式特征上,分別是固定版式、多版式和開放版式三種類型。
結構化文檔具有版式固定的特點,同一類型不同樣本之間沒有差異,如固定版式的信息采集表、申請文件等。半結構化文檔版式相對固定,或稱為多版式文檔,同一類型不同樣本之間關鍵內容相同,但是往往內容出現的位置卻不同,如不同供應商采購的送貨單,每個供應商都不同,但是其關鍵內容都包含訂單號、商品信息等。
非結構化文檔又稱為開放版式文檔,通常沒有顯著的版式特征,幾乎是純文本表達,雖然表達的內容相同,但是表達方式卻差異很大。常見的如合同、簡歷、招標文件等。
對于結構化和半結構化文檔,由于版式相對固定,當前行業內普遍的做法是通過模板或深度學習模型的方法,完成分類和信息抽取等自動化處理,已經能夠解決大多數應用場景的問題。但是,開放版式文檔,由于其天然的諸多難點,給智能文檔處理帶來了很大的困難。如下表,是我們歸納的開放版式文檔處理的主要難點。


表1 開放版式文檔特點

智能文檔處理核心技術
如表1,相比于純文本或固定和多版式文檔,開放版式文檔處理具有諸多難點。因此,智能文檔處理過程必須綜合應用計算機視覺(CV)、光學字符處理(OCR)、文檔解析、自然語言處理(NLP)和文檔信息抽取等關鍵技術,才能更好地實現自動化和智能化處理。
計算機視覺(CV)技術

CV技術主要是對于文檔圖像進行各種圖像處理,常見如圖像去噪聲、去干擾、圖像增強、圖像壓縮、圖像分割等。其處理目的主要是為后續OCR環節提供高質量的圖像輸入,以提升OCR的性能。同時,利用圖像檢測和分割等技術,可以實現文檔物理版面解析。

  • 光學字符處理(OCR)技術

OCR是將紙質文檔、圖片等非數字化文件中的文字內容轉換為數字化格式的技術。當前主流實現上,借助表格識別、印章識別、勾選和二維碼識別等技術,在OCR環節可以實現圖像中所有通用對象(文字、表格、印章、勾選、二維碼、簽名等)的統一識別和輸出,作為后續智能化文檔處理環節的輸入。

  • 文檔解析技術

文檔解析是在文檔協議解析或OCR處理的結果上,通過版面分析、表格解析等技術,實現文檔物理和邏輯結構的解析,得到文檔內容的統一表示。以此作為進一步文檔分類、信息抽取和文檔比對等處理的輸入。IDP通常需要能夠支持所有格式的文檔輸入,包括圖片、PDF、Word、OFD等,因此,文檔解析環節需要能夠解析以上各種格式的輸入文件,將其轉換成統一的表示形式,如JSON文件。

  • 自然語言處理(NLP)
NLP是一種利用計算機技術對自然語言進行分析和處理的技術,常見的NLP任務包括分詞、詞性標注、句法分析、語義分析、文本分類、信息抽取、文檔摘要、情感分析等。IDP中主要使用的NLP技術包括文本分類、文本信息抽取、語義理解等。通常的做法是將OCR輸出或文檔協議解析后的所有文本塊進行拼接,得到文本序列,再通過文本分類、信息抽取等技術,實現文檔的分類和信息抽取。另外,通過NLP技術,也可以對文檔進行自動摘要、情感分析和智能問答等處理。
  • 文檔信息抽取
相比于純文本,文檔的最大特點是其富格式特點。因此,文檔中信息抽取必須依賴于版面位置等視覺特征,比如從文檔中的圖表或表格中抽取信息,或者從特定版面位置區域的結構化信息塊中抽取信息。相比于簡單地從大段文本序列中做信息抽取,文檔信息抽取技術難度更大。
智能文檔處理流程
如下圖,是智能文檔統一處理流程。

圖1 智能文檔處理流程

主要包含以下環節:
  • 文檔預處理
該步驟主要針對Word、PDF等文檔協議進行解析處理。
  • OCR
通過通用OCR識別模型,對輸入的文檔圖像上的文字、印章、簽名、表格等通用要素進行識別,得到文本和位置,以及表格結構化數據。
  • 版面分析
利用版面分析技術,定位出文檔圖像上所有的標題、段落、表格、圖表、頁眉、頁腳等版面信息。再利用標題和段落等信息,做文檔邏輯結構分析,得到文檔結構。
  • 信息抽取
基于版面和目錄分析的結果,結合文檔協議解析或OCR的結果,利用自然語言處理等技術,進行文檔關鍵信息抽取。
  • 信息校驗
利用預設的規則,對抽取出的信息進行校驗,包括數據格式檢查、預設的審閱規則檢查等。
智能文檔處理應用場景
主要的智能文檔處理應用場景包括:
  • 分類和標簽化
通過智能文檔處理技術,可以對大量文檔進行分類和標簽化,從而實現文檔的快速檢索、內容推薦和歸檔處理等功能。
  • 信息抽取
智能文檔處理可以幫助從文檔中抽取關鍵信息,如關鍵的短語、實體、事件等。這些信息在知識圖譜構建、智能搜索、智能比對、智能問答等應用場景中具有重要的價值。
  • 摘要與生成
利用智能文檔處理技術,可以對文檔進行自動摘要,生成簡潔、精煉的摘要內容。此外,還可以根據用戶輸入的關鍵詞或短語生成特定主題的文章,以滿足用戶需求。
  • 問答與對話
通過智能文檔處理技術,可以構建智能問答系統,為用戶提供及時準確的文檔內容信息。
未來隨著大模型等人工智能技術的不斷發展,智能文檔處理將會在各個行業的應用場景中不斷普及化。
賽博智能學習平臺智能文檔處理
賽博智能學習平臺定位于一體化機器學習訓練平臺,集成了對于結構化和非結構文檔的智能化處理功能,包括智能文檔分類、文檔解析和文檔信息抽取等。能夠支持合同、法律文書、招投標文件等各種開放版式長文檔的智能化處理。基于平臺自定義模板和自訓練模型能力,通過現場模板定制、模型標注訓練的方式,能夠形成即時可用的文檔AI能力。
如下圖,是賽博智能學習平臺智能文檔處理的基本流程。


圖2 賽博智能學習平臺智能文檔處理流程

未來,易道博識將繼續針對金融、能源、通信等行業客戶,在業務運營、審核和監督管理、信息檢索和風險管理等場景下,圍繞數字化、自動化和智能化需求,依托賽博智能學習平臺,為企業打造強大AI底座,助力企業建設基于AI模型全生命周期的標準化、一體化生產運營體系。
賽博智能學習平臺以私有化部署、現場訓練的形式滿足客戶對數據安全要求,通過與業務系統深度融合,滿足各業務場景在圖像處理、OCR、智能文檔處理和NLP等方向需求。
賽博智能學習平臺持續將AI大模型等前沿技術與行業數據深度結合,在技術與業務場景之間搭橋鋪路,讓AI技術快速在場景中落地,在應用場景中產生價值,帶動產業發展和升級。
在線留言
主站蜘蛛池模板: 仁布县| 桑日县| 苏尼特右旗| 余姚市| 泸定县| 舒兰市| 广河县| 安福县| 灵山县| 南开区| 城固县| 综艺| 桑植县| 土默特右旗| 修水县| 体育| 德保县| 绥德县| 凌海市| 巴青县| 朝阳区| 白城市| 久治县| 西峡县| 涟水县| 贵德县| 凤冈县| 九寨沟县| 安宁市| 称多县| 翁牛特旗| 恭城| 江川县| 泽州县| 万荣县| 理塘县| 自治县| 若羌县| 元氏县| 宣城市| 渝中区|