男女下面一进一出无遮挡-久久婷婷色综合一区二区-俺去啦网站-一个人在线观看www高清视频

首頁
核心技術(shù)
產(chǎn)品體系
解決方案
動態(tài)資訊
關(guān)于我們
搜索
首頁 動態(tài)資訊 公司新聞

一鍵部署,一鍵發(fā)布,易道博識智能結(jié)構(gòu)化平臺上線發(fā)布

來源:易道博識 發(fā)布時間:2021-09-27

信息抽取后的內(nèi)容,被稱為結(jié)構(gòu)化數(shù)據(jù)。


在銀行業(yè)務(wù)場景里,我們對關(guān)鍵信息的需求量遠(yuǎn)遠(yuǎn)超過了對于完整信息的需求。如果說OCR技術(shù)是對文檔進(jìn)行數(shù)字化處理,那么基于自然語言處理的信息抽取是對數(shù)字化信息進(jìn)行結(jié)構(gòu)化處理,而只有結(jié)構(gòu)化后的信息才可以使得數(shù)據(jù)產(chǎn)生價值。

易道博識推出智能結(jié)構(gòu)化平臺

基于深度學(xué)習(xí)的自然語言處理技術(shù),易道博識推出了智能結(jié)構(gòu)化平臺,通過深度學(xué)習(xí)的方式,自動從海量的非結(jié)構(gòu)化數(shù)字信息中抽取目標(biāo)數(shù)據(jù)。該平臺的推出,一定程度上解決了銀行在OCR識別方面的需求比較旺盛,和后續(xù)針對每個新板式的OCR識別需求均需重新采購的問題。

智能結(jié)構(gòu)化平臺使得行方后續(xù)針對板式相對固定的待識別憑證,可以通過已有的通用識別引擎和智能結(jié)構(gòu)化平臺可以自主解決非結(jié)構(gòu)化信息的提取工作,達(dá)到自主可控和節(jié)省成本的目的,解決行方新板式OCR識別需要從新采購及定制開發(fā)的工作。

直接拖拽票據(jù)上信息,即可完成結(jié)構(gòu)化提取


一鍵部署,一鍵發(fā)布

在OCR識別流程中,原始圖像經(jīng)過文本定位和文本識別,在確定了文本位置和文本內(nèi)容之后,將識別內(nèi)容通過智能結(jié)構(gòu)化平臺進(jìn)行數(shù)據(jù)結(jié)構(gòu)化,若數(shù)據(jù)的模型評價通過,則可進(jìn)行模型發(fā)布。


在易道博識智能結(jié)構(gòu)化平臺中,會提前將訓(xùn)練圖像通過OCR和標(biāo)注,生成數(shù)據(jù)模型并集成模型庫,用于應(yīng)對生產(chǎn)中的結(jié)構(gòu)化提取。如果過程中出現(xiàn)異常數(shù)據(jù),平臺會自動將數(shù)據(jù)抓取并修正,重新進(jìn)行模型生成,完成一個內(nèi)部閉環(huán)。并且根據(jù)閉環(huán)進(jìn)行模板自行調(diào)整,不斷提升結(jié)構(gòu)化水平。

這個部署過程,在業(yè)務(wù)人員視角下是“無感”的,,模板定制過程簡單、直觀,只要將需要提取的信息選出加入訓(xùn)練即可,一個版式5-10分鐘可完成,即可實(shí)現(xiàn)一鍵部署。

此外,單個智能模板服務(wù)器可支持模板標(biāo)注、構(gòu)建、管理、部署功能,在統(tǒng)一的負(fù)載均衡器支持下,能夠進(jìn)行水平擴(kuò)展,因此,可以根據(jù)客戶的需求支持不同的并發(fā)量。

智能模板管理

在智能結(jié)構(gòu)化平臺中,智能模板管理系統(tǒng)的主要功能是快速生成目標(biāo)版式的結(jié)構(gòu)化模板,為識別平臺提供結(jié)構(gòu)化方法,并在本系統(tǒng)中存儲和管理這些模板。通過智能模板系統(tǒng)的可視化界面,可以定義模板的輸出字段,并進(jìn)行必要的圖像標(biāo)注工作,從而為智能模板算法提供元數(shù)據(jù)。


智能模板操作過程主要包含六個的步驟:

選擇/創(chuàng)建模板:選擇已有的模板或者創(chuàng)建一個新的模板。

定義模板輸出字段:為上一步創(chuàng)建的模板設(shè)置輸出字段。

標(biāo)注樣本:為創(chuàng)建的模板增加圖像文件,并標(biāo)注其中的數(shù)據(jù),用于告訴程序哪個是想要的值。

構(gòu)建模型:程序結(jié)合標(biāo)注數(shù)據(jù)和樣本的識別結(jié)果,生成結(jié)構(gòu)化模型。

測試模型:程序使用新生成的模型進(jìn)行批量測試,借助新模型對樣本進(jìn)行分類和結(jié)構(gòu)化,進(jìn)而生成測試報告。

發(fā)布模型:經(jīng)過測試,模型效果良好則可以選擇發(fā)布到生產(chǎn)環(huán)境中進(jìn)行正式使用。

步驟一:模塊配置界面

模塊配置界面可以增加/刪除模塊,也能為模塊增加/刪除版式。

一個模型下可以定義任意數(shù)量的模塊,單個模塊下又可以包含數(shù)個版式。需要特別說明的是,模型的概念相當(dāng)于一個統(tǒng)一的接口,通過固定的接口滿足自己的識別需求。


模塊的概念相當(dāng)于樣本的類別,如身份證、軍官證、結(jié)婚證、完稅證明、營業(yè)執(zhí)照等。版式的概念相當(dāng)于樣本類別下不同的樣式,如營業(yè)執(zhí)照下有橫版格式和豎版格式。

步驟二:標(biāo)注頁面

每一個版式都需要上傳樣本并標(biāo)注,將需要提取的數(shù)據(jù)標(biāo)記出來。

步驟三:模型構(gòu)建-生成模型界面

所有樣本標(biāo)注完成后,便可以生成模型。

步驟四:模型的部署和測試界面

模型構(gòu)建完成后,可以部署該模型到識別平臺,并測試模型的效果。

智能結(jié)構(gòu)化平臺用于訓(xùn)練產(chǎn)生針對各種不同版式的OCR識別引擎,滿足銀行自動化、專業(yè)化、模塊化、高性能等業(yè)務(wù)及技術(shù)要求,支持身份證、銀行卡等固定版式的結(jié)構(gòu)化,營業(yè)執(zhí)照等多版式的結(jié)構(gòu)化,銀行回單、長途客運(yùn)票等非固定版式的結(jié)構(gòu)化,支持銀行單據(jù)分類+識別等分類結(jié)構(gòu)化。總而言之,可以支持銀行80%OCR識別需求的自研能力。

隨著產(chǎn)業(yè)信息化、數(shù)字化的土壤越發(fā)深厚,國內(nèi)很多企業(yè)已經(jīng)逐漸進(jìn)入了電子化階段。2020年之后,企業(yè)需要做的是電子化到結(jié)構(gòu)化階段的準(zhǔn)備。但這個過程中,不同場景的技術(shù)仍然面臨不同的問題,新的數(shù)字化技術(shù)趨勢也在不斷迭代。


總得來說,從非電子化到電子化、從電子化到結(jié)構(gòu)化的轉(zhuǎn)型,其實(shí)就是從獲取數(shù)據(jù)、理解數(shù)據(jù)到運(yùn)用數(shù)據(jù)的過程。

在線留言
主站蜘蛛池模板: 平塘县| 阿城市| 微博| 栾城县| 灵川县| 夏津县| 乐山市| 镇原县| 舞阳县| 南充市| 河池市| 宜川县| 阳高县| 河间市| 东山县| 阿拉善左旗| 渝北区| 梅州市| 南乐县| 阿拉善左旗| 皮山县| 昌黎县| 临桂县| 巴塘县| 嘉兴市| 正安县| 大连市| 凤凰县| 邯郸县| 东至县| 吴川市| 精河县| 柘城县| 晴隆县| 安康市| 剑川县| 淳安县| 卢氏县| 中山市| 张掖市| 鄂尔多斯市|