cao死我好湿好紧好爽动态视屏|精选久久久久久久久久|中文无码精品一区二区三区四季|AAA国语精品刺激对白视频|

當前位置:首頁 > 軟件開放 > 正文內(nèi)容

網(wǎng)頁源代碼提取數(shù)據(jù)庫(如何獲取網(wǎng)頁源代碼)

軟件開放12個月前 (01-31)385

向AI轉(zhuǎn)型的程序員都關(guān)注了這個號??????

最近有很多多模網(wǎng)絡用于處理視覺信息豐富的文檔理解(VRDU)。同時用視覺,布局信息和文本embedding。

但是大部分方法在序列中融合位置編碼,忽略了通過OCR工具可能產(chǎn)生的不正確閱讀順序。

文章提出XYLayoutLM, 通過Augmented XY Cut的方法來或者正確的閱讀順序。

同時文章使用了Dilated Conditional Position Encoding模塊去處理不同長度的序列。

介紹

LayoutLMv2的2個局限性:

1)需要依靠OCR產(chǎn)生的tokens和bbox,沒有去探索閱讀順序帶來的影響。閱讀順序?qū)τ诜g等問題是很關(guān)鍵的。通常的做法是用位置編碼來表示輸入順序。作者發(fā)現(xiàn),即使用了位置編碼,還是有可能出現(xiàn)順序不對的情況。

從上圖來看,這個30對應的是27,28對應31,29對應33,這個順序是不對的。

2)通常使用固定長度的相對或者絕對位置編碼。帶來的問題是:不能處理比固定長度長的序列。有使用雙線性插值的辦法用于位置編碼,但是效果不是很好。最近,Conditional Position Encoding(CPE)用于變長的圖像分類任務。通過改變輸入token到2D的特征,用卷積動態(tài)提取局部輸入信息。CPE的設計是用于視覺token,不能直接用于1D的文本token。

本文基于LayoutLMv2提出了XYLayoutLM。就是為了解決上面的2局限性。

解決順序問題

展開全文

傳統(tǒng)的通過從上到下,從左到右的順序重排列還是不對。用2種簡單的規(guī)則:

1)先對Y軸降序排序,再對X軸降序排序。

2)通過Y+X的降序排列。

都不對,從上面的看。最后用XY Cut獲得了正確的排序。

解決輸入序列變長問題

Dilated Conditional Position Encoding(DCPE)來生成位置編碼。

方法 整體概覽

整個模型架構(gòu)如上圖所示。

有圖像,文字和文本位置信息作為輸入。

視覺信號通過ResNeXt-101提取。通過展開后,和文本信息融合。

2個獨立的位置編碼,分別是位置編碼和bbox編碼。

和LayoutXLM的不同就是上面寫的順序和位置編碼。

LayoutXLM的概覽

LayoutXLM有3個輸入:文本,圖像和布局(位置信息)。

每個輸入都通過一個固定長度的MLP層轉(zhuǎn)換成embedding序列。

文本和圖像,布局的編碼都一起成為了輸入編碼。

輸入編碼通過transformer(伴有空間自注意力機制)。

最后,視覺和文本信息通過transformer輸出用于文本理解任務。

簡單來講:text, visual, layout embedding - transformer - output(用來做各種task)

正確的閱讀順序

從直覺來講,怎么讓token box對其和如何垂直水平分割區(qū)域。

所以通過,token box的投影來分割,決定閱讀順序。先介紹投影方法然后介紹Augmented XY Cut算法。

通過投影獲得直方圖

一個框有4個點信息【xmin, ymin, xmax, ymax】。加入OCR提取了K個框。

通過去產(chǎn)生對應的水平和垂直的直方圖。對K個直方圖求和。

通過直方圖的局部最小值來獲得應該分開的點(這個很CV的思路)

網(wǎng)頁源代碼提取數(shù)據(jù)庫(如何獲取網(wǎng)頁源代碼)

Augmented XY Cut Algorithm

偽代碼

創(chuàng)建一個xy的樹,去記錄閱讀順序??蜃顬檩斎耄惴〞敵鰧喿x順序的索引。

我們提出一個數(shù)據(jù)增強的策略,有個3個參數(shù),x, y, theta.

x,y是決定我在這個框是不是要在x軸或者y軸上移動。

如果要移動,會移動theta * x/y個像素。

從一個(-1, 1)的正態(tài)分布上隨機聲從2個值,如果隨機值大于x, y 就會移動。

作者設定的參數(shù)為0.5, 0.5, theta=5。(感覺就是為了防止直方圖算出來的局部最小不準確)

Dilated Conditional Position Encoding

CPE會先將展平的序列X投影到2D的視覺空間X'。軸卷積層用到X'上產(chǎn)生位置編碼E。

最后,位置編碼E會展開,加入到token embedding中作為transformer的輸入。

但是直接使用CPE會帶來性能下降。原因是:

1)不正確的閱讀順序。(通過XY cut解決)

2)有1D的文本token, 不能很好的變到2D空間。

提出Dilated Conditional Position Encoding(DCPE)來解決第二個問題。

用1D的卷積來處理文本的embeding。

需要更大的感受野,比如句子”他是一個非常帥的男生“。他和男生是強相關(guān)的。

但是使用3的卷積核是不行的,所以采用了空洞卷積增加感受野。

實驗

證明XYLayoutLM是很好的。

證明這個超參數(shù)0.5, 0.5, 5也是最好的。

消融實驗,證明每一步的有效性。

可視化注意力

可以發(fā)現(xiàn)XYlayoutLM對比layoutLM更有大的attn權(quán)重

Augmented XY Cut的有效性,

代碼

https://github.com/Sanster/xy-cut

模型性能對比

原文地址

機器學習算法AI大數(shù)據(jù)技術(shù)

搜索公眾號添加: datanlp

閱讀過本文的人還看了以下文章:

TensorFlow 2.0深度學習案例實戰(zhàn)

基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測

《基于深度學習的自然語言處理》中/英PDF

Deep Learning 中文版初版-周志華團隊

【全套視頻課】最全的目標檢測算法系列講解,通俗易懂!

《美團機器學習實踐》_美團算法團隊.pdf

《深度學習入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼

《深度學習:基于Keras的Python實踐》PDF和代碼

特征提取與圖像處理(第二版).pdf

python就業(yè)班學習視頻,從入門到實戰(zhàn)項目

2019最新《PyTorch自然語言處理》英、中文版PDF+源碼

《21個項目玩轉(zhuǎn)深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼

《深度學習之pytorch》pdf+附書源碼

PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》

【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》

《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼

汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)

李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材

筆記、代碼清晰易懂!李航《統(tǒng)計學習方法》最新資源全套!

《神經(jīng)網(wǎng)絡與深度學習》最新2018版中英PDF+源碼

將機器學習模型部署為REST API

yolo3 檢測出圖像中的不規(guī)則漢字

同樣是機器學習算法工程師,你的面試為什么過不了?

前海征信大數(shù)據(jù)算法:風險概率預測

【Keras】完整實現(xiàn)‘交通標志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學習圖像分類

特征工程(一)

特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊

特征工程(三):特征縮放,從詞袋到 TF-IDF

特征工程(四): 類別特征

特征工程(五): PCA 降維

特征工程(六): 非線性特征提取和模型堆疊

特征工程(七):圖像特征提取和深度學習

如何利用全新的決策樹集成級聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?

Machine Learning Yearning 中文翻譯稿

螞蟻金服2018秋招-算法工程師(共四面)通過

全球AI挑戰(zhàn)-場景分類的比賽源碼(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程

不斷更新資源

深度學習、機器學習、數(shù)據(jù)分析、python

搜索公眾號添加: datayx

掃描二維碼推送至手機訪問。

版權(quán)聲明:本文由飛速云SEO網(wǎng)絡優(yōu)化推廣發(fā)布,如需轉(zhuǎn)載請注明出處。

本文鏈接:http://m.smallwaterjetsystem.com/post/84273.html

“網(wǎng)頁源代碼提取數(shù)據(jù)庫(如何獲取網(wǎng)頁源代碼)” 的相關(guān)文章

廈門軟件開發(fā)(廈門軟件開發(fā)工資待遇)

廈門軟件開發(fā)(廈門軟件開發(fā)工資待遇)

今天給各位分享廈門軟件開發(fā)的知識,其中也會對廈門軟件開發(fā)工資待遇進行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!本文目錄一覽: 1、廈門的軟件公司那些比較好的? 2、在廈門開發(fā)一款APP軟件的流程是怎么樣的? 3、廈門紫云高科技公司地址 4、廈門軟件開發(fā),廈門軟件開...

國家商標免費查詢官網(wǎng)入口(國家商標網(wǎng)網(wǎng)上查詢)

國家商標免費查詢官網(wǎng)入口(國家商標網(wǎng)網(wǎng)上查詢)

本篇文章給大家談談國家商標免費查詢官網(wǎng)入口,以及國家商標網(wǎng)網(wǎng)上查詢對應的知識點,希望對各位有所幫助,不要忘了收藏本站喔。 本文目錄一覽: 1、商標網(wǎng)查詢?nèi)肟?2、商標免費查詢?nèi)肟?3、商標局官網(wǎng)商標查詢? 商標網(wǎng)查詢?nèi)肟?商標查詢 ;bd_vid=6628772045007563163國家...

短視頻特效怎么做,什么軟件(短視頻剪輯和特效用什么軟件)

短視頻特效怎么做,什么軟件(短視頻剪輯和特效用什么軟件)

今天給各位分享短視頻特效怎么做,什么軟件的知識,其中也會對短視頻剪輯和特效用什么軟件進行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!本文目錄一覽: 1、短視頻制作,抖音短視頻制作用什么軟件? 2、手機上有哪些視頻特效制作軟件? 3、短視頻制作需要用哪些軟件? 4、手...

直播推廣員犯法嗎(直播間發(fā)廣告犯法嗎)

直播推廣員犯法嗎(直播間發(fā)廣告犯法嗎)

本篇文章給大家談談直播推廣員犯法嗎,以及直播間發(fā)廣告犯法嗎對應的知識點,希望對各位有所幫助,不要忘了收藏本站喔。 本文目錄一覽: 1、網(wǎng)絡主播犯法么 2、引流推廣犯法嗎 3、游戲推廣員是違法的嗎?? 4、三部門發(fā)文進一步規(guī)范網(wǎng)絡直播營利行為,對于違反行為將會如何處罰? 網(wǎng)絡主播犯法么...

網(wǎng)頁在線一鍵生成app(網(wǎng)站一鍵生成器)

網(wǎng)頁在線一鍵生成app(網(wǎng)站一鍵生成器)

今天給各位分享網(wǎng)頁在線一鍵生成app的知識,其中也會對網(wǎng)站一鍵生成器進行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!本文目錄一覽: 1、如何制作軟件app 2、怎么制作一個簡單手機APP軟件?。?3、求一個html5網(wǎng)頁轉(zhuǎn)換到app的詳細步驟? 4、如何制作app軟...

cba積分榜最新排名表(cba個人積分榜最新排名)

cba積分榜最新排名表(cba個人積分榜最新排名)

今天給各位分享cba積分榜最新排名表的知識,其中也會對cba個人積分榜最新排名進行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關(guān)注本站,現(xiàn)在開始吧!本文目錄一覽: 1、2022年cba排名 2、cba排名積分榜 3、cba最新積分榜出爐 4、cba排名榜最新排名榜 5、新賽季cba排...