中文題目:LASDTab:基于局部注意力和語(yǔ)義聯(lián)合解碼器的中文工程表格結(jié)構(gòu)解析方法
論文題目:LASDTab: A Complex Chinese Engineering Table Parsing Method Based on Local Attention and Semantic-Aware Unified Decoder
錄用期刊/會(huì)議:The 2025 Twentieth International Conference on Intelligent Computing (CCF C)
錄用/見(jiàn)刊時(shí)間:2025.4.28
作者列表:
1)李曉雪 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩23
2)王智廣 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)系教師
3)劉志強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩23
4)劉若冰 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩24
5)周 靜 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 碩22
6)魯 強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)系教師
文章簡(jiǎn)介:
當(dāng)前方法應(yīng)用于中文工程表格時(shí),仍然面臨兩大核心問(wèn)題。其一,中文工程表格往往包含數(shù)百個(gè)單元格,導(dǎo)致結(jié)構(gòu)序列極為冗長(zhǎng),從而使模型在解析此類(lèi)表格時(shí)難以取得理想效果。其二,表格解析通常涵蓋結(jié)構(gòu)預(yù)測(cè)、單元格位置預(yù)測(cè)與單元格內(nèi)容生成三個(gè)核心任務(wù),這些任務(wù)在空間與語(yǔ)義層面緊密耦合,但現(xiàn)有方法多將其獨(dú)立建模,忽略了多任務(wù)之間的相互依賴(lài)性。針對(duì)上述兩個(gè)問(wèn)題,本文開(kāi)展了一系列研究工作。
摘要:
中文工程表格往往包含數(shù)百個(gè)單元格,并且在解析時(shí)需要將復(fù)雜的表格結(jié)構(gòu)信息轉(zhuǎn)換為較長(zhǎng)的序列表示,使得模型在解析此類(lèi)表格時(shí)難以取得理想效果。此外,表格結(jié)構(gòu)預(yù)測(cè)、單元格位置預(yù)測(cè)和單元格內(nèi)容預(yù)測(cè)三個(gè)核心子任務(wù)在建模過(guò)程中通常相互獨(dú)立,當(dāng)前的研究未能充分考慮其在空間結(jié)構(gòu)與語(yǔ)義層面的緊密關(guān)聯(lián)。為應(yīng)對(duì)上述難題,本文提出了一種基于局部注意力和語(yǔ)義感知聯(lián)合解碼器的復(fù)雜中文工程表格解析框架——LASDTab。
設(shè)計(jì)與實(shí)現(xiàn):
首先,為了解決長(zhǎng)表格問(wèn)題,我們?cè)诮Y(jié)構(gòu)解碼器中引入了一種局部注意力機(jī)制,該機(jī)制僅關(guān)注輸入序列中與當(dāng)前位置鄰近的標(biāo)記,在降低計(jì)算復(fù)雜度的同時(shí),能夠捕獲重要的局部結(jié)構(gòu)依賴(lài)。
傳統(tǒng)的Self-Attention機(jī)制的時(shí)空復(fù)雜度與文本的序列長(zhǎng)度呈平方的關(guān)系,如圖1(a),這在很大程度上限制了模型的輸入不能太長(zhǎng)。而局部注意力使用掩碼矩陣將注意力限制在一個(gè)窗口內(nèi),從而增強(qiáng)transformer對(duì)長(zhǎng)序列的處理效率和準(zhǔn)確性,如圖1(b)。
圖1 不同注意力機(jī)制的注意力范圍
其次,為了解決多任務(wù)建模分離問(wèn)題,我們?cè)谡Z(yǔ)義感知聯(lián)合解碼器中,設(shè)計(jì)了一種語(yǔ)義信息驅(qū)動(dòng)的聯(lián)合解碼機(jī)制。在聯(lián)合解碼過(guò)程中,內(nèi)容生成過(guò)程中的隱藏狀態(tài)被映射到一個(gè)共享的語(yǔ)義空間,并與位置預(yù)測(cè)特征進(jìn)行對(duì)齊,這種機(jī)制使位置預(yù)測(cè)模塊能夠直接從內(nèi)容生成的語(yǔ)義信息中獲益,從而顯著提升其對(duì)單元格邊界的預(yù)測(cè)準(zhǔn)確性。此外,我們通過(guò)結(jié)構(gòu)解碼器的動(dòng)態(tài)觸發(fā)機(jī)制,在每次解碼到結(jié)構(gòu)標(biāo)簽<td></td>時(shí),激活聯(lián)合解碼器解析當(dāng)前單元格的位置和內(nèi)容,保證任務(wù)之間的時(shí)序一致性。整體模型結(jié)構(gòu)圖如圖2所示。
圖2 模型結(jié)構(gòu)圖
實(shí)驗(yàn)結(jié)果及分析:
1、數(shù)據(jù)集
我們使用公共數(shù)據(jù)集 PubTabNet、FinTabNet,以及自建的 Long_PutTabNet 和 EGTabNet。Long_PutTabNet 是在 PubTabNet 的表結(jié)構(gòu)中選取的具有 300 個(gè)以上結(jié)構(gòu)標(biāo)記的表圖像,共有 82,027 個(gè)表。EGTabNet是一個(gè)由多層嵌套實(shí)體關(guān)系構(gòu)建的中文工程表數(shù)據(jù)集。
2、對(duì)比實(shí)驗(yàn)結(jié)果及分析
表1展示了各模型在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出,本文方法在所有數(shù)據(jù)集上的 S-TEDS 、AP50和 TEDS 指標(biāo)均超過(guò)現(xiàn)有方法,充分驗(yàn)證了其在復(fù)雜表格解析任務(wù)中的有效性。
表1 不同模型在表格解析任務(wù)中的 S-TEDS , TEDS和AP50 對(duì)比
結(jié)論:
我們提出了LASDTab,這是一個(gè)結(jié)合了局部注意力和語(yǔ)義感知聯(lián)合解碼器的新框架,用于增強(qiáng)表結(jié)構(gòu)預(yù)測(cè)、單元格位置預(yù)測(cè)和單元格內(nèi)容預(yù)測(cè)。局部注意機(jī)制提高了長(zhǎng)且結(jié)構(gòu)緊密的表的結(jié)構(gòu)解碼精度,而SAUD通過(guò)共享注意力機(jī)制和語(yǔ)義對(duì)齊機(jī)制實(shí)現(xiàn)了單元位置和內(nèi)容的聯(lián)合建模,確保了任務(wù)之間的一致性。在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,LASDTab在TEDS、S-TEDS和AP50指標(biāo)上顯著優(yōu)于六種主流表解析方法。這些結(jié)果驗(yàn)證了該方法在高效準(zhǔn)確地解析復(fù)雜中文工程表中的有效性和魯棒性。未來(lái)的工作將進(jìn)一步探索該模型對(duì)于多語(yǔ)言表格數(shù)據(jù)和跨域表解析的可擴(kuò)展性。
作者簡(jiǎn)介:
王智廣,教授,博士生導(dǎo)師,北京市教學(xué)名師。中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)高級(jí)會(huì)員,全國(guó)高校實(shí)驗(yàn)室工作研究會(huì)信息技術(shù)專(zhuān)家指導(dǎo)委員會(huì)委員,全國(guó)高校計(jì)算機(jī)專(zhuān)業(yè)(本科)實(shí)驗(yàn)教材與實(shí)驗(yàn)室環(huán)境開(kāi)發(fā)專(zhuān)家委員會(huì)委員,北京市計(jì)算機(jī)教育研究會(huì)常務(wù)理事。長(zhǎng)期從事分布式并行計(jì)算、三維可視化、計(jì)算機(jī)視覺(jué)、知識(shí)圖譜方面的研究工作,主持或承擔(dān)國(guó)家重大科技專(zhuān)項(xiàng)子任務(wù)、國(guó)家重點(diǎn)研發(fā)計(jì)劃子課題、國(guó)家自然科學(xué)基金、北京市教委科研課題、北京市重點(diǎn)實(shí)驗(yàn)室課題、地方政府委托課題以及企業(yè)委托課題20余項(xiàng),在國(guó)內(nèi)外重要學(xué)術(shù)會(huì)議和期刊上合作發(fā)表學(xué)術(shù)論文70余篇,培養(yǎng)了100余名碩士博士研究生。