澳门银河赌场注册送38-澳门银河赌场招人好招吗_百家乐德州_全讯网下载 (中国)·官方网站

科研動(dòng)態(tài)

加權(quán)k最近鄰圖拉普拉斯矩陣分解的不平衡樣例選擇

中文題目:加權(quán)k最近鄰圖拉普拉斯矩陣分解的不平衡樣例選擇

論文題目:Imbalanced Instance Selection Based on Laplacian Matrix Decomposition with Weighted k Nearest Neighbor Graph

錄用期刊/會議:Neural Computing and Applications (中科院SCI 3區(qū),JCR Q2)

原文DOI:https://doi.org/10.1007/s00521-024-09676-0

原文鏈接:https://link.springer.com/article/10.1007/s00521-024-09676-0

錄用/見刊時(shí)間:2024.04.22

作者列表

1)代   琪 中國石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 控制科學(xué)與工程 博20

2)劉建偉 中國石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 自動(dòng)化系 教師

3)王龍輝 華北理工大學(xué) 理學(xué)院

摘要:

數(shù)據(jù)是構(gòu)建機(jī)器學(xué)習(xí)模型的基本組成部分。線性可分的高質(zhì)量數(shù)據(jù)有利于構(gòu)建高效的分類模型。但是,在現(xiàn)實(shí)世界中,采集的數(shù)據(jù)并不是高質(zhì)量的,他們的每個(gè)類的樣本數(shù)量并非絕對一致。因此,在這些數(shù)據(jù)集上構(gòu)建的模型容易受到類不平衡、類重疊和噪聲等問題的影響。傳統(tǒng)的樣本選擇算法主要是根據(jù)樣本之間的近似程度,判斷樣本是否存在冗余或重疊。因此,這些方法只關(guān)注了數(shù)據(jù)集的局部信息,忽略了樣本在數(shù)據(jù)集中的全局近似關(guān)系。在本文中,提出一種根據(jù)樣本在數(shù)據(jù)集中的全局關(guān)系的樣本選擇方法,稱為加權(quán)近鄰圖拉普拉斯矩陣分解的樣本選擇方法(LMD-WNG)。首先,該方法嘗試使用加權(quán)k最近鄰圖構(gòu)建一個(gè)新的距離加權(quán)拉普拉斯矩陣。然后,使用矩陣分解方法分解距離加權(quán)拉普拉斯矩陣。最后,根據(jù)分解后的實(shí)矩陣的特征值選擇適合模型學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集,并在新的訓(xùn)練數(shù)據(jù)集上構(gòu)建分類器。

背景與動(dòng)機(jī):

目前已經(jīng)提出了大量的處理類不平衡問題的預(yù)處理技術(shù)。部分研究者認(rèn)為,過采樣技術(shù)比欠采樣技術(shù)更有效。然而,我們認(rèn)為這樣的描述并不全面,并不是在所有數(shù)據(jù)集上,過采樣技術(shù)都是最優(yōu)的方法。不妨簡單的思考一下,當(dāng)少數(shù)類樣本過于稀疏且與多數(shù)類樣本存在重疊時(shí),直接使用傳統(tǒng)的過采樣技術(shù),生成的人工樣本仍然與多數(shù)類重疊,不利于傳統(tǒng)分類器學(xué)習(xí)數(shù)據(jù)集的分類邊界。除此之外,在實(shí)驗(yàn)室中使用過采樣可能會提高評價(jià)指標(biāo)的結(jié)果。在實(shí)際應(yīng)用領(lǐng)域中,生成的偽少數(shù)類樣本很可能不能代表實(shí)際的樣本,導(dǎo)致分類模型無法識別新的未知樣本。因此,我們認(rèn)為對于重采樣技術(shù)中的過采樣技術(shù)和欠采樣技術(shù),他們之間并非占有絕對的優(yōu)勢,而是應(yīng)該針對不同的問題共同發(fā)展。

拉普拉斯矩陣是圖論中的常用方法。我們嘗試將拉普拉斯矩陣的思想引入樣本選擇或欠采樣技術(shù)中,解決類不平衡問題。使用度量學(xué)習(xí)方法,構(gòu)建相似矩陣,利用正負(fù)慣性趨勢搜索數(shù)據(jù)集的全局相似度趨勢,從而實(shí)現(xiàn)數(shù)據(jù)集的欠采樣。我們認(rèn)為在數(shù)據(jù)集中越相似的不同類的樣本越容易成為數(shù)據(jù)集中的重疊樣本。

此外,k最近鄰圖的邊并沒有權(quán)重,當(dāng)生成拉普拉斯矩陣時(shí),我們直接將鄰接矩陣中對應(yīng)位置標(biāo)注為1。使用這樣的做法有一個(gè)潛在的假設(shè),即認(rèn)為與頂點(diǎn)連接的樣本的權(quán)重是相同的,這樣并不利于分辨近鄰圖中相鄰樣本點(diǎn)的距離遠(yuǎn)近。因此,我們使用距離度量的方式,計(jì)算出相鄰樣本之間的距離,將其作為k最近鄰圖中對應(yīng)邊的權(quán)重,并使用加權(quán)k最近鄰圖生成拉普拉斯矩陣。

設(shè)計(jì)與實(shí)現(xiàn):

提出的加權(quán)k最近鄰圖拉普拉斯矩陣分解的樣例選擇(LMD-WNG)流程圖如下所示。



主要內(nèi)容:

LMD-WNG是一種結(jié)合拉普拉斯矩陣和矩陣分解技術(shù)的樣本選擇方法,據(jù)我們所知,該方法是首次在類不平衡問題上結(jié)合拉普拉斯矩陣和矩陣分解技術(shù)的新方法。該方法分為四個(gè)階段:構(gòu)建k最近鄰圖、計(jì)算標(biāo)準(zhǔn)加權(quán)拉普拉斯矩陣、矩陣分解(Schur分解)和樣本選擇。

在第一階段中,我們使用k最近鄰方法搜索樣本空間并形成最近鄰圖。

第二階段則是根據(jù)k最近鄰圖計(jì)算鄰接矩陣和度矩陣,并計(jì)算k最近鄰圖的標(biāo)準(zhǔn)加權(quán)拉普拉斯矩陣。

Schur分解則是在第三階段進(jìn)行,這個(gè)階段主要是分解標(biāo)準(zhǔn)加權(quán)拉普拉斯矩陣,獲取標(biāo)準(zhǔn)加權(quán)拉普拉斯矩陣對應(yīng)的特征值。

第四階段,樣本選擇則是根據(jù)拉普拉斯矩陣中對應(yīng)位置的特征值的大小選擇多數(shù)類中的樣本。最后,將選擇的多數(shù)類樣本與訓(xùn)練集中的少數(shù)類樣本合并,形成新的訓(xùn)練集。

實(shí)驗(yàn)結(jié)果及分析:

在30個(gè)不平衡數(shù)據(jù)集上進(jìn)行參數(shù)敏感實(shí)驗(yàn),并與其他先進(jìn)方法進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下所示。

(a)輕度不平衡

(b)中度不平衡



(c)高度不平衡

1 使用GBDT時(shí)的參數(shù)敏感性分析



(a)輕度不平衡

(b)中度不平衡



(c)高度不平衡

2 使用RF作為基分類器時(shí)的參數(shù)敏感性分析



(a)輕度不平衡

(b)中度不平衡



(c)高度不平衡

3 使用SVM作為基分類器時(shí)的參數(shù)敏感性分析


與先進(jìn)樣本選擇或數(shù)據(jù)增強(qiáng)方法的對比實(shí)驗(yàn)結(jié)果如下所示:

表1 使用AUC評估模型時(shí)的性能結(jié)果

表2 使用G-mean評估模型時(shí)的性能結(jié)果

結(jié)論:

樣本選擇算法是解決類不平衡問題的研究方法之一,需要根據(jù)數(shù)據(jù)集中的樣本信息,選擇信息量較大的樣本加入訓(xùn)練集。當(dāng)數(shù)據(jù)集中少數(shù)類樣本數(shù)量較多時(shí),可以使用傳統(tǒng)的重采樣技術(shù)增強(qiáng)少數(shù)類或刪除多數(shù)類,但是當(dāng)數(shù)據(jù)集中的少數(shù)類樣本較少時(shí),需要篩選訓(xùn)練集中的多數(shù)類樣本,從而提高模型的整體性能。對于高度不平衡數(shù)據(jù)集,LMD-WNG的性能更加穩(wěn)定,并不會受到類不平衡問題的影響。然而,LMD-WNG樣本選擇算法的性能將會隨著數(shù)據(jù)集不平衡比的增加而變得對超參數(shù)k更加敏感。因此,需要更高效的參數(shù)選擇方法確定超參數(shù)。LMD-WNG是首次將數(shù)據(jù)轉(zhuǎn)化為圖結(jié)構(gòu)并選擇樣本的算法。因此,在未來的工作中,可以將它與其他方法結(jié)合使用,并且能夠充分探索根據(jù)數(shù)據(jù)結(jié)構(gòu)選擇樣本。

通訊作者簡介:

劉建偉,教師,學(xué)者。研究領(lǐng)域涉及在線學(xué)習(xí)(包括強(qiáng)化學(xué)習(xí),賭博機(jī)算法,持續(xù)學(xué)習(xí),長尾學(xué)習(xí));圖像視頻顯著性目標(biāo)檢測,解糾纏表示學(xué)習(xí),光場和神經(jīng)場模型,以及圖像視頻少樣本變化檢測;自然語言理解中的知識補(bǔ)全,圖神經(jīng)網(wǎng)絡(luò);不平衡數(shù)據(jù)處理;霍克斯點(diǎn)過程故障預(yù)測與診斷;非線性預(yù)測與控制。 是兵器裝備工程學(xué)報(bào)第三屆編輯委員會委員。歷屆中國控制會議(CCC)和中國控制與決策會議(CCDC)的程序委員會委員。擔(dān)任過80多個(gè)國際會議的TPC。

大发888体育在线| 威尼斯人娱乐城玩百家乐| 巧家县| 联众德州扑克| 金宝博百家乐官网现金| 百家乐官网巴黎| 单机百家乐官网小游戏| 百家乐怎样算大小| 骰子百家乐的玩法技巧和规则| 新朝代百家乐开户网站| 大发888娱乐城 手机版| 六合彩开奖查询| 网上赌百家乐官网正规吗| 百家乐官网技巧论坛| 粤港澳百家乐官网赌场娱乐网规则| 百家乐官网玩法介| 中国百家乐软件| 沈阳棋牌网| 百家乐官网规则好学吗| 诸子百家乐官网的玩法技巧和规则| 百家乐游戏玩法规则| 百家乐永利娱乐场开户注册| 德州扑克发牌员| 哪个百家乐官网技巧平台信誉好| 百家乐官网平注法到65688| 澳门百家乐家用保险柜| 顶级赌场下载| 百家乐官网长龙怎么预判| 澳门金沙官网| 百家乐官网2号死机| 个体老板做生意的风水| 百家乐麻将牌| 百家乐官网网娱乐城| 南京百家乐官网电| 天津太阳城橙翠园| 太阳城百家乐官网娱乐开户| 百家乐官网游戏种类| 百家乐视| 大发888游戏下载| 蓝盾百家乐官网网址| 免费百家乐过滤软件|