国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

使用 SMOTE 過采樣算法實現(xiàn)數(shù)據(jù)平衡

2020-08-17 22:48 作者:跨象乘云  | 我要投稿

信用卡欺詐有很多類型,而且隨著新技術(shù)催生了新穎的網(wǎng)絡(luò)犯罪,使得它們的變化頻率很快,幾乎不可能逐一列出。但還是可以分成兩種主要類型:

  • 無卡欺詐:這是最常見的一種欺詐,指的是在沒有使用卡片的情況下竊取持卡人信息或非法使用其卡片的行為。這種欺詐往往發(fā)生在網(wǎng)上,源頭可能是所謂的"釣魚"郵件:欺詐者假冒信用機構(gòu)向人們發(fā)送郵件,通過虛假冒充的鏈接竊取個人或財務(wù)信息。

  • 有卡欺詐:這種情況目前較為少見,但仍然值得關(guān)注。這往往以『盜讀』(Skimming)的形式進行 —— 不誠實的商家在刷消費者的信用卡時會存儲相關(guān)信息。一旦這些數(shù)據(jù)被用于購物,消費者的賬號就會被扣款。

日前,跨象乘云? 發(fā)布了《信用卡欺詐檢測 - 人工智能垂直領(lǐng)域工程項目案例分享》演示視頻。本案例基于極度不平衡的數(shù)據(jù)集,采用隨機欠采樣與過采樣技術(shù),實現(xiàn)數(shù)據(jù)均衡預(yù)處理。同時,結(jié)合邏輯回歸,K 近鄰,支持向量機,決策樹,人工智能神經(jīng)網(wǎng)絡(luò)等多種模型,實現(xiàn)欺詐性交易檢測,從而實現(xiàn)智能化金融交易保障。


同時,通過案例演示我們可以了解到,對于不平衡數(shù)據(jù)集,可以采用隨機欠采樣或過采樣技術(shù),對數(shù)據(jù)集進行調(diào)整,使其趨于均衡。SMOTE(Synthetic Minority Oversampling Technique),合成少數(shù)類過采樣技術(shù).它是基于隨機過采樣算法的一種改進方案,由于隨機過采樣采取簡單復(fù)制樣本的策略來增加少數(shù)類樣本,這樣容易產(chǎn)生模型過擬合的問題,即使得模型學(xué)習(xí)到的信息過于特別(Specific)而不夠泛化(General),SMOTE 算法(論文地址:https://www.jair.org/media/953/live-953-2037-jair.pdf)的基本思想是對少數(shù)類樣本進行分析并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中,具體如下圖所示:


SMOTE 算法原理

算法流程如下 ——

  • 對于少數(shù)類中每一個樣本 X,以歐氏距離為標準計算它到少數(shù)類樣本集中所有樣本的距離,得到其 K 近鄰。

  • 根據(jù)樣本不平衡比例設(shè)置一個采樣比例以確定采樣倍率 N,對于每一個少數(shù)類樣本 X,從其 K 近鄰中隨機選擇若干個樣本,假設(shè)選擇的近鄰為 XN。

  • 對于每一個隨機選出的近鄰 XN,分別與原樣本按照如下的公式構(gòu)建新的樣本。

SMOTE 新樣本構(gòu)建公式


該算法主要存在兩方面的問題:一是在近鄰選擇時,存在一定的盲目性。從上面的算法流程可以看出,在算法執(zhí)行過程中,需要確定 K 值,即選擇多少個近鄰樣本,這需要用戶自行解決。從 K 值的定義可以看出,K 值的下限是 M 值(M 值為從 K 個近鄰中隨機挑選出的近鄰樣本的個數(shù),且有 M< K),M 的大小可以根據(jù)負類樣本數(shù)量、正類樣本數(shù)量和數(shù)據(jù)集最后需要達到的平衡率決定。但 K 值的上限沒有辦法確定,只能根據(jù)具體的數(shù)據(jù)集去反復(fù)測試。因此如何確定 K 值,才能使算法達到最優(yōu)這是未知的。


另外,該算法無法克服非平衡數(shù)據(jù)集的數(shù)據(jù)分布問題,容易產(chǎn)生分布邊緣化問題。由于負類樣本的分布決定了其可選擇的近鄰,如果一個負類樣本處在負類樣本集的分布邊緣,則由此負類樣本和相鄰樣本產(chǎn)生的『人造』樣本也會處在這個邊緣,且會越來越邊緣化,從而模糊了正類樣本和負類樣本的邊界,而且使邊界變得越來越模糊。這種邊界模糊性,雖然使數(shù)據(jù)集的平衡性得到了改善,但加大了分類算法進行分類的難度。


針對 SMOTE 算法存在的邊緣化和盲目性等問題,很多人紛紛提出了新的改進辦法,在一定程度上改進了算法的性能,但還存在許多需要解決的問題。Han 等人在《Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning》(論文地址:https://link.jianshu.com/?t=http://sci2s.ugr.es/keel/keel-dataset/pdfs/2005-Han-LNCS.pdf)中,在 SMOTE 算法基礎(chǔ)上進行了改進,提出了 Borderhne SMOTE 算法,解決了生成樣本重疊(Overlapping)的問題該算法在運行的過程中,查找一個適當(dāng)?shù)膮^(qū)域,該區(qū)域可以較好地反應(yīng)數(shù)據(jù)集的性質(zhì),然后在該區(qū)域內(nèi)進行插值,以使新增加的『人造』樣本更有效。這個適當(dāng)?shù)膮^(qū)域一般由經(jīng)驗給定,因此算法在執(zhí)行的過程中有一定的局限性。

使用 SMOTE 過采樣算法實現(xiàn)數(shù)據(jù)平衡的評論 (共 條)

分享到微博請遵守國家法律
紫金县| 交口县| 东至县| 洪湖市| 黄平县| 万山特区| 定兴县| 绍兴县| 正镶白旗| 南阳市| 合水县| 张家口市| 龙江县| 抚松县| 郧西县| 迁安市| 太原市| 赤峰市| 贵定县| 香港 | 青冈县| 龙陵县| 酒泉市| 双流县| 灌阳县| 延津县| 嘉荫县| 盐城市| 安顺市| 桂林市| 镇原县| 平安县| 偃师市| 鄂尔多斯市| 杭锦旗| 日喀则市| 京山县| 北宁市| 凯里市| 新建县| 甘孜|