kaggle時(shí)間序列top方案全分享(附baseline+金牌開源代碼)
時(shí)間序列預(yù)測(cè)作為機(jī)器學(xué)習(xí)中的一項(xiàng)常見的任務(wù),應(yīng)用場(chǎng)景非常廣泛,比如電力能源、交通流量、股票價(jià)格、天氣變化、疾病等預(yù)測(cè),在各個(gè)領(lǐng)域中都具有非常重要的作用。
我們遇到的很多預(yù)測(cè)問題其實(shí)都能看作是時(shí)序預(yù)測(cè)問題,在數(shù)據(jù)挖掘競(jìng)賽中,時(shí)間序列預(yù)測(cè)相關(guān)的競(jìng)賽也占了相當(dāng)大的一部分。
今天學(xué)姐就幫同學(xué)們整理了kaggle時(shí)間序列預(yù)測(cè)相關(guān)的比賽,新賽經(jīng)典賽都有,各場(chǎng)比賽的top方案鏈接都貼上了!baseline代碼合集看這里??

上次分享的是kaggle金融量化競(jìng)賽的top方案,感興趣的同學(xué)可以點(diǎn)傳送門。
掃碼添加小享,回復(fù)“時(shí)間序列”
免費(fèi)獲取金牌方案baseline代碼合集

1.蛋白功能預(yù)測(cè)大賽

比賽鏈接:https://www.kaggle.com/competitions/cafa-5-protein-function-prediction
比賽背景:該競(jìng)賽的目標(biāo)是預(yù)測(cè)一組蛋白質(zhì)的功能。參賽者將開發(fā)一個(gè)針對(duì)蛋白質(zhì)的氨基酸序列和其他數(shù)據(jù)進(jìn)行訓(xùn)練的模型。參賽者的工作將幫助研究人員更好地了解蛋白質(zhì)的功能,這對(duì)于發(fā)現(xiàn)細(xì)胞,組織和器官如何工作非常重要。這也可能有助于開發(fā)針對(duì)各種疾病的新藥和療法。
評(píng)估標(biāo)準(zhǔn):提交將對(duì)在提交截止日期之前在基因本體(GO)的至少一個(gè)子本體中沒有實(shí)驗(yàn)確定的功能注釋的蛋白質(zhì)(測(cè)試集)進(jìn)行評(píng)估,并且在提交截止日期和評(píng)估時(shí)間之間在該子本體中積累了經(jīng)過實(shí)驗(yàn)驗(yàn)證的功能注釋。
比賽時(shí)間:2023.4-2023.8
金牌方案:
競(jìng)賽尚未結(jié)束,8月21日截止投稿,想要金牌的同學(xué)加油沖!
2.Stable Diffusion 大賽

比賽鏈接:https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts
比賽背景:競(jìng)賽的目標(biāo)是逆轉(zhuǎn)典型的生成式文本到圖像模型的方向:不是根據(jù)文本提示生成圖像,而是參賽者能創(chuàng)建一個(gè)模型,給定生成的圖像后能預(yù)測(cè)文本提示。參賽者將在包含由 Stable Diffusion 2.0 生成的各種各樣的“(提示,圖像)”對(duì)的數(shù)據(jù)集上進(jìn)行預(yù)測(cè),以了解潛在關(guān)系的可逆性有多強(qiáng)。
評(píng)估標(biāo)準(zhǔn):提交的評(píng)估使用預(yù)測(cè)提示嵌入向量和實(shí)際提示嵌入向量之間的平均余弦相似度得分。
比賽時(shí)間:2023.2-2023.5
金牌方案:
第一名:https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts/discussion/411237
第二名:https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts/discussion/410606
第三名:https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts/discussion/410686
第四名:https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts/discussion/410798
第五名:https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts/discussion/410688
第六名:https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts/discussion/410768
第七名:https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts/discussion/410618
第十一名:https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts/discussion/410611
第十二名:https://www.kaggle.com/competitions/stable-diffusion-image-to-prompts/discussion/410657
3.微型企業(yè)密度預(yù)測(cè)大賽

比賽鏈接:https://www.kaggle.com/competitions/godaddy-microbusiness-density-forecasting
比賽背景:本次競(jìng)賽的目標(biāo)是預(yù)測(cè)給定地區(qū)的每月微型企業(yè)密度。參賽者將開發(fā)一個(gè)針對(duì)美國縣級(jí)數(shù)據(jù)訓(xùn)練的準(zhǔn)確模型。參賽者的工作將幫助政策制定者了解微型企業(yè),這是非常小實(shí)體的增長(zhǎng)趨勢(shì)。更多信息將使新的政策和計(jì)劃能夠提高這些最小企業(yè)的成功和影響。
評(píng)估標(biāo)準(zhǔn):提交的評(píng)估使用預(yù)測(cè)值和實(shí)際值之間的對(duì)稱平均絕對(duì)百分比誤差(SMAPE)。當(dāng)預(yù)測(cè)值和實(shí)際值同時(shí)為0時(shí),我們定義SMAPE為0。
比賽時(shí)間:2022.12-2023.3
金牌方案:
第一名:https://www.kaggle.com/competitions/godaddy-microbusiness-density-forecasting/discussion/395131
第二名:https://www.kaggle.com/competitions/godaddy-microbusiness-density-forecasting/discussion/395264
第三名:https://www.kaggle.com/competitions/godaddy-microbusiness-density-forecasting/discussion/418287
第四名:https://www.kaggle.com/competitions/godaddy-microbusiness-density-forecasting/discussion/394821
第六名:https://www.kaggle.com/competitions/godaddy-microbusiness-density-forecasting/discussion/417821
第十名:https://www.kaggle.com/competitions/godaddy-microbusiness-density-forecasting/discussion/418770
第十一名:https://www.kaggle.com/competitions/godaddy-microbusiness-density-forecasting/discussion/417803
4.股票市場(chǎng)波動(dòng)率預(yù)測(cè)大賽

比賽鏈接:https://www.kaggle.com/c/optiver-realized-volatility-prediction/data
比賽背景:在這個(gè)比賽的前三個(gè)月中,參賽者將構(gòu)建模型來預(yù)測(cè)跨不同行業(yè)的數(shù)百只股票的短期波動(dòng)率。參賽者可以獲取數(shù)億行高度細(xì)致的金融數(shù)據(jù),用這些數(shù)據(jù)設(shè)計(jì)模型來預(yù)測(cè)10分鐘周期內(nèi)的波動(dòng)率。參賽者的模型將在訓(xùn)練后的數(shù)據(jù)集的三個(gè)月評(píng)估期內(nèi)與真實(shí)的市場(chǎng)數(shù)據(jù)進(jìn)行評(píng)估。通過這個(gè)比賽,參賽者將對(duì)波動(dòng)率和金融市場(chǎng)結(jié)構(gòu)有寶貴的洞見。
評(píng)估標(biāo)準(zhǔn):提交的評(píng)估使用均方根百分比誤差(RMSPE),定義為:

比賽時(shí)間:2021.6-2022.1
金牌方案:
第一名:https://www.kaggle.com/competitions/optiver-realized-volatility-prediction/discussion/274970
第三名:https://www.kaggle.com/competitions/optiver-realized-volatility-prediction/discussion/278676
第七名:https://www.kaggle.com/competitions/optiver-realized-volatility-prediction/discussion/276506
5.簡(jiǎn)街市場(chǎng)預(yù)測(cè)大賽

比賽鏈接:https://www.kaggle.com/competitions/jane-street-market-prediction/overview
比賽背景:在一個(gè)完全有效的市場(chǎng)中,買家和賣家將擁有做出理易決策所需的所有代理和信息。因此,產(chǎn)品將始終保持其“公允價(jià)值”,永遠(yuǎn)不會(huì)被低估或定價(jià)過高。然而,金融市場(chǎng)在現(xiàn)實(shí)世界中并不完全有效。
制定交易策略以識(shí)別和利用低效率是具有挑戰(zhàn)性的。即使一種策略現(xiàn)在有利可圖,也可能在未來不會(huì),市場(chǎng)波動(dòng)使得無法確定地預(yù)測(cè)任何給定交易的盈利能力。因此,很難將好運(yùn)氣與做出良好的交易決定區(qū)分開來。
在此挑戰(zhàn)中,參賽者將建立自己的量化交易模型,以使用來自全球主要證券交易所的市場(chǎng)數(shù)據(jù)最大化回報(bào)。
評(píng)估標(biāo)準(zhǔn):該競(jìng)賽根據(jù)效用分?jǐn)?shù)進(jìn)行評(píng)估。
比賽時(shí)間:2021.2-2021.8
金牌方案:
第一名:https://www.kaggle.com/competitions/jane-street-market-prediction/discussion/224348
第三名:https://www.kaggle.com/competitions/jane-street-market-prediction/discussion/224713
第十名:https://www.kaggle.com/competitions/jane-street-market-prediction/discussion/226837
6.M5預(yù)測(cè)-不確定性大賽

比賽鏈接:https://www.kaggle.com/competitions/m5-forecasting-uncertainty/overview/timeline
比賽背景:在本次競(jìng)賽(第五次迭代)中,參賽者將使用全球收入最大的公司沃爾瑪?shù)姆謱愉N售數(shù)據(jù)來預(yù)測(cè)未來 28 天的每日銷售額,并為這些預(yù)測(cè)進(jìn)行不確定性估計(jì)。該數(shù)據(jù)涵蓋美國三個(gè)州(加利福尼亞州、德克薩斯州和威斯康星州)的商店,包括項(xiàng)目級(jí)別、部門、產(chǎn)品類別和商店詳細(xì)信息。此外,它還具有解釋變量,例如價(jià)格、促銷、星期幾和特殊事件??傊?,這個(gè)強(qiáng)大的數(shù)據(jù)集可用于提高預(yù)測(cè)準(zhǔn)確性。
如果成功,參賽者的工作將繼續(xù)推進(jìn)預(yù)測(cè)的理論和實(shí)踐。所使用的方法可以應(yīng)用于各種業(yè)務(wù)領(lǐng)域。
評(píng)估標(biāo)準(zhǔn):本次比賽使用加權(quán)縮放彈球損失(WSPL)。
比賽時(shí)間:2020.6.1-2020.6.23
金牌方案:
第二名:https://www.kaggle.com/competitions/m5-forecasting-uncertainty/discussion/166875
第三名:https://www.kaggle.com/competitions/m5-forecasting-uncertainty/discussion/166854
第五名:https://www.kaggle.com/competitions/m5-forecasting-uncertainty/discussion/163559
第六名:https://www.kaggle.com/competitions/m5-forecasting-uncertainty/discussion/168053
第十名:https://www.kaggle.com/competitions/m5-forecasting-uncertainty/discussion/163151
第十一名:https://www.kaggle.com/competitions/m5-forecasting-uncertainty/discussion/163219
掃碼添加小享,回復(fù)“時(shí)間序列”
免費(fèi)獲取金牌方案baseline代碼合集

7.M5時(shí)間序列預(yù)測(cè)大賽

比賽鏈接:https://www.kaggle.com/c/m5-forecasting-accuracy/
比賽背景:在本次競(jìng)賽(第五次迭代)中,參賽者將使用全球收入最大的公司沃爾瑪?shù)姆謱愉N售數(shù)據(jù)來預(yù)測(cè)未來 28 天的每日銷售額。該數(shù)據(jù)涵蓋美國三個(gè)州(加利福尼亞州、德克薩斯州和威斯康星州)的商店,包括項(xiàng)目級(jí)別、部門、產(chǎn)品類別和商店詳細(xì)信息。此外,它還具有解釋變量,例如價(jià)格、促銷、星期幾和特殊事件。總之,這個(gè)強(qiáng)大的數(shù)據(jù)集可用于提高預(yù)測(cè)準(zhǔn)確性。
如果成功,參賽者的工作將繼續(xù)推進(jìn)預(yù)測(cè)的理論和實(shí)踐,所使用的方法可以應(yīng)用于各種業(yè)務(wù)領(lǐng)域。
評(píng)估標(biāo)準(zhǔn):本次競(jìng)賽使用加權(quán)均方根縮放誤差(RMSSE)。
比賽時(shí)間:2020.6.1-2020.6.30
金牌方案:
第一名:https://www.kaggle.com/competitions/m5-forecasting-accuracy/discussion/163684
第二名:https://www.kaggle.com/competitions/m5-forecasting-accuracy/discussion/164599
第三名:https://www.kaggle.com/competitions/m5-forecasting-accuracy/discussion/164374
第四名:https://www.kaggle.com/competitions/m5-forecasting-accuracy/discussion/163216
第五名:https://www.kaggle.com/competitions/m5-forecasting-accuracy/discussion/163916
第七名:https://www.kaggle.com/competitions/m5-forecasting-accuracy/discussion/164826
第十四名:https://www.kaggle.com/competitions/m5-forecasting-accuracy/discussion/163211
第十六名:https://www.kaggle.com/competitions/m5-forecasting-accuracy/discussion/169085
第二十一名:https://www.kaggle.com/competitions/m5-forecasting-accuracy/discussion/164685
8.餐廳人流預(yù)測(cè)大賽

比賽鏈接:https://www.kaggle.com/competitions/recruit-restaurant-visitor-forecasting/overview
比賽背景:一個(gè)常見的困境是,餐館需要知道每天有多少顧客可以有效地購買食材并安排員工。這個(gè)預(yù)測(cè)并不容易做出,因?yàn)樵S多不可預(yù)測(cè)的因素會(huì)影響餐廳的出勤率,比如天氣和當(dāng)?shù)馗?jìng)爭(zhēng)。對(duì)于歷史數(shù)據(jù)很少的新餐廳來說,這更難。
在本次競(jìng)賽中,參賽者面臨的挑戰(zhàn)是使用預(yù)訂和訪問數(shù)據(jù)來預(yù)測(cè)未來日期餐廳的訪客總數(shù)。這些信息將幫助餐廳提高效率,并使他們能夠?qū)W⒂跒轭櫩蛣?chuàng)造愉快的用餐體驗(yàn)。
評(píng)估標(biāo)準(zhǔn):提交內(nèi)容根據(jù)均方根對(duì)數(shù)誤差進(jìn)行評(píng)估。RMSLE 的計(jì)算公式為:

比賽時(shí)間:2018.1-2018.2
金牌方案:
第一名:https://www.kaggle.com/competitions/recruit-restaurant-visitor-forecasting/discussion/49129
第七名:https://www.kaggle.com/competitions/recruit-restaurant-visitor-forecasting/discussion/49259
第八名:https://www.kaggle.com/competitions/recruit-restaurant-visitor-forecasting/discussion/49166
第十名:https://www.kaggle.com/competitions/recruit-restaurant-visitor-forecasting/discussion/49201
第十一名:https://www.kaggle.com/competitions/recruit-restaurant-visitor-forecasting/discussion/49177
第十二名:https://www.kaggle.com/competitions/recruit-restaurant-visitor-forecasting/discussion/49251
9.預(yù)測(cè)商品銷量大賽

比賽鏈接:https://www.kaggle.com/competitions/competitive-data-science-predict-future-sales/overview
比賽背景:在本次比賽中,參賽者將使用一個(gè)具有挑戰(zhàn)性的時(shí)間序列數(shù)據(jù)集,該數(shù)據(jù)集由俄羅斯最大的軟件公司之一 - 1C Company提供,由每日銷售數(shù)據(jù)組成。
我們要求參賽者預(yù)測(cè)下個(gè)月每種產(chǎn)品和商店的總銷售額。通過解決這個(gè)競(jìng)賽,參賽者將能夠應(yīng)用和提高你的數(shù)據(jù)科學(xué)技能。
評(píng)估標(biāo)準(zhǔn):提交通過均方根誤差 (RMSE)進(jìn)行評(píng)估。真正的目標(biāo)值被裁剪到 [0,20] 范圍內(nèi)。
比賽時(shí)間:a year to go
金牌方案:尚未結(jié)束
10.實(shí)體店銷售 - 時(shí)序預(yù)測(cè)大賽

比賽鏈接:https://www.kaggle.com/competitions/store-sales-time-series-forecasting/overview/evaluation
比賽背景:在此“入門”競(jìng)賽中,參賽者將使用時(shí)間序列預(yù)測(cè)來預(yù)測(cè)來自厄瓜多爾大型雜貨零售商 Corporación Favorita 的數(shù)據(jù)的商店銷售額。
具體而言,參賽者將構(gòu)建一個(gè)模型,該模型可以更準(zhǔn)確地預(yù)測(cè)在不同 Favorita 商店銷售的數(shù)千種商品的單位銷售額。參賽者將使用包含日期、商店和商品信息、促銷和單位銷售的平易近人的訓(xùn)練數(shù)據(jù)集來練習(xí)機(jī)器學(xué)習(xí)技能。
評(píng)估標(biāo)準(zhǔn):本次競(jìng)賽的評(píng)估指標(biāo)是均方根對(duì)數(shù)誤差。
比賽時(shí)間:Ongoing
11.雜貨銷售預(yù)測(cè)大賽

比賽鏈接:https://www.kaggle.com/c/favorita-grocery-sales-forecasting
比賽背景:Corporación Favorita向 Kaggle 社區(qū)提出了挑戰(zhàn),要求他們建立一個(gè)更準(zhǔn)確地預(yù)測(cè)產(chǎn)品銷售的模型。他們目前依賴于主觀預(yù)測(cè)方法,幾乎沒有數(shù)據(jù)支持,執(zhí)行計(jì)劃的自動(dòng)化也很少。他們很高興看到機(jī)器學(xué)習(xí)如何通過在正確的時(shí)間提供足夠的正確產(chǎn)品來更好地確保他們?nèi)偪蛻簟?/p>
評(píng)估標(biāo)準(zhǔn):提交內(nèi)容根據(jù)歸一化加權(quán)均方根對(duì)數(shù)誤差 (NWRMSLE) 進(jìn)行評(píng)估。
比賽時(shí)間:2018.1.8-2018.1.15
金牌方案:
第一名:https://www.kaggle.com/competitions/favorita-grocery-sales-forecasting/discussion/47582
第二名:https://www.kaggle.com/competitions/favorita-grocery-sales-forecasting/discussio-n/47568
第三名:https://www.kaggle.com/competitions/favorita-grocery-sales-forecasting/discussion/47560
第四名:https://www.kaggle.com/competitions/favorita-grocery-sales-forecasting/discussion/47529
第五名:https://www.kaggle.com/competitions/favorita-grocery-sales-forecasting/discussion/47556
第六名:https://www.kaggle.com/competitions/favorita-grocery-sales-forecasting/discussion/47575
第八名:https://www.kaggle.com/competitions/favorita-grocery-sales-forecasting/discussion/47564
第十二名:https://www.kaggle.com/competitions/favorita-grocery-sales-forecasting/discussion/47667
第十三名:https://www.kaggle.com/competitions/favorita-grocery-sales-forecasting/discussion/47542
掃碼添加小享,回復(fù)“時(shí)間序列”
免費(fèi)獲取金牌方案baseline代碼合集
