国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

pandas.DataFrame.sample隨機(jī)抽樣-四兩撥千斤

2021-03-20 09:51 作者:python風(fēng)控模型  | 我要投稿

在大數(shù)據(jù)時代,我們建模數(shù)據(jù)量可能達(dá)到千萬級甚至TB。大數(shù)據(jù)在給投資者介紹時很必要,容易得到融資。但對于數(shù)據(jù)科學(xué)家來說,有時候我們只需要數(shù)據(jù)集中的一部分,并不需要全部的數(shù)據(jù)。這個時候我們就要對數(shù)據(jù)集進(jìn)行隨機(jī)的抽樣。如果用全量數(shù)據(jù)建?;驍?shù)據(jù)分析,成本太高,需要高性能服務(wù)器存儲數(shù)據(jù)。這對中小公司來說不現(xiàn)實。

最經(jīng)典案例是二戰(zhàn)中德軍坦克問題。在第二次世界大戰(zhàn)期間,西方盟國不懈地努力確定德國的生產(chǎn)規(guī)模,并以兩種主要方式進(jìn)行處理:常規(guī)情報收集和統(tǒng)計估計。

英國人用統(tǒng)計學(xué)方法估計德國坦克數(shù)量和德國真實坦克數(shù)量非常接近,遠(yuǎn)比情報部門數(shù)據(jù)準(zhǔn)確。

python的pandas中自帶有抽樣的方法。這是相關(guān)官網(wǎng)文檔介紹:

pandas.DataFrame.sample - pandas 1.2.3 documentationpandas.pydata.org

輸入?yún)?shù)說明

歡迎各位學(xué)習(xí)更多數(shù)據(jù)分析知識(博主錄制)



pandas.DataFrame.sample隨機(jī)抽樣-四兩撥千斤的評論 (共 條)

分享到微博請遵守國家法律
凉城县| 萝北县| 伊春市| 新乡县| 淮南市| 汤阴县| 六枝特区| 左权县| 巩义市| 壶关县| 张北县| 阿城市| 吉首市| 十堰市| 克拉玛依市| 湟中县| 泌阳县| 类乌齐县| 波密县| 德钦县| 新和县| 藁城市| 邵武市| 杭锦旗| 县级市| 新郑市| 栖霞市| 彰化市| 海城市| 定襄县| 伽师县| 防城港市| 阿拉善左旗| 玉田县| 库尔勒市| 日喀则市| 凌源市| 定陶县| 鲜城| 大埔县| 东兰县|