国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

如何對(duì)大量文本進(jìn)行聚類(lèi)?

2023-08-02 22:13 作者:AI日日新  | 我要投稿

可在線運(yùn)行的notebook示例:在kaggle網(wǎng)站搜索 Kmeans GPU 查看


首先需要導(dǎo)入豆瓣電影評(píng)論數(shù)據(jù):(請(qǐng)注意該 csv 文件在kaggle網(wǎng)站可下載)

接著安裝文本轉(zhuǎn)向量的包和向量降維的包:

接著在程序中導(dǎo)入依賴(lài)包:(除了上面說(shuō)的包之外還有:批訓(xùn)練聚類(lèi)包、計(jì)算輪廓系數(shù)的包)

接著我們定義讀取數(shù)據(jù)文件和數(shù)據(jù)清洗的函數(shù):(請(qǐng)注意xlsx文件只能處理100w條數(shù)據(jù),若還需要處理更大量的數(shù)據(jù),需要考慮更改保存數(shù)據(jù)的格式為csv)

接著定義文本轉(zhuǎn)向量的函數(shù),其中還包含了向量降維的模塊,降維是為了降低計(jì)算開(kāi)銷(xiāo):

然后我們將采用批訓(xùn)練的Kmeans模型進(jìn)行聚類(lèi),但Kmeans需要人為設(shè)定初始K值,為此我們能采用輪廓系數(shù)計(jì)算理論上的最佳K值,該指導(dǎo)性的K值有利于我們調(diào)整K值范圍:

最后,我們終于可以對(duì)文本進(jìn)行聚類(lèi),定義聚類(lèi)函數(shù)如下:

調(diào)用以上函數(shù):

完成聚類(lèi)后,查看聚類(lèi)結(jié)果:


如何對(duì)大量文本進(jìn)行聚類(lèi)?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
台山市| 隆子县| 临高县| 大安市| 五河县| 靖宇县| 河西区| 江孜县| 广灵县| 新营市| 余庆县| 兰考县| 克什克腾旗| 林口县| 景宁| 吴川市| 香格里拉县| 岳阳市| 天台县| 汽车| 咸丰县| 奈曼旗| 岳池县| 蛟河市| 阜新| 全南县| 迭部县| 吴江市| 福贡县| 贵定县| 呼伦贝尔市| 突泉县| 许昌县| 正宁县| 固阳县| 东乡县| 旺苍县| 紫阳县| 元氏县| 虹口区| 长汀县|