擼一波免費視頻素材
寫在前面呀:
最近老有做視頻剪輯的朋友問我薅視頻素材的問題,個人還是支持正版的,也熱衷支持知識產(chǎn)權(quán)保護。不過有些網(wǎng)站,就不點名了,搜到的人應(yīng)該都會懂,其實明明就是薅的別人素材,然后上傳到自己網(wǎng)站上,打上自己域名的水印,就開始要求用戶充VIP才能下載,心里默默的爆著粗口,腦子里一萬只草泥馬,然后手上也握著草。強烈建議有這種網(wǎng)站的VIP的同學(xué)提供一下賬號,去薅了他們的素材,因為沒有VIP賬號能抓取到的數(shù)據(jù)有限,而且網(wǎng)站提供的下載接口也不一樣。
用到的環(huán)境和工具:
Pyhon 3.8.10
Pycharm
windows11
今天要采集的網(wǎng)站是----(寫在代碼里吧,不然B娘又以為我在發(fā)廣告,然后不讓我的文章展示)。視頻網(wǎng)站一般是沒有所謂的json數(shù)據(jù)接口的,因為都是薅羊毛,又不是大公司,要做書規(guī)范,所以還是從瀏覽器渲染的網(wǎng)頁入手:
????網(wǎng)頁視頻列表頁,F(xiàn)12(好像沒什么新鮮的);
????提取視頻列表頁的視頻播放頁(這個頁面如果有視頻下載地址也是縮略圖,不清晰的那種);
????對播放頁面信息提取,如標(biāo)題和下載地址;
代碼開始:
代碼采集所有頁面,一個頁面32條,應(yīng)該將近900條視頻,所以,進(jìn)行多線程。
需要注意的是,視頻標(biāo)題處理,一整個網(wǎng)站,可能存在標(biāo)題重名的視頻,在保存到本地的時候,很容易被覆蓋,會產(chǎn)生數(shù)據(jù)條數(shù)表少的情況。前面寫過一篇帖子,發(fā)現(xiàn)采集完后數(shù)據(jù)少了很多,其實就是視頻標(biāo)題的問題,可能產(chǎn)生了覆蓋。
程序運行截圖:

視頻保存部分截圖:

打完收工,如果對在看的你有幫助,點個贊唄。如果對代碼有問題,請在評論區(qū)留言,我會在第一時間回復(fù)你的。
申明:本文僅用于學(xué)習(xí)和交流使用,不接受任何形式的傳播。請支持正版視頻,維護支持產(chǎn)權(quán)。