使用OpenAI的新技術(shù)直接在筆記本電腦上轉(zhuǎn)錄音頻
我是斜杠青年,一個熱愛前沿科技的“雜食性”學者!
DALL-E和GPT背后的公司已經(jīng)制作了名為Whisper的自動語音識別系統(tǒng),并允許開發(fā)人員和研究人員使用它。

OpenAI是圖像生成和模因生成程序DALL-E以及強大的文本自動完成引擎GPT-3背后的公司,該公司推出了一個新的開源神經(jīng)網(wǎng)絡(luò),旨在將音頻轉(zhuǎn)錄成書面文本(通過TechCrunch)。它被稱為Whisper,該公司表示,它“接近人類水平的英語語音識別的魯棒性和準確性”,并且還可以自動識別、轉(zhuǎn)錄和翻譯西班牙語、意大利語和日語等其他語言。
事實證明,使用它比你想象的還要容易;我已經(jīng)在我的計算機上設(shè)置了Python和各種開發(fā)人員工具,因此安裝Whisper就像運行單個終端命令一樣簡單。在15分鐘內(nèi),我能夠使用Whisper轉(zhuǎn)錄我錄制的測試音頻剪輯。對于一個不懂技術(shù),也尚未設(shè)置Python、FFmpeg、Xcode和Homebrew的人來說,這可能需要近一兩個小時(甚至更長時間)。不過,已經(jīng)有人在努力使這個過程更簡單、更方便用戶,我們稍后再討論。

雖然OpenAI肯定認為這個用例是一種可能性,但很明顯,該公司主要針對此版本以研究人員和開發(fā)人員為目標。在宣布Whisper的博客文章中,該團隊表示,其代碼可以“作為構(gòu)建有用應(yīng)用程序和進一步研究強大的語音處理的基礎(chǔ)”,并希望“Whisper的高精度和易用性將允許開發(fā)人員為更廣泛的應(yīng)用程序添加語音接口?!比欢?,這種方法仍然值得注意——該公司對其最受歡迎的機器學習項目(如DALL-E或GPT-3)的機會有限,理由是希望“更多地了解現(xiàn)實世界的使用,并繼續(xù)迭代我們的安全系統(tǒng)”。

如果你使用Whisper編寫文章,Whisper生成的文本文件也不完全是最容易閱讀的。
還有一個事實是,為大多數(shù)人安裝Whisper并不完全是一個用戶友好的過程。然而,記者Peter Sterne與GitHub開發(fā)人員倡導(dǎo)者Christina Warren合作,試圖解決這個問題,宣布他們正在根據(jù)Whisper的機器學習模型創(chuàng)建一個“免費、安全和易于使用的記者轉(zhuǎn)錄應(yīng)用程序”。
我將Whisper生成的轉(zhuǎn)錄與Otter.ai和Trint為同一文件發(fā)布的內(nèi)容進行了比較,我想說它相對可比。所有這些都有足夠的錯誤,你永遠不會在不仔細檢查音頻的情況下將引用的內(nèi)容復(fù)制并粘貼到文章中(當然,無論如何,這是最佳做法,無論你使用什么服務(wù))。但Whisper的版本絕對可以為你完成這項工作;你可以搜索它以找到我需要的部分,然后手動仔細檢查。理論上,Stage Whisper的性能應(yīng)該完全相同,因為它將使用相同的模型,只是周圍包裹著GUI。
Sterne承認,蘋果和谷歌的技術(shù)可能會在幾年內(nèi)使Stage Whisper過時——Pixel的錄音機應(yīng)用程序多年來一直能夠進行離線轉(zhuǎn)錄,該功能的一個版本開始在一些其他Android設(shè)備上推出,蘋果在iOS中內(nèi)置了離線聽寫(盡管目前沒有一種好方法可以真正用它轉(zhuǎn)錄音頻文件)。“但我們不能等那么久。”
需要澄清的是,無論使用起來多么簡單,Whisper可能不會完全過時Otter.ai和Trint等基于云的服務(wù)。首先,OpenAI的模型缺少傳統(tǒng)轉(zhuǎn)錄服務(wù)的最大功能之一:能夠標記誰說了什么。Stage Whisper可能不支持此功能:“他們沒有開發(fā)自己的機器學習模型?!?/p>
云只是別人的電腦——這可能意味著它要快得多
雖然你獲得了本地處理的好處,但你也獲得了缺點。主要問題是,你的筆記本電腦幾乎肯定比專業(yè)轉(zhuǎn)錄服務(wù)使用的計算機強大得多。例如,我將長達24分鐘的音頻輸入了Whisper,運行在我的M1 MacBook Pro上;轉(zhuǎn)錄整個文件大約需要52分鐘。水獺在不到八分鐘的時間里吐出了成績單。
然而,OpenAI的技術(shù)確實有一個很大的優(yōu)勢——價格。如果你專業(yè)使用基于云的訂閱服務(wù),幾乎肯定會花費用(Otter有一個免費層,但即將到來的更改將使其對經(jīng)常轉(zhuǎn)錄事物的人來說不那么有用),Microsoft Word或Pixel等平臺內(nèi)置的轉(zhuǎn)錄功能要求你支付單獨的軟件或硬件費用。Stage Whisper——以及Whisper本身——是免費的,可以在你已有的計算機上運行。
同樣,OpenAI對Whisper的希望比它成為安全轉(zhuǎn)錄應(yīng)用程序的基礎(chǔ)更高——我對研究人員最終使用它做什么或通過查看機器學習模型將學到什么感到非常興奮,該模型是在“從網(wǎng)絡(luò)收集的68萬小時的多語言和多任務(wù)監(jiān)督數(shù)據(jù)”上接受培訓的。但事實上,它今天也恰好有真正的實際用途,這使它更加令人興奮。
了解最新前沿科技,關(guān)注我就是你最好的選擇!