GPT4是8個2200億的MoE模型?我們也是!
首先抱歉有點兒標題黨了,但是真的也不純標題忽悠,具體是這樣的:今天的大新聞就是GPT4被爆料了它的模型大小,其實這個模型大小之前就是各種版本,當然說真的,現(xiàn)在連開源的羊駝模型的小型版都幾十億,好像上萬億是非常正常的,幾十萬億也沒什么超出預期的。真正讓我們覺得驚奇的是8個MoE模型,也就是專家模型。

稍微解釋一下,可能普通讀者確實不清楚什么是專家模型,那么我們比較通俗的比喻一下,專家模型有些類似咱們?nèi)メt(yī)院就診,你會發(fā)現(xiàn)有內(nèi)科,外科,甚至更細,比如心外科,腦外科。為什么分這么細,這個大家理解,不同的醫(yī)生有專精啊,不分細了醫(yī)生怕是學不過來啊。專家模型差不多是這么個意思,咱們普通人就簡單的理解為分診吧,分診以后看病看的更好。
對于大模型,其實我們不清楚它也有這么一個需求,或者說它使用了MoE系統(tǒng)后會提示性能,說白了我們沒有OpenAI這樣的試錯成本,所以確實不清楚,一度我們覺得可能是暴力擴大就是正途,當然現(xiàn)在也不著急下結(jié)論,我們且看后面什么情況的。
回過頭來講講我們自己,我們的專利檢索模型確實是一個MoE模型,當然不是從第一天就是,但是確實從疫情前就已經(jīng)是了,而且效果確實好??墒瞧胀ㄈ瞬幻靼椎囊粋€問題是,模型是需要維護的,新的數(shù)據(jù)進來是要重新進行調(diào)整的,那么這些都是成本,在具體的工程學,軟件工程學上都是需要花力氣下功夫的。所以我們也是考慮技術(shù)的發(fā)展一直在多條腿走路,這就是后來大家看到的檢索魔方,魔方的底層應該講是在首先調(diào)用了這個專家模型(MoE),其次它考慮了一個多模態(tài)的問題。這就是為什么魔方的檢索效果其實目前是所有市面產(chǎn)品中最好的,但是實話實說,我們的產(chǎn)品本身也還是會受一個非常大的限制,就是成本!
就像這次GPT4的這個大爆料,很多人都會去想OpenAI的成本如何,我們也同理,其實多年前使用MoE的時候我們就考慮過,當時的算法就是兼顧了成本。時過境遷,現(xiàn)在我們也在考慮新的替代,但是真正的工程都是基于嚴謹?shù)目茖W,所以我們要認真的比較效果與成本。不過好消息確實是,這是一個對于AI非常好的時代,每天的硬件成本都在下降,還有一群狂人在分享他們解決硬件算力的方法。總結(jié)一下,有的時候想想也是真的應了那句話,叫英雄所見略同,AI正在進入一個最精彩的時間段,我們作為真從業(yè)者,此刻是非常興奮與幸福的,我們每天都有太多想法要落地去檢驗了,說真的有點兒忙不過來了。但是還是會抽時間和大家分享一些能分享的內(nèi)容,當然我們最核心的一直是希望知產(chǎn)人,對未來有思考的知產(chǎn)人們能搭上車,搭對車!