【花師小哲】當代煉金術（神經網絡）前沿（26）——語言模型學會了自我反思？

2023-03-27 15:42 作者:花師小哲-中二 0人讀過 | 我要投稿

OK，今天我們來看這篇論文：

內容不會很多，主要是這篇論文寫的也不復雜，就把思想講一講。

1.自我提升

需要注意的是，大模型自我提升其實并不是什么新鮮事，有很多研究的。

例如，思維鏈CoT的一項簡單的研究就單純在輸入后加一句：“讓我們一步步思考吧”就可以提升大模型的性能。其他還有背誦-增強等一眾辦法都可以使得大模型獲得性能提升。

甚至我自己都設想過這樣一種自提升方案（也是超級縫合方案了，縫了Toolformer、先知框架、背誦-增強等）：

可惜這個方案被否決了，有興趣的朋友可以嘗試一些，我覺得還挺有意思的。

2.自我反思

自我反思在這里的意思很簡單，即對自己之前的輸出進行再次判斷，看是否在哪一步走到了死胡同中，最后再修正答案。

如果經常玩ChatGPT的朋友應該知道，ChatGPT有時候會非常堅定地支持一個錯誤的信念（特別是做數(shù)學題），而且真的很難除掉。這樣的模型真的可以做到反思嗎？

整體架構如下：

這個架構對于路人朋友來說可能有些復雜，不過熟悉強化學習的朋友應該比較熟悉。簡單來說，我們將大模型當做是強化學習的智能體，將動作、觀察值和獎勵都當做一個函數(shù)的輸入來判斷大模型是否要進行自我反思。其中獎勵模型的輸出是二元的，畢竟在不借助外力（不然就不叫自我反思了，這樣的方式可以說是啟發(fā)，并不是做決定，或者說只是給個參考）的情況下就只能這么做了。

如果判斷需要反思，則模型會通過反思模塊進行反思。這個模塊是用錯誤“輸入-輸出對”等進行訓練的，等于說是讓大語言模型“思考”自己之前都怎樣犯過錯誤，這次的回答是否犯了類似的錯誤。

這樣，大模型就在反思中不斷修正答案。

結果證明，還是很有效果的。

3.結語

雖然一些推送說是GPT-4實現(xiàn)了自我反思，但我看論文中所說的還是GPT-3和GPT-3.5。（確實，GPT-4才出來也沒多久，就直接研究上GPT-4確實有些太快了）

另一點是，這篇文章好像是沒有研究是否只有大模型才擁有這種自我反思的能力（看過之前一些專欄的朋友應該知道“涌現(xiàn)”，即只有當模型規(guī)模大到一定程度，一些能力才會出現(xiàn)）。

標簽：AI 強化學習語言模型 prompt 反思自我反思大模型 ChatGPT 大語言模型人工智能

【花師小哲】當代煉金術（神經網絡）前沿（26）——語言模型學會了自我反思？的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經典語句愛情句子作文大全

国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

【花師小哲】當代煉金術（神經網絡）前沿（26）——語言模型學會了自我反思？

【花師小哲】當代煉金術（神經網絡）前沿（26）——語言模型學會了自我反思？的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

【花師小哲】當代煉金術（神經網絡）前沿（26）——語言模型學會了自我反思？

本文作者的其他文章

【花師小哲】當代煉金術（神經網絡）前沿（26）——語言模型學會了自我反思？的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【花師小哲】當代煉金術（神經網絡）前沿（26）——語言模型學會了自我反思？

【花師小哲】當代煉金術（神經網絡）前沿（26）——語言模型學會了自我反思？的評論 (共條)