国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ModaHub魔搭社區(qū):AI Agent在操作系統(tǒng)場(chǎng)景下的AgentBench基準(zhǔn)測(cè)試

2023-08-19 10:37 作者:bili_3493262857865840  | 我要投稿

近日,來自清華大學(xué)、俄亥俄州立大學(xué)和加州大學(xué)伯克利分校的研究者設(shè)計(jì)了一個(gè)測(cè)試工具——AgentBench,用于評(píng)估LLM在多維度開放式生成環(huán)境中的推理能力和決策能力。研究者對(duì)25個(gè)LLM進(jìn)行了全面評(píng)估,包括基于API的商業(yè)模型和開源模型。

他們發(fā)現(xiàn),頂級(jí)商業(yè)LLM在復(fù)雜環(huán)境中表現(xiàn)出強(qiáng)大的能力,像GPT-4這樣的頂級(jí)模型能夠處理寬泛的現(xiàn)實(shí)任務(wù),明顯優(yōu)于開源模型。研究者還表示,AgentBench是一個(gè)多維動(dòng)態(tài)基準(zhǔn)測(cè)試,目前由8個(gè)不同的測(cè)試場(chǎng)景組成,未來將覆蓋更廣的范圍,更深入地對(duì)LLM進(jìn)行系統(tǒng)性評(píng)估。

?圖源:arXiv官網(wǎng)

AgentBench官網(wǎng):www.agentbench.com.cn

?圖注:AgentBench上不同LLM的表現(xiàn)。雖然LLM開始表現(xiàn)出其愈發(fā)成熟的能力,但模型之間的差距很大,要實(shí)現(xiàn)實(shí)際應(yīng)用仍然任重而道遠(yuǎn)。左圖,幾種常見的LLM在AgentBench提供的8種場(chǎng)景中的表現(xiàn)。右圖,AgentBench在8種場(chǎng)景中的總得分。虛線表示開源LLM(綠色)與基于API的LLM(橙色)的平均得分。圖源:來自論文

AgentBench評(píng)估哪些場(chǎng)景?

AgentBench包含8個(gè)不同的環(huán)境,其中5個(gè)是首次使用的環(huán)境:操作系統(tǒng)、數(shù)據(jù)庫(kù)、知識(shí)圖譜、數(shù)字卡牌游戲、橫向思維謎題(即所謂的“海龜湯”游戲)。其余3個(gè)環(huán)境是根據(jù)已發(fā)布的數(shù)據(jù)集重新編譯的,包括家務(wù)、網(wǎng)購(gòu)、網(wǎng)絡(luò)瀏覽。

上述所有數(shù)據(jù)集都經(jīng)過設(shè)計(jì)與調(diào)整,來模擬交互式環(huán)境,使純文本LLM可以作為自主的智能體運(yùn)行。此外,AgentBench可以系統(tǒng)地評(píng)估LLM的核心能力,包括執(zhí)行指令、編碼、獲取知識(shí)和邏輯推理能力。

?圖注:AgentBench基本構(gòu)想示意圖。圖源:來自論文

與現(xiàn)有的其他基準(zhǔn)測(cè)試相比,AgentBench專注于通過思想鏈(Chain-of-Thought,CoT)對(duì)LLM進(jìn)行以實(shí)際應(yīng)用為導(dǎo)向的評(píng)估。而這些數(shù)據(jù)集大多也代表了LLM未來可能的應(yīng)用前景與發(fā)展方向。

1. 操作系統(tǒng)

允許LLM訪問和操作終端(terminal)來控制操作系統(tǒng)是一項(xiàng)頗具挑戰(zhàn)性的任務(wù)。盡管已經(jīng)有研究嘗試將自然語(yǔ)言翻譯為Shell命令,但少有研究對(duì)真實(shí)的可執(zhí)行環(huán)境進(jìn)行評(píng)估。在此數(shù)據(jù)集中,研究者的目標(biāo)是在真實(shí)操作系統(tǒng)的交互式bash環(huán)境(即Ubuntu Docker)中,針對(duì)具有確定性答案的人類問題或一系列實(shí)現(xiàn)實(shí)際目標(biāo)的操作來評(píng)估LLM。

AI智能體ModaGPT(魔搭GPT

本項(xiàng)研究中,約一半的指令是由人類創(chuàng)建或收集自人類的。而另一半主要是由GPT-4生成的,并通過模塊測(cè)試進(jìn)行嚴(yán)格過濾。對(duì)于人工指令,研究者首先從Stack Overflow上收集bash或shell標(biāo)簽下的約6000個(gè)真實(shí)問題和解決方案,然后按網(wǎng)站讀者的評(píng)分對(duì)它們進(jìn)行排序,并邀請(qǐng)編程專家挑選出有挑戰(zhàn)性的問題。研究者最終統(tǒng)計(jì)LLM在執(zhí)行中解決問題的成功率。每個(gè)問題最終只包含錯(cuò)誤或正確兩種狀態(tài)。

?圖注:AgentBench場(chǎng)景示例。圖源:來自論文

操作系統(tǒng)

任務(wù):“查找‘/etc’目錄中非空目錄的總數(shù)?!?/span>

動(dòng)作空間:任何有效的bash命令

觀測(cè)結(jié)果:系統(tǒng)標(biāo)準(zhǔn)輸出


ModaHub魔搭社區(qū):AI Agent在操作系統(tǒng)場(chǎng)景下的AgentBench基準(zhǔn)測(cè)試的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
驻马店市| 汕头市| 敦化市| 和硕县| 黄骅市| 和林格尔县| 清镇市| 广元市| 玉环县| 敖汉旗| 特克斯县| 江油市| 科尔| 邵阳县| 凤城市| 久治县| 荣成市| 木里| 济源市| 尚义县| 沅陵县| 右玉县| 天祝| 大余县| 化隆| 宁陵县| 嘉峪关市| 邵武市| 西安市| 勃利县| 普定县| 邯郸市| 莱西市| 六枝特区| 临沧市| 门源| 庄浪县| 阳高县| 长岭县| 南康市| 都江堰市|