ChatGPT在會計考試中的表現(xiàn)超越預(yù)期,但仍有改進空間
GPT-4的表現(xiàn)令人驚訝,它在律師考試中取得了90%的成績,在AP考試中有15個人中有13個通過,在GRE口語考試中幾乎達到了滿分。但是,楊百翰大學(xué)和其他186所大學(xué)的研究人員想要測試OpenAI技術(shù)在會計考試中的表現(xiàn)。他們測試了ChatGPT的原始版本,并發(fā)現(xiàn)雖然在會計領(lǐng)域仍有改進的空間,但該技術(shù)將對教育的交付和接受方式產(chǎn)生積極影響。
自2022年11月首次亮相以來,ChatGPT已成為歷史上增長最快的技術(shù)平臺之一,在不到兩個月的時間里擁有1億用戶。鑒于目前關(guān)于ChatGPT等人工智能模型在教育中的作用的爭論,比亞迪大學(xué)會計學(xué)教授大衛(wèi)-伍德決定招募盡可能多的教授來評估人工智能和真實大學(xué)會計學(xué)生的表現(xiàn)。
該研究涉及來自14個國家,186個機構(gòu)的327名合著者,提供了25,181道課堂會計測試題。此外,楊百翰大學(xué)的本科生提供了2,268道課本問題,涉及各種會計子領(lǐng)域,包括會計信息系統(tǒng)(AIS)、審計、財務(wù)會計、管理會計和稅收。這些問題的難度和類型也各不相同。
盡管ChatGPT表現(xiàn)出色,但學(xué)生的成績還是超過了AI,平均得分76.7%,而ChatGPT的得分率為47.4%。ChatGPT在11.3%的問題上超過了學(xué)生的平均得分,在AIS和Audit方面表現(xiàn)尤為突出。然而,它在評估稅收、財務(wù)和管理方面卻很吃力,這可能是由于它在精算程序方面的弱點。
ChatGPT在判斷題(68.7%的正確率)和選擇題(59.5%)上表現(xiàn)良好,但在書面題(28.7%-39.1%)上表現(xiàn)較差。它經(jīng)常在高階問題上掙扎,有時會在權(quán)威文本中解釋不正確的答案,或以不同的方式回答同一問題。
盡管有其局限性,研究人員期望GPT-4能改善會計并解決他們所發(fā)現(xiàn)的問題。最有希望的是,聊天機器人有可能加強教學(xué)和學(xué)習(xí),比如幫助設(shè)計和測試作業(yè)和項目的草稿部分。
該研究的共同作者、比亞迪大學(xué)會計學(xué)教授梅麗莎-拉爾森說:“這有點顛覆性,我們需要評估我們要做什么。當(dāng)然,我們?nèi)匀粫兄蹋@將迫使我們以不同的方式使用他們?!?/p>
隨著人工智能的不斷發(fā)展,教育工作者必須適應(yīng)并找到新的方法,將這些技術(shù)納入他們的教學(xué)方法。