011. 清華大學 ChatGLM-6B 模型,支持本地部署

前言
前有 ChatGPT,后有文心一言,最近幾個月 AI 圈的產(chǎn)品可謂是爆發(fā)式發(fā)展。但這些語言大模型動輒需要上百 G 顯存,對于個人電腦實在是負擔不起。而近期由清華大學推出的開源對話 AI——ChatGLM-6B,最低只要 6G 顯存,使得用戶可以在大部分消費級的顯卡上進行本地部署,為廣大 AI 愛好者帶來了福音。發(fā)布不過短短兩周,Github 已有 9.8K Star,受認可程度可見一斑。
簡單部署
1. 下載
首先需要下載源代碼:
以及從抱臉上下載模型文件,可能需要較長時間:
將下載的模型文件目錄 chatglm-6b 移動到源代碼目錄下的?THUDM/chatglm-6b 目錄。
2. 使用
建立 Python 虛擬環(huán)境,并安裝依賴庫:
如果 Pytorch 和 CUDA 未安裝,需自行下載安裝。網(wǎng)上教程極多,不再多講。
直接運行根目錄下 web_demo.py 文件,即可使用。
默認情況下,模型以 FP16 精度加載,運行上述代碼需要大概 13GB 顯存。如果?GPU 顯存有限,可以嘗試以量化方式加載模型,使用方法如下:
運行成功后會自動打開一個由 Gradio 搭建的?http://127.0.0.1:7860 頁面,即可使用。

GPU 顯存 占用較高,本人電腦勉強能用:

Web 部署
原始界面比較簡陋,自己寫一套新的界面,主要適配移動端。
后端
使用 FastApi 開發(fā),支持流式響應:
前端
使用 Vue3 + Vant 開發(fā),支持流式渲染輸出:
界面效果

由于時間和個人水平有限,界面其實寫得并不很好。但主要功能包括流式輸出已經(jīng)實現(xiàn),減少了等待時間,還是有一些使用價值。
至于 ChatGLM-6B 的使用效果,雖然離 ChatGPT 仍有差距,但對于一個只有 60 億參數(shù)的小模型來說,已經(jīng)很不錯了。期待正在內測的?ChatGLM-130B 有著更好的表現(xiàn)。