大模型開(kāi)源世界的安卓與微調(diào)項(xiàng)目推薦
LLaMA全稱(chēng)為“Large Language Model Meta AI”,即Meta大型語(yǔ)言模型,其參數(shù)量從70億到650億不等,當(dāng)參數(shù)越大時(shí),模型所占用的空間就越多,運(yùn)行時(shí)所消耗的算力也就越大。在 LLaMA2 模型發(fā)布的第二天,就做了 Docker 支持。LLaMA2開(kāi)源base模型的一個(gè)作用是讓優(yōu)秀的你為他的大模型做優(yōu)化,為人類(lèi)做貢獻(xiàn)。
此次 Meta 發(fā)布的 Llama 2 模型系列包含 70 億、130 億和 700 億三種參數(shù)模型。340 億參數(shù)的估計(jì)由于安全性問(wèn)題尚未發(fā)布。

對(duì)比LLaMA 1

Llama 1、Llama 2 基礎(chǔ)模型、MPT(MosaicML)和 Falcon 等開(kāi)源模型在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)上的結(jié)果。

Llama 2 70B 的結(jié)果與閉源模型進(jìn)行了比較

llama.cpp
Georgi Gerganov開(kāi)發(fā)的llama.cpp的主要目標(biāo)就是在MacBook上使用4-bit量化運(yùn)行大型語(yǔ)言模型。將LLaMA-7B從13GB減少到3.9GB、LLaMA-13B從24GB減少到7.8GB以下。按照作者給出的數(shù)據(jù),其在 M1 MacBook Pro 上運(yùn)行 LLaMA-7B 模型時(shí),推理過(guò)程每個(gè)詞(token)耗時(shí)約 60 毫秒,換算每秒十多詞。
Baby LLaMA 2
OpenAI科學(xué)家Andrej Karpathy,一周末訓(xùn)練微型LLaMA 2,并移植到C語(yǔ)言,這個(gè)項(xiàng)目的靈感正是來(lái)自llama.cpp。訓(xùn)練代碼來(lái)自之前他自己開(kāi)發(fā)的nanoGPT,并修改成LLaMA 2架構(gòu)。在MacBook Air M1 CPU上單線(xiàn)程用fp32精度以每秒18個(gè)token的速度生成故事樣本。接著使用最高級(jí)別編譯方式-O3,使用量化后的模型,將MacBook Air M1上的每秒處理token數(shù)增加到了98。
項(xiàng)目擴(kuò)展:
llama.cpp的作者Georgi Gerganov搞出了直接在瀏覽器里運(yùn)行的版本;
Alex Volkov甚至做到了在GPT-4代碼解釋器里跑Baby LLaMA 2。
## Baby LLaMA 2 使用流程
## 下載在TinyStories數(shù)據(jù)集上訓(xùn)練的這個(gè)15M參數(shù)模型(約58MB),并將其放入目錄out:
wget https://karpathy.ai/llama2c/model.bin -P out
## 編譯并C代碼:
gcc -O3 -o run run.c -lm
## 運(yùn)行
./run out/model.bin
LLaMA-2-chat
LLaMA-2-chat 目前具備了安全做的太強(qiáng),且不具備中文能力。下圖是Llama 2-Chat 的訓(xùn)練 pipeline。

下圖是Llama 2-Chat 與其他開(kāi)源和閉源模型在安全性人類(lèi)評(píng)估上的結(jié)果

微調(diào)項(xiàng)目
llama-recipes是Meta開(kāi)源的項(xiàng)目,可以微調(diào)LLaMA-2。
Firefly開(kāi)源中文大模型項(xiàng)目,支持對(duì)LLaMA-2進(jìn)行微調(diào)

神經(jīng)網(wǎng)絡(luò)原始的啟發(fā)
如何比醫(yī)生識(shí)別患者病情惡化早八個(gè)小時(shí)
如何自動(dòng)化標(biāo)注海量數(shù)據(jù)
Python必學(xué)知識(shí)點(diǎn)總結(jié)
王者榮耀智能AI
深度學(xué)習(xí)中為什么不同的特征信息可以直接相加