一行代碼加速28倍大模型推理速度
Hugging?Face?的?Optimum-NVIDIA?為大型語(yǔ)言模型(LLM)提供了一個(gè)簡(jiǎn)單而高效的優(yōu)化方案。通過(guò)僅修改一行代碼:
原代碼:from?transformers.pipelines?import?pipeline
修改后的代碼:from?optimum.nvidia.pipelines?import?pipeline
它能顯著加速?NVIDIA?平臺(tái)上的?LLM?推理過(guò)程,達(dá)到最高28倍的速度提升,以及每秒處理1200個(gè)Token。這一優(yōu)化主要得益于對(duì)?NVIDIA?Ada?Lovelace?和?Hopper?架構(gòu)支持的新float8格式和NVIDIA?TensorRT-LLM軟件的高級(jí)編譯能力。Optimum-NVIDIA?還提供了簡(jiǎn)單的API,使得在一個(gè)GPU上運(yùn)行更大的模型成為可能,同時(shí)保持高速度和準(zhǔn)確性。此外,它還優(yōu)化了首Token延遲(First?Token?Latency)和吞吐量(Throughput),顯著提高了模型的響應(yīng)速度和批處理能力。目前,Optimum-NVIDIA?支持?LLaMAForCausalLM?架構(gòu)和相關(guān)任務(wù),并計(jì)劃擴(kuò)展到其他文本生成模型和任務(wù)。
blog:https://huggingface.co/blog/optimum-nvidia
使用方法:

性能指標(biāo):首Token延遲和吞吐量
性能評(píng)估方面,Optimum-NVIDIA?關(guān)注首Token延遲(First?Token?Latency)和吞吐量(Throughput)。首Token延遲是衡量從輸入提示到開(kāi)始接收輸出的時(shí)間,而吞吐量則是衡量模型生成Token的速度,特別適用于批量生成。Optimum-NVIDIA?在這兩個(gè)指標(biāo)上都顯示出顯著的提升。


支持和未來(lái)計(jì)劃
目前,Optimum-NVIDIA?支持?LLaMAForCausalLM?架構(gòu)和任務(wù),計(jì)劃將支持?jǐn)U展到其他文本生成模型和任務(wù)。Hugging?Face?還計(jì)劃引入諸如飛行批處理(In-Flight?Batching)等前沿優(yōu)化技術(shù),以進(jìn)一步提高吞吐量,以及?INT4?量化以在單個(gè)?GPU?上運(yùn)行更大的模型。
觀點(diǎn)
學(xué)術(shù)上,其實(shí)底層技術(shù)的革新還有很多機(jī)會(huì),特別是運(yùn)算加速這些。不過(guò)不能落入純工程的地步了,導(dǎo)致沒(méi)有創(chuàng)新點(diǎn)。
商業(yè)上,當(dāng)然是省錢(qián)福音了。不過(guò)這也意味著基于英偉達(dá)的顯卡的優(yōu)化越來(lái)越多,導(dǎo)致顯卡品牌的不可替代性越來(lái)越強(qiáng)。

特邀作者:日本早稻田大學(xué)計(jì)算機(jī)系博士生? 王軍杰