国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

一行代碼加速28倍大模型推理速度

2023-12-07 11:51 作者:ReadPaper論文閱讀  | 我要投稿

Hugging?Face?的?Optimum-NVIDIA?為大型語(yǔ)言模型(LLM)提供了一個(gè)簡(jiǎn)單而高效的優(yōu)化方案。通過(guò)僅修改一行代碼:

原代碼:from?transformers.pipelines?import?pipeline

修改后的代碼:from?optimum.nvidia.pipelines?import?pipeline


它能顯著加速?NVIDIA?平臺(tái)上的?LLM?推理過(guò)程,達(dá)到最高28倍的速度提升,以及每秒處理1200個(gè)Token。這一優(yōu)化主要得益于對(duì)?NVIDIA?Ada?Lovelace?和?Hopper?架構(gòu)支持的新float8格式和NVIDIA?TensorRT-LLM軟件的高級(jí)編譯能力。Optimum-NVIDIA?還提供了簡(jiǎn)單的API,使得在一個(gè)GPU上運(yùn)行更大的模型成為可能,同時(shí)保持高速度和準(zhǔn)確性。此外,它還優(yōu)化了首Token延遲(First?Token?Latency)和吞吐量(Throughput),顯著提高了模型的響應(yīng)速度和批處理能力。目前,Optimum-NVIDIA?支持?LLaMAForCausalLM?架構(gòu)和相關(guān)任務(wù),并計(jì)劃擴(kuò)展到其他文本生成模型和任務(wù)。


blog:https://huggingface.co/blog/optimum-nvidia


使用方法:

性能指標(biāo):首Token延遲和吞吐量

性能評(píng)估方面,Optimum-NVIDIA?關(guān)注首Token延遲(First?Token?Latency)和吞吐量(Throughput)。首Token延遲是衡量從輸入提示到開(kāi)始接收輸出的時(shí)間,而吞吐量則是衡量模型生成Token的速度,特別適用于批量生成。Optimum-NVIDIA?在這兩個(gè)指標(biāo)上都顯示出顯著的提升。


支持和未來(lái)計(jì)劃

目前,Optimum-NVIDIA?支持?LLaMAForCausalLM?架構(gòu)和任務(wù),計(jì)劃將支持?jǐn)U展到其他文本生成模型和任務(wù)。Hugging?Face?還計(jì)劃引入諸如飛行批處理(In-Flight?Batching)等前沿優(yōu)化技術(shù),以進(jìn)一步提高吞吐量,以及?INT4?量化以在單個(gè)?GPU?上運(yùn)行更大的模型。


觀點(diǎn)

學(xué)術(shù)上,其實(shí)底層技術(shù)的革新還有很多機(jī)會(huì),特別是運(yùn)算加速這些。不過(guò)不能落入純工程的地步了,導(dǎo)致沒(méi)有創(chuàng)新點(diǎn)。

商業(yè)上,當(dāng)然是省錢(qián)福音了。不過(guò)這也意味著基于英偉達(dá)的顯卡的優(yōu)化越來(lái)越多,導(dǎo)致顯卡品牌的不可替代性越來(lái)越強(qiáng)。


特邀作者:日本早稻田大學(xué)計(jì)算機(jī)系博士生? 王軍杰

一行代碼加速28倍大模型推理速度的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
盘山县| 新巴尔虎左旗| 夏津县| 三亚市| 都江堰市| 榕江县| 紫阳县| 华阴市| 富民县| 文昌市| 枣强县| 甘德县| 万山特区| 汕头市| 绍兴县| 宣城市| 枣庄市| 博罗县| 凤台县| 团风县| 宝山区| 正蓝旗| 陕西省| 永福县| 沭阳县| 穆棱市| 阿拉善盟| 白水县| 焉耆| 南召县| 丰台区| 苍溪县| 营口市| 东宁县| 彭泽县| 镶黄旗| 高阳县| 汝州市| 米泉市| 图们市| 武山县|