散文網(wǎng) » 科技 »學習 » 【OpenLLM Talk 006】本期提要：LLM加水?。籹oftmax的bug；llama2漢化；OpenLLMAI

【OpenLLM Talk 006】本期提要：LLM加水?。籹oftmax的bug；llama2漢化；OpenLLMAI

2023-08-04 02:29 作者:羨魚智能 0人讀過 | 我要投稿

OpenLLM?Talk?006

序章

背景介紹

【緣起】：OpenLLM?Talk這個事情起源于20230603?OpenLLM交流群中大家的一場討論，本著心動不如行動的想法，我們花了一點時間來將其落地，希望可以為大家提供一個LLM/NLP領域的交流平臺?！?/span>我們或許不夠AI，但盡量足夠Open；我們也不知道能走多遠，但盡量比自己想的更遠。

【結構】：整體上分成本周新聞、本周推薦、本周經(jīng)典（可選）、本周實踐（可選）、free?talk等版塊，建議后續(xù)最好采用每個版塊每期由1-2人認領+多人參與貢獻+自由討論的形式。

本期記錄

【編號】：OpenLLM?Talk?006 (三位數(shù)是希望LLM的熱度+我們的熱情+讀者的熱情可以支撐我們做到三位數(shù)）

【時間】：20230729晚上九點（每周六晚上九點，節(jié)假日順延）

【本期提要】：ICML2023杰出論文；attention機制的bug；llama2的漢化；多輪對話；DPO論文閱讀；LLM評估；text2vec；量化；NOPE；長度外推；OpenLLMAI與實踐計劃；

【本期貢獻者】-?排名不分先后：

【主持人】：羨魚（后續(xù)每期由大家自行認領）

【編輯】：羨魚（最好由主持人兼任）

【版塊負責人】：?多人（后續(xù)每期由大家自行認領）

【具體內(nèi)容貢獻者】：請查看具體內(nèi)容后面的署名，比如問題、回答和觀點的來源

【talk視頻】：

注意事項

【talk模板】：；可參考模板進行貢獻

【小要求】：主持人及版塊負責人認領之后盡量準時參加，其余同學可自行選擇是否參與；

本周新聞

【本周新聞】：LLM/AI?news，包括但不限于學術、項目、工業(yè)界新聞和進展；多人認領或者直接在此添加，由1-2人認領并匯總；建議大家都參與進來，相互補充，盡量減少信息冗余和缺漏；共~10分鐘；

【貢獻者】：

【建議區(qū)】：可以考慮GitHub的討論區(qū)，看個人習慣；論文可以寫個摘要；

學術

注：論文+重點

ICML2023杰出論文出爐

Attention機制竟有bug，Softmax是罪魁禍首，影響所有Transformer

項目

chinese版llama2

ziya公開直播訓練

工業(yè)界

Baby?llama2

SMP?2023?ChatGLM金融大模型挑戰(zhàn)賽

本周推薦

【本周推薦】：本周重點內(nèi)容推薦和介紹，模型、開源項目、好的資料或課程，建議1-3項；共15分鐘；

【貢獻者】：

【提名區(qū)】：

【建議區(qū)】：

【本期主題】：

資料

一文看懂：如何充分高效訓練多輪對話大模型

【LLM系列】對行業(yè)大模型的思考?-?黃文灝的文章?-?知乎

DPO——RLHF?的替代之《Direct?Preference?Optimization:?Your?Language?Model?is?Secretly?a?Reward?Model》論文閱讀

中文LLaMA&Alpaca大語言模型詞表擴充+預訓練+指令精調(diào)

模型

項目

Efficient?and?Effective?Text?Encoding?for?Chinese?LLaMA?and?Alpaca

雜項

refs:

本周經(jīng)典-optional

【本周經(jīng)典】：NLP/LLM領域的經(jīng)典話題探討；~15分鐘；

【貢獻者】：

【提名區(qū)】：量化

【本周主題】：

本周實踐-optional

【本周實踐】：NLP/LLM領域實踐經(jīng)驗分享，可以分享自己的實踐經(jīng)驗或者他人的實踐經(jīng)驗，后面群里也會組織一些實踐內(nèi)容；~15分鐘；

【貢獻者】：

【提名區(qū)】：

【建議區(qū)】：coding搞起來；后續(xù)拉個read_code/paper分支，LLM精讀、注釋；專門建一個數(shù)據(jù)專題；

LLaMA2?框架

成員

初七,?qwang,?Sine,?donny,?風吹草地見牛?...?

技術討論

相關工具:?HF/DeepSpeed/Megatron/Ray/RLHF/LLM

參考框架：DeepSpeed?Chat；

Ray:?qwang

RLHF:?初七、Yiran（周末）

SFT:?Hope(可以寫一些代碼)、羨魚（周末）

pretrain:?羨魚（周末）

test?datasets:

Debug?machine:?用?300m?模型單卡測試,?后期用集群perf?測試

預期產(chǎn)出：

llama2架子

垂直領域的llama2、

第一次會議主要討論技術方案，項目開發(fā)組織方式，分工

然后起一個好聽的名字

Free?Talk

【Free?Talk】自由提問，自由討論；在文檔里提問或者在群里提問，建議盡量在此匯總；如果群里已經(jīng)有比較好的討論結果，也可以將討論結果搬運過來；時間不限；

【貢獻者】：羨魚（編輯）+OpenLLM群友

1.Evaluation?of?LLM\MLLM

對大模型的評測是比較困難的事情，一般人工或者依靠GPT4來評價，都是比較費錢的。一些新的評測基準（MMBench）是否可以用llama2?chat這種?rlhf之后的模型來評測，是否可以起到完全相同的效果。

相關領域：模型評測，LLM

答：GPT4也不一定準確，特別，不建議在被評測的回答中有GPT4存在的情況下用GPT4評價（既當運動員又當裁判員）；

張拳石老師：可解釋評測；

質(zhì)量好不好，哪里好，哪里差？

做一個通用的獎勵模型？

感覺獎勵模型往往是針對特定模型來訓的；

LLM競技場，幾個LLM，人類打分；

一個想法：分層的RM，general-》domain-》task--羨魚

迭代式的RM，目前OpenAI、athropic等都采用的是多輪迭代式的RLHF流程

llama2?70b?rlhf?基本上是開源的最強的模型，在一些方面有接近GPT3.5的能力

中文方面是不是不一定？llama基本沒做中文；

主觀問題往往回答越長越好，直接len()都比較靠譜？：）

2.? 關于垂直領域的text2vec，各位有沒有相關的數(shù)據(jù)集構建或者其他的模型選擇的經(jīng)驗？

答：OpenSE，有空我會放個repo出來，做一個SE/text2vec，大體的流程：基礎模型--》無監(jiān)督--》自監(jiān)督——》細粒度監(jiān)督訓練；

3.? FP8的軟硬件支持現(xiàn)狀？

答：

為什么FP16的值域這么窄？

BF16？

smoothquant

量化的效果：

FP16、FP8，還有8位、4位、甚至于3位、兩位？

Qlora：int4量化；3090微調(diào)13B；

4.? 想問下各位大佬，之前有討論過NoPE這篇文章嗎？

5.? Claude100k是怎么搞的？

答：

llama訓練時2k，微調(diào)1000步到32k；

微軟有個十億token的；

外推最近進展到什么地步？貌似NTK?dynamic?效果超過16倍不太行；

6.? 指令數(shù)據(jù)里面如果消解矛盾？尤其是GPT4這種傳言上百萬的指令數(shù)據(jù)集。另外，如果保持預訓練、SFT、RLHF部分的一致性，至少像數(shù)據(jù)層面的一致性？

答：比如說，SFT部分如果有一些預訓練的知識盲區(qū)，容易加劇胡說八道的情況。

7.? 將linear?transformer?scale到175B？

8.?

線上討論:

1.?

群里討論：

有空會同步，取決于人力，希望大家積極認領~

參考資料

后續(xù)計劃

我們正式升級為一個不太正式的組織了！叫做OpenLLMAI.

●?正式開啟OpenLLM?talk的運營，P1；

●?ChatPiXiu項目：陸續(xù)有一些實踐計劃，P0；

●?，P0，doing

●?OpenSE：檢索項目，字符檢索+語義檢索，P0；

●?OpenLLM：LLM學習和實踐項目，P0；

●?OpenAIWiki：AI?wiki?for?everyone；

●?ChatLover：模擬戀人+愛情助手，P1；

加入/贊助我們

我們非常缺人，也非常缺時間和算力，希望能有越來越多的朋友參與進來，認領talk的組織者、主持人、版塊的負責人；參與項目后續(xù)的開發(fā)和討論等等。

微信群：（請優(yōu)先加入微信群，如果失效則加入QQ群再私聊我進微信群）

（二維碼過期了?。?/p>

QQ群：

往期精彩

【OpenLLM?Talk?005】本期提要：llama2；FreeWilly；LLM推理與評估；LLM八股；RetNet；DPO；數(shù)據(jù)配比?-?羨魚智能的文章?-?知乎

https://zhuanlan.zhihu.com/p/645679737

【OpenLLM?Talk?004】本期提要：外掛知識；抱抱臉每日論文；MOSS-RLHF；GPT4細節(jié)；OpenAI代碼解釋器；百川13B；LLM面經(jīng)；多輪對話；數(shù)學能力；反思；LLM中的知識?-?羨魚智能的文章?-?知乎

https://zhuanlan.zhihu.com/p/643960837

【OpenLLM?Talk?003】本期提要：SuperCLUE-Open；文心盤古；chatlaw；LLM綜述；NTK-Aware?Scaled?RoPE；10億上下文；InternLM；GLM講座?-?羨魚智能的文章?-?知乎

https://zhuanlan.zhihu.com/p/642376781

【【OpenLLM?Talk?003】SuperCLUE-Open；文心盤古；chatlaw；LLM綜述；NTK-Aware?Scaled?RoPE；GLM講座】?【精準空降到?10:10】?

【OpenLLM?Talk?002】本期提要：chatgpt增速放緩；gorilla-cli；RoPE外推；vllm?vs?llama.cpp；lora融合；模型參數(shù)和數(shù)據(jù)之比；OpenSE計劃?-?羨魚智能的文章?-?知乎

https://zhuanlan.zhihu.com/p/641285737

【OpenLLM?Talk?001】本期提要：長程記憶；OpenAI上新；百川智能7B模型；State?of?GPT；位置編碼；deepspeed-rlhf；RLHF數(shù)據(jù)?-?羨魚智能的文章?-?知乎

https://zhuanlan.zhihu.com/p/640275116

【OpenLLM?Talk?000】我們做了一個LLM領域的交流平臺?-?羨魚智能的文章?-?知乎

https://zhuanlan.zhihu.com/p/636350755

【OpenLLM?Talk?模版】興趣和熱愛勝過一切，OpenLLM就從這里開始吧！歡迎加入！?-?羨魚智能的文章?-?知乎

https://zhuanlan.zhihu.com/p/640522290

標簽：