-
Notifications
You must be signed in to change notification settings - Fork 103
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Model quantize #19
Comments
模型的檔案多大就差不多那樣吧,24G看來是塞不下,如果想要縮小可以考慮 https://github.com/ggerganov/llama.cpp 的 quantize |
我使用以下命令運行該模型
但效果不太理想
|
你應該可以嘗試用 bnb 就好
|
你的生成效果不好應該是因為你沒有使用作者提供的 Prompt Template
完整 Prompt Template 的描述在這 |
非常感謝在使用 --quantize gptq 與 Prompt Template 得到很好的結果。 但在--quantize bitsandbytes 會得到錯誤訊息
|
可能是 TGI 版本的關係,可以試試看改用 |
抱歉該錯誤與 TGI 無關 我犯了一個簡單的錯誤model-id應該使用
能夠正常執行 另外請問 bitsandbytes-foundation/bitsandbytes#539 提到 |
在 3090 這個層級的 GPU 上 GPTQ 與 bnb 的速度差距應該不會很大,我自己實測 GPTQ (4-Bit) 與 bnb (4-Bit) 通常會比 bnb (8-Bit) 略慢一點點,但三者的差距非常微小幾乎可以忽略,可以自行測量看看 |
BTW,目前在 demo 網站是兩張3090 用 TGI (沒有 quantization),有興趣可以比較一下差距。 |
我在單張RTX3090 24GB得到錯誤
是否有方法能夠量化模型
The text was updated successfully, but these errors were encountered: