feat(src): add kv cache int8 quantization #22

tpoisonooo · 2023-06-27T03:24:48Z

功能

删掉了 params.int8_mode == 2，新增 enum QuantPolicy， 1,2 两个值保留，从 4 开始，下一个写 8,16,32..
关闭 FP8 和 BF16，用不到
删掉了 ia3，用不到
删掉了 transpose_key_cache，用不到

llmdeploy/serve/fastertransformer/deploy.py

tpoisonooo added 6 commits June 27, 2023 03:22

feat(src): add int8 and compile passed

54ef0b9

feat(kernels): fix

b562385

feat(llama): update kernel

7799608

feat(src): add debug

619ad9b

fix(kernel): k_cache use int8_t pointer

2ea4e4a

style(llama): clean code

7a5c236

tpoisonooo changed the title ~~WIP feat(src): add int8 and compile passed~~ feat(src): add int8 and compile passed Jun 28, 2023

feat(deploy.py): revert to enable fmha

bce6779

tpoisonooo requested a review from lvhan028 June 28, 2023 08:50

tpoisonooo added 2 commits June 28, 2023 08:56

style(LlamaV2): clean code

39f8034

feat(deploy.py): add default quant policy

c3706d4

tpoisonooo changed the title ~~feat(src): add int8 and compile passed~~ feat(src): add kv cache int8 quantization Jun 28, 2023

lvhan028 reviewed Jun 28, 2023

View reviewed changes

llmdeploy/serve/fastertransformer/deploy.py Show resolved Hide resolved

lvhan028 requested a review from lzhangzz June 28, 2023 09:17

lvhan028 approved these changes Jun 28, 2023

View reviewed changes

lvhan028 merged commit cc93136 into InternLM:main Jun 28, 2023