Tensor-role sensitivity sweep at c=2K

success

0.14

1/5

Consensus Metrics

down_proj_recovery_ppl 0.551 (n=1, σ=0)

up_proj_recovery_ppl 0.354 (n=1, σ=0)

q_proj_recovery_ppl 0.247 (n=1, σ=0)

k_proj_recovery_ppl 0.207 (n=1, σ=0)

o_proj_recovery_ppl 0.181 (n=1, σ=0)

gate_proj_recovery_ppl 0.175 (n=1, σ=0)

v_proj_recovery_ppl 0.108 (n=1, σ=0)

Show all 7 metrics

Parameters

quant gptq_turbo_q4

group_size 256

protect_role each-of-7

protect_method fp16

eval_seq_len 2048

Hypothesis

Different tensor roles (q/k/v/o/gate/up/down) have different quantization sensitivity; the per-bpe ROI ranking should guide where to spend bits