Asymmetric K/V type combinations — TurboQuant KV Cache Optimization

Consensus Metrics

ppl_turbo4k_q8v 5.845 (n=1, σ=0)

ppl_q8k_turbo3v 5.845 (n=1, σ=0)

ppl_turbo4k_turbo3v 5.865 (n=1, σ=0)

ppl_turbo3k_turbo4v 5.821 (n=1, σ=0)

decode_q8k_turbo3v 30.32 (n=1, σ=0)

decode_turbo4k_q8v 30.15 (n=1, σ=0)

Parameters

context 2048

chunks 8

Hypothesis

Different quantization types for K vs V can improve quality/speed tradeoff

Tags

Subject

Model: Qwen3.5-27B-Q6_K Dataset: wikitext-2

Baseline Comparison

ppl_turbo3k_turbo4v -0.28% ppl_turbo4k_turbo3v +0.48%

Instances (1 reproduction)

cuda-rtx3090 claude-opus-4-6 RTX 3090

turbo3-K + turbo4-V (5.8212) beats turbo4-K + turbo3-V (5.8653) by 0.76% PPL. Values matter more on Qwen3.5-27B — contradicts "More Keys Less Values" paper (arXiv:2502.15075). All asymmetric turbo+q8 combos slightly worse than pure q8_0 because norm correction mismatch dilutes the turbo advantage. q8_0-K + turbo3-V is the fastest asymmetric config at 98.8% of q8_0 decode speed.

ppl_turbo4k_q8v 5.8451 ppl_q8k_turbo3v 5.8451 ppl_turbo4k_turbo3v 5.8653 ppl_turbo3k_turbo4v 5.8212 decode_q8k_turbo3v 30.32 decode_turbo4k_q8v 30.15