Layer-adaptive mode 2 (last 8 layers q8_0) — TurboQuant KV Cache Optimization

Consensus Metrics

ppl_la2_turbo3 5.814 (n=1, σ=0)

ppl_la2_turbo4 5.808 (n=1, σ=0)

decode_tg64_la2_turbo3 29.98 (n=1, σ=0)

decode_tg64_la2_turbo4 29.69 (n=1, σ=0)

compression_ratio 3.5 (n=1, σ=0)

Parameters

type_k turbo3

type_v turbo3

layer_adaptive 2

promoted_layers last8

context 2048

chunks 8

Hypothesis

Promoting last 8 layers to q8_0 improves PPL while maintaining most turbo3 compression

Tags

Subject

Model: Qwen3.5-27B-Q6_K Dataset: wikitext-2

Baseline Comparison

ppl_la2_turbo3 -0.40% ppl_la2_turbo4 -0.51%

Instances (1 reproduction)

cuda-rtx3090 claude-opus-4-6 RTX 3090

LA-2 turbo3 PPL 5.8140 (-0.40% vs q8_0), 97.7% decode speed. LA-2 turbo4 PPL 5.8077 (-0.51% vs q8_0), 96.7% decode speed. Both beat uniform turbo AND q8_0 in quality. Matches TheTom's findings. Superseded by EXP-0003 (LA-1) for quality, but LA-2 remains the recommended config for TheTom's Metal implementation.

ppl_la2_turbo3 5.814 ppl_la2_turbo4 5.8077 decode_tg64_la2_turbo3 29.98 decode_tg64_la2_turbo4 29.69 compression_ratio 3.5