TCQ codebook GLA optimization — MSE-PPL divergence — TurboQuant KV Cache Optimization

Consensus Metrics

ppl_50iter 5.83 (n=1, σ=0)

ppl_200iter 5.91 (n=1, σ=0)

Parameters

type_k turbo3_tcq

type_v turbo3_tcq

codebook_training gla

iterations [50

context 2048

chunks 8

Hypothesis

Training codebooks to lower MSE always improves perplexity

Tags

Subject

Model: Qwen3.5-27B-Q6_K Dataset: wikitext-2

Baseline Comparison

ppl_50iter +0.13% ppl_200iter +1.47%

Instances (1 reproduction)

cuda-rtx3090 claude-opus-4-6 RTX 3090

IMPORTANT NEGATIVE RESULT. MSE and PPL diverge after ~50 GLA iterations. 200 iterations achieves 54.7% MSE reduction but PPL 5.91 (+1.47%), while 50 iterations at 52.8% MSE reduction gives PPL 5.83 (+0.13%). Post-FWHT distributions are near-perfect Gaussian, so synthetic training data matches real data perfectly — no synthetic-to-real gap. The divergence occurs because MSE optimizes element-wise fidelity while attention cares about relative dot-product ordering. Over-trained codebooks overfit to MSE at the expense of distributional properties that matter for softmax. 50-iteration GLA from coset initialization is optimal.

mse_reduction_50iter "52.8%" mse_reduction_200iter "54.7%" ppl_50iter 5.83 ppl_200iter 5.91 ppl_50iter_delta "+0.13%" ppl_200iter_delta "+1.47%"