Record: [track_10min_16mb] XSA7 + BigramHash + ValueResidual + Legal TTT — val_bpb=1.1227 by adityakm24 · Pull Request #1182 · openai/parameter-golf

adityakm24 · 2026-03-31T15:35:29Z

Summary

11-layer parameter-banking GPT with XSA on 7 layers, BigramHash(2048×96) + TrigramHash(1024×128), ValueResidual, ValueEmbedding at layers 5/9/10, LeakyReLU(0.5)², int6+lzma compression, and legal score-first TTT
Best run: val_bpb=1.12265 (legal TTT), val_bpb=1.12468 (sliding window stride=64)
3-seed mean: val_bpb=1.12327 ± 0.00082
Artifact: 15,944,685 bytes (under 16,000,000 cap)
Training: 600s on 8×H100 SXM (~90.8 ms/step, 6,487 steps)
Evaluation: <600s (quant roundtrip ~90s + sliding window ~300s + TTT ~475s)

3-Seed Evidence

Seed	Steps	legal_ttt_val_bpb	final_val_bpb (sliding window)
1337	6,487	1.12265	1.12468
2025	6,547	1.12295	1.12514
27182	6,281	1.12421	1.12616
Mean		1.12327	1.12533
Std		0.00082	0.00075

Submission Checklist

Key Techniques

Flash Attention 3 (Hopper kernel) for ~90ms/step
Parallel Muon optimizer with parameter banking and batched Newton-Schulz
Cross-Sequence Attention (XSA) on last 7 layers
BigramHash + TrigramHash n-gram hash embeddings
Value Residual (ResFormer-style) connections
Value Embedding token identity reinjection
SWA + EMA + Late QAT for quantization-friendly convergence
Legal score-first TTT with SGD (lr=0.002, 4 epochs, all blocks unfrozen)

11-layer parameter-banking GPT with XSA on 7 layers, BigramHash(2048), TrigramHash(1024), ValueResidual, ValueEmbedding, int6+lzma compression, and legal score-first TTT. 3-seed mean val_bpb=1.12327 on 8xH100 under 600s training + 600s eval budget. Artifact size 15,944,685 bytes. Made-with: Cursor

adityakm24 changed the title ~~[track_10min_16mb] XSA7 + BigramHash + ValueResidual + Legal TTT — val_bpb=1.1227~~ RECORD [track_10min_16mb] XSA7 + BigramHash + ValueResidual + Legal TTT — val_bpb=1.1227 Mar 31, 2026

adityakm24 changed the title ~~RECORD [track_10min_16mb] XSA7 + BigramHash + ValueResidual + Legal TTT — val_bpb=1.1227~~ Record: [track_10min_16mb] XSA7 + BigramHash + ValueResidual + Legal TTT — val_bpb=1.1227 Mar 31, 2026

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Record: [track_10min_16mb] XSA7 + BigramHash + ValueResidual + Legal TTT — val_bpb=1.1227#1182

Record: [track_10min_16mb] XSA7 + BigramHash + ValueResidual + Legal TTT — val_bpb=1.1227#1182
adityakm24 wants to merge 1 commit intoopenai:mainfrom
adityakm24:submission/run36-1.1227

adityakm24 commented Mar 31, 2026 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

adityakm24 commented Mar 31, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Summary

3-Seed Evidence

Submission Checklist

Key Techniques

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

adityakm24 commented Mar 31, 2026 •

edited

Loading