Upstream: TurboQuant discussion + contribution requirements for llama.cpp

## Upstream llama.cpp Activity

### Active discussions
- [Discussion #20969](https://github.com/ggml-org/llama.cpp/discussions/20969): TurboQuant early discussion
- [Issue #20977](https://github.com/ggml-org/llama.cpp/issues/20977): Feature request (Mar 25). mudler has experimental fork.

### Contribution requirements (PR #19762, merged Mar 13)
To upstream a new quant type, must provide:
- GGUF conversion support
- Perplexity vs FP16 comparison
- KL divergence data
- CPU performance baselines

### Relevant optimizations to rebase on
- [PR #20962](https://github.com/ggml-org/llama.cpp/pull/20962): Metal Tensor API — 26% mul_mat improvement
- [PR #20609](https://github.com/ggml-org/llama.cpp/pull/20609): MXFP flash attention SoA layout pattern

### Key lesson from upstream
Custom quant types that aren't in Metal SET_ROWS whitelist silently fall back to CPU.
We hit this bug. Pattern confirmed by MXFP4 experience (PR #20609).

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Upstream: TurboQuant discussion + contribution requirements for llama.cpp #27

Upstream llama.cpp Activity

Active discussions

Contribution requirements (PR #19762, merged Mar 13)

Relevant optimizations to rebase on

Key lesson from upstream

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Upstream: TurboQuant discussion + contribution requirements for llama.cpp #27

Description

Upstream llama.cpp Activity

Active discussions

Contribution requirements (PR #19762, merged Mar 13)

Relevant optimizations to rebase on

Key lesson from upstream

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions