research: LMEB-guided embedding model selection + domain fine-tuning for org memory

## Context

Two findings on embedding quality for agent memory:

1. **[LMEB Benchmark](https://huggingface.co/papers/2603.12572)** -- 22 datasets, 193 tasks. MTEB performance does NOT generalize to memory retrieval (correlation ~-0.13). Episodic/dialogue/procedural taxonomy maps directly to SynthOrg's memory use cases.
2. **[NVIDIA Domain-Specific Embedding Fine-Tune](https://huggingface.co/blog/nvidia/domain-specific-embedding-finetune)** -- Automated pipeline (synthetic data gen, hard negative mining, contrastive fine-tuning). No manual annotation. Single GPU. +10-27% retrieval improvement.

## Action Items

- [ ] Evaluate current embedding model against LMEB leaderboard (not MTEB)
- [ ] Select embedding model optimized for episodic + procedural memory retrieval patterns
- [ ] Design optional embedding fine-tuning as `OrgMemoryBackend` initialization hook
- [ ] Pipeline: synthetic data from org documents -> hard negative mining -> fine-tune -> deploy

## References

- [LMEB paper](https://huggingface.co/papers/2603.12572)
- [NVIDIA embedding fine-tuning blog](https://huggingface.co/blog/nvidia/domain-specific-embedding-finetune)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

research: LMEB-guided embedding model selection + domain fine-tuning for org memory #695

Context

Action Items

References

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

research: LMEB-guided embedding model selection + domain fine-tuning for org memory #695

Description

Context

Action Items

References

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions