🦥Unsloth-Dokumentation

Trainiere dein eigenes Modell mit Unsloth, einem Open-Source-Framework für LLM-Feinabstimmung und Reinforcement Learning.

Bei Unsloth ist es unsere Mission, KI so genau und zugänglich wie möglich zu machen. Trainieren und setzen Sie DeepSeek, gpt-oss, Llama, TTS, Qwen, Gemma-LLMs 2x schneller mit 70 % weniger VRAM ein.

Unsere Dokumentation führt Sie durch das Ausführen und Trainieren Ihres eigenen Modells lokal.

Loslegen Unser GitHub

Qwen3.5

Neue Qwen3.5 Small & Medium LLMs sind da!

Schnelleres MoE ist da!

Trainieren Sie MoE-LLMs 12x schneller mit weniger VRAM.

Claude Code & Codex

Lernen Sie, lokale LLMs über Claude & OpenAI auszuführen.

Qwen3-Coder-Next

Führen Sie das neue 80B-Coding-Modell aus und feinabstimmen Sie es.

GLM-5

Führen Sie das neue SOTA Open-Modell aus.

MiniMax-2.5

Führen Sie das leistungsstarke 230B-Modell aus.

🧬Fine-tuning Guide 📒Du kannst Unsloth auf zwei Hauptwegen nutzen: unsere kostenlosen Notebooks oder lokal.

🔮All Our Models 🚀Complete LLM Directory

🦥 Warum Unsloth?

Wir arbeiten direkt mit den Teams hinter gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1–3 und Phi-4, wo wir kritische Fehler behoben haben, die die Modellgenauigkeit erheblich verbessert haben.
Unsloth rationalisiert lokales Training, Evaluation und Bereitstellung mit Ollama, llama.cpp und vLLM.
Unsloth unterstützt das Training von über 500 Modellen: Vision, TTS, Embedding, RL und bleibt dabei anpassbar mit flexiblen Chat-Vorlagen, Datensatzformatierung und sofort einsatzbereiten Notebooks.

⭐ Hauptfunktionen

Unterstützt vollständiges Finetuning, Pretraining, 4-Bit-, 16-Bit- und 8-Bit-Training.
Unterstützt alle Modellsorten: TTS, Embedding, multimodal, und mehr.
Effizienteste Reinforcement-Learning Bibliothek, die 80 % weniger VRAM verwendet. Unterstützt GRPO, GSPO usw.
0 % Genauigkeitsverlust - keine Quantisierungs- oder Approximationsmethoden - alles exakt.
MultiGPU funktioniert bereits, aber eine deutlich bessere Version kommt!

Quickstart

Unsloth unterstützt Linux, Windows, NVIDIA, AMD & Intel. Siehe: Unsloth-Anforderungen

Lokal mit pip installieren (empfohlen) für Linux- oder WSL-Geräte:

pip install unsloth

Verwenden Sie unser offizielles Docker-Image: unsloth/unsloth. Lesen Sie unseren Docker-Leitfaden.

Anleitungen zur Installation unter Windows finden Sie hier.

📥Installation

Neue Modelle

Kimi K2.5

GLM-4.7-Flash

DeepSeek OCR 2

Was sind Fine-Tuning und RL? Warum?

Fine-Tuning eines LLM passt dessen Verhalten an, erweitert Domain-Wissen und optimiert die Leistung für spezifische Aufgaben. Durch das Feinabstimmen eines vortrainierten Modells (z. B. Llama-3.1-8B) auf einem Datensatz können Sie:

Wissen aktualisieren: Neues domänenspezifisches Wissen einführen.
Verhalten anpassen: Den Ton, die Persönlichkeit oder den Antwortstil des Modells anpassen.
Für Aufgaben optimieren: Genauigkeit und Relevanz für spezifische Anwendungsfälle verbessern.

Reinforcement Learning (RL) ist, wenn ein „Agent“ durch Interaktion mit einer Umgebung entscheidet und Feedback in Form von Belohnungen oder Strafen.

Aktion: Was das Modell erzeugt (z. B. ein Satz).
Belohnung: Ein Signal, das anzeigt, wie gut oder schlecht die Aktion des Modells war (z. B. hat die Antwort die Anweisungen befolgt? War sie hilfreich?).
Umgebung: Das Szenario oder die Aufgabe, an der das Modell arbeitet (z. B. das Beantworten einer Benutzerfrage).

Beispiele für Fine-Tuning- oder RL-Anwendungsfälle:

Ermöglicht es LLMs vorherzusagen, ob eine Überschrift einen Einfluss auf ein Unternehmen positiv oder negativ hat.
Kann historische Kundeninteraktionen nutzen, um genauere und individuellere Antworten zu geben.
Finetunen Sie LLMs auf juristischen Texten für Vertragsanalysen, Fallrechtsforschung und Compliance.

Sie können ein feinabgestimmtes Modell als einen spezialisierten Agenten betrachten, der bestimmte Aufgaben effektiver und effizienter ausführt. Fine-Tuning kann alle Fähigkeiten von RAG replizieren, jedoch nicht umgekehrt.

🤔FAQ + Ist Feinabstimmung für mich geeignet?🖥️Inference & Bereitstellung

💡Reinforcement Learning Guide 🦥Dynamic 2.0 GGUFs