🦥Unsloth-Dokumentation

Trainiere dein eigenes Modell mit Unsloth, einem Open-Source-Framework für LLM-Feinabstimmung und Reinforcement Learning.

Bei Unsloth ist es unsere Mission, KI so genau und zugänglich wie möglich zu machen. Trainieren und setzen Sie DeepSeek, gpt-oss, Llama, TTS, Qwen, Gemma-LLMs 2x schneller mit 70 % weniger VRAM ein.

Unsere Dokumentation führt Sie durch das Ausführen und Trainieren Ihres eigenen Modells lokal.

Loslegen Unser GitHub

🦥 Warum Unsloth?

⭐ Hauptfunktionen

  • Unterstützt vollständiges Finetuning, Pretraining, 4-Bit-, 16-Bit- und 8-Bit-Training.

  • Unterstützt alle Modellsorten: TTS,arrow-up-right Embedding, multimodal, und mehr.

  • Effizienteste Reinforcement-Learning Bibliothek, die 80 % weniger VRAM verwendet. Unterstützt GRPO, GSPO usw.

  • 0 % Genauigkeitsverlust - keine Quantisierungs- oder Approximationsmethoden - alles exakt.

  • MultiGPU funktioniert bereits, aber eine deutlich bessere Version kommt!

Quickstart

Unsloth unterstützt Linux, Windows, NVIDIA, AMD & Intel. Siehe: Unsloth-Anforderungen

Lokal mit pip installieren (empfohlen) für Linux- oder WSL-Geräte:

Verwenden Sie unser offizielles Docker-Image: unsloth/unsloth. Lesen Sie unseren Docker-Leitfaden.

Anleitungen zur Installation unter Windows finden Sie hier.

Neue Modelle

Was sind Fine-Tuning und RL? Warum?

Fine-Tuning eines LLM passt dessen Verhalten an, erweitert Domain-Wissen und optimiert die Leistung für spezifische Aufgaben. Durch das Feinabstimmen eines vortrainierten Modells (z. B. Llama-3.1-8B) auf einem Datensatz können Sie:

  • Wissen aktualisieren: Neues domänenspezifisches Wissen einführen.

  • Verhalten anpassen: Den Ton, die Persönlichkeit oder den Antwortstil des Modells anpassen.

  • Für Aufgaben optimieren: Genauigkeit und Relevanz für spezifische Anwendungsfälle verbessern.

Reinforcement Learning (RL) ist, wenn ein „Agent“ durch Interaktion mit einer Umgebung entscheidet und Feedback in Form von Belohnungen oder Strafen.

  • Aktion: Was das Modell erzeugt (z. B. ein Satz).

  • Belohnung: Ein Signal, das anzeigt, wie gut oder schlecht die Aktion des Modells war (z. B. hat die Antwort die Anweisungen befolgt? War sie hilfreich?).

  • Umgebung: Das Szenario oder die Aufgabe, an der das Modell arbeitet (z. B. das Beantworten einer Benutzerfrage).

Beispiele für Fine-Tuning- oder RL-Anwendungsfälle:

  • Ermöglicht es LLMs vorherzusagen, ob eine Überschrift einen Einfluss auf ein Unternehmen positiv oder negativ hat.

  • Kann historische Kundeninteraktionen nutzen, um genauere und individuellere Antworten zu geben.

  • Finetunen Sie LLMs auf juristischen Texten für Vertragsanalysen, Fallrechtsforschung und Compliance.

Sie können ein feinabgestimmtes Modell als einen spezialisierten Agenten betrachten, der bestimmte Aufgaben effektiver und effizienter ausführt. Fine-Tuning kann alle Fähigkeiten von RAG replizieren, jedoch nicht umgekehrt.

Zuletzt aktualisiert

War das hilfreich?