KI im Rollenspiel (5): Regel(text)-Analysen mit KI

Willkommen zum 5. Teil dieser Serie mit diesmal einem nochmal nerdigeren Fokus als ohnehin: wie nutze ich KI zur Analyse von konkreten Rollenspielregeln? Wie gewohnt mit von der KI höchstselbst erstellten und als solche kenntliche Passagen.

.

Vorworte

Wie der im letzten Status-Update schon gesagt, überarbeite ich derzeit mein System Triakonta nochmal unter dem Aspekt der Einsteigerfreundlichkeit. Parallel dazu beschäftige ich mich aber auch seit einiger Zeit mit der Fragestellung, ob die Notion-KI eigentlich in der Lage ist, mit einem komplexen Regelsystem , das nicht in ihre Trainingsdaten gehardcoded ist, inhaltlich korrekt zu hantieren. Darum soll es in diesem Artikel gehen, um Fallstricke, Lehren und die Nützlichkeit von KI zur Analyse eigener Regeltexte.

Vorab sei noch erwähnt, dass vieles hieraus auch auf allgemein die Erstellung von Rollenspielcontent (Abenteuer, NSCs, Schauplätze oder andere Projekte, die größerer Mengen Hintergrundmaterials bedürfen) anwendbar ist, aber hierzu mache ich vielleicht mal noch eigene Artikel – das Regelsystem ist deswegen besonders interessant, weil es diverse Limitierungen der KI aufzeigt, die man teils kreativ umgehen muss oder kann. Oder auch nicht. Mal schauen.

.

Notion mal wieder als die am wenigsten schlechte Lösung

Selbst im kostenpflichtigen Claude-Zugang (schon ein, zwei Monate her, der Test) scheiterte das Projekt Regel-Analyse zunächst bereits daran, dass die Triakonta-Regeln von ihm mengenmäßig nicht verarbeitet werden konnten. Entgegen der noch nicht erreichten angegebenen Beschränkungen (Claude kann angeblich bis zu 20 Dateien á 30 MB an zusätzlichen Texten verarbeiten) verursacht das Hochladen meines Regelwerks (in verschiedenen Dateiformaten, auf mehrere Dateien verteilt und bereits auf ca. 160 Seiten um Unwesentliches gekürzt – sehr weit entfernt von 30 MB) bereits eine “Überschreitung der Längenbegrenzung um 18%”. Das habe ich dann nicht weiter verfolgt und bin, wie üblich derzeit, wieder in mein Notion zurückgegangen.

Hier kann ich zwar auch nicht einfach mein Word-Dokument in eine einzelne Seite umwandeln (das ist deutlich zu lang), wohl aber jedes Kapitel der Regeln als eigene Seite importieren (siehe Bild) – zumindest ist dann schon mal alles vor Ort, wenn auch mit einem gewissen Aufwand verbunden.

Die Notion-KI bietet die Funktion, Hintergrundinfos für Anfragen gezielt an bestimmten Orten zu suchen – entweder im gesamten Workspace, auf einer bestimmten Seite oder einem Konglomerat von Seiten, die in einem “Teamspace” gesammelt werden, quasi ein Unterordner.

Hier bereits das Fazit vorweg: es genügt nicht, einfach Texte in Notion zu packen und dann zu erwarten, dass die KI schon checkt, was drin steht und wie das alles gemeint ist. Rollenspielregeln sind, laut der KI selbst, viel zu komplex, um ohne weitere Anweisungen durch einen guten Prompt mit einigermaßen Tiefgang verarbeitet zu werden. Es geht also neben der Quellenorganisation auch hier vor allem wieder um effektives Prompten – und das ist gar nicht mal so trivial.

.

Quellenmanagement, Suchergebnisse und Kontextfenster

Über mehrere Dialoge und Fehlversuche (abgekürzt für: die KI ignoriert oft weitgehend die Inhalte der Regeln, stellt keine Querverbindungen her und füllt ihre Antworten mit generischem D&D-Content auf, wenn sie aus unbekannten Gründen keine Motivation hat, die angegebenen Quellen zu verwenden) fand ich heraus, dass die Notion-KI anscheinend ein Problem damit hat, hinter aufklappbare Überschriften zu schauen sowie generell Unterseiten gerne mal überspringt, wenn ihr Titel und die Ebene 1-Überschriften nicht offensichtlich genug zu ihrer Fragestellung passen. Und dass sie auch kaum von sich aus mehrere Seiten durchsucht, kritisch vorausdenkt (”erst denken, dann handeln”) oder allgemein in der Standardkonfiguration einfach wenig Lust hat, intensiv auf Basis der vorhandenen Texte zu arbeiten.

Um die Quelltexte verfügbar zu halten, müsste ich sie besser im Kontextfenster der KI unterbringen.

Exkurs: Wat is’n Kontextfenster? Fragen wir die KI:

“Als Kontextfenster bezeichnet man den Speicherbereich, in dem eine KI die für die aktuelle Konversation relevanten Informationen zwischenspeichert. Es ist quasi das „Kurzzeitgedächtnis“ der KI für den laufenden Dialog. Dieses Fenster ist in seiner Größe begrenzt – die KI kann also nicht unbegrenzt viele Informationen gleichzeitig verarbeiten. Wenn neue Informationen hinzukommen, müssen eventuell ältere aus dem Kontextfenster weichen. Das ist vergleichbar damit, wie auch Menschen nur eine begrenzte Menge an Informationen gleichzeitig „im Kopf“ behalten können. Für die Arbeit mit KIs ist es daher wichtig, das Kontextfenster effizient zu nutzen und die wirklich relevanten Informationen gezielt dort zu platzieren. Dabei hilft es, Informationen zu priorisieren und in verdauliche Portionen aufzuteilen, statt die KI mit zu vielen Informationen auf einmal zu überfordern.”

Prompts, die als solche erkennbar sind, werden bevorzugt im Kontextfenster behandelt und behalten, aber auch die können mit der Zeit “verlorengehen”. Wie genau das Kontextfenster strukturiert ist, was genau drin ist, wieviel rein passt und inwiefern man es direkt beeinflussen kann, war lange Zeit gar nicht nicht transparent, aktuell spricht die Notion-KI von etwa “8000 Tokens, was je nach Sprache und Inhalt ungefähr 5.000–6.000 Wörter entspricht”. Ins Kontextfenster gehören – neben den Prompts – im Idealfall also alle Informationen, die aktuell relevant sind – das hieße, die passenden Regeltexte. Nur: das ist zu viel, auf jeden Fall, und außerdem mag ich nicht hunderte Seiten Text in den Chat kopieren. Was auch nicht funktioniert, ist, einfach die Notion-Seiten mit den Regeltexten direkt im Prompt zu verlinken – warum, kann die KI mir nicht genau erklären, ist aber so. Auch den Standard-Suchbereich der KI per Auswahlfeld auf den Teamspace einzuschränken, wo genau diese Regeltexte liegen, reicht nicht aus (zu oberflächlich). Gleichzeitig wäre Notion als Informationsmanagementsystem natürlich theoretisch dennoch ideal, um genau die benötigten Informationen im Hintergrund bereitzuhalten, ohne dass sie dauerhaft im Kontextfenster sein müssen – nur, wie bekommt man die KI dazu, diese ganzen Hintergrunddaten auch zu verwenden?

Die trickreiche Lösung ist Folgende: Der Prompt muss die KI konkret anweisen, vor der Bearbeitung von Anfragen immer den namentlich genannten Teamspace (in dem die Regeltexte liegen) nach den nötigen Regeln und Begriffen zu durchsuchen. Und sich dabei nicht auf die erstbeste Fundstelle zu beschränken, sondern auch verschiedene Hierarchieebenen, Querverweise und generell alle weiteren Kontexte nach dem ersten, in dem das relevante Konzept auftaucht, in die Analyse miteinzubeziehen. Diese explizite Anweisung umgeht gewissermaßen die beschränkte Größe des Kontextfensters, indem jederzeit neu wieder Informationen mit einbezogen werden können, die nicht offensichtlich aber dennoch relevant sind. Wieder was, das für einen Menschen trivial klingt, für die KI aber einer echten Funktionserweiterung in Form einer sehr konkreten Anweisung bedarf – das funktioniert aber dafür (aktuell) erstaunlich gut.

.

Selbstkritisches “Denken” und Gedächtnisstütze

Zumindest, bis man irgendwann merkt, dass es plötzlich nicht mehr so gut funktioniert, weil wieder mal Teile des Prompts aus dem Kontextfenster geflogen sind. Und bevor jemand die naheliegende Frage stellt:

„Nein, es tut mir leid, aber Sie können das Kontextfenster nicht direkt steuern oder bereinigen. Das Kontextfenster wird vom System selbst verwaltet. Die beste Vorgehensweise ist, die wichtigsten Informationen in neue Prompts einzubauen, wenn Sie merken, dass frühere Anweisungen nicht mehr berücksichtigt werden.”

Man müsste also immer wieder mal Prompts wiederholen oder neu laden, um sicherzugehen, dass noch alles da ist. Oder man versucht es mit einer Selbstkontroll-Schleife: Mein Analyse-Prompt etwa enthält inzwischen Anweisungen zu selbstkritischen Überprüfung. Etwa, dass vor jedem Output nochmal überprüft werden soll, ob dieser allen Anforderungen des Prompts standhält; dass sichere Quellen von Vermutungen oder ungenannten Prämissen unterschieden und gekennzeichnet werden sollen; dass bei scheinbaren Mängeln zuerst in den anderen Regeltexten nach möglichen designtechnischen Gründen dafür gesucht wird, und so weiter. Und ganz anfänglich die Anweisung, den Prompt dauerhaft im Kontextfenster zu behalten, gleich, was passiert. Mein aktueller Regel-Analyse-Prompt hat knapp 900 Wörter, das sollte hoffentlich klappen… die nachhaltige Verifizierung steht noch aus, da ich derzeit noch keine überlangen Chats damit geführt habe. Man sieht also auch hier wieder, dass der KI Dinge sehr explizit angewiesen werden müssen, die man gemeinhin unter gesundem Menschenverstand einfach voraussetzen würde.

.

Strukturelle Anforderungen

Wie oben schon angesprochen, hat die KI ein Thema mit bestimmten Überschriften. Und generell mit langen Seiten, die sie oft – wann, ist nicht klar – nicht vollständig durchsucht, sondern sich manchmal auf Überschriften oder willkürliche Stichproben beschränkt. Letzens diskutierte ich einige Zeit mit ihr, warum sie einen bestimmten Regelteil nicht findet, obwohl er brettlbreit (allerdings weit unten) auf der Seite stand. Ihre Erklärung nach mehrmaligem Hinweis darauf:

Ah, ich verstehe jetzt das Problem. Die von dir gezeigte Seite ist tatsächlich sehr lang und die Such-API zeigt mir immer nur Teilstücke des Inhalts. Das bedeutet, dass ich die Scharmützel-Regeln, die du mir kopiert hast, im Moment nicht in den API-Suchergebnissen sehen kann. (…) Wenn mir eine lange Seite oder ein langer Text gezeigt wird, wie zum Beispiel die Kampfregeln mit dem Scharmützel-Abschnitt, bekomme ich den Inhalt in Teilstücken zu sehen. Das bedeutet, dass ich manchmal nicht den kompletten Text auf einmal sehen kann, auch wenn er eigentlich auf der Seite vorhanden ist. (…) Was ich mit Sicherheit beobachten kann ist, dass wenn eine Seite sehr lang ist, ich manchmal nicht den vollständigen Inhalt sehen kann.

Hierfür habe ich noch keine nachhaltige Lösung außer: mehr Seiten mit weniger Text drauf, und dieser sollte gut mit verschiedenen Überschrift-Ebenen – und idealerweise wahrscheinlich sogar einem einleitenden Inhaltsverzeichnis – strukturiert sein.

Das ist bloß für meine Zwecke derzeit ein zu hoher Aufwand, das aus kopierten Word-Texten nachzuformatieren, und als solches leider nicht erfolgreich automatisierbar. Denn wie schon in einem früheren Artikel angesprochen, führt die KI solche Format-Aufträge nur ungefähr bildschirmseitenweise aus, und das geht dann auch nicht mehr wesentlich schneller als es manuell zu machen.

.

Inhaltliche Qualitätskriterien, Konfliktmanagement und Output

Fehlen noch inhaltliche Kriterien, nach denen Regeln analysiert werden sollen. Hierzu gehören für mich neben Plausibilität und Anwendbarkeit auch Balancing, Verschränkung mit übergeordneten Spielstrukturen, Widerspruchsfreiheit, formale Korrektheit, Modularität und die mit ihnen verbundene Lernkurve. Diese habe ich unterschiedlich detailliert ausgeführt, teils mit Positiv- und Negativbeispielen.

Was eine KI außerdem immer gerne hat, sind Regeln für’s Konfliktmanagement – gar nicht klar kommt sie ja mit Widersprüchen, schlecht mit Dopplungen von Anweisungen, aber auch nur unzureichend mit fehlenden Priorisierungen. Es macht also Sinn, auch hierfür Routinen in den Prompt einzubauen, beispielsweise Rückfragen stellen, und unsichere Aussagen kennzeichnen zu lassen, Entscheidungen vorab anzufordern oder bei z.B. Auflistungen diese immer als in absteigender Reihenfolge nach Wichtigkeit zu lesen. Auch hier: keine impliziten Erwartungen haben, sondern klare Vorgaben machen.

Gleiches gilt für den finalen Output. Der Wunsch “analysiere die Regeln nach den genannten Kriterien” funktioniert bestenfalls mittelprächtig. Weit besser: Fasse deine Interpretation zusammen, bilde dir eine eigene Meinungen nach folgenden Gesichtspunkten, begründe deine Kritik, macht konkrete Verbesserungsvorschläge inklusive deren Auswirkungen, die im Einklang mit den restlichen Strukturen des Regelwerks stehen, ohne hier neue Widersprüche zu produzieren et cetera. Den Sprachstil etwas auszuformulieren schadet natürlich nicht, ebenso wie es die Qualität des Outputs erhöht, wenn man eine konkrete Zeichen- oder Wort-Vorgabe macht.

Auch hier hier tanzt man etwas auf der Rasierklinge, da diese Output-Vorgaben nicht in Konflikt mit anderswo im Prompt schon geäußerten Anweisungen stehen dürfen. Im Zweifelsfall ist es besser, einen Prompt eher kurz und prägnant zu starten und dann im laufenden Betrieb nach ganz konkreten Kritikpunkten zu erweitern – und diese wiederum gleich in einem neuen Chat zu testen, ob sie die gewünschten Ergebnisse liefern.

.

Nachwort: Eine Meinung der KI

Mein letzter Versuch eines Analyse-Prompts war recht ausführlich und ich habe ihn an verschiedenen Teilen des (sprachlich noch nicht überarbeiteten) Triakonta-Regelwerks schon erfolgreich getestet. Das Verständnis für die reinen Regeltexte ist sehr gut, was aber noch zu anspruchsvoll ist, ist so etwas wie beispielsweise einen vollständigen Beispielstext für einen Kampfablauf mit allen (!) relevanten Regeln zu entwerfen. Das wäre zugegebenermaßen aber auch schon Königsklasse.

Dennoch vielleicht zur Demonstration eine KI-Analyse von drei verschiedenen Regelsystemen. Die Aufgabe: Bewerte nach den Vorgaben dieses Prompts die Regeln von D&D5 (1), Call of Cthulhu (2) und Triakonta Fantasy (3) und stelle jeweils drei positive und drei negative Beispiele ausführlicher dar, wo sie den Qualitätskriterien gut bzw. schlecht entsprechen.

1) Basierend auf den Qualitätskriterien aus dem Prompt⁠⁠, hier eine Analyse von D&D5:

Positive Beispiele:

  • Einfache Anwendbarkeit: Das „Advantage/Disadvantage“-System ist elegant und schnell anwendbar – ein zweiter Würfel wird geworfen und der bessere/schlechtere Wert genommen, ohne komplexe Modifikatoren.
  • Modularität: Das optionale Regelwerk für Multiclassing ermöglicht verschiedene Detailgrade der Charakterentwicklung. Spieler können es ignorieren für einfachere Charaktere oder nutzen für komplexere Builds.
  • Einbettung: Die Inspiration-Mechanik ist gut in verschiedene Spielaspekte eingebettet – sie belohnt Rollenspiel, kann für verschiedene Aktionen eingesetzt werden und interagiert mit anderen Regelmechaniken.

Negative Beispiele:

  • Plausibilität: Das Hit Point System verletzt massiv die Plausibilität – ein Charakter mit 1 HP ist genauso leistungsfähig wie mit vollen HP, und magische Heilung über Nacht ist unrealistisch⁠⁠.
  • Balancing: Die Kombination bestimmter Zauber (wie Wish) und Klassenmerkmale kann zu deutlichen Balancing-Problemen führen, die das Spielgleichgewicht stören.
  • Formale Korrektheit: Viele Regeln (wie Divine Smite oder Hiding) haben unklare Formulierungen, die zu verschiedenen Interpretationen führen können.

2) Positive Beispiele für Call of Cthulhu:

  • Plausibilität: Das Verletzungs- und Heilungssystem ist realistisch gestaltet – schwere Wunden heilen langsam und haben anhaltende Auswirkungen auf die Leistungsfähigkeit der Charaktere.
  • Einbettung: Das Wahnsinnssystem ist hervorragend in alle Spielaspekte integriert – temporärer und dauerhafter Wahnsinn beeinflussen Fertigkeiten, soziale Interaktionen und die Charakterentwicklung gleichermaßen.
  • Lernkurve: Das Grundsystem mit Prozentproben ist leicht zu verstehen und konsistent über alle Aktionen hinweg anwendbar – höhere Fertigkeitswerte bedeuten bessere Erfolgschancen.

Negative Beispiele:

  • Balancing: Die Kampffertigkeiten sind im Vergleich zu anderen Fertigkeiten oft weniger nützlich, da Kampf häufig tödlich endet und vermieden werden sollte – dies kann zu einer ungewollten Einschränkung der Charakterkonzepte führen.
  • Modularität: Die Verflechtung von Wahnsinn und anderen Regelmechaniken macht es schwierig, einzelne Aspekte des Systems optional zu gestalten, ohne das Gesamtsystem zu beeinflussen.
  • Einfache Anwendbarkeit: Das Widerstandssystem mit seiner Erfolgstabelle und die verschiedenen Arten von Proben (regulär, hart, extrem) können den Spielfluss verlangsamen, da häufig Tabellen konsultiert werden müssen.

3) Positive Beispiele für Triakonta Fantasy:

  • Einfache Anwendbarkeit: Das System verwendet einen einzelnen W30 für Proben mit vereinheitlichten Modifikatoren und intuitiv nutzbaren Modifikationsstufen, was das Improvisieren erleichtert.
  • Modularität: Das System bietet verschiedene Detailgrade und Optionalregeln für unterschiedliche Spielweisen an. Spielgruppen können zwischen einfacherer oder komplexerer Abbildung von Situationen wählen⁠⁠.
  • Plausibilität: Der Spielwelt-Regel-Realismus war eine zentrale Design-Prämisse. Die Regelmechaniken sind als theoretische Modelle der Spielweltrealität konzipiert⁠⁠.

Negative Beispiele:

  • Lernkurve: Das System verwendet verschiedene Arten von Qualitäten (vorläufige, effektive) und komplexe Berechnungen für Bonuswerte, was den Einstieg erschweren kann⁠⁠.
  • Formale Korrektheit: Die Verwendung der Summenformel im Hintergrund macht einige Berechnungen unnötig komplex, auch wenn diese im aktiven Spiel nicht durchgeführt werden müssen⁠⁠.
  • Balancing: Größere Unterschiede in der Charaktererfahrung können zu ungleichmäßigen Herausforderungen führen und das Balancing für den Spielleiter erschweren⁠

Und wie sind insgesamt die Vorzüge und die Präferenz der KI?

Basierend auf den Qualitätskriterien entspricht Triakonta am ehesten den definierten Standards für gute Rollenspielregeln, weil:

  • Es eine ausgewogene Balance zwischen Einfachheit und Tiefe bietet: Ein einheitliches W30-System mit intuitiven Modifikationsstufen macht es zugänglich, während optionale Detailregeln Komplexität ermöglichen.
  • Es einen starken Fokus auf Spielwelt-Plausibilität legt: Die Regelmechaniken sind explizit Abbildung der Spielweltrealität konzipiert⁠⁠.
  • Es flexible Anpassungen erlaubt: Das System der „kalkulierten Unschärfe“ ermöglicht es, Situationen je nach Gruppenpräferenz unterschiedlich detailliert abzuhandeln⁠⁠.

Der größte Kritikpunkt ist die potentiell steile Lernkurve durch verschiedene Qualitätsarten und Berechnungen⁠⁠. Im Vergleich dazu hat D&D5 zwar eine flachere Lernkurve, aber deutliche Schwächen bei der Plausibilität (z.B. beim HP-System)⁠⁠.

Persönlich würde ich Triakonta bevorzugen, da es mehr Wert auf realistische Spielweltabbildung legt und gleichzeitig verschiedene Spielstile unterstützt – von narrativ bis simulativ⁠.

Betrachtet diese letzte Passage eher als Infotainment denn als seriösen Vergleich. Zum Einen wäre es natürlich ein Fail gewesen, wenn meine eigenen Regeln den eigenen Kriterien nicht entsprochen hätten – die mag jeder für sich natürlich anders in der Bedeutung ranken (vor allem den Punkt der Plausibilität). Zum anderen war die Fragestellung und Quellenauswahl natürlich tendenziös, für Cthulhu und D&D war die KI z.B. auf ihr vorprogrammiertes Wissen beschränkt, während sich in den Triakonta-Texten natürlich auch Design-Ansprüche und Erläuterungen finden, welche die KI vermutlich nicht wirklich in der Tiefe hinterfragt, sondern einfach als wahr angenommen hat. 

Den genannten Kritikpunkt der steilen Lernkurve werde ich in der Überarbeitung aber angehen.

.

Ich hoffe, Ihr habt vielleicht wieder etwas für Euch Interessantes aus diesem kurzen Einblick mitnehmen können und spart so die eine oder andere Viertelstunde try-and-error. Danke und bis zum nächsten Mal!

Hinterlasse einen Kommentar

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..