Was ist Tokenisierung?

Tokenisierung ist der Prozess, bei dem Text in kleinste Verarbeitungseinheiten (Tokens) zerlegt wird. Sprachmodelle denken nicht in Wörtern, sondern in Tokens, die grob 3. 4 Zeichen entsprechen.

Künstliche Intelligenz Fortgeschritten
Fynn fragen
Online

DEFINITION

Sprachmodelle lesen keine Wörter wie Menschen. Sie zerlegen Text zunächst in Tokens: kleine Einheiten aus Buchstaben, Silben oder häufigen Wortteilen. „Führungskraft” wird z.B. in mehrere Tokens aufgeteilt, während „the” ein einzelner Token ist. Ein Token entspricht grob 0,75 englischen Wörtern oder 3. 4 Zeichen.

Warum ist das relevant? Weil jedes Sprachmodell ein Kontextfenster hat: eine Maximalgröße an Tokens, die es gleichzeitig verarbeiten kann. Zu lange Texte werden abgeschnitten oder verursachen Fehler. Kosten bei API-Nutzung werden nach Tokens berechnet. Und die Effizienz der Prompts hängt davon ab, wie viel „Nutzinformation” pro Token steckt.

Für Anwender gilt: Lange, redundante Prompts kosten mehr und bringen oft weniger als präzise, dichte Formulierungen.

VERBINDUNGEN ZU ANDEREN THEMEN

Führung

Wer KI-gestützte Kommunikation einführt, sollte verstehen, warum sehr lange Eingaben zu schlechteren Ergebnissen führen können. Tokenisierung erklärt, warum Präzision in der Formulierung entscheidender ist als Ausführlichkeit.

Agilität

Beim Einsatz von KI für User Stories und Backlog-Arbeit beeinflusst das Kontextfenster, wie viele Einträge gleichzeitig analysiert werden können. Zu große Backlog-Blöcke müssen in Teilen verarbeitet werden.

Projektmanagement

In Projekten mit langer Dokumentation (Chartas, Verträge, Berichte) bestimmt das Kontextfenster, wie viel ein KI-Assistent gleichzeitig im Blick haben kann. Für große Dokumente braucht es RAG-Systeme statt einfacher Prompts.

DAS WICHTIGSTE AUF EINEN BLICK

  • Sprachmodelle verarbeiten Tokens, nicht Wörter oder Sätze.
  • Ein Token ≈ 0,75 englische Wörter ≈ 3. 4 Zeichen.
  • Das Kontextfenster begrenzt, wie viel Text ein Modell gleichzeitig verarbeiten kann.
  • API-Kosten werden nach der Anzahl verarbeiteter Tokens berechnet.
  • Präzise Prompts sind effizienter als lange, redundante Texte.

PRAXISBEISPIEL

Ein Projektmanager möchte einen 50-seitigen Projektbericht von einer KI zusammenfassen lassen. Er fügt den Bericht direkt in den Chat. Das System gibt eine Fehlermeldung: „Context length exceeded”. Er hat das Kontextfenster überschritten. Lösung: Den Bericht in Kapitel aufteilen, einzeln zusammenfassen und dann die Zusammenfassungen konsolidieren. Oder: Ein RAG-System einsetzen, das gezielt relevante Abschnitte adressiert.

HÄUFIGE MISSVERSTÄNDNISSE

Ist ein längeres Kontextfenster immer besser?

Nicht zwingend. Sehr lange Kontexte können zu „Lost in the Middle” führen: Das Modell verliert relevante Informationen aus der Mitte langer Eingaben. Selektiv relevante Abschnitte einzufügen ist oft besser als komplette Dokumente zu übergeben.

Sind Tokens in allen Modellen gleich?

Nein. Verschiedene Modelle unterscheiden sich in Tokenizer-Design und Kontextfenstergröße erheblich. GPT-4 und Claude tokenisieren denselben Text unterschiedlich.

Artificial Intelligence

Arbeiten mit KI Seminar

Entscheidungen treffen, die künstliche Intelligenz verändert hat.

1 Tag Seminar
Artificial Intelligence

KI Coach Ausbildung

Wie Coaches ihre Organisationen durch KI-Transformation führen.

10 Tage Seminar
Artificial Intelligence

Innovation mit KI Seminar

Wie Innovation funktioniert, wenn KI dabei ist.

2 Tage Seminar

Kontakt

KI lieben wir. Für Kunden da sein noch mehr.

Für Inhouse-Programme, offene Seminare oder persönliche Beratung. Das Team antwortet innerhalb eines Werktages.

Pflichtfeld
Pflichtfeld
Pflichtfeld