Konfusionsmatrix einfach erklärt

In der Welt der Datenanalyse und des maschinellen Lernens gibt es viele Begriffe, die kompliziert klingen. Einer davon ist die „Konfusionsmatrix“. Manchmal findet man dazu auch den Begriff Wahrheitsmatrix. Aber keine Sorge, der Begriff ist einfacher zu verstehen, als er klingt. In diesem Blogbeitrag erkläre ich dir, was eine Konfusionsmatrix ist, wofür sie verwendet wird und wie man sie interpretiert.

Inhaltsverzeichnis

Was ist eine Konfusionsmatrix?

Eine Konfusionsmatrix ist ein Werkzeug, das uns hilft, die Leistung eines Klassifikationsmodells zu bewerten. Klassifikationsmodelle sind Programme, die Daten in verschiedene Kategorien einordnen und sind ein Teilbereich der Künstlichen Intelligenz. Zum Beispiel könnte ein Modell E-Mails in „Spam“ und „Nicht-Spam“ sortieren.

Du bist auf der Suche nach einer Excel-Vorlage für eine Konfusionsmatrix, um schnell und einfach deine Kennzahlen zu berechnen? Wir haben eine kostenfreie Vorlage in Microsoft Excel erstellt. Wir stellen diese allen Leserinnen und Lesern zum Download zur Verfügung!

Vorlage von Management Methods – Konfusionsmatrix Vorlage herunterladen!

Im oben verlinkten Beitrag findest du eine Beschreibung zur Verwendung. Grundsätzlich: Solange du nur die gelb-hinterlegten Felder in der Vorlage befüllst, funktionieren die hinterlegten Formeln problemlos!

Aufbau der Konfusionsmatrix

Eine Konfusionsmatrix besteht aus vier Feldern, die in einer 2×2-Tabelle angeordnet sind. Diese Felder repräsentieren die Vorhersagen des Modells im Vergleich zu den tatsächlichen Ergebnissen. Diese Tabelle sieht wie folgt aus:

Die Felder der Matrix beinhalten in der Regel Fälle, die den jeweiligen Kategorien zugeordnet wurden, also ganze Zahlen. Als Alternative kann man auch Anteile darstellen, allerdings benötigt man für die Berechnung bestimmter Kennzahlen (dazu später mehr) die ganzen Zahlen statt der Anteile.

Die vier Felder der Konfusionsmatrix

True Positive (TP): Das Modell hat korrekt vorhergesagt, dass ein positives Ereignis eingetreten ist.
False Negative (FN): Das Modell hat fälschlicherweise ein positives Ereignis als negativ vorhergesagt.
False Positive (FP): Das Modell hat fälschlicherweise ein negatives Ereignis als positiv vorhergesagt.
True Negative (TN): Das Modell hat korrekt vorhergesagt, dass ein negatives Ereignis nicht eingetreten ist.

Das Ganze noch einmal etwas umgangssprachlicher:

True Positive (TP): Das positive Ereignis, welches getestet werden soll, wird korrekt vorhergesagt.
False Negative (FN): Ein positives Ereignis wird falsch vorhergesagt. Die Beobachtung war also positiv. Die Vorhersage hingegen negativ. Daher ist die Vorhersage negativ und falsch.
False Positive (FP): Ein negatives Ereignis wird falsch vorhergesagt. Die Beobachtung war negativ. Die Vorhersage hingegen positiv. Daher ist die Vorhersage positiv und falsch.
True Negative (TN): Es wird korrekt vorhergesagt, dass es sich um ein nicht-positives, also negatives Ereignis handelt.

In der Praxis möchte man natürlich den Anteil an True Positives und True Negatives maximieren. Natürlich möchte man im Umkehrschluss False Negatives und False Positives vermeiden. Schauen wir uns nun zum besseren Verständnis ein paar Anwendungsfälle an.

Anwendungsfälle der Konfusionsmatrix

Konfusionsmatrizen sind nützlich in vielen Bereichen, in denen Klassifikationsmodelle verwendet werden. Hier sind einige Beispiele:

Medizinische Diagnostik: Vorhersage, ob eine Person krank oder gesund ist.
Spam-Erkennung: Identifikation, ob eine E-Mail Spam oder nicht ist.
Betrugserkennung: Feststellung, ob eine Transaktion betrügerisch ist oder nicht.

Doch die Konfusionsmatrix wird nicht nur bei Klassifikationsmodellen eingesetzt. Ein weiterer wichtiger Anwendungsbereich ist die Intelligent Document Processing (IDP). IDP bezieht sich auf die automatische Extraktion von Informationen aus Dokumenten. Auch hier hilft die Konfusionsmatrix, die Genauigkeit und Zuverlässigkeit der Datenextraktion zu bewerten.

Gefahren, die nur schwer mit Kennzahlen zu messen sind: jetzt informieren über die Risiken beim Einsatz von KI!

Beispiele zur Veranschaulichung der Felder

Beispiel 1: Medizinische Diagnostik

Stell dir vor, wir haben ein Modell, das vorhersagt, ob jemand eine bestimmte Krankheit hat.

True Positive (TP): Das Modell sagt, die Person ist krank, und die Person ist tatsächlich krank.
False Negative (FN): Das Modell sagt, die Person ist gesund, aber die Person ist tatsächlich krank.
False Positive (FP): Das Modell sagt, die Person ist krank, aber die Person ist tatsächlich gesund.
True Negative (TN): Das Modell sagt, die Person ist gesund, und die Person ist tatsächlich gesund.

Beispiel 2: Spam-Erkennung

Angenommen, wir haben ein Modell zur Spam-Erkennung bei E-Mails.

True Positive (TP): Das Modell erkennt eine Spam-E-Mail korrekt als Spam.
False Negative (FN): Das Modell erkennt eine Spam-E-Mail fälschlicherweise als kein Spam.
False Positive (FP): Das Modell erkennt eine normale E-Mail fälschlicherweise als Spam.
True Negative (TN): Das Modell erkennt eine normale E-Mail korrekt als kein Spam.

Beispiel 3: Betrugserkennung

Ein Modell zur Erkennung von betrügerischen Kreditkartentransaktionen.

True Positive (TP): Das Modell erkennt eine betrügerische Transaktion korrekt.
False Negative (FN): Das Modell erkennt eine betrügerische Transaktion fälschlicherweise als legitim.
False Positive (FP): Das Modell erkennt eine legitime Transaktion fälschlicherweise als betrügerisch.
True Negative (TN): Das Modell erkennt eine legitime Transaktion korrekt.

Beispiel 4: Intelligent Document Processing (IDP)

Ein Unternehmen verwendet ein IDP-System, um Rechnungen automatisch zu verarbeiten und wichtige Informationen wie Rechnungsnummer, Datum und Betrag zu extrahieren.

True Positive (TP): Das IDP-System extrahiert korrekt die Rechnungsnummer aus einem Dokument.
False Negative (FN): Das IDP-System erkennt die Rechnungsnummer im Dokument nicht.
False Positive (FP): Das IDP-System extrahiert fälschlicherweise eine falsche Information als Rechnungsnummer.
True Negative (TN): Das IDP-System erkennt korrekt, dass keine Rechnungsnummer in einem Dokument vorhanden ist.

Wir sprachen eingangs davon, dass man in der Praxis False Negatives und False Positives vermeiden möchte. Je nach Use Case kann jedoch ein niedrigerer Anteil von False Negatives oder False Positives wichtig sein:

In den ersten drei genannten Fällen ist ein hoher Anteil an False Negatives kritisch. Hier können Vorfälle „durchrutschen“, die später hohen Schaden anrichten können, bspw. wenn eine Krankheit eben nicht erkannt wird oder eine Spam-E-Mail durchgeht. False Positives hingegen werden in der Regel manuell geprüft und vielleicht verspätet freigegeben (im Fall von E-Mails oder Transaktionen).
Im Fall von der Extraktion von Daten möchte ich jedoch zumeist einen geringen Anteil an False Positives erzielen. Ggf. „erfindet“ das Modell Daten, die schließlich falsch an eine Fachabteilung weitergegeben werden. Schlimmer noch: manchmal findet sogar eine automatisierte Weiterverarbeitung statt. Ein höherer Anteil an False Negatives wäre hingegen weniger dramatisch, da in solchen Fällen eine manuelle Überprüfung stattfindet (sog. Human-in-the-loop).

Wichtige Kennzahlen und Formeln

Mit der Konfusionsmatrix lassen sich verschiedene Kennzahlen berechnen, die uns helfen, die Leistung des Modells zu bewerten. Schauen wir einmal auf die wichtigsten Kennzahlen.

Genauigkeit (Accuracy)

Die Genauigkeit gibt an, wie oft das Modell richtig lag.

Genauigkeit = (TP + TN) / (TP + TN + FP + FN)

Präzision (Precision)

Die Präzision gibt an, wie viele der als positiv vorhergesagten Fälle tatsächlich positiv sind.

Präzision = TP / (TP + FP)

Sensitivität (Recall) oder Trefferquote

Die Sensitivität gibt an, wie gut das Modell die tatsächlichen positiven Fälle erkennt.

Sensitivität = TP / (TP + FN)

Spezifität (Specificity)

Die Spezifität gibt an, wie gut das Modell die tatsächlichen negativen Fälle erkennt.

Spezifität = TN / (TN + FP)

F1-Score

Der F1-Score ist das harmonische Mittel von Präzision und Sensitivität. Er gibt eine Balance zwischen den beiden Kennzahlen.

F1-Score = 2 * Precision * Recall / (Precision+ Recall)

Bzw.

F1-Score = 2 * TP / (2 * TP + FP + FN)

Natürlich gibt es in der Praxis noch zahlreiche weitere Kennzahlen. Dies sind jedoch die wichtigsten, um ein Modell grob bewerten zu können.

Interpretation der Kennzahlen

Anbei eine einfache Übersicht zum Merken, wie welche Werte der Kennzahlen zu interpretieren sind:

Hohe Genauigkeit: Das Modell liegt insgesamt häufig richtig.
Hohe Präzision: Wenn das Modell etwas als positiv vorhersagt, ist es sehr wahrscheinlich auch positiv.
Hohe Sensitivität: Das Modell erkennt die meisten positiven Fälle.
Hohe Spezifität: Das Modell erkennt die meisten negativen Fälle korrekt.
Hoher F1-Score: Gute Balance zwischen Präzision und Sensitivität.

Fazit zu Konfusionsmatrix einfach erklärt

Zusammenfassend bietet die Konfusionsmatrix eine detaillierte Möglichkeit, die Leistung eines Klassifikationsmodells oder eines IDP-Systems zu bewerten. Sie hilft uns, die Stärken und Schwächen des Modells zu verstehen und es zu verbessern. Egal ob in der Medizin, bei der Spam-Erkennung, bei der Betrugserkennung oder bei der Datenextraktion aus Dokumenten – die Konfusionsmatrix ist ein unverzichtbares Werkzeug für jeden, der mit Daten arbeitet.

Ich hoffe, dass dir dieser Beitrag bei einem besseren Verständnis für Konfusionsmatrizen und deren Interpretation geholfen hat. In der Praxis ist es nicht immer ganz einfach, den Aufbau und den Hintergrund verständlich zu erklären. Wie lautet deine Erklärung oder verwendest du Eselsbrücken? Schreib doch gerne einen Kommentar mit deinen Eindrücken!

Klicke, um diesen Beitrag zu bewerten!

[Gesamt: 0 Durchschnitt: 0]

Bleibe immer up to date

Trag dich ein, um über weitere tolle Inhalte informiert zu werden!