Qualitätsmaße binärer Klassifikationen im Bereich kriminalprognostischer Instrumente der vierten Generation

04/04/2018
by   Tobias D. Krafft, et al.
0

This master's thesis discusses an important issue regarding how algorithmic decision making (ADM) is used in crime forecasting. In America forecasting tools are widely used by judiciary systems for making decisions about risk offenders based on criminal justice for risk offenders. By making use of such tools, the judiciary relies on ADM in order to make error free judgement on offenders. For this purpose, one of the quality measures for machine learning techniques which is widly used, the AUC (area under curve), is compared to and contrasted for results with the PPV_k (positive predictive value). Keeping in view the criticality of judgement along with a high dependency on tools offering ADM, it is necessary to evaluate risk tools that aid in decision making based on algorithms. In this methodology, such an evaluation is conducted by implementing a common machine learning approach called binary classifier, as it determines the binary outcome of the underlying juristic question. This thesis showed that the PPV_k (positive predictive value) technique models the decision of judges much better than the AUC. Therefore, this research has investigated whether there exists a classifier for which the PPV_k deviates from AUC by a large proportion. It could be shown that the deviation can rise up to 0.75. In order to test this deviation on an already in used Classifier, data from the fourth generation risk assement tool COMPAS was used. The result were were quite alarming as the two measures derivate from each other by 0.48. In this study, the risk assessment evaluation of the forecasting tools was successfully conducted, carefully reviewed and examined. Additionally, it is also discussed whether such systems used for the purpose of making decisions should be socially accepted or not.

READ FULL TEXT VIEW PDF

Authors

page 1

page 36

page 37

page 38

page 39

05/18/2020

Compounding Injustice: History and Prediction in Carceral Decision-Making

Risk assessment algorithms in criminal justice put people's lives at the...
03/30/2020

Fairness Evaluation in Presence of Biased Noisy Labels

Risk assessment tools are widely used around the country to inform decis...
11/29/2017

Paradoxes in Fair Computer-Aided Decision Making

Computer-aided decision making, where some classifier (e.g., an algorith...
08/30/2019

Counterfactual Risk Assessments, Evaluation, and Fairness

Algorithmic risk assessments are increasingly used to help humans make d...
07/22/2019

Design of one-year mortality forecast at hospital admission based: a machine learning approach

Background: Palliative care is referred to a set of programs for patient...
06/15/2021

CatBoost model with synthetic features in application to loan risk assessment of small businesses

Loan risk for small businesses has long been a complex problem worthy of...
12/01/2020

The Hidden Inconsistencies Introduced by Predictive Algorithms in Judicial Decision Making

Algorithms, from simple automation to machine learning, have been introd...
This week in AI

Get the week's most popular data science and artificial intelligence research sent straight to your inbox every Saturday.

1.1 Kriminalprognosen und ihre immanente Problematik

Es empfiehlt sich zunächst, eine kurze Begriffsklärung vorzunehmen, da sich in der Literatur keine einheitliche Definition der ‚Kriminalprognose’ findet. Nach Nedopil zielt eine Kriminalprognose auf die Frage, ob ein Mensch oder eine bestimmte Gruppe von Menschen zukünftig gegen das Strafgesetz verstoßen werden, unabhängig davon, ob sie zuvor kriminell aufgefallen sind [Nedopil2005, S.17].
Im Strafrecht geht es jedoch primär um die Feststellung der individuellen Schuld, sodass nur Individualprognosen von Relevanz sind. Außerdem steht ein Angeklagter wegen einer eventuell begangenen Straftat vor Gericht, weswegen hier der praxisnäheren Definition von Kröber gefolgt wird:

„Die gutachterliche Beurteilung der Kriminalprognose ist eine Risikobeurteilung zu der Frage, mit welcher Wahrscheinlichkeit eine bestimmte Person mit bestimmten Delikten straffällig werden wird.” [Kroeber2006, S.88]

Ähnlich wird auch die sogenannte Gefährlichkeitsprognose definiert als eine „wissenschaftlich fundierte Wahrscheinlichkeitseinschätzungen darüber, (…) in welchem Maße eine bereits mit Straftaten in Erscheinung getretene Person in der Zukunft erneut rechtswidrige Taten begehen wird. Es handelt sich also um eine Verhaltensprognose für diese spezielle Person” [Bliesener2014, S.422]. Jede Kriminalprognose sieht sich grundsätzlich mit dem Problem konfrontiert, mit welcher Genauigkeit sich zukünftiges kriminelles Verhalten vorhersagen lässt, denn das menschliche Verhalten resultiert nun einmal nicht nur aus individuellen Persönlichkeitsmerkmalen, sondern wird ebenso durch verschiedenste situative Faktoren beeinflusst, die aufgrund ihrer Variabilität allenfalls vage abschätzbar sind [Bliesener2014, S.425f]. Da in dieser Arbeit jedoch davon Abstand genommen wird, den Determinismus des menschlichen Verhaltens näher zu analysieren, wird es bei der Feststellung belassen, dass eine hundertprozentige Vorhersagbarkeit auch mit heutigen kriminalprognostischen Mitteln grundsätzlich nicht garantiert werden kann.
Von der Richtigkeit dieser These zeugt auch der Baxstrom-Fall aus dem Jahr 1966, welcher über die USA hinaus für mediales Aufsehen sorgte und die Zuverlässigkeit der Gewaltprognose ins Zentrum der Kritik rückte.
Bei diesem unbeabsichtigten Experiment mussten aus formal-juristischen Gründen der Gewalttäter Johnnie Baxstrom sowie 967 weitere, als gefährlich eingeschätzte Straftäter, im Bundesstaat New York freigelassen werden. Nach insgesamt vier Jahren in Freiheit waren aber lediglich 14,2% der als gefährlich eingestuften Täter erneut straffällig geworden, darunter nur etwa 2,5% wegen schwerer Gewaltstraftaten, also der Taten, weswegen ihr Risiko als besonders hoch eingeschätzt worden war. Als Ergebnis dieses ungewollten Experiments lässt sich daher feststellen, dass die Rückfallquote jener Freigelassenen äußerst gering war [Obergfell-Fuchs, S.17][USSC1966].
Daraus resultierende Studien stellten Mitte der 1970-er Jahre bei der klinischen Gewaltprognose (zu den Methoden der Kriminalprognostik, siehe Kapitel 3) erhebliche Mängel und Schwierigkeiten fest [Monahan1975, Monahan1981], ohne die Methode allerdings grundsätzlich in Frage stellen zu wollen. Ziel war es vielmehr, Fehlerquellen zu ermitteln und durch rationale Handhabung sowie Einhaltung wissenschaftlicher Standards die aufgezeigten Mängel in der Gewaltprognostik zu verringern. Darüber hinaus wollte man die Justiz auf die Grenzen der Leistungsfähigkeit prognostischer Instrumente aufmerksam machen [Monahan1996], denn die unbestrittenen Vorteile der nach wissenschaftlichen Standards entwickelten Gefahrenprognose für den juristischen Entscheidungsfindungsprozess gegenüber der früheren subjektiven Urteilsfindung eines Richters haben allgemein in der Praxis unrealistische Erwartungen an die tatsächlich aktuell mögliche Leistung von Prognosen geweckt, was einer dringenden Relativierung bedarf [Albrecht2004, S.475f].

1.2 Der Einzug der algorithmischen Entscheidungsfindung (ADM) in die Kriminalprognostik

In der heutigen digitalen Gesellschaft unterstützen und übernehmen algorithmische Prozesse, ADM („algorithmic decision making” [Zweig2016]) genannt, zunehmend die Entscheidungsfindung in den verschiedensten Bereichen, auch in der Justiz. Das ‚ADM-Manifest’ [AlgorithmWatch2016] der 2016 gegründeten Bürgerinitiative ‚Algorithm Watch‘ differenziert folgende Aspekte als Bestandteil der algorithmischen Entscheidungsfindung:

  • Prozesse zur Datenerfassung zu entwickeln,

  • Daten zu erfassen,

  • Algorithmen zur Datenanalyse zu entwickeln, die die

    • Daten analysieren,

    • auf der Basis eines menschengemachten Deutungsmodells interpretieren,

    • automatisch handeln, indem die Handlung mittels eines menschengemachten Entscheidungsmodells aus dieser Interpretation abgeleitet wird.

Während in den USA aufgrund des anders strukturierten Justizsystems schon seit längerem ADM-gesteuerte Kriminalprognosen eingeführt sind, steht die deutsche Justiz in dieser Hinsicht noch relativ am Anfang dieser Entwicklung, denn deutsche Gerichte nutzen derzeit noch keine ADM-Risikoprognosen. Insofern ist es ein zentrales Anliegen der vorliegenden Arbeit, eine Diskussion über Chancen und Risiken beim Einsatz algorithmenbasierter Risikoprognosen anzuregen. Die Gesellschaft sollte sich möglichst zeitnah der zentralen Frage widmen, inwieweit sie es zulassen will, dass Algorithmen Entscheidungen treffen, die wichtig für das Leben des Einzelnen sein können, denn Deutschland besitzt jetzt noch die einmalige Möglichkeit, aus den Erfahrungen anderer Länder zu lernen und als Gesellschaft den Umgang mit Algorithmen mitbestimmen zu können.
Im Folgenden wird daher zunächst ein kurzer Überblick über die Entwicklung der Kriminalprognostik in den USA gegeben (siehe Abschnitt 1.2.1), gefolgt vom Abschnitt 1.2.2 der knapp die Situation im deutschen Justizwesen in Bezug auf kriminalprognostische Gutachten skizziert.

1.2.1 Die Integration von ADMs in die kriminalprognostischen Instrumente im US-amerikanischen Justizwesen

Das Justizsystem der USA ist im Begriff zu kollabieren: Als Folge der etablierten Praxis, drakonische Strafen zur Abschreckung zu nutzen, sitzen derzeit in US-amerikanischen Gefängnissen knapp 2.15 Millionen Inhaftierte [statista2017] ein. Das bedeutet, 20% aller weltweit Arrestierten befinden sich in US-amerikanischer Haft [Walmsley2014], obwohl das Land lediglich fünf Prozent der gesamten Weltbevölkerung stellt [statista2017a]. Die hohe Zahl von Gefängnisinsassen beschert den USA infolgedessen explodierende Kosten im Strafvollzug, sodass die Suche nach einer effizienten Kostenreduzierung ein zentrales Anliegen der US-amerikanischen Justiz ist.
Da sich die Standards der Haftbedingungen in den USA jedoch laut Amnesty International bereits am unteren Limit befinden [AmnestyInternational2013], lassen sich bei Unterbringung und Verpflegung keine weiteren Kosten einsparen [Heiser2013], sodass die zunächst reißerisch anmutende Schlagzeile der Süddeutschen Zeitung vom 23. August 2016 „Nudeln sind die neue Währung in US-Gefängnissen” [Werner2016] bei näherer Betrachtung durchaus ihre Berechtigung333„Ein Bericht von Amnesty International über Einzelhaft in den Bundesgefängnissen stellte fest, dass die Haftbedingungen im - bislang einzigen - Hochsicherheitsgefängnis, das dem US-Standard Super-Maximum Security entspricht, in Florence im Bundesstaat Colorado gegen die Standards einer humanen Behandlung von Gefangenen verstoßen.” [AmnestyInternational2015] besitzt. Auch andere Konzepte zur Kosteneinsparung erwiesen sich als Fehlschlag. Abgesehen von skurrilen anmutenden Vorschlägen wie aus dem Jahr 2009, dass Häftlinge finanziell selbst für ihren Gefängnisaufenthalt aufkommen könnten [FocusOnline2009], zeigte sich längerfristig auch die Idee, Privatgefängnisse einzuführen, als unrentabel [NTV2016]. Die Erkenntnis, zur Kosteneinsparung kostenintensive Haftstrafen auf Bewährung auszusetzen, ließ die Kriminalprognose zunehmend in den Fokus juristischer Überlegungen rücken. Darüber hinaus resultiert das vermehrte Interesse an geeigneten prognostischen Methoden zur Einschätzung des Rückfallrisikos auch aus den Diskussionen rund um den eingangs erwähnten Baxstrom-Fall aus dem Jahr 1966. Dieser Vorfall warf seinerzeit die Frage auf, ob man die Personen zu Unrecht in diese Anstalten eingewiesen habe und wie es zu der Fehleinschätzung kommen konnte. Seitdem wurde immer wieder eine genauere Einschätzung des Kriminalitätsrisikos gefordert, wenn es in die Urteilsfindung einbezogen wird. So sah sich die Bürgerrechtsvereinigung ACLU (American Civil Liberties Union) im Jahr 2011 zur Empfehlung veranlasst, durch eine genaue Datenanalyse das Risiko zu kalkulieren, ob Straftäter tatsächlich rückfällig und zu einer Gefahr für die Gesellschaft werden würden [Chettiar2011, S.11].
Mit Hilfe der ARAI, der ‚Actual Risk Assessment Instruments’444 zu deutsch: Bewertungsinstrumente für das tatsächliche Risiko , meint die US-amerikanische Strafjustiz die Wahrscheinlichkeit einer potenziellen Rückfälligkeit bei Gewalttaten genauer ermitteln und eine vorurteilslose und neutrale Rechtsprechung erreichen zu können, deren Urteile frei von subjektiven und eventuell verzerrenden Einflüssen gefällt werden. Daher benutzt das US-Justizsystem in 9 US-Bundesstaaten seit Jahren Risikobewertungs-Tools in verschiedenen Bereichen der Rechtsprechung [Angwin2016], wobei von den Behörden mancher US-Staaten, wie zum Beispiel Florida, hauptsächlich das von der US-Firma Northpointe Ende der 1990-er Jahre entwickelte COMPAS Assessment Tool (Correctional Offender Management Profiling for Alternative Sanctions) zum Einsatz kommt [Northpointe2012]. Northpointe propagiert, mit Hilfe ihres Algorithmus ließe sich eine genaue Prognose der Rückfallwahrscheinlichkeit (predicted recidivism) eines Angeklagten erstellen [Brennan2009], was gern geglaubt wird, zumal die Möglichkeit einer präzisen Bestimmung des zukünftigen Legalverhaltens eines Straftäters die Urteilsfindung wesentlich erleichtern würde.

1.2.2 Der Umgang der deutschen Justiz mit ADM gestützten Risikoprognosen

Anders als im US-amerikanischen Justizsystem gilt in der deutschen Rechtsprechung uneingeschränkt das ‚Individualisierungsgebot’ [Maschke2008], sodass hier individuelle Kriminalprognosen zwingend vorgeschrieben sind. Individuelle kriminalprognostische Gutachten durch entsprechende Sachverständige müssen bei strafrechtlichen Entscheidungen in diversen Fällen mit einbezogen werden, nicht nur bei schweren Delikten oder bei der Beurteilung der (vorzeitigen) Entlassung eines verurteilten Täters aus einer freiheitsentziehenden Maßregel (§ 67d StGB). Gesetzlich konkret eingefordert und explizit im Gesetzestext vermerkt, werden individuelle Kriminalprognosen bei Entscheidungsfindungsprozessen, die bei Fehlurteilen eventuell mit dem Schutz der Öffentlichkeit vor Gewalttaten kollidieren. Etwaige Fehlurteile könnten hier zur Gefährdung des Lebens Unschuldiger führen, was gesellschaftlich hochbrisante Folgen haben könnte. Dementsprechend heißt es im § 57 StGB zur Aussetzung des Strafrestes bei einer befristeten Freiheitsstrafe ausdrücklich:

„Bei der Entscheidung sind insbesondere die Persönlichkeit der verurteilten Person, ihr Vorleben, die Umstände ihrer Tat, das Gewicht des bei einem Rückfall bedrohten Rechtsguts, das Verhalten der verurteilten Person im Vollzug, ihre Lebensverhältnisse und die Wirkungen zu berücksichtigen, die von der Aussetzung für sie zu erwarten sind.”555§ 57 StGB

Aufgrund oft mangelhafter Qualität und des besonderen Stellenwerts kriminalprognostischer Gutachten in der deutschen Justiz erarbeitete 2006 eine interdisziplinäre Expertengruppe von Richtern, Bundesanwälten, forensischen Psychiatern und Psychologen einen Katalog zu den „Mindestanforderungen für Prognosegutachten” [Boetticher2007]. Es soll dem Sachverständigen das Erstellen der Gutachten erleichtern und legt dabei zentrale Kriterien fest: Das Gutachten hat sich „methodischer Mittel, die dem aktuellen wissenschaftlichen Kenntnisstand” entspringen zu bedienen, es muss „transparent” und „nachvollziehbar” [Boetticher2007] sein. Obwohl die ‚Mindestanforderungen’  ausdrücklich feststellen, dass im Gutachten „eine Wahrscheinlichkeitsaussage über das künftige Legalverhalten des Verurteilten” [Boetticher2007]zu treffen ist, auf deren Basis das Gericht die Rechtsfrage zu beantworten hat, erwartet das deutsche Straf- und Prozessrecht von den prognostischen Gutachten ein derart hohes Maß an Bestimmtheit, dass „von einem fast naiven Vertrauen in die Leistungsfähigkeit von Prognosen” [Albrecht2003, S.97] gesprochen werden kann und angesichts der vielfach nachgewiesenen Fehleranfälligkeit „ganz offensichtlich unrealistische Erwartungen an die Leistungsfähigkeit der Gefährlichkeitsprognose” [Albrecht2003, S.122] hat.
Die zunehmenden Erwartungen in die Prognosefähigkeit wird durch die Änderung des Strafgesetzbuchs § 67d „Dauer der Unterbringung” am 31.Januar 1998 deutlich. Hier änderte die Justiz die „Anforderungen an die Sicherheit der Prognose (…) bei der Entlassung aus dem Maßregelvollzug” [Albrecht2003, S.121] wie in Tabelle 1.1 gezeigt.

16. März 1994 – 31. Januar 1998 31. Januar 1998 – heute
sobald verantwortet werden
kann zu erproben,
ob der Untergebrachte außerhalb
des Maßregelvollzugs
keine rechtswidrige Taten
mehr begehen wird
wenn zu erwarten ist,
dass der Untergebrachte außerhalb
des Maßregelvollzugs
keine rechtswidrigen Taten
mehr begehen wird
Tabelle 1.1: Teile der Veränderung des § 67d StGB ‚Dauer der Unterbringung’ am 31.Januar 1998

Auch wenn die deutschen Gerichte noch keine ADM-Risikoprognosen [Lischka2017, S.7] nutzen, muss im Hinblick auf die Aufmerksamkeitsökonomie sowohl der Richter als auch Sachverständigen bedacht werden, dass die benötigten Gutachten zwar noch von menschlichen Experten verfasst und prognostiziert werden. Sollte jedoch eine Firma aus dem amerikanischen Raum die deutsche Justiz mit Argumenten der Effizienz und angeblicher Objektivität überzeugen können, ihre ADM-gestützten Prognose-Instrumente einzusetzen, kann sich diese Tatsache schnell ändern. Insofern könnten die im folgenden Abschnitt umrissenen Fragestellungen in nicht allzu ferner Zukunft auch in Deutschland von hoher Brisanz sein.

1.3 Ziele der Arbeit

Wenn sich eine Gesellschaft in einem derart relevanten Bereich wie der Justiz in ihrer Urteilsfindung auf algorithmenbasierte Risikoprognosen verlässt, so muss deren Evaluation ein zentrales Anliegen sein. Nach einer Überführung der Kriminalprognose in das mathematische Modell eines binären Klassifikators werden in dieser Arbeit dessen generelle Überprüfbarkeit statistisch ausgelotet und klassische Evaluationsstrategien vorgestellt (Kapitel 2).
Die vorliegende Arbeit verfolgt daraufhin das Ziel, den aktuellen Stand um die Beurteilung von ADM-Prozessen im kriminalprognostischen Bereich zu erfassen, wobei zuvor ein historischer Abriss über die Entwicklung eben dieser Instrumente gegeben wird (Kapitel 3). Das Qualitätsmaß, welches sich herauskristallisiert, ist die sogenannte „Area under the Reciever Operating Characteristic” (). Diese ist ein im maschinellen Lernen häufig verwendetes Maß, das ohne ersichtlichen Grund immer weitere Anwendung findet.
Da sich herausstellt, dass der „Positive Predictive Value” (), als weitere Möglichkeit, einen solchen Klassifikator zu bewerten, dem richterlichen Entscheidungsprozess deutlich gerechter wird, nimmt sich die Arbeit dann der Frage an, wie weit diese beiden Werte für einen Klassifikator voneinander abweichen können (Kapitel 4).
Abschließend wird die hierbei aufgezeigte Diskrepanz zwischen den beiden Qualitätsmaßen an einem realen Datensatz aus den USA für das sogenannte COMPAS-Tool, ein kriminalprognostisches Instrument der vierten Generation, nachgewiesen (Kapitel 5), mögliche gesellschaftliche Folgen angerissen sowie Handlungsempfehlungen verfasst (Kapitel 6).

2.1 Definition ‚binärer Klassifikator’

Bei dem Begriff ’binärer Klassifikator’ greift diese Arbeit auf eine Umsetzung zurück, die sich an folgender Definition orientiert:

Ein Klassifikator ist eine Zuordnungsvorschrift mit , dem Informations- bzw. Merkmalsvektor und dem Klassifikationsergebnis [Hengen2004].

Ein Klassifikator ordnet also Objekte oder Datenpunkte anhand bestimmter Merkmale verschiedenen Eigenschaftsgruppen zu, den sogenannten Klassen. Aufteilungen in genau zwei Klassen werden somit durch einen binären Klassifikator umgesetzt, der für ein gegebenes Element entscheidet, ob es zu Klasse 1 oder Klasse 2 gehört.
Eine in dieser Arbeit betrachtete Umsetzung ermittelt für eine gegebene Menge E mit Elementen, ob ein Element zur ersten Klasse oder zur zweiten Klasse gehört. Sie besteht aus einer reellwertigen Bewertungsfunktion , auch Scoringfunktion genannt, um Elemente einem Wert zuzuordnen, welche die Zugehörigkeit zu Klasse 1 widerspiegeln soll, einer bijektiven Sortierfunktion und einem Parameter .
Nachdem alle Elemente durch die Scoringfunktion bewertet wurden, werden die Elemente in einer Liste durch die Sortierfunktion absteigend sortiert, sodass also für , für die gilt, auch gilt. Anhand des mitgelieferten entscheidet nun der Klassifikator, welche Elemente eine Bewertung größer und kleiner erhalten haben und unterteilt die Liste in genau zwei Bereiche. Elemente () erhalten das Label ‚ ’ und () ‚’.
Die Vorhersage eines binären Klassifikators ist zwar im Einzelfall eine binäre Entscheidung, um jedoch Aussagen über die Qualität oder Güte treffen zu können, bedarf es einer statistischen Auswertung. Murphy und Winkler haben hierzu in ihrem Artikel „A general framework for forecast verification[Murphy1987] gezeigt, dass sich die Wahrscheinlichkeitsverteilungen in Bezug auf Prognose und Beobachtung als sinnvoll erweisen. Meist wird hierzu eine Menge von Elementen, für welche die Klassenzugehörigkeit a priori gegeben ist (Ground-Truth), durch den binären Klassifikator klassifiziert und anhand verschiedener Indizes Aussagen über die Qualität der Vorhersage getroffen.
Um das Thema der Rückfälligkeitsvorhersage aufzugreifen, würde man einen Algorithmus, der eine Vorhersage über die Zuordnung zu der Klasse „hohes Rückfallrisiko” bzw. „niedriges Rückfallrisiko” trifft, mit einer Ground-Truth überprüfen. Da dies in diesem Fall ein historischer Datensatz wäre, von dem bekannt ist, welche Personen rückfällig geworden sind und welche nicht, könnte man bewerten, wie gut die getroffenen Prognosen zutrafen.

2.2 Einführung in die statistischen Gütekriterien

An einem binären Klassifikator zur Vorhersage einer individuellen Rückfälligkeitswahrscheinlichkeit, welcher in die zwei Klassen „hohes Rückfallrisiko” und „niedriges Rückfallrisiko” aufteilt, ließen sich unter Zuhilfenahme einer Ground-Truth-Menge folgende vier verschiedenen Fälle identifizieren. Dem medizinischen Milieu entspringend (vgl. [Potapov2012, S.10]) haben sich folgende Fachbegriffe etabliert:

  • true positive (): Die Person wird als potenziell rückfällig eingeschätzt und ist rückfällig geworden.

  • false positive (): Die Person wird als potenziell rückfällig eingeschätzt und ist nicht rückfällig geworden.

  • false negative (): Die Person wird als nicht rückfällig eingeschätzt und ist rückfällig geworden.

  • true negative (): Die Person wird als nicht rückfällig eingeschätzt und ist nicht rückfällig geworden.

Die entstehenden relativen Häufigkeiten werden meist, wie in Abbildung 2.1 gezeigt, in einer Wahrheitsmatrix, auch Konfusionsmatrix genannt [Bradley1997], abgebildet.

Abbildung 2.1: Konfusionsmatrix des vorgestellten binären Klassifikators

Diese relativen Häufigkeiten bilden zwar schon erste Kennzahlen für die Güte eines binären Klassifikators, jedoch werden sie meist noch in Wahrscheinlichkeiten umgerechnet. Um nun erweiterte Fragestellungen zu beantworten, bedarf es komplexerer statistischer Kennziffern. Diese können zum Beispiel intuitiv über die Größe der gesamten Stichprobe (, Grundgesamtheit) normalisiert werden, woraus sich unter anderem die folgenden Kennziffern ergeben [Bradley1997]:

  • Accuracy (Genauigkeit), als der Anteil der korrekt kategorisierten Elemente an der Grundgesamtheit

  • Error rate (Fehlerrate), als der Anteil der falsch kategorisierten Elemente an der Grundgesamtheit

  • Prevalence (Prävalenz), als der Anteil der als positiv kategorisierten Elemente an der Grundgesamtheit

Da vor allem bei unbalancierten Klassen, also oder , die Grundgesamtheit als Normalisierungsfaktor nicht immer sinnvoll ist, werden die verschiedenen Anteile jeweils auch durch die Anzahl der positiven/negativen Testergebnisse sowie Klassengrößen der Ground-Truth geteilt, um so, den Anwendungsfragen entsprechend, Aussagen über diese speziellen Anteile treffen zu können, wie im Folgenden anhand einiger klassischer Maße aufgezeigt wird. Ein sehr bekanntes Begriffspaar aus diesen Reihen, die ‚Sensitivität’ und ‚Spezifität’, werden im folgenden Abschnitt näher beleuchtet.

2.3 Sensitivität und Spezifität

Da sich die historischen Ursprünge der ‚Sensitivität’ sowie der ‚Spezifität’ nicht mehr eindeutig bestimmen lassen, wird in dieser Arbeit die folgende konsensuale Definition verwendet, wobei die verwendete Notation sowohl in der Biologie als auch der Informatik im Bereich des maschinellen Lernens geläufig ist [Mohabatkar2013]. Bei der Sensitivität wird die sogenannte ‚Richtig-Positiv- Rate’ (RPR) gemessen, also der Anteil korrekt positiv kategorisierter Elemente () an der Menge aller tatsächlichen () Elemente ([Altman1994, Bradley1997], die sich dem Beispiel entsprechend, als die folgende bedingte Wahrscheinlichkeit darstellen lässt:

Die Spezifität dagegen wird auch als ‚Falsch-Negativ-Rate ’ (FNR) bezeichnet. Da hier die fälschlicherweise positiv kategorisierten Elemente () gegen alle () Elemente ([Altman1994, Bradley1997] abgewägt werden, lässt sich die Spezifität erneut dem Beispiel entsprechend als folgende bedingte Wahrscheinlichkeit darstellen:

Die Auswertung der Sensitivität und Spezifität gilt vor allem in der Medizin als wichtiges Maß zur Bewertung von Laborergebnissen. Honest und Kahn zeigten 2002, dass 72 % der Autoren in den 90 analysierten Primärstudien aus den Jahren 1994-2000 auf eine Auswertung der Sensitivität und Spezifität als Gütekriterium ihrer Arbeit zurückgegriffen haben [Honest2002]. Die Verbindung zur Informatik zieht in diesem Zusammenhang das Forschungsgebiet ‚Information Retrieval’ (IR), das sich mit der Informationsgewinnung aus großen Datensätzen (vgl. [Rijsbergen1979, Singhal2001]) beschäftigt. Hier hat sich für den Begriff der Sensitivität der im folgenden Abschnitt betrachtete Recall etabliert.

2.4 Precision und Recall

Bei der Analyse und Bewertung von Suchanfragen in einer großen Menge Dokumente hat sich im IR als grundlegendes Gütekriterium das Begriffspaar ‚Precision111Genauigkeit oder positiver Vorhersagewert und ‚Recall222Trefferquote herauskristallisiert. Der Anteil aller relevanten Dokumente im Suchergebnis () in Bezug zu allen selektierten Dokumenten einer Suchanfrage () wird als Precision bezeichnet:

Setzt man den Anteil aller relevanten Dokumente im Suchergebnis () in Relation mit allen für die Suchanfrage interessanten Ergebnissen (), erhält man den sogenannten Recall, der sich also durch folgende Formel berechnen lässt:

2.5 F1-Score

Da vor allem im ‚Natural Language Processing’ (NLP) und IR großer Wert auf ein eindimensionales Evaluationskriterium gelegt wird 

[Goutte2005], hat sich das harmonische Mittel von ‚Precision’ und ‚Recall’ unter dem Begriff ‚F1-score’ als weitere Evaluationsmöglichkeit etabliert:

Dieses kombinierte Maß bietet einen gleichwertigen Einfluss von ‚Precision’ und ‚Recall’ auf den Evaluationsprozess. Dies ist wichtig, denn eine gute Suche sollte alle relevanten Dokumente finden (hoher ‚Recall’) und im gefundenen Datensatz eine hohe Dichte an wichtigen Dokumenten aufweisen (hohe ‚Precision’). Sollte eine andere Gewichtung gewünscht sein, so sei an dieser Stelle auf den Ursprung des F1-score verwiesen, denn bereits 1979 führte van Rijsbergen das sogenannte „Effektivitätsmaß E”333E measure” (vgl. [Manning1999, S.269] mit

ein, um eine freie Skalierung des Einflusses der beiden Maßzahlen zu schaffen. Sollte gewählt werden, verhält sich F wie der Recall und für entspricht es der Precision. Für erhält man einen ausgewogenen Einfluss von Precision und Recall und die oben angeführte Formel für den .

2.6 Area under the Receiver Operating Characteristic ()

Eine weitere Evaluierungsmöglichkeit für binäre Klassifikatoren resultiert aus der ‚Receiver Operating Characteristic’  (in der Psychologie und Statistik teilweise auch ‚Relative Operating Characteristic’ genannt, vgl.  [Beck1986]).
Hierbei werden für verschiedene Schwellenwerte eines binären Klassifikators und seiner reellwertigen Bewertungsfunktion die Sensitivität und Falsch-Positiv-Rate () gegeneinander abgetragen, wobei die FPR als Abszisse und die Sensitivität als Ordinate gewählt wird [Aggarwal2015, S.340f][Bradley1997, S.2][Peterson1954]. Die Betrachtung der sogenannten „Area under the Receiver Operating Characteristic” (im Folgenden AUC genannt) ist in der Medizin und anderen Wissenschaften weit verbreitet. Vor allem für Metaanalysen wiesen 2002 Honest und Kahn eine Nutzungsquote von 73 % [Honest2002] dieser grafischen Auswertung der Sensitivität und Spezifität nach.

Abbildung 2.2: Darstellung der AUCfür einen binären Klassifikator
Abbildung 2.3: Darstellung der AUC eines zufallsnahen binären Klassifikator

Hierbei wird die Fläche unter der ROC Kurve herangezogen, um so Aussagen über die Trennschärfe der Klassifizierung treffen zu können, also wie zuverlässig kann der Klassifikator zwischen Elementen der beiden Klassen unterscheiden.
Wie in Abbildung 2.2 zu erkennen ist, wird häufig die Achsendiagonale eingezeichnet, da diese als Sinnbild für eine zufällige Klassifizierung als Maßstab genutzt wird, um die Qualität der abgetragenen Ergebnisse korrekt zu interpretieren. Sollte sich eine ROC-Kurve an dieser Diagonalen (vgl. Abbbildung 2.3) orientieren, der Klassifikator also für verschiedene eine gleich große Trefferquote (Sensitivität) sowie Falsch-Positiv-Rate (FPR) aufweisen, kann er nicht besser separieren als eine zufällige Zuordnung, welche die Elemente mit gleicher Wahrscheinlichkeit einer der beiden Klassen zuweist. Dort wären Trefferquote und FPR ebenfalls gleich hoch.
Wenn die Kurve jedoch deutlich unter dieser Diagonalen liegt, lässt sich durch Umbenennen der beiden Klassen die Klassifizierung anpassen, weshalb die Diagonale die schlechteste Klassifizierung darstellt.
Bei der Betrachtung von binären Klassifikatoren lässt sich die AUC zusätzlich als die Wahrscheinlichkeit interpretieren, in einer zufälligen Stichprobe, bestehend aus je einem Element beider Klassen, dem Element der ersten Klasse eine höhere Wahrscheinlichkeit zuzuordnen zu dieser zu gehören [Hanley1982, S.2]. Dieses Maß bildet also die Wahrscheinlichkeit ab, gegeben ein Element der Zielklasse () und ein Element der anderen Klasse (), durch die Scoringfunktion , des Klassifikators, dem () Element ein höheres Gewicht zuzuweisen als dem () Element.
Im Rahmen von Prognosen versteht man unter der Basisrate „den theoretischen Anteil derjenigen Personen innerhalb der relevanten Population, für den das zu prognostizierende Ereignis eintreffen wird” [Bliesener2014, S.426]. Als parameterloses Maß hat die AUC den Vorteil, nicht nur für eine spezielle Basisrate, also fixierte Klassengröße, eine Aussage über die Güte der Klassifizierung treffen zu können.

2.7 Positive Predictive Value und der

Ein besonderes Augenmerk wird in dieser Arbeit auf den sogenannten „positive predictive value” (kurz: ) gelegt, welcher die korrekt positiv () klassifizierten Elemente mit der Anzahl aller positiv kategorisierten Elemente () normalisiert (vgl. [Aggarwal2015, S.340]):

Dieses Maß findet hauptsächlich im medizinischen Umfeld Anwendung und wird dort in der Evaluation neuer Therapien, Medikamenten und Verfahren genutzt. Als bekanntes Beispiel sei hier nur die Brustkrebsvorsorge (im Speziellen der Mammographie) angeführt, welche maßgeblich über dieses Qualitätskriterium evaluiert wird [Kerlikowske1993, Burrell1996].
Der PPV wird in den unterschiedlichsten informatiknahen Bereichen, wie zum Beispiel als Precision im Information Retrieval (vgl. Kapitel 2.4), angewendet und stellt ein Gütekriterium dar, das den Anteil an korrekten Ergebnissen zu allen zurückgelieferten ins Verhältnis setzt, hierfür jedoch die Basisrate, also die jeweiligen Klassengröße benötigt. Um einen binären Klassifikator mit diesem Qualitätsmaß zu bewerten, muss das passend gewählt sein. Wenn der Klassifikator wählt, wird über den überprüft, welcher Anteil an Elementen in den ersten k Elementen, der aus dem Klassifikator resultierenden Liste liegen. So kann die in der Ground-Truth vorliegende Basisrate an () Elementen genutzt werden, um das benötigte Verhältnis zu errechnen. In der Netzwerkanalyse zum Beispiel wird versucht, das ‚link prediction problem’ für Klassifikatoren zu evaluieren, bei denen das als Größe der Klasse 1 gewählt wurde [Liben-Nowell2003, Horvat2012].
Auf den generellen Transfer dieser Methodik in den Bereich des maschinellen Lernens wird an dieser Stelle nicht näher eingegangen, jedoch bietet der eine Möglichkeit, den Fokus auf die tatsächliche Anzahl korrekt klassifizierter Objekte im vorderen Bereich der Sortierung zu legen und dabei fast vollständig auf eine Betrachtung der genauen Sortierung der Elemente zu verzichten. Einzig und allein die Eigenschaft „ist unter den ersten k” ist hier relevant, weshalb er sich von seiner Bewertungsnatur besser an dem Entscheidungsprozess eines Richters orientiert. Dies wird in Kapitel 4 genauer betrachtet.

3.1 Methoden der Kriminalprognose

Seit der Veröffentlichung von „Clinical versus statistical prediction” [Meehl1954] von Paul Everett Meehl im Jahre 1954 differenziert die einschlägige Fachliteratur üblicherweise drei Strategien kriminalprognostischer Herangehensweisen, die jedoch in der beschriebenen idealtypischen Ausprägung in der Realität nicht zu finden sind. Da sie sich in der Praxis stark überschneiden [Dahle2006], ist die folgende folgende Unterscheidung „allenfalls ein Ordnungsversuch” [Kroeber1999].

Die intuitive Methode

Diese Methode ist zwar das wissenschaftlich am wenigsten fundierte, in der Praxis aber sicherlich am häufigsten benutzte Prognoseverfahren, da wohl die meisten Gerichtsurteile nach der ‚intuitiven Methode‘ des jeweiligen Richters gefällt werden und die Qualität des Urteils von der richterlichen Erfahrung und Fachkompetenz abhängt. Das prognostische Urteil basiert auf keiner expliziten Theorie, sondern auf gefühlsmäßiger Erfassung und globaler Eindrucksbildung vom Beschuldigten. Somit ist es weder überprüfbar noch transparent, sodass man im Prinzip von keiner Methode sprechen kann. Volckart bezeichnet diese Art des Vorgehens daher auch treffend als Gegenteil einer Methode [Volckart1997].

Die statistische Methode

Die Entwicklung der statistischen Methode war die logische Konsequenz der intuitiven, sodass die Prognose nun auf einer vollständig regelgeleiteten Beurteilung einer Person basiert. Durch empirisch-statistische Vergleiche Rückfälliger und nicht Rückfälliger wurden einige Risikofaktoren ermittelt, die Durchschnittszusammenhänge zwischen Risikoprofil und späterer Legalbewährung abbilden und in Prognosetafeln zusammengefasst wurden. Im konkret zu beurteilenden Einzelfall wird der Beschuldigte dann einer Risikogruppe von mehr oder weniger Gefährlichen zugeordnet, sodass die Prognose quasi auf der Rückfallquote dieser Gruppe basiert, die aus der Konstitutionsstichprobe bekannt ist (vgl. [Doebele2013, S.17].
Die entscheidende Schwäche dieser Methode liegt im statischen Persönlichkeitskonzept, welches mögliche Wandlungen des Charakters in der Prognose nicht berücksichtigt. Ein weiterer Vorwurf bezieht sich auf die fehlende theoretische Basis [Rettenberger2013, S.21].

Die klinische Methode

Ziel der klinischen Prognose ist es, „ein Erklärungskonzept für die Handlungen des Betreffenden und deren jeweilige Voraussetzungen und Bedingungen zu gewinnen, das auf der Grundlage theoretisch fundierter und empirisch abgesicherter Zusammenhänge fußt” [Dahle1997].
Der grundlegende Unterschied zur statistischen Methode besteht in der vom Einzelfall abhängigen Gewichtung der Faktoren. Das Urteil fußt insofern auf keinem festen Algorithmus.

Heutzutage favorisiert man bei prognostischen Stellungnahmen eine Verbindung der statistischen und klinischen Prognose. Man versucht, die jeweiligen Vorteile möglichst aufzugreifen und die beiden Methoden ohne die spezifischen Nachteile zu kombinieren. Nedopil [Nedopil2005, S.196] rät, bei einem Prognosegutachten auf keine der drei Prognosemethoden zu verzichten.

3.2 Vorstellung der vier Generationen standardisierter Prognoseinstrumente zur Rückfälligkeitsanalyse

2008 zählte Guy [Guy2008], dass in den vorhergehenden 50 Jahren 457 Verfahren zum ‚risk assessment’ (Risikobeurteilung) entwickelt wurden. Angesichts der Fülle von Prognoseinstrumenten über den langen Zeitraum wird in der Fachliteratur häufig eine Einordnung der Verfahren in verschiedene ‚Generationen’ vorgenommen, die allerdings von Autor zu Autor differiert [Doebele2013, S.20-26][Rettenberger2013, S.21f].
Für die ersten drei Generationen wird der ausführlichen Darstellung von A.-L. Döbele [Doebele2013, S.20-26] gefolgt, für die von Döbele nicht behandelte vierte Generation den Ausführungen von Rettenberger et al. [Rettenberger2013, S.21f].

Instrumente der ersten Generation

Wie eingangs bereits erwähnt, wurden die ersten Prognoseinstrumente im Bestreben, die Kriminalprognose auf eine wissenschaftlich überprüfbare Basis zu stellen, Anfang des 20. Jahrhunderts in den USA entwickelt. Im Jahr 1928 veröffentlichte Ernest W. Burgess [Burgess1928] eine der ersten Prognosetafeln, die jahrelang das am häufigsten gebrauchte Prognoseinstrument der USA war [Schneider1967].
Aus Akten von 3.000 entlassenen Straftätern extrahierte er 21 rückfallrelevante Faktoren. Im Gegensatz zu heutigen Prognoseverfahren verteilte Burgess ‚Gutpunkte‘ für jede positive Abweichung von der durchschnittlichen Rückfallerwartung, sodass seine Tafel nicht der Vorhersage der Rückfälligkeit dient, sondern die Wahrscheinlichkeit angibt, nicht rückfällig zu werden. Diese Art der Prognostik setze sich jedoch nicht durch.
1936 wurde die erste Prognosetafel in Deutschland von Robert Schiedt [Schiedt1936] entwickelt. Er extrahierte 15 rückfallrelevante Faktoren aus einer Gruppe von 500 Häftlingen. Für jedes vorliegende Merkmal wurde jeweils ein ‚Schlechtpunkt’ ohne weitere Gewichtung vergeben. Je höher die Punktzahl, desto größer war das Rückfallrisiko, was Schiedt durch Prozentpunkte anzeigte. Die Prognosetafel von Fritz Meyer [Meyer1959] wurde 1959 entwickelt und in Deutschland noch bis 1990 verwendet [Doebele2013, S.24].
Die prozentuale Berechnung der Rückfallwahrscheinlichkeit durch die Anzahl der ‚Schlechtpunkte’ ist auch heute noch ein gebräuchliches Verfahren [Doebele2013, S.25], während die Liste der hier noch ausschließlich statischen und unveränderbaren Merkmale von der folgenden Generation erweitert wurde.

Instrumente der zweiten Generation

Bei diesen Instrumenten wurden die Merkmale um anamnestische Daten erweitert und personen- sowie tatbezogene Merkmale einbezogen. Die empirisch ermittelten Rückfallprädiktoren wurden in eine Prognoseformel übersetzt, die mittels der Akten des Straftäters eine schnelle und einfacher Handhabung des Instruments erlaubt, etwaige Wandlungen der Täterpersönlichkeit hingegen nicht erfasst.
Der von dem Kanadier Karl Hanson und dem Briten David Thornton 1999 entwickelte ‚Static 99’ gilt als Instrument der zweiten Generation und wurde speziell zur empirischen Ermittlung der Rückfallwahrscheinlichkeit von Sexualstraftätern entwickelt. Es zählt in dem Bereich zu dem am häufigsten verwendeten Instrument zur Einschätzung des Rückfallrisikos (vgl. [Doebele2013, S.49 f].
Die Gründe hierfür liegen wahrscheinlich an der Benutzerfreundlichkeit und den geringen Anforderungen, die es an den Anwender stellt, da die erforderlichen Faktoren ohne psychologisches Hintergrundwissen und ohne persönliches Gespräch mit dem Täter zu ermitteln sind. Dies führt allerdings zum Hauptkritikpunkt, nämlich dass ausschließlich statische, unveränderliche Fakten ermittelt werden, die etwaige Veränderungen des Risikopotenzials nicht erfassen. Dittmann fasst daher zutreffend zusammen, dass der Straftäter bei Anwendung der Instrumente dieser Generation „zum Gefangenen seiner Biographie” [Dittmann2003] wird.

Instrumente der dritten Generation

Wissenschaftliche Entwicklungen der 90er Jahre des letzten Jahrhunderts führte die Kriminalprognostik zur dritten Generation von Prognoseinstrumenten, indem zunehmend dynamische Merkmale herangezogen wurden. Die Datenbasis wurde so um grundsätzlich veränderbare Faktoren, wie zum Beispiel „persönliche Einstellung der Straftäter, Persönlichkeitszüge, seine soziale Bindungen oder die Art seiner Freizeitgestaltung” [Doebele2013] erweitert. Da hierbei meist bereits aufwändige Interviews mit einem ausgeklügelten Fragekatalog geführt werden müssen, ist die Tendenz in Richtung des klinischen Beurteilungskonzepts innerhalb der Instrumente erkennbar [Dahle2006].
Das „Historical-Clinical-Risk Managment-20” (HCR-20) wurde 1995 von dem Kanadier Webster et al. [Webster1997] auf der Grundlage eines nur 75 Personen umfassenden Datensatz erarbeitet, entwickelte sich aber nichtsdestotrotz bis heute zu einem der „international bekanntesten Prognoseinstrumente” [Doebele2013]. Während dieses Tool zwar auf 10 historische, nicht veränderbare Eigenschaften des Beurteilten zurückgreift, sind die restlichen 10 sogenannte Risikovariablen, die sich einer klinischen Beurteilung ähnlich aus dem persönlichen Umfeld und Verhalten der Person ergeben. Das Interesse der deutschen Justiz an solchen aktuarischen Prognoseinstrumenten wird deutlich an der zeitnahen Übersetzung ins Deutsche im Jahre 1998 [Mueller-Isberner1998].

Instrumente der vierten Generation

Instrumente der vierten Generation gehören zur letzten Stufe und stellen somit den aktuellsten Stand der Kriminalprognostik dar. Sie sehen ein breites Band an Einsatzmöglichkeiten für verschiedenste Prognosebereiche vor. Zum einen fließen immer mehr variable Aspekte in den Beurteilungsprozess ein, zum anderen beschränken sich die Tools nicht mehr nur auf Risikoprognosen von Verhaltensweisen, sondern bieten Empfehlungen für Therapiepläne und Therapieplatzvergabe an und können sogar Aussagen darüber machen, ob ein Straftäter vor Gericht erscheinen wird oder nicht (vgl. z.B. [Northpointe2012]).
Eine Firma, die aktuell ein weitverbreitetes Vorhersageinstrument der vierten Generation entwickelt hat, ist die Firma Northpointe Inc. aus den USA. Sie hat 1998 begonnen, das COMPAS Assessment Tool (Correctional Offender Management Profiling for Alternative Sanctions) zu entwickeln, welches als eins der besten Systeme seiner Art gilt [Andrews2006, S.8].
Wie bei allen Instrumenten der vierten Generation stellt die geringe Transparenz der Algorithmen und die daraus resultierende fehlende Einsicht in den Bewertungsprozess auch beim COMPAS Assessment Tool ein großes Problem dar. Mögliche Überprüfungsstrategien wären sogenannte ‚Blackbox’-Analysen, die eigentlich aus der Softwareentwicklung stammen (vgl. [Beizer1995]). Hierbei wird ohne Kenntnisse über die innere Funktionsweise der Algorithmen versucht, die tatsächlichen Ergebnisse mit denen zu überprüfen, die erwartet werden würden.
Eine 2016 von ProPublica, einer durch Spenden finanzierte US-Rechercheorganisation, vorgelegte Studie wies für das COMPAS Assessment Tool eine dramatische Ungleichbehandlung von Schwarzen und Weißen nach [Angwin2016]. Die Antwort aus dem Hause Northpointe [Dieterich2016] begründet die festgestellten Ergebnisse mit der Nutzung eines anderen Fairnesskriteriums und zeigt so den sehr weiten Modellierungsrahmen auf, dem solche Instrumente unterliegen.
Deshalb ist es wichtig, den abschließenden Bewertungsprozess dieser Algorithmen zu beleuchten, um einschätzen zu können, ob und wann ein solches ADM zur Beurteilung von Menschen, und dazu in einem für die Betroffenen essenziellen Bereich wie in der Justiz, eingesetzt werden sollte.
Im folgenden Abschnitt wird daher der historische Werdegang der betrachtet, die im Allgemeinen als Bewertungsmaßstab solcher Klassifikatoren gilt.

3.3 State of the Art — Wo und wie wird die verwendet

Eine der ersten Anwendungen der als Evaluationsmöglichkeit von binären Entscheidungen geht auf die Signalentdeckungstheorie von David M. Green und John A. Swets [Swets1964] zurück. Eine Ursache für den Beginn dieser Forschungen war der fatale Flugzeugangriff auf Pearl Harbor im Jahre 1941, bei dem sowohl auf maschineller als auch menschlicher Ebene grobe Fehlinterpretationen über das Vorhandensein von feindlichem Funkverkehr zu einer der größten amerikanischen Militärkatastrophen des 20. Jahrhunderts geführt haben  [Wohlstetter1962, McDermott2016]. Um diese Problemstellung wissenschaftlich zu fassen, hat Swets die Signalentdeckungstheorie auf Basis folgender Definition formuliert:

„A diagnostic system looks for a perticular ‚signal’, however defined, and attempts to ignore or reject other events, which are called ‚noise’”111 Ein Diagnosesystem sucht nach einem spezifischen ‚Signal’, das irgendwie definiert ist und versucht andere Ereignisse zu ignorieren oder auszusortieren. Diese werden als ‚Störgeräusch’ bezeichnet.[Swets1988].

In ihrem Buch ‚Signal Detection Theory and Psychophysics’ [Swets1966] aus dem Jahr 1966 entwickelten Green und Swets unterschiedliche Experimente rund um die Detektion von Signalen in höchst verrauschten (Audio-)Daten. Zusätzlich beschäftigten sie sich mit Evaluationsmöglichkeiten dieser Problemstellung für Mensch und Maschine. Eines dieser Experimente stellt Probanden vor die Frage, in welchem von zwei betrachteten Zeiträumen ein Stimulus auftaucht. Da hierbei eine binäre Entscheidung forciert wird, sprechen die Autoren von einer ‚two-alternative forced choice’ (2AFC) [Swets1966, S.44ff], welche sie mit der vorgestellten ROC evaluieren.
Die graphische Auswertung, wie in Kapitel 2.6 beschrieben, geht jedoch bereits auf einen Techreport aus dem Jahre 1954 [Peterson1954, S.176] zurück.

Die psychologisch-statistische Nutzungshistorie der wurde 1973 von Swets [Swets1973] umfassend ausgearbeitet, weshalb an dieser Stelle nur kurz das Themengebiet des ‚operant conditioning222 Instrumentelle und operante Konditionierung [Nevin1969] genannt wird, bei welchem durch positives Feedback eine von zwei möglichen Handlungsoptionen erlernt werden soll. Die Anzahl an korrekten Entscheidungen ist hier das übliche Maß für den Lernstatus des Probanden. Da diese Entscheidungsart binärer Natur ist (korrektes Verhalten falsches Verhalten), mündet die Evaluation in dieselben statistischen Kriterien und zieht die zu Rate.

Den zuweilen sehr erfolgreichen Transfer dieses Gütekriteriums in verschiedene Forschungsbereiche wies Swets in seinem Science-Artikel „Measuring the Accuracy of Diagnostic Systems”[Swets1988] im Juni 1988 nach. Vereinzelte Nutzung konnte im Materialtest und in der Forschung um polygraphe Lügendetektoren festgestellt werden, auch in der Wettervorhersage und dem in Kapitel 2.4 vorgestellten Information Retrieval hatte sich die als bevorzugtes Gütekriterium durchgesetzt. In den 90ern wurde von Beck und Shultz aufgezeigt, dass sich die Nutzung der ebenso in der Medizin etabliert hat und dort einen hohen Stellenwert bei Wirksamkeitsnachweisen und Überprüfung der Effektivität verschiedenster Medikamente einnimmt [Beck1986].
Dennoch existieren in diesem Forschungsfeld auch kritische Ansichten, die sich unter anderem mit der Validität von Prognose und deren Bewertung beschäftigen [Leushuis2009]. Ansätze bezüglich der Anwendbarkeit der für unbalancierte Klassengrößen wurden zwar mit dem Argument, dass die AUC, selbst wenn die Klassengröße nicht bekannt ist, ein gutes Bewertungskriterium eines Entscheiders [Provost1998, Bradley1997] darstellt, vermeintlich beantwortet, jedoch zeigen die im Folgenden aufgezeigten Ergebnisse (vgl. Kapitel 5.2) auf, dass (aktuellen) binäre Klassifikatoren vor allem in stark unbalancierten Klassen trotz hoher AUC eine schlechte Klassifikation ermöglicht wird. Hier fällt es dem Klassifikator letztendlich sehr schwer, die Scoring-Funktion sowie auch das so zu wählen, dass die Sensitivität ausreichend hoch ist, die Falsch-Positiv-Rate jedoch verträglich gering ausfällt.
Bei der Nutzung der AUC als Gütekriterium gibt es je nach Feld unterschiedliche Schwellwerte, ab denen eine Klassifizierung als angemessen anerkannt wird. In der Medizin folgt man so folgender Interpretation der :

„A model is considered to have poor performance if the AUC lies between 0.50 and 0.70. An AUC between 0.70 and 0.80 represents fair performance, and an AUC between 0.80 and 0.90 represents good performance333 Einem Modell wird eine schlechte Performance zugesprochen, wenn die AUC zwischen 0.50 und 0.70 liegt. Eine AUC zwischen 0.70 und 0.80 repräsentiert eine faire Performance, eine zwischen 0.80 und 0.90 repräsentiert eine gute Performance [Leushuis2009].

Ab einer AUC von 0.80 wird von einer guten Performance, d. h. einem guten Klassifikationsergebnis gesprochen, was im Hinblick auf das Anwendungsgebiet ’Mensch’ in der Humanmedizin als wichtiger Eckpunkt zu erfassen ist, denn in Bezug auf Rückfälligkeitsvorhersagen werden Algorithmen bereits mit einer deutlich niedrigeren AUC akzeptiert:

„The lower half of acceptable AUC value ranges (0.65 to 0.75) reported in other criminal justice risk-classification studies.”444 Die untere Hälfte des akzeptierten AUC-Wertebereichs (0.65 bis 0.75), wie es in anderen Strafjustiz-Risikoklassifikatoren-Studien berichtet wird.  [Lansing2012, S.22]

„In most of the studies, the area under the curve () ranged from .70 to .80 […], which reflects a satisfactory to good prognostic accuracy”555 In den meisten Studien bewegt sich die im Bereich 0.70 bis 0.80, was eine zufriedenstellende bis gute Genauigkeit der Prognose widerspiegelt. [Endrass2008]

Bereits 1977 wurden die ersten Rückfälligkeitsvorhersage-Statistiken mit einer bewertet [Fergusson1977] und sie wird bis heute als wichtigste Kennzahl zur Bewertung dieser Klassifikatoren herangezogen, was in Kapitel 5.1 näher betrachtet wird. Es ist somit wichtig, den Grund für die Etablierung dieses Werkzeugs in durch maschinelles Lernen erarbeitete Analysetools zu verstehen.
Es kann nicht nachvollzogen werden, warum unterschiedliche Schwellenwerte in unterschiedlichen Disziplinen Anwendung finden und warum gerade bei kriminalprognostischen Instrumenten ein deutlich niedrigerer Wert als Garant für eine gute Klassifikation angesehen wird.
Im Jahre 1997 hat Andrew E. Bradle mit seinem Artikel „The use of the area under the ROC curve in the evaluation of machine learning algorithms” [Bradley1997] in den verschiedenen Feldern des maschinellen Lernens die Möglichkeiten und Grenzen der statistisch austariert. Er kommt zu dem Schluss, dass gerade in Bereichen, in denen häufig verschiedenartige Klassifikatoren verglichen werden müssen, bekannte statistische Kennziffern keine valide Vergleichbarkeit schaffen. Er führt zum Beispiel an, dass das häufig angegebene Tupel aus Sensitivität und Spezifität für die Evaluation bei maschinellem Lernen keine Indikation bietet, wie sich ein veränderter Schwellenwert auf die Klassifizierung auswirkt [Bradley1997, S.2] und somit als Optimierungskriterien für das maschinelle Lernen nicht nutzbar sind. Im angesprochenen Artikel bestätigt er am Beispiel von sechs Anwendungsgebieten aus dem maschinellem Lernen666

„Multiscale Classifier, Perceptron, Multi-layer Perceptron, k-Nearest Neighbours, and a Quadratic Discriminant Function” 

[Bradley1997] folgende Eigenschaften für die :

  1. Sie bietet die Möglichkeit, die Sensitivität in Bezug auf eine ANOVA (vgl. [Walpole1993, S.391]) zu steigern.

  2. Sie ist unabhängig vom gewählten .

  3. Sie zeigt sich invariant zu a priori festgelegten Klassengrößen.

  4. Sie eignet sich als Indikator, wie gut die zwei Klassen getrennt werden konnten.

  5. Sie lässt zufällige Verteilungen oder Zuordnungen zu nur einer der beiden Klassen gut erkennen.

Auch wenn einige dieser Punkte bereits 1995 von Marnie E. Rice and Grant T. Harris thematisiert wurden [Rice1995, S.738], stellt Bradley im Hinblick auf lernende Algorithmen fest:

„The […] appears to be one of the best ways to evaluate a classifier’s performance on a data set when a ”single number” evaluation is required”777 Die scheint einer der besten Möglichkeiten zu sein, die Performance einer Klassifizierung zu evaluieren, wenn nur eine einzelne Maßzahl gefordert ist.[Bradley1997]

Dieser Fokus auf eine Kennzahl mag zwar für die Evaluation von Algorithmen des maschinellen Lernens benötigt werden um themen- und anwendungsübergreifende Vergleichbarkeit zu schaffen, jedoch wiesen Rice und Harris gerade im Spezialfall der Vorhersage von Gewalttaten auf den Umstand hin, dass viele Studien mit sehr wenigen Datenpunkten versuchten, die ROC-Kurve zu approximieren888 „ROC methods cannot make up for data that have not been gathered. Most studies of the prediction of violence yield only one or two ROC data points. Reliable calculation of ROC effect size is impossible with so few points without making untenable parametric assumptions.”[Rice1995, S.738] , wodurch dem Maßstab die statistische Grundlage völlig entzogen wäre.
Zusätzlich steht dieses spezielle Forschungsfeld, wie bereits in der Einleitung erläutert, vor dem Problem der einseitigen Evaluation, denn schon in richterlichen Entscheidungen konnte kaum ein Straftäter, welcher für gefährlich gehalten wurde und dementsprechend im Gefängnis verblieb, seine potenzielle Unschuld beweisen.
Es ist also bedenklich, dass sich der als meist genutztes Bewertungskriterium für Risiko-Klassifikatoren [Lansing2012] herauskristallisiert und in der Betrachtung der Rückfälligkeit von Straftätern eine solch zentrale Rolle einnimmt:

„The best measure for determining how accurately a score predicts an event like recidivism is a statistic called the area under the receiver operating characteristic ([ROC] ).” 999Das beste Maß zur Feststellung, wie gut ein Ereignis durch eine Maßzahl vorhergesagt werden kann, wie zum Beispiel die Rückfälligkeit, ist die .[Barnoski2007]

Selbst wenn ein Klassifikator eine von 1.00 erreicht, könnte er jedem Rückfälligen eine Rückfallswahrscheinlichkeit von 10 % und jedem nicht Rückfälligen eine von 9% prognostizieren. Obwohl laut diese Klassifizierung eine perfekte Trennschärfe aufweist, ließe sich einerseits sehr schwer zwischen den beiden Klassen separieren, andererseits ist eine solch niedrige Rückfallswahrscheinlichkeit in keiner Art hilfreich, wenn die Basisrate höher liegt als die Prognose.
Diese Diskrepanz würde sich zwar auch bei einer Nutzung des widerspiegeln, jedoch bildet dieser, wie im folgenden Kapitel erläutert wird, den generellen Entscheidungsprozess eines Richters deutlich besser ab. Insofern ist die anschließende Betrachtung der Abweichung dieser beiden Maße von großer Relevanz, zumal aktuell Firmen lediglich eine hohe  [Northpointe2012] angeben, um ihre vermeintlich guten Klassifikatoren zu bewerben.

4.1 Symmetriebetrachtung

Da eine sehr schlechte binäre Klassifizierung durch einfaches ‚Umlabeln’ der beiden Klassen111 in umbenennen und vice versa in eine gute bis sehr gute umgewandelt werden kann, ist es für die folgende Korrelationsbetrachtung wichtig, die beiden Qualitätsmaße bezüglich ihres Symmetrieverhaltens und des Austauschens der Klassennamen zu betrachten. Die Ergebnisse der Scoringfunktion des Klassifikators werden hierfür invers interpretiert, denn eine ige Wahrscheinlichkeit zu zu gehören, bedeutet bei einem binären Klassifikator gleichzeitig eine ige () Wahrscheinlichkeit zu zu gehören. Ob hierfür die Scoringfunktion oder die Sortierfunktion angepasst wird, ist irrelevant. Es ergibt sich also für vorheriges Beispiel (siehe Abbildung 4.1) eine invers sortierte Liste, wie in Abbildung 4.2 zu erkennen ist.

Abbildung 4.2: ”Umgekehrte” Klassifizierung, diese entspricht einem -Klassifikator

4.1.1 Symmetriebetrachtung der

Nach Definition (siehe Kapitel 2.6) normalisiert die die Anzahl korrekt sortierter Paare [zwischen und Elementen] über die Summe aller Vergleiche. Im Folgenden wird von gesprochen, wenn sie sich auf einen -Klassifikator bezieht, also zwei Elemente dann korrekt sortiert sind, wenn die Scoringfunktion f dem Element eine höhere Zugehörigkeitswahrscheinlichkeit zu zu gehören, gegeben hat als dem Element. Die entsprechende Sortierfunktion würde dieses Element folglich weiter nach vorne sortieren. Analoges gilt für die bei einer Bewertung eines -Klassifikators, welcher nach oben beschriebener Konstruktion entstanden ist. Generell wird also eine vom Klassifikator stammende Sortierung bewertet. Des Weiteren wird mit / die absolute Anzahl an korrekt sortierten Paaren des jeweiligen Klassifikators bezeichnet; / sind die jeweiligen Sortierfunktionen.
Der für Abbildung 4.1 setzt sich im genannten Beispiel wie folgt zusammen:

Bei der Berechnung von fallen bei der Betrachtung eines Paares folgende Eigenschaften auf (vgl. Abbildung 4.3):

  • Die Sortierung aller Paare wird umgekehrt, was nach Konstruktion aus der umgekehrten Sortierfunktion oder angepassten Scoringfunktion resultiert.

  • Der erfasst exakt alle Paare, die vor der Anpassung vom erfasst werden. Falls damals galt, so gilt nach der Anpassung , womit stets gilt.

Abbildung 4.3: AUC: Betrachtung eines Paares bei einer Sortierung eines -Klassifikator (oben) und einer Sortierung welche aus einem -Klassifikator entspringt (unten)

Sowohl für den als auch für den sind die Größen der betrachteten zwei Klassen identisch. Somit wird, dem Kommutativgesetz der Multiplikation folgend, für die Anzahl aller Möglichkeiten von Paaren derselbe Wert herausgezogen222 . Da sowohl Zähler als auch Nenner identisch sind, verändert sich der AUC für das beschriebene Symmetrieverhalten nicht und es gilt stets:

4.1.2 Symmetriebetrachtung des

Wie in Kapitel 2.7 beschrieben, evaluiert der einen binären -Klassifikator über die Anzahl der Elemente in den ersten Elementen. Wobei (siehe Abbildung 4.4) gewählt wird, weshalb im Folgenden von gesprochen wird und die 1 im Index lediglich der Unterscheidung zum für den konstruierten Klassifikator dient. In Abbildung 4.4 wird die Anzahl der Elemente im grau hinterlegten Bereich herangezogen (im Weiteren mit bezeichnet), um den zu bestimmen, und es ergibt sich folgender Wert:

Abbildung 4.4: Visualisierung einer durch einen -Klassifikators sortierten Ground-Truth Menge zur Veranschaulichung der Berechnung des

Der orientiert sich nach Definition an der Größe der zweiten Klasse , welche groß ist. Im Gegensatz zur zuvor betrachteten verändert sich der deutlich bei der Anwendung der in Kapitel 4.1 vorgestellten Symmetrie-Betrachtung. Der Zähler, also , ist zwar abhängig von , aber nicht gleich. Da durch die reverse Sortierung des -Klassifikators für die Berechnung der Elemente exakt die letzten Elemente der Sortierung des -Klassifikators genutzt werden, lässt sich dieser Wert bereits auf der Sortierung des -Klassifikators berechnen.

Offensichtlich gilt (I), da es die Anzahl aller Elemente in den ersten Elementen aufsummiert. Durch das Subtrahieren von erhalten wir in II die Anzahl aller in den ersten Elementen. Da exakt diese Anzahl an Elementen offensichtlich nicht in den letzten Elementen enthalten sein können, ergibt sich im Zähler (III) durch das Subtrahieren von allen Elementen die Anzahl an Elementen in den letzten Elementen, was nach Definition entspricht.

Da der nur noch durch die Größe der zweiten Klasse normalisiert werden muss (), um den zu erhalten, ist gezeigt, dass der in den für festes überführbar aber nicht gleicht ist, bzw. lediglich für den Fall .

Abbildung 4.5:

Für das Beispiel in Abbildung 4.5 ergibt sich also:

Durch einfache Termumformung lässt sich die oben aufgestellt Formel in

überführen, und es ist ersichtlich, dass sich der für feste Klassengrößen bei einem Perspektivenwechsel, wie eingangs erläutert (vgl. Kapitel 4.1), direkt berechnen lässt.

4.2 Extremwertbetrachtung für die und den

Der beruht auf einer festen Aufteilung der sortierten Liste in zwei Teilbereiche – die AUC dagegen auf der Anzahl korrekt sortierter Paare. Um festzustellen, wie weit die AUC mit dem korreliert, ist es wichtig festzustellen, wie hoch oder niedrig die AUC werden kann, wenn man einen -Klassifikator konstruiert, der einen bestimmten -Wert erreicht. Selbiges gilt natürlich auch für den bei fixierter AUC. Im Folgenden bezeichne ich die ersten Elemente der aus dem -Klassifikator entspringenden Sortierung als Abschnitt A und die letzten Elemente als Abschnitt B (s. Abb. 4.6).
Die beinhaltet dann sämtliche Vergleiche zwischen und Elementen im Bereich A, für die die Scoring-Funktion des zugrunde liegenden Klassifikators dem Element einen höheren Wert zugewiesen hat als dem Element. Analoges gilt für die im Bereich B. Die dagegen sammelt sämtliche paarweisen Vergleiche zwischen und Elementen aus unterschiedlichen Bereichen, die das oben beschriebene Kriterium erfüllen.

4.2.1 Betrachtung der Abhängigkeit der vom

Um die maximal sowie minimal mögliche AUC zu bestimmen, werden zunächst notwendige Beobachtungen notiert. Da im späteren Verlauf die Fallunterscheidung bezüglich der Klassengrößen, also ob die betrachtete größer oder kleiner als ist, zu deutlich komplexeren Termen führen würde, wird in Beobachtung 1 gezeigt, wie sich die Fälle ineinander überführen lassen. Zudem ist es wichtig festzustellen, dass die absolute Anzahl korrekt sortierter Paare für eine Aufteilung, wie in Abbildung 4.6, in drei Terme zerfällt:

  1. Die Anzahl korrekt sortierter Paare innerhalb von A.

  2. Die Anzahl korrekt sortierter Paare innerhalb von B.

  3. Die Anzahl korrekt sortierter Paare zwischen A und B.

Abbildung 4.6: Visualisierung zur Aufteilbarkeit bei der Berechnung

Deshalb ist diese Eigenschaft in Beobachtung 2 festgehalten. Weiterhin kann man feststellen, dass sich der nicht verändert, wenn die Elemente innerhalb von Abschnitt A oder B in ihrer Reihenfolge permutiert werden. Daher können dort jeweilig den AUC maximierende/minimierende Sortierungen vorgenommen werden, ohne den eines Klassifikators zu beeinflussen, da hier lediglich dieselbe Anzahl von Elementen beider Klassen in Abschnitten A und B enthalten sein müssen. Diese Sortierungen sind in Beobachtung 3 sowie 4 erläutert. In den folgenden Abschnitten wird dann jeweils betrachtet, wie man für den festen eines Klassifikators die AUC minimiert oder maximiert.

Beobachtung 1

: Für das Klassenverhältnis kann bei der / Betrachtung stets angenommen werden.

Bei der Betrachtung der Klassenverhältnisse treten folgende zwei Fälle auf:

Wenn nun der 1. Fall eintritt, kann der Klassifikator durch einen nach Kapitel 4.1 konstruierten Klassifikator ersetzt werden, bei dem durch die Vertauschung der Klassen und deren Größen Fall 2 () eintritt. Es wurde bereits gezeigt, dass sich beim Vertauschen der betrachteten Klassen:

  • der nicht ändert (vgl. Kapitel 4.1.1),

  • der durch die Formel aus dem berechnen lässt (vgl. Kapitel 4.1.2),

weshalb der einfach gleich bleibt und der entsprechend umgerechnet werden kann. Unter Beachtung der unter Umständen notwendigen Umstrukturierung bezüglich der Klassen und des kann also bei der Betrachtung der oder des stets angenommen werden.

Beobachtung 2

: Die Berechnung der lässt sich in Abschnitte (siehe Abbildung 4.6) untergliedern.

Unterteilt man die gegebene Liste in beliebige, aber konsekutive Abschnitte A und B, wie in Abbildung 4.6 skizziert, so gilt für den :

Beweis:
Der alternativen Definition der in Kapitel 2.6 folgend, können zur Berechnung der sämtliche Vergleiche der Scorings aller und Elemente herangezogen werden. Da die oben angesprochene Unterteilung, die in der Mengenlehre eine Partition widerspiegelt, die gesamte Liste in 2 disjunkte, nicht leere Teillisten unterteilt, befinden sich alle Vergleichspartner für alle Elemente in Abschnitt A entweder in Abschnitt A und werden von der erfasst oder in Abschnitt B und werden von der erfasst. Selbiges gilt vice versa für alle in B, womit mathematisch alle Vergleiche genau einmal erfasst werden und alle nötigen Vergleiche analog zur Definition des korrekt behandelt werden.

Abbildung 4.7: Sortierung von 3 () Elementen (grün) und 4 () Elementen (rot), die den maximiert.
Beobachtung 3

: Maximale
Die ist für eine Sortierung maximal, wenn alle Elemente eine höhere Wahrscheinlichkeit erhalten haben zu zu gehören als alle Elemente. Somit befinden sich alle (!) Elemente vor den Elementen und die Sortierung des Klassifikators kann nur wie in Abbildung 4.7 aussehen:

Beobachtung 4

: Minimale
Die ist für eine Sortierung minimal, in der alle Elemente eine niedrigere Wahrscheinlichkeit erhalten haben zu zu gehören als alle Elemente. Somit befinden sich alle (!) Elemente hinter den Elementen und die Sortierung des Klassifikators kann nur wie in Abbildung 4.8 aussehen:

Abbildung 4.8: Klassifikation von 3 () Elementen (grün) und 4 () Elementen (rot), die den minimiert.
Maximale für festen

Auf Grundlage der gezeigten Beobachtungen lässt sich die aus dem binären Klassifikator entspringende Sortierung in zwei Abschnitte A und B mit und , wie in Abbildung 4.6 visualisiert, untergliedern. Da der zwar die Anzahl der Elemente in den beiden Abschnitten fixiert, jedoch eine veränderte Anordnung innerhalb dieser keinen Einfluss auf ihn hat, können unter Zuhilfenahme der Teilbarkeitsbeobachtung 2 diese beiden Bereiche und somit jeweils die internen #AUC ( und ) für eine hohe AUC optimiert werden:

Nach der Definition des (vgl. Kapitel 2.7) befinden sich, wenn dieser annimmt, genau Elemente in den ersten Elementen, woraus sich die in Abbildung 4.6 aufgeführten Werte ableiten lassen.

Da innerhalb der Bereiche A und B zur AUC-Maximierung eine optimale Sortierung (vgl. Beobachtung 3) vorliegen sollte, ergeben sich unter Berücksichtigung der Anzahl von und in den jeweiligen Bereichen (vgl. Abbildung 4.9) folgende Werte:

Abbildung 4.9: Sortierung mit maximaler AUC für gegebenes k und . Grüne Abschnitte symbolisieren die Anzahl der -Elemente, rote die der -Elemente.

Für die sind nach Konstruktion lediglich alle Elemente aus Bereich A zu allen in Bereich B korrekt sortiert:

Setzt man nun diese Werte in die oben genannte Formel ein, lässt sich diese durch Termumformung wie folgt reduzieren:

Da angenommen werden kann, liegt die im Intervall . In Abbildung 4.10 wird diese für verschiedene Klassenverhältnisse in blau abgetragen und die Abweichung von der Identitätslinie (schwarz) ist deutlich zu erkennen. Eine maximal mögliche AUC ist somit gefunden. Da jedoch auch nach unten eine starke Abweichung möglich sein kann, wird im folgenden Abschnitt überprüft, welche Untergrenze für die AUC durch einen Klassifikator erreicht werden kann, der dennoch den festgesetzten aufweist.

ist
ist
ist
ist
Abbildung 4.10: Maximale (blau) für fixierten bei verschiedenen Klassengrößenverhältnissen ()
Minimale für festen

Analog zur Berechnung der maximalen in Abschnitt 4.2.1 wird auch hier eine Aufteilung in die Abschnitte A und B vorgenommen. Die setzt sich also über die identische Formel zusammen (vgl. Beobachtung 2), wobei versucht wird, den Einfluss der Teilbereiche auf die AUC jeweils zu minimieren:

Abbildung 4.11: Sortierung mit minimaler AUC für gegebenes k und . Grüne Abschnitte symbolisieren die Anzahl der -Elemente, rote die der -Elemente.

Für die bleiben nach Konstruktion alle Elemente aus Bereich A zu allen in Bereich B korrekt sortiert, um den nicht zu verändern. Lediglich die Bereiche A und B sehen intern anders aus. Um die zu erhalten, muss für diese vom Klassifikator jeweils eine minimierende Sortierung, wie in Beobachtung 4 aufgezeigt, angestrebt werden. Die Konstruktion in Abbildung 4.11 resultiert also aus dem Versuch innerhalb der Bereiche zu minimieren, weshalb dort die Anzahl an korrekt sortierten Paaren ( und ) auf 0 sinkt und lediglich die

als Term in der Formel der übrig bleibt:

Da auch hier angenommen werden kann, liegt die , wie in Abbildung 4.12 zu erkennen ist, meist deutlich unterhalb der Identitätslinie und zeigt somit auf, dass es bei gleichbleibendem , Klassifikatoren gibt, die im Hinblick auf die AUC deutlich schlechter arbeiten.
Mathematisch zu erkennen ist, dass der stets eine obere Grenze der darstellt, jedoch nicht, wie für eine perfekte Korrelation benötigt, auch als eine untere Schranke fungiert. Daher soll im folgenden Abschnitt das Zusammenspiel von maximal und minimal möglicher AUC genauer betrachtet werden.

ist
ist
ist
ist
Abbildung 4.12: Minimaler (rot) für fixierten bei verschiedenen Klassengrößenverhältnissen ().
Vergleich maximaler und minimaler für festen

Bei der Betrachtung der maximal (blau) sowie minimal (rot) möglichen AUC für festen in Abbildung 4.13 wird ihr großer Spielraum deutlich, denn es gibt Klassifikatoren, die außerhalb mancher Sonderfälle, wie zum Beispiel für , Unterschiede zwischen AUC und von bis zu 0.75 aufweisen.

Auch wenn sich mit zunehmendem Ungleichgewicht des Klassenverhältnisses () die Abweichung der von der Identitätslinie reduziert (vgl. Abbildung 4.12), überwiegt die Diskrepanz der deutlich. Es kann festgestellt werden, dass eine vollständige Korrelation ausgeschlossen werden kann, denn es existieren zumindest die zwei konstruierten Abweichungen, die für verschiedene Klassenverhältnisse berechnet und visualisiert wurden.

ist
ist
ist
ist
Abbildung 4.13: (rot) und (blau) für fixierten bei verschiedenen Klassengrößenverhältnissen

Zu beobachten ist auch, dass im Spezialfall der

ist und die Differenz zwischen und der somit genau bei liegt. Die wird in diesem Fall

und die Differenz zwischen und bei gleich großen Klassen liegt bei:

, was auch das sehr symmetrisch wirkende Schaubild in Abbildung 4.13 ( ist ) belegt.
Interessant ist es zusätzlich das Verhalten der AUC für festen und zu betrachten, denn hier nähert sich die zwar dem an, jedoch strebt die gegen 1. Daraus kann man schließen, dass für unbalancierte Klassen durch den zwar eine gute untere Schranke für die AUC gegeben ist, jedoch ein deutliches Verbesserungspotenzial existieren könnte. Deshalb soll im folgenden Kapitel überprüft werden, inwieweit bei fixierter AUC ein Spielraum für den existiert.

4.2.2 Betrachtung der Abhängigkeit des von der

Wie bereits ausführlich im Kapitel 3.3 aufgezeigt, wird die bei fast allen binären Klassifikatoren aus dem maschinellem Lernen als bevorzugtes Evaluationskriterium genutzt und dient auch in der Rückfälligkeitsvorhersage als das beste Maß zur Bestimmung, wie präzise ein Wert die Rückfälligkeit vorhersagen kann333 „The best measure for determining how accurately a score predicts an event like recidivism” [Barnoski2007, S.3]. Wenn nun aber viele dieser Klassifikatoren mit der evaluiert werden [Lansing2012] und, wie zuvor gezeigt, das Entscheidungsmodell eines Richters nicht durch die abgebildet wird, ist es wichtig zu verstehen, welchen Spielraum der bei fixierter hat.
In diesem Fall wird angenommen und wie zuvor mit die Anzahl an korrekt sortierten Paare notiert. Zur Bestimmung der Maxima/Minima des , die ein Klassifikator annehmen kann, wenn er zusätzlich eine AUC von b erreichen soll, entstehen, ähnlich der Betrachtung zwei Fälle. Unter Zuhilfenahme der Beobachtung 1 lassen sich diese beiden auf