#dataanalytics#noise and outlier#processmining

Anomalien als Time Warp für Prozesse nutzen – über den erfolgreichen Umgang mit Noise und Outliern im Process Mining

vonKay Kaczmarek

22. Juli 2022Data & Analytics

Der Wunsch, schneller voranzukommen ist nicht nur Bestandteil vieler Science-Fiction Weltraumreisen, sondern auch eine der großen Zielsetzungen beim Process Mining. Diese noch junge Technologie hat über die vergangenen Jahre zunehmend an Bedeutung gewonnen. Ein zentraler Bestandteil hierbei ist das Event Log. Unternehmen sind mit Hilfe von Process Mining in der Lage die eigenen Prozesse zu analysieren, zu optimieren und zu beschleunigen. So sparen sie letztlich Kosten und Zeit und verbessern vielleicht auch die Kundenerfahrung. Der Löwenanteil der Ressourcen eines Process Mining Projektes sollte in der Regel für Aufbereitung, Analyse und Auswertung der Daten eingeplant werden – nur ein sehr kleiner Teil sind zum Schluss die angestrebten Optimierungen.

Warum ist das so?

Komplexe und lange Prozesse liefern eine große Menge an Informationen, die analysiert werden müssen. Hierbei spielt die Datenqualität eine entscheidende Rolle. Folgende Fragen gilt es, unteranderem zu beantworten:

Wie detailliert werden Daten aufgezeichnet?
Wie vollständig werden die Daten aufgezeichnet?
Fehlen Daten?
Liegen die benötigten Daten an verschiedenen Stellen im System und müssen erst noch zusammengebracht werden?

Je höher die Datenqualität und je weniger einzelne Daten fehlen, desto besser kann ein Prozess analysiert werden.

Das Process Mining Manifesto teilt den Reifegrad eines Event Logs in fünf verschiedene Level ein.

Diese reichen von Level 1 – sehr schlecht Datenqualität, Aktivitäten fehlen, werden manuell aufgezeichnet und entsprechen nicht der Realität – bis zu Level 5: exzellente Datenqualität, Aktivitäten sind wohl definiert, werden vollständig und automatisch aufgezeichnet und Event Logs entsprechen den geltenden Sicherheits- und Datenschutzrichtlinien.

In der Regel sind heutige Systeme in der Lage, Logs des zweiten und dritten Reifegrades zu erzeugen. Diese habenin der Regel noch eine Vielzahl an Schwachstellen, hierzu zählen unter anderem auch Noise und Outlier.

Leider existiert keine trennscharfe Unterscheidung dieser beiden Qualitätsmängel.

In der Statistik werden fehlerhafte oder ungewollte Daten als Noise bezeichnet, diese Definition wurde so mehr oder weniger im Process Mining übernommen. Als Outlier werden in der Regel Daten eines Datensatzes bezeichnet, die außerhalb der eigentlich zu erwartenden Reichweite der Daten liegen. Dies kann gewollt sein und so tatsächliche Daten im Datensatz repräsentieren.

Es ist aber auch möglich, dass die Outlier so nicht erwartet wurden – in diesem Fall haben wir es dann möglicherweise mit Noise zu tun.

Outlier können also Noise sein Noise aber keine Outlier. Klar soweit? Diese Unterscheidung ist selten sofort ersichtlich und muss mit Hilfe von Domainexperten analysiert werden.

Obwohl Outlier in der Regel nur schwer zu erkennen sind, ist es dennoch möglich, diese in drei Kategorien einzuteilen:

Die globalen Outlier:

Sie lassen sich am einfachsten identifizieren: Man erkennt sie in einem Datensatz, weil ein Datum signifikant von den anderen Daten abweicht.

In diesem Fall kann aber dennoch nicht direkt angenommen werden, dass es sich hierbei um fehlerhafte Daten handelt.

Das Outlier Kollektiv:

Hierbei handelt es sich um eine Gruppe einzelner Datenpunkte, die jeder für sich genommen keine Abweichung von der Datengesamtheit darstellt. Der Outlier entsteht durch die Ansammlung vieler Daten am selben Punkt.

Der kontextbezogene Outlier:

Hiermit wird ein Datum beschrieben, dass in Betrachtung seines Kontextes möglicherweise ein Outlier sein kann.

Um dies verständlich zu machen, ein Beispiel: Das Datum „es schneit“ würden wir im Kontext „Winter“ als ein normales und erwartetes Verhalten betrachten. Im Kontext „Sommer“ wäre das Datum unerwartet und sehr wahrscheinlich fehlerhaft.

Noise und Outlier können sich auf viele Arten und Weisen zeigen und stellen jedes Process Mining Projekt vor dieselbe Herausforderung:

Wie findet man sie?
Handelt es sich tatsächlich um Fehler?
Wie können sie behoben oder entfernt werden?

Im Lebenszyklus einen Process Mining Projekts ist die Behandlung von Noise und Outlier nur ein Teil der vollständigen Prozess Analyse. Sie leistet dennoch einen wichtigen Beitrag, um die Qualität eines Modells zu verbessern, was langfristig zu einer Optimierung des Prozesses führt.

Im Ergebnis läuft der Prozess schneller und besser – vergleichbar mit dem Timewarp eines Raumschiffes. Mögliche Resultate: Erhebliche Kosteneinsparungen, verbesserte Benutzerfreundlichkeit oder auch höhere Profitabilität.

Kay Kaczmarek

Als studierter Wirtschaftsinformatiker war Kay mehrere Jahre in der Forschung im Bereich Process Mining tätig. Dort war er überwiegend im Bereich Noise und Outlier tätig. Neben der Forschung verfügt er auch über mehrere Jahre, durch verschiedenste Projekte, an praktischer Erfahrung im Bereich Process Mining. Nun ist er seit Januar 2022 als Consultant im Bereich Process Mining und RPA bei der PPI AG tätig.

Hier bekommst Du noch mehr

#dvg#dwh#datawarehouse#softwareentwicklung

Anomalien als Time Warp für Prozesse nutzen – über den erfolgreichen Umgang mit Noise und Outliern im Process Mining

Warum ist das so?

Kay Kaczmarek

Hier bekommst Du noch mehr

Wie viel Zeit spare ich im Data Warehouse mit Automatisierung?

DWH-Änderungen schnell und risikolos produktiv setzen

Multienvironmentumgebungen im DataWareHouse