Worum es in der Forschung geht
Datenduplikate stellen weiterhin eine gro?e Herausforderung für Business Analytics und datengetriebene Entscheidungsprozesse dar. Der Artikel führt einen neuen Denkansatz zur Duplikaterkennung ein: Anstatt sich ausschlie?lich auf Features von Daten und ?hnlichkeiten zu konzentrieren, werden Duplikate auf die zugrunde liegenden Ereignisse zurückgeführt, die sie verursachen. Darauf aufbauend entwickeln wir einen probabilistischen Ansatz, der interpretierbare, entscheidungsrelevante Duplikatswahrscheinlichkeiten liefert.
Warum das wichtig ist
Der Ansatz wurde anhand von sieben Datens?tzen aus unterschiedlichen Gesch?ftskontexten umfassend evaluiert und übertraf etablierte Methoden durchg?ngig. Fachexpertinnen und Fachexperten best?tigten die hohe praktische Relevanz und die Einsetzbarkeit der resultierenden Wahrscheinlichkeiten, beispielsweise in quantitativen Entscheidungsmodellen. Damit leistet die Studie nicht nur einen Beitrag zur Datenqualit?tsforschung, sondern unterstützt insgesamt zuverl?ssigere, KI-gestützte und perspektivisch automatisierte datenbasierte Entscheidungen in Unternehmen.
Zum vollst?ndigen Artikel
Die Ver?ffentlichung finden Sie hier:
https://misq.umn.edu/misq/article-abstract/49/4/1539/3232/Different-but-the-Same-An-Event-Driven-Approach-to (externer Link, ?ffnet neues Fenster)
Wir danken unseren Ko-Autoren Mathias Klier und Andreas Obermeier von der Universit?t Ulm herzlich für die hervorragende Zusammenarbeit sowie der DFG für die F?rderung dieses Forschungsprojekts.
What the research is about
Data duplicates continue to pose serious challenges for business analytics and data-driven decision-making. This paper introduces a new way of thinking about duplicate detection: instead of focusing solely on data features and similarities, it traces duplicates back to the events that cause them. Building on this idea, we develop a probability-based approach that provides interpretable, decision-ready duplicate probabilities.
Why it matters
The approach was rigorously tested on seven datasets across diverse business contexts, consistently outperforming established methods. Domain experts validated its practical relevance, confirming that the resulting probabilities can be seamlessly integrated into, e.g., quantitative decision processes. Beyond advancing data quality research, the study supports more reliable, AI-assisted—and ultimately automated—data-driven decision-making in organizations.
Read the full article
The publication is available here:
https://misq.umn.edu/misq/article-abstract/49/4/1539/3232/Different-but-the-Same-An-Event-Driven-Approach-to (externer Link, ?ffnet neues Fenster)
We sincerely thank our co-authors Mathias Klier and Andreas Obermeier from Ulm University for their excellent collaboration, as well as the DFG for supporting this research project.