Soft-Clustering - Von Heuristiken zu Approximationsalgorithmen
Überblick
Unter einem Clustering versteht man die Partitionierung einer Menge von Objekten in Gruppen, welche als Cluster bezeichnet werden. Die Berechnung eines guten Clusterings ist ein typisches Problem aus dem Bereich des maschinellen Lernens und des Data-Minings, das in zahlreichen Gebieten, z.B. der Datenkompression, Bild- und Mustererkennung, und der Signalverarbeitung, Anwendung findet. Eines der bekanntesten partitionierenden Clusteringprobleme ist das sogenannte K-Means Problem. In der Praxis ist es allerdings nicht immer sinnvoll jeden Datenpunkt eindeutig einem Cluster zuzuordnen. Deshalb wird bei sogenannten Soft-Clusterings jeder Datenpunkt zu einem gewissem Grad jedem der Cluster zugeordnet. Eines der bekanntesten Soft-Clustering Probleme ist das Maximum Likelihood Estimation (MLE) Problem bezüglich Mixturmodellen. Ein in der Praxis sehr beliebter Ansatz für dieses Problem ist der Expectation-Maximization (EM) Algorithmus, eine Verallgemeinerung des häufig bezüg\-lich des K-Means Problems eingesetzten Algorithmus von Lloyd. Obwohl er rege Anwendung findet, handelt es sich beim EM Algorithmus um eine Heuristik mit zwei signifikanten Schwachstellen. Zum einen gibt es für die Lösungen, die der EM Algorithmus berechnet, keinerlei Garantien. Zum anderen ist keine obere Schranke für seine Laufzeit bekannt. Das zentrale Ziel dieses Projekts ist, das MLE Problem für Mixturmodelle algorithmisch und komplexitätstheoretisch zu analysieren. Vergleicht man das MLE Problem mit dem gut analysierten K-Means Problem, so stellt man fest, dass es zwei wesentliche, strukturelle Unterschiede zwischen den beiden gibt. Die Zuordnung der Punkte in Form eines Soft-Clustering Problems, und die Kostenfunktion in Form eines Mixturmodells. Unser Ansatz besteht deshalb darin, dass wir uns dem MLE Problem aus zwei Richtungen nähern. Dazu wollen wir verschiedene Varianten "zwischen" dem K-Means und MLE Problem untersuchen. Die Idee ist, dass diese Varianten nicht beide angesprochenen strukturellen Unterschiede zum K-Means Problem aufweisen, sondern jeweils nur einen der beiden. Zu den von uns untersuchten Problemen gehören insbesondere das Fuzzy K-Means Problem und das CMLE Problem. Diese beiden Probleme sind, auch unabhängig von der Rolle die sie in diesem Projekt "zwischen" dem K-Means und dem MLE Problem einnehmen, von großem praktischen Interesse. Es gibt, analog zu Lloyd's Algorithmus und dem EM Algorithmus, Heuristiken, die in der Praxis eingesetzt werden um das Fuzzy K-Means Problem bzw. das CMLE Problem zu lösen. Unser Ziel ist die Entwicklung von Algorithmen, die diese Probleme mit beweisbarer Güte und Laufzeitschranke lösen. Darüber hinaus wollen wir die strukturellen Unterschiede zwischen diesen Problemen und dem K-Means Problem bzw. zwischen ihren optimalen Lösungen analysieren. Die dabei gewonnen Erkenntnisse wollen wir für die algorithmische und komplexitätstheoretische Untersuchung des MLE Problems nutzen.
DFG-Verfahren Sachbeihilfen
Key Facts
- Grant Number:
- 324506751
- Laufzeit:
- 01/2017 - 12/2021
- Gefördert durch:
- DFG
Detailinformationen
Ergebnisse
Im digitalen Zeitalter entstehen täglich große Datenmengen - Big Data ist allgegenwärtig. Effiziente Werkzeuge zur Analyse solcher Massen an Daten sind wichtiger denn je zuvor. Eine beliebte Technik, auch zur erstmaligen Vorverarbeitung, sind Methoden des unüberwachten Lernens. In diesem Projekt haben wir uns mit einer solchen Technik, dem Clustering, beschäftigt. Clustering besteht aus einer Vielzahl verschiedener Problemstellungen, Modellen und Algorithmen. Die grundlegende Idee ist es, Gruppen ähnlich geformter Elemente zu identifizieren und so (wenige) geeignete Repräsentanten eines großen Datensatzes zu finden. Eine beliebte Zielfunktion aus diesem Bereich ist das Fuzzy k-Means Problem. Gegenüber anderen Problemen zeichnet es sich durch eine vergleichsweise hohe Resilienz gegenüber Ausreißern im Datensatz aus. Aus mathematischer Sicht hat es eine interessante Struktur, die klassische Analysetechniken schnell an ihre Grenzen stoßen lassen. Wir haben das Problem eingehend komplexitätstheoretisch und algorithmisch untersucht. Dabei haben wir einen Algorithmus entworfen, der sich einer optimalen Lösung des Problems beliebig annähert und dies in einer Laufzeit, die unabhängig von der eingegebenen Gewichtung der Datenpunkte ist. In Kombination mit anderen, ebenfalls von uns neu entwickelten Techniken ist es uns gelungen, einen Algorithmus zu formulieren, dessen Laufzeit nah an die Laufzeit der schnellsten Algorithmen für andere beliebte Clustering Probleme heranreicht. Diese positiven, algorithmischen Ergebnisse haben wir durch eine untere Laufzeitschranke eines anderen beliebten Algorithmus für dieses Problem komplementiert. Ein anderes, ebenfalls von uns untersuchtes, Problem ist das sogenannte MLE Problem für Gaußmixturen. Hier haben wir unsere theoretische und empirische Forschung ausgebaut und weiter verbessert. (2018). Coresets for Fuzzy K-Means with Applications. In 29th International Symposium on Algorithms and Computation (ISAAC 2018). Schloss Dagstuhl - Leibniz-Zentrum fuer Informatik GmbH, Wadern/Saarbruecken, Germany Blömer, J., Brauer, S., und Bujna, K. (Siehe online unter https://doi.org/10.4230/LIPIcs.ISAAC.2018.46) (2019). Classification and approximation of geometric location problems. Dissertation, Paderborn University Brauer, S. (Siehe online unter https://nbn-resolving.org/urn:nbn:de:hbz:466:2-35745) (2019). Complexity of single-swap heuristics for metric facility location and related problems. Theoretical Computer Science, 754:88–106 Brauer, S. (Siehe online unter https://doi.org/10.1016/j.tcs.2018.04.048) (2019). How well do SEM algorithms imitate EM algorithms? A non-asymptotic analysis for mixture models. Advances in Data Analysis and Classification, 14(1):147–173 Blömer, J., Brauer, S., Bujna, K., und Kuntze, D. (Siehe online unter https://doi.org/10.1007/s11634-019-00366-7) (2020). A Complexity Theoretical Study of Fuzzy K-Means. ACM Transactions on Algorithms, 16(4):1–25 Blömer, J., Brauer, S., und Bujna, K. (Siehe online unter https://doi.org/10.1145/3409385)Projektbezogene Publikationen (Auswahl)