Unsupervised Learning arbeitet mit ungelabelten Daten, um Strukturen, Muster oder Gruppen zu identifizieren.
a) Clustering (Gruppierung)
Ziel: Gruppierung ähnlicher Datenpunkte auf Basis ihrer Merkmale.
• Algorithmen:
- K-Means Clustering: Teilt Daten in eine vorgegebene Anzahl von Gruppen, basierend auf den Zentroiden.
- Mean Shift: Findet Cluster durch iteratives Verschieben der Clusterzentren.
- DBSCAN: Dichtebasierter Algorithmus, der Cluster unterschiedlicher Größe und Form erkennen kann.
- Gaussian Mixture: Modelliert die Daten als Mischung mehrerer Normalverteilungen.
- Spectral Clustering: Nutzt Graph-basierte Ansätze, um Cluster in nicht-linearen Daten zu identifizieren.
- BIRCH: Effizientes hierarchisches Clustering für große Datensätze.
b) Dimensionality Reduction (Dimensionsreduktion)
Ziel: Reduzierung der Anzahl von Variablen, um die Daten zu vereinfachen, ohne relevante Informationen zu verlieren.
• Algorithmen:
- Principal Component Analysis (PCA): Identifiziert Hauptkomponenten, die die größte Varianz in den Daten erklären.
- Factor Analysis: Findet zugrunde liegende latente Faktoren, die die Korrelationen in den Daten erklären.
- Weitere Verfahren: t-SNE (für Visualisierungen), Autoencoder.
-