Big Data clustern mittels k-means und AHC - Anleitung
Dieses Tutorium wird Ihnen helfen, große Datensätze mithilfe des k-means-Clustering gefolgt von einem agglomerativen hierarchischen Clustering (AHC) in Excel mithilfe der Software XLSTAT zu segmentieren.
Datensatz für Cluster
Die Daten stammen vom US Census Bureau und beschreiben die Bevölkerungsveränderungen von 51 Staaten zwischen 2000 und 2001. Der erste Datensatz wurde in Raten pro 1000 Einwohner transformiert, wobei die Daten für 2001 als Schwerpunkt der Analyse dienen. Unser Ziel ist es, homogene Cluster von Staaten basierend auf den uns verfügbaren demografischen Daten zu erstellen. Dieser Datensatz ist nicht sehr groß, aber wir werden darstellen, wie Sie mit viel größeren Datensätzen umgehen.Hinweis: Wenn Sie versuchen, dieselbe Analyse wie nachstehend beschrieben zu denselben Daten durchzuführen, erhalten Sie möglicherweise Ergebnisse, die von den nachstehend aufgelisteten Ergebnissen abweichen, da die k-means-Methode von zufällig ausgewählten Clustern ausgeht. Zum Initialisieren des Startwerts gehen Sie in XLSTAT auf Optionen, auf die Registerkarte Fortgeschritten und wählen Sie die Option „Startwert Initialisierung“.
Einrichten des k-means-Clustering
Nach dem Aktivieren von XLSTAT wählen Sie den Befehl XLSTAT/Analyse der Daten/k-means-Clustering oder klicken Sie auf den entsprechenden Button der Symbolleiste Analyse der Daten (siehe unten).
Nach dem Klicken des entsprechenden Buttons erscheint das Dialogfenster k-means-Clustering.
Markieren Sie mit der Maus die Daten in dem Excel-Tabellenblatt. (Hinweis: Es gibt mehrere Möglichkeiten für die Auswahl von Daten mit XLSTAT - weitere Informationen finden Sie im Tutorium zum Markieren von Daten.) In diesem Beispiel beginnen die Daten in der ersten Zeile, deshalb ist es schneller und einfacher, den Modus „Spaltenmarkierung“ zu verwenden. Dies erklärt, warum die Buchstaben, die den Spalten entsprechen, in den Auswahlfeldern angezeigt werden (C bis H).
Die Variable Gesamtpopulation wurde nicht ausgewählt, da wir hauptsächlich an der demografischen Dynamik interessiert sind. Die letzte Spalte wurde nicht ausgewählt, da sie vollständig mit der vorangehenden Spalte korreliert ist. Die Beschriftungen der Beobachtungen wurden je nach Verfügbarkeit ausgewählt.
Wir stellen die zu erstellende Gruppenanzahl auf 25 ein. Im Fall eines viel größeren Datensatzes können Sie eine größere Anzahl verwenden.
Das ausgewählte Kriterium ist „Determinante(W)", da es das Entfernen der Skaleneffekte der Variablen ermöglicht.
In der Registerkarte Optionen haben wir die Anzahl der Wiederholungen auf 50 erhöht, um die Qualität und Stabilität der Ergebnisse zu erhöhen.
In der Registerkarte Ausgabe wählen wir nur die Zentroide, die in der AHC verwenden werden, die Ergebnisse je Klasse, da wir dadurch die Stichproben innerhalb jeder Klasse erhalten, und die Ergebnisse je Objekt aus, um die Tabelle der Stichprobe mit einer Zuordnungsvariablen zu erhalten.
Nachdem Klicken auf OK erscheinen die Ergebnisse des k-means-Clustering in einem neuen Tabellenblatt.
Agglomeratives hierarchisches Clustering der Ergebnisse des k-means-Clustering
Wir werden an der Tabelle Klassenschwerpunkte arbeiten.
Eine weitere wichtige Tabelle ist die Tabelle mit den Informationen darüber welche Staaten geclustert werden.
Nach dem Aktivieren von XLSTAT wählen Sie den Befehl XLSTAT/Analyse der Daten/Agglomeratives hierarchisches Clustering oder klicken Sie auf den entsprechenden Button der Symbolleiste „Analyse der Daten“ (siehe unten).
In der Registerkarte Allgemein müssen Sie die zu clusternden Daten auswählen. Wählen Sie die ursprünglichen Variablen aus, die die 25 Klassen in den Klassenschwerpunkten beschreiben.
Wir verwenden den Proximitätstyp: Unähnlichkeiten und den euklidischen Abstand, sowie die Ward-Methode als Agglomerationsmethode.
Wir haben den Namen der Variablen in die Auswahl eingeschlossen, deshalb markieren wir die Option Beschriftungen der Spalten und wählen die Beschriftung der Zeilen, die die Cluster-Nummer sind (1-25).
Wir verwenden die Option Gewichte der Zeilen und wählen die Spalte Summe der Gewichte derselben Tabelle Klassenschwerpunkte.
In der Registerkarte Optionen bestätigen wir, dass wir die Zeilen clustern möchten, da die Klassen sich in Zeilen befinden, aber bei dieser Art des Clustering (AHC nach k-means) müssen Sie die Intra-Klassen-Varianzen einschließen. Sie finden diese Informationen in derselben Tabelle wie zuvor: Klassenschwerpunkte, in der letzten Spalte Intra-Klasse-Varianz.
Wir können alle Ausgabe für diese Analyse auswählen.
Schließlich wählen Sie in der Registerkarte Diagramme alle Diagramme aus. Achten Sie besonders auf den Dendrogramm-Typ und wählen Sie die Option Vertikal aus.
Ergebnisse des agglomerativen hierarchischen Clustering
Sehen Sie sich in den Ergebnissen des AHC die beiden Dendrogramme an, die Ihnen die Zusammensetzung der 3 Cluster bieten. Sie können sehen, wie die 25 Cluster zu drei endgültigen Clustern zusammengefasst werden.
Sie können außerdem die Auflösung der Varianz sehen.
Sie können schließlich die im AHC erhaltene Tabelle dazu verwenden, die im k-means-Clustering erhaltene Tabelle umzukodieren, um die endgültigen Ergebnisse zu erhalten. Gehen Sie auf XLSTAT/Vorbereitung der Daten/Kodierung.
Sie müssen die Spalte Klasse aus der im k-means-Clustering erhaltenen Klassifizierungtabelle als umzukodierende Variable auswählen. Wählen Sie die Tabelle Ergebnis je Objekt aus dem AHC aus, einschließlich des Namens der Spalten als Kodierungstabelle. Dann wählen Sie die Option Beschriftung der Spalten aus.
Um die neue Spalte an die erste Tabelle anzuhängen, wählen Sie die Option „Bereich“ und die erste Zelle neben der Tabelle. Entfernen Sie die Markierung bei der Option Anzeige des Berichtskopfs, so dass nichts Anderes angezeigt wird.
Schließlich haben Sie die Ergebnisse der Klassifikation für alle Staaten erhalten.
War dieser Artikel nützlich?
- Ja
- Nein