Latente Cluster-Klassenanalyse in Excel - Anleitung
Dieses Tutorium zeigt Ihnen, wie Sie ein latentes Klassen-Cluster-Modell in Excel mithilfe der Statistiksoftware XLSTAT ausführen.
Latente Klassen-Cluster-Modelle: Überblick
In diesem Tutorium verwenden wir 4 kategorische Indikatoren, um zu zeigen, wie wir latente Klassen-Cluster-Modelle schätzen und die resultierende Ausgabe interpretieren. Verwandte Analysen dieser Daten finden Sie in McCutcheon (1987), Magidson and Vermunt (2001) und Magidson and Vermunt (2004).
In diesem Tutorium werden Sie Folgendes lernen: - Einrichten und Schätzen traditioneller latenter Klassen-(Cluster)-Modelle
- Untersuchen, welche Modelle am besten für die Daten geeignet sind
- Generieren und Interpretieren der Ausgabe und der Grafiken
- Erhalten von Regressionsgleichungen für die Bewertung neuer Fälle
Datensatz für die Schätzung von latenten Klassen-Cluster-Modellen in XLSTAT
Abb. 1: Die Daten (die ersten 12 Datensätze werden angezeigt)*
*Quelle: 1982 General Social Survey Data National Opinion Research Center
Absicht dieses Tutoriums zu latenten Klassen-Cluster-Modellen
Identifizieren Sie deutlich unterschiedliche Befragtentypen (Cluster) mithilfe von zwei Variablen, die die Meinung des Befragten hinsichtlich des Zwecks der Umfrage (PURPOSE) und deren Präzision (ACCURACY) belegen, und zwei zusätzlichen Variablen, bei denen es sich um Bewertungen des Interviewers zum Verständnisniveau des Befragten bezüglich der Umfragefragen (UNDERSTA) und zur bei der Beantwortung der Fragen gezeigten Kooperation (COOPERAT) handelt. Insbesondere werden wir uns auf die Kriterien für die Auswahl der Anzahl von Klassen (Cluster) und auf die Klassifikation der Befragten in diese Cluster konzentrieren.
Einrichten einer latenten Klassen-Cluster-Modellanalyse in XLSTAT
Um das Dialogfenster XLSTAT-Latentes-Klassen-Cluster zu aktivieren, wählen Sie den Befehl XLSTAT/XLSTAT-LatentClass/Latentes-Klassen--Clustering im Excel-Menü (siehe Abb. 2).
Abb. 2: Öffnen von XLSTAT-LatentClass-Cluster Sobald Sie auf den Button geklickt haben, wird das Dialogfenster **XLSTAT-Latentes-Klassen-**Clustering angezeigt. Das Dialogfenster LC-Clusteranalyse, das 5 Registerkarten umfasst, wird geöffnet (siehe Abb. 3).
Abb. 3: Registerkarte Allgemein
Für diese Analyse verwenden wir alle 4 Variablen (PURPOSE, ACCURACY, UNDERSTA und COOPERAT) als Indikatoren. Da diese 4 Indikatoren kategorische Variablen mit einer kleinen Anzahl von Kategorien sind, verwenden wir die optionale Fallgewichtsvariable ‚FRQ‘, die viele doppelte Antwortmuster zu einer Gruppe zusammenfasst und so die Größe der Eingangsdaten auf eine relativ kleine Anzahl von Datensätzen reduziert. Alternativ könnten wir gleichwertige Ergebnisse mithilfe eines Datensatzes für jeden der 1.202 Fälle erhalten.
Im Feld Beobachtungen/Nominal wählen Sie die Variablen PURPOSE, ACCURACY, UNDERSTA und COOPERAT.
Wählen Sie im Feld Fallgewichte die Variable FRQ**.** Um die Anzahl der Cluster zu bestimmen, schätzen wir 4 verschiedene Clustermodelle, von denen jedes eine andere Anzahl von Clustern spezifiziert. Als Faustregel gilt, dass zu Beginn alle Modelle zwischen 1 und 4 Clustern geschätzt werden sollten.
Geben Sie unter **Anzahl der Cluster im Feld mit dem Namen ‚von:‘ ‚1‘ und im Feld mit dem Namen ‚bis‘ ‚4‘ ein, um die Schätzung von 4 Modellen – einem 1-Cluster-Modell, einem 2-Cluster-Modell, einem 3-Cluster-Modell und einem 4-Cluster-Modell – zu fordern.
Ihr Dialogfenster sollte nun wie folgt aussehen:
Abb. 4: Registerkarte Allgemein
Die schnellen Berechnungen beginnen, sobald Sie auf OK klicken.
Interpretieren der Ausgabe eines latenten Klassen-Cluster-Analysemodells
Wenn XLSTAT-LatentClass die Schätzung abschließt, werden 5 Tabellenblätter erstellt – ein Tabellenblatt Clusterzusammenfassung (Latent Class-Clustering) und ein Tabellenblatt für jedes der geschätzten Cluster-Modelle (1-Cluster-Modell (LCC-1 Cluster), ein 2-Cluster-Modell (LCC-2 Cluster), ein 3-Cluster-Modell (LCC-3 Cluster) und ein 4-Cluster-Modell (LCC-4 Cluster)).
Im Tabellenblatt Latentes Klassen-Clustering**-Zusammenfassung wird eine Zusammenfassung aller geschätzter Modelle bereitgestellt. Das Statistikmodell L², das in Abbildung 5 in der Spalte mit dem Namen ‚L²‘ dargestellt ist, zeigt den Umfang der Assoziation unter den Variablen an, die nach der Schätzung des Modells unerklärt bleibt; je niedriger der Wert, desto besser die Anpassung des Modells an die Daten. Ein Kriterium für die Bestimmung der Anzahl von Clustern ist der Blick in die Spalte ‚p-Wert‘, die den p-Wert für jedes Modell unter der Annahme liefert, dass die L²-Statistik einer Chi-Quadrat-Verteilung folgt, und die Auswahl des sparsamsten Modells (Modell mit den wenigsten Parametern), das eine angemessene Anpassung bietet (p>0,05). Mithilfe dieser Kriterien ergibt sich das beste Modell durch Modell 3, dem 3-Cluster-Modell mit 20 Parametern (p-Wert von 0,105).
Die allgemeineren Informationskriterien (BIC, AIC, AIC3) begünstigen ebenfalls sparsame Modelle, aber dieser Ansatz erfordert nicht, dass L² einer Chi-Quadrat-Verteilung folgt, und ist auch dann gültig, wenn einer oder mehrere Indikatoren kontinuierlich ist/sind oder wenn aufgrund vieler Indikatoren nur wenige Daten vorhanden sind. Mithilfe dieses Ansatzes würden wir einfach das Modell mit dem niedrigsten Wert auswählen. Beispielsweise ist das Modell mit dem niedrigsten BIC-Wert wieder das 3-Klassen-Modell (BIC=5651,121).
Abb. 5: Zusammenfassung der geschätzten Modelle
Klicken Sie auf das Tabellenblatt ‚LCC-3 Cluster‘, um die Modellausgabe für das 3-Cluster-Modell anzuzeigen. Im Anschluss an die zusammenfassenden Statistiken für das 3-Klassen-Modell werden verschiedene zusätzliche Ausgaben präsentiert, einschließlich der Profilausgabe, in der die Modellparameter für jede Klasse als konditionelle Wahrscheinlichkeiten ausgedrückt werden. Scrollen von den zusammenfassenden Statistiken Sie nach unten, um die **Profil-**Ausgabe zu sehen (siehe Abb. 6).
Abb. 6: Profilausgabe für das 3-Cluster-Modell
Die Cluster werden automatisch nach Klassengröße geordnet. Insgesamt enthält Cluster 1 62 % der Fälle, Cluster 2 enthält 20 % der Fälle und die restlichen 18 % sind in Cluster 3. Die konditionellen Wahrscheinlichkeiten zeigen die Unterschiede in Bezug auf die Antwortmuster, durch die sich die Cluster unterscheiden. Zum Beispiel antwortet Cluster 3 mit einer größeren Wahrscheinlichkeit, dass Umfragen Zeitverschwendung sind (PURPOSE = ‚3‘/PURPOSE = ‚waste‘) und dass Umfrageergebnisse nicht wahr sind (ACCURACY = ‚2‘/ACCURACY = ‚not true‘), als die anderen 2 Cluster. Für eine grafische Darstellung dieser Wahrscheinlichkeiten scrollen Sie nach unten zum Profil der Klassen.
Das Profil der Klassen für das 3-Cluster-Modell wird angezeigt.
Abb. 7: Profil der Klassen für 3-Cluster-Modell
Klassifizieren von Fällen in Cluster mithilfe modaler Zuweisung
Scrollen Sie nach unten, um die Klassifikationsausgabe zu sehen:
Abb. 8: Klassifikationsausgabe für 3-Cluster-Modell
Die erste Zeile der Klassifikationsausgabe zeigt, dass Obs1, das alle Fälle mit dem Antwortmuster (PURPOSE = good/1, ACCURACY =mostly true/1, UNDERSTA = good/1 und COOPERAT = good/1) repräsentiert, in Cluster 1 klassifiziert wird, da die Wahrscheinlichkeit, zu dieser Klasse zu gehören, am höchsten ist (0,920). In der Spalte mit dem Namen ‚Cluster‘ erhält Obs1 den Wert ‚1‘, was eine Zuweisung zu Cluster ‚1‘ anzeigt.
Beachten Sie, dass bei der Klassifikation von Fällen in Cluster mithilfe der modalen Zuweisungsregel in einem gewissen Umfang ein Missklassifikationsfehler vorliegt. Der erwartete Missklassifikationsfehler kann durch Kreuzklassifikation der Modellklassen mit den tatsächlichen probabilistischen Klassen berechnet werden. Dies erfolgt in der Klassifizierungtabelle, die in Abb. 9 für das 3-Klassen-Modell angezeigt wird. Für dieses Modell würde erwartet, dass die modale Zuweisungsregel 704,0219 Fälle aus dem wahren Cluster 1, 163,8089 aus Cluster 2 und 176,2545 aus Cluster 3 für eine erwartete Gesamtsumme von 1.044,085 korrekten Klassifikationen der 1.202 Fälle korrekt zuweist. Dies entspricht einer erwarteten Missklassifikationsrate von 13,13 % [(1 - 1.044,085)/1.202].
Abb. 9: Klassifizierungtabelle für das 3-Cluster-Modell
Beachten Sie auch, dass die erwarteten Größen der Cluster nie perfekt durch modale Zuweisung reproduziert werden. Die Klassifizierungtabelle in Abb. 9 zeigt, dass 67,0 % der gesamten Fälle (805 der 1.202) mithilfe der modalen Zuweisung Cluster 1 zugewiesen werden, im Gegensatz zu 61,7 %, die erwartungsgemäß in diesem Cluster sind. (Wenn Fälle proportional zu ihrer Wahrscheinlichkeit der Mitgliedschaft Clustern zugewiesen würden, würden 61,7 % erwartungsgemäß in Cluster 1 klassifiziert sein).
Interpretieren bivariater Residuen in latenten Klassen-Cluster-Modellen
Zusätzlich zu verschiedenen globalen Messwerten der Modellanpassung stehen lokale Messwerte, genannt bivariate Residuen, zur Verfügung, um zu bewerten, in welchem Maße die 2-Wege-Assoziation(en) zwischen einem Paar von Indikatoren durch das Modell erklärt wird/werden.
Scrollen Sie nach unten, um die bivariate Residuenausgabe zu sehen:
Abb. 10: Bivariate Residuenausgabe für das 3-Cluster-Modell
Das BVR entspricht einem Pearson-Chi-Quadrat dividiert durch die Freiheitsgrade (FG). Das Chi-Quadrat wird auf den beobachteten Zählwerten in einer 2-Variablen-Tabelle mithilfe der geschätzten, erwarteten Zählwerte berechnet, die aus dem geschätzten Modell erhalten wurden. Da der erwartete Chi-Quadrat-Wert unter der Annahme, dass die Modellannahmen korrekt sind, den Freiheitsgraden entspricht, sollten die BVR nicht wesentlich größer sein als 1, wenn das Modell wahr wäre. Das BVR von 2.4 in Abb. 10 oben lässt darauf schließen, dass das 3-Cluster-Modell die Reproduktion der Assoziation zwischen COOPERATE und UNDERSTAND knapp verfehlt.
Hingegen sind die BVR in Zusammenhang mit dem 4-Cluster-Modell (siehe unten in Abb. 11) alle kleiner als 1. Dies lässt darauf schließen, dass das 4-Cluster-Modell eine signifikante Verbesserung gegenüber dem 3-Cluster-Modell bei der Modellanpassung bieten kann. Somit könnten sowohl die 3- als auch die 4-Cluster-Lösungen gerechtfertigt werden, die 3-Cluster-Lösung durch BIC und die 4-Cluster-Lösung durch die BVR.
Abb. 11: Bivariate Residuenausgabe für das 4-Cluster-Modell
Interpretieren der Scoring-Gleichung
Wir können die Scoring-Gleichungsausgabe nutzen, um Regressionsgleichungen für die Bewertung neuer Fälle zu erhalten.
Scrollen Sie nach unten, um die Scoring-Gleichungsausgabe zu sehen:
Abb. 12: Scoring-Gleichungsausgabe für das 3-Cluster-Modell
Jedes Antwortmuster wird für jedes Cluster bewertet und dem Cluster mit dem höchsten Score zugewiesen. Beispielsweise können Fälle mit dem Antwortmuster Obs1:
Purpose = 1, Accuracy = 1, Understa = 1, Cooperat = 1
basierend auf den oben in Gelb gekennzeichneten Koeffizienten bewertet werden. Dies führt zu folgenden Logit-Scores:
Cluster 1 Score = 2,916, Cluster 2 Score = 0,457, Cluster 3 Score = -3,373.
Somit wird dieses Antwortmuster Cluster 1, dem Cluster mit dem höchsten Logit-Score, zugewiesen. Um aussagekräftigere Bewertungen zu erhalten, generieren wir die a posteriori Wahrscheinlichkeiten der Mitgliedschaft, die in der obigen Klassifikationsausgabe gezeigt wurden, mithilfe der nachstehenden Formel. Dies ergibt die folgenden Wahrscheinlichkeiten in Zusammenhang mit dem Antwortmuster Obs1:
Wahrscheinlichkeit 1 = 0,9196, Wahrscheinlichkeit 2 = 0,0787, Wahrscheinlichkeit 3 = 0,0017 Die Formel, die zum Konvertieren der Logit-Scores in Wahrscheinlichkeiten verwendet wurde, lautet:
Wahrscheinlichkeit (k) = exp[score(k)]/ [ exp(score1) + exp(score2) + exp(score3)] k=1,2,3.
War dieser Artikel nützlich?
- Ja
- Nein