Direkt zum Inhalt

Latente Klassenanalyse in Excel - Anleitung

Dieses Tutorium zeigt Ihnen, wie Sie ein latentes Klassen-Regressionsmodellen in Excel mithilfe der Statistiksoftware XLSTAT ausführen.

Was sind latente Klassen-Regressionsmodelle?

Dieses Tutorium zeigt, wie Sie latente Klassen-Regressionsmodelle erarbeiten. Sie werden Folgendes lernen: - Auswählen der abhängigen Variable und Festlegen des Skalentyps

  • Festlegen der Anzahl der latenten Klassen (d. h. Segmente)
  • Untersuchen der Parameterausgabe

Weiterhin veranschaulicht dieses Beispiel verschiedene fortgeschrittene Optionen im Tool für latente Klassen-Regression von XLSTAT-LatentClass. Sie werden Folgendes lernen: - Verwenden der optionalen Fall-ID-Variablen, um wiederholte Beobachtungen vorzugeben

  • Klassifizieren von Fällen in latente Segmente

Datensatz für die Schätzung von latenten Klassen-Regressionsmodellen

latent class regression data

Abb. 1: Teilauflistung der Conjoint-Daten

Wie in Abb. 1 zu sehen, gibt es für jeden Fall 8 Datensätze (es gibt insgesamt 400 Fälle); einen Datensatz für jede Zelle in diesem 2x2x2 vollständigen faktoriellen Versuchsplan verschiedener Szenarien für den Kauf eines Produkts:

  • FASHION (1 = Traditionell; 2 = Modern)
  • QUALITY (1 = Gering; 2 = Hoch)
  • PRICE (1 = Geringer; 2 = Höher)

Die abhängige Variable (RATING) ist eine Bewertung der Kaufabsicht auf einer Fünf-Punkte-Skala. Die drei oben aufgelisteten Attribute werden als Vorhersagevariablen im Modell verwendet.

Absicht dieses Tutoriums zu latenten Klassen-Regressionsmodellen

Verwenden Sie die latente Klassen-Regression von XLSTAT-LatentClass, um latente Segmente zu identifizieren, die sich hinsichtlich der Schätzung der Wichtigkeit von jedem der drei Attribute, die die Kaufentscheidung eines Individuums beeinflussen, unterscheiden. Das latente Klassen-Regressionsmodell berücksichtigt die Tatsache, dass diese Schätzungen für verschiedene Segmente abweichen können. Das bedeutet, dass für ein Segment der Preis und nur der Preis die Entscheidung beeinflussen kann, während ein zweites Segment durch Qualität und modernes Aussehen, nicht aber durch den Preis beeinflusst werden kann. Wir werden RATING als ordinale abhängige Variable behandeln und mehrere Modelle vergleichen, um die Anzahl von Segmenten zu bestimmen.

Einrichten von latenten Klassen-Regressionsmodellen in XLSTAT-LatentClass

Um das Dialogfenster für die Regression in XLSTAT-LatentClass zu aktivieren, wählen Sie den Befehl XLSTAT/XLSTAT-LatentClass/Latente-Klassen-Regression im Excel-Menü (siehe Abb. 2).

lg menu

Abb. 2: Öffnen von XLSTAT-Latente-Klassen-Regression Nach dem Klicken des entsprechenden Buttons erscheint das Dialogfenster XLSTAT-Latente-Klassen-Regression. Das Dialogfenster Latente-Klassen-Regressionsanalyse, das 5 Registerkarten umfasst, wird geöffnet (siehe Abb. 3).

lg regression dialog box empty

Abb. 3: Dialogfenster Analyse für LC-Regressionsmodell

Für diese Analyse ist RATING die abhängige Variable.

Im Feld Y/Abhängige Variable wählen Sie die Variable RATING.

Wir müssen außerdem den Skalentyp der abhängigen Variablen auswählen. Für dieses Beispiel verwenden wir den Skalentyp p (ordinal-fixiert), der die natürliche Reihenfolge zwischen den 5 Stufen der Kaufabsicht berücksichtigt. Standardgemäß werden die festgesetztem Scores zu den Daten (1, 2, 3, 4 und 5) verwendet, wodurch die Stufen geordnet werden und ein gleicher Abstand zwischen benachbarten Stufen festgelegt wird.

Wählen Sie im Drop-Down-Menü Antworttyp ‚Ordinal‘ aus.

Wie oben bereits erklärt wurde, enthalten die Daten wiederholte Beobachtungen für jeden Befragten (Fall). Daher müssen wir angeben, welche Datensätze zu jedem Fall gehören. Dies erreicht man mithilfe einer Fall-ID-Variablen, die eine einmalige Identifikationsnummer für jeden Fall enthält. Allen Datensätzen, die zum selben Fall gehören, wird die gleiche eindeutige ID zugewiesen.

Markieren Sie das Kontrollkästchen für Beschriftungen der Beobachtungen und wählen Sie dann im entsprechenden Feld die Variablen-ID aus.

Als nächstes wählen wir die Prädiktoren. Prädiktoren werden als unabhängige Variablen im Regressionsmodell verwendet. Im aktuellen Beispiel verwenden wir die Produktattribute FASHION, QUALITY und PRICE als Prädiktoren.

Markieren Sie das Kontrollkästchen für Nominal und wählen Sie dann im entsprechenden Feld die Variablen ‚FASHION‘, ‚QUALITY‘ und ‚PRICE‘.

Das latente Klassen-Regressionsmodell schätzt gleichzeitig ein separates Regressionsmodell für jede Klasse. Ein 1-Klassen-Modell schätzt nur ein einziges Regressionsmodell. Es trifft die Standard-Homogenitätsannahme, dass ein einzelnes Regressionsmodell für alle Fälle gilt. Im aktuellen Beispiel schätzen wir zuerst ein 1-Klassen-Modell und erhalten eine Log-Wahrscheinlichkeitsstatistik, die als Grundlage verwendet wird. Wir schätzen dann weitere Modelle, welche die Anzahl der Klassen sukzessiv um 1 erhöht, und bewerten die Signifikanz jeder weiteren Klasse.

Eine Bewertung besteht in einer Überprüfung, ob die Änderung der Log-Wahrscheinlichkeit für jedes Paar sukzessiver Modelle nicht um einen signifikanten Betrag abnimmt, wie durch die BIC-Statistik ermittelt. (Das Modell mit dem niedrigsten BIC kann dann ausgewählt werden.) Eine zweite Bewertung besteht in der Verwendung des mit der L2-Anpassungsstatistik verbundenen p-Werts.

Fordern Sie die Schätzung von 4 verschiedenen LC-Regressionsmodellen – einem 1-Klassen-Modell, einem 2-Klassen-Modell, einem 3-Klassen-Modell und einem 4-Klassen-Modell – an:

Geben Sie unter **Anzahl der Klassen, im Feld mit dem Namen ‚von:‘ ‚1‘ und in dem Feld mit dem Namen ‚bis‘ ‚4‘ ein.

Ihr Analyse-Dialogfenster sollte nun wie folgt aussehen:

lg regression dialog box filled

Abb. 4: Dialogfenster Regressionsanalyse mit Anfangseinstellungen

Die schnellen Berechnungen beginnen, sobald Sie auf OK klicken.

Interpretieren der Ausgaben eines latenten Klassen-Regressionsmodells in XLSTAT-LatentClass

Wenn XLSTAT-LatentClass die Schätzung abschließt, werden 5 Tabellenblätter erstellt – ein Tabellenblatt Regressionszusammenfassung (Latent Class-Regression) und ein Tabellenblatt für jedes der geschätzten latenten Klassen-Modelle (1-Klassen-Modell (LCR-1 Klasse), ein 2-Klassen-Modell (LCR-2 Klassen), ein 3-Klassen-Modell (LCR-3 Klassen) und ein 4-Klassen-Modell (LCR-4 Klassen)).

lg regression summary statistics

Abb. 5: Zusammenfassung der geschätzten Modelle

Diese Ausgabe liefert Statistiken, die Sie dabei unterstützen, die richtige Anzahl von Klassen - die Log-Wahrscheinlichkeits-Werte (LL), die BIC-Werte und die Anzahl der Parameter in den geschätzten Modellen festzulegen. Es ist wichtig, die richtige Anzahl von Klassen festzulegen, da durch die Vorgabe zu weniger Klassen die Klassendifferenzen ignoriert werden, während bei der Vorgabe zu vielen Klassen das Modell instabil werden kann. Während die Log-Wahrscheinlichkeit mit jeder Erhöhung der Anzahl von Klassen zunimmt, tritt der minimale BIC-Wert für Modell3 (BIC=8312,057) ein, was darauf hinweist, dass die 3-Klassen-Lösung für die vier geschätzten Modelle die beste ist. In seltenen Fällen ist es möglich, dass Sie eine lokale (suboptimale) Lösung erhalten. Für diese Daten besteht die Möglichkeit, eine lokale Lösung für das 4-Klassen-Modell zu erhalten, wodurch man L = -4080,318 anstatt –4075,922 erhält. Wenn dieser Fall eintritt, schätzen Sie das 4-Klassen-Modell neu.

Hinweis: Beachten Sie, dass die p-Werte, die auf dem Modell L2 basieren, und die gelieferten Freiheitsgrade (df) keine gültigen Anpassungsbewertungen darstellen, da wir mit nur wenigen Daten arbeiten.

Wir untersuchen jetzt die detaillierte Ausgabe für die 3-Klassen-Lösung. Klicken Sie auf das Tabellenblatt „LCC-3 Klassen“, um die Modellausgabe für das 3-Klassen-Modell anzuzeigen. Im Anschluss an den Bereich zusammenfassende Statistiken wird die Ausgabe dargestellt.

Parameterausgabe

Zuerst sehen wir uns die Parameterausgabe an Scrollen Sie nach unten zur Parameterausgabe (siehe Abb. 6).

lg regression output

Abb. 6: Parameterausgabe für 3-Klassen-Modell

Der Beta-Parameter für jeden Prädiktor ist eine Messung des Einflusses dieses Prädiktors auf RATING. Die Beta-Effekt-Schätzungen unter der Spalte mit Namen ‚Klasse 1‘ deuten darauf hin, dass Segment 1 auf positive Weise durch Produkte beeinflusst wird, für die FASHION = 2 (Beta = 0,967), auf negative Weise durch einen höheren Preis (PRICE) (Beta = -0,509) und überhaupt nicht durch eine höhere Qualität (QUALITY) (Beta ist etwa 0). Wir sehen außerdem, dass Segment 2 (‚Klasse 2‘) von allen 3 Attributen beeinflusst wird, mit einer Präferenz für die Produktauswahlen, die modern (Beta = 0,585) sind und eine höhere Qualität haben (Beta = 0,461), aber wie bei Segment 1 nimmt ihre Präferenz ebenfalls in Abhängigkeit vom Preis ab (Beta = -0,525). Zugehörige zu Segment 3 bevorzugen Produkte mit höherer Qualität (Beta = 1,031), wobei aber ihre Präferenz ebenfalls in Abhängigkeit vom Preis abnimmt (Beta = -0,461), und sie nicht durch FASHION beeinflusst werden.

Beachten Sie, dass der Preis (PRICE) im Großen und Ganzen den gleichen Einfluss auf alle drei Segmente hat. Die Wald(=)-Statistik zeigt, dass die Differenzen bei diesen Beta-Effekten in allen Klassen nicht signifikant sind (der p-Wert = 0,67, was viel höher ist als 0,05, dem Standardniveau für die Bewertung der statistischen Signifikanz). Das bedeutet, dass alle 3 Segmente eine Preissensitivität im selben Maß aufweisen. Dies wird bestätigt, wenn wir ein Modell schätzen, in dem dieser Prädiktor als klassenunabhängig spezifiziert wird (markieren Sie die entsprechende Option unter der Registerkarte Optionen). Der p-Wert für die Wald-Statistik für PRICE beträgt 0,000 auf 3 Dezimalstellen. Wenn wir auf diesen Wert klicken, sehen wir, dass der p-Wert genauer 2,4x10-106 beträgt, was anzeigt, dass das Maß der Preissensitivität hoch signifikant ist.

In Bezug auf den Effekt der anderen beiden Attribute finden wir große Differenzen zwischen Segmenten. Der Prädiktor FASHION hat einen starken Einfluss auf Segment 1, einen weniger starken Effekt auf Segment 2 und praktisch keinen Effekt auf Segment 3. QUALITY hat einen starken Effekt auf Segment 3, einen weniger starken Effekt auf Segment 2 und praktisch keinen Effekt auf Segment 1. Die Tatsache, dass der Einfluss von FASHION und QUALITY zwischen den drei Segmenten signifikant abweicht, wird durch die signifikanten p-Werte im Zusammenhang mit den Wald(=)-Statistiken für diese Attribute bestätigt. Beispielsweise lautet für FASHION der p-Wert = 6,2x10-38.

Zusammenfassen könnte Segment 1 als „Modeorientiertes Segment“, Segment 3 als „Qualitätsorientiertes Segment“ und Segment 2 als das Segment bezeichnet werden, das bei seiner Kaufentscheidung alle 3 Attribute berücksichtigt, bezeichnet werden.

Copyright ©2015 Statistical Innovations Inc. Alle Rechte vorbehalten.

War dieser Artikel nützlich?

  • Ja
  • Nein