Kovarianzanalysen (ANCOVA) in Excel - Anleitung
Dieses Tutorium wird Ihnen helfen, eine Kovarianzanalyse (ANCOVA) in Excel mithilfe der Software XLSTAT einzurichten und zu interpretieren.
Datensatz für die Durchführung einer ANCOVA
Die Daten stammen aus Lewis T. und Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. Die Daten betreffen 237 Kinder, die durch Geschlecht, Alter in Monaten, Größe in Inch (1 inch = 2.54 cm), und Gewicht in englischem Pfund (1 pound = 0.45 kg) beschrieben werden.Absicht der Kovarianzanalyse (ANCOVA)
Mittels der Kovarianzanalyse (ANCOVA), möchte man herausfinden, wie das Gewicht der Kinder in Abhängigkeit vom Geschlecht (eine qualitative Variable, die die Werte w und m annimmt), von ihrer Grösse, von Ihrem Alter variiert und zu überprüfen, ob ein lineares Modell Sinn macht. Die ANCOVA Methode gehört zu der größeren Familie der sogenannten GLM (Generalized Linear Models) wie ebenfalls die lineare Regression und die ANOVA. Die Eigenheit der ANCOVA ist die Mischung aus qualitativen und quantitativen erklärenden Variablen. In zwei weiteren Tutorials zur linearen Regression wird dieser Datensatz ebenfalls benutzt, zunächst mit der Größe, dann mit der Größe und dem Alter als erklärende Variablen.
Erstellen einer ANCOVA
Nach dem Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT/Modellierung der Daten/ANCOVA oder klicken Sie auf den entsprechenden Button in der Toolbar "Modellierung der Daten" (siehe unten).
Nach dem Klicken des Buttons erscheint das entsprechende Dialogfenster der ANCOVA. Sie können nun die Daten im Excel-Blatt auswählen. Es gibt mehrere Arten die Daten in den XLSTAT Dialogfenstern auszuwählen (siehe auch das Tutorial Datenauswahl zu diesem Thema). Im untersuchten Beispiel beginnen die Daten in der ersten Zeile; es ist daher schneller die Spaltenauswahl zu benutzen. Daher erscheinen im Dialogfenster unten die Auswahlen in Form von Spalten. Die Option „Variablenbeschriftungen“ ist aktiviert, da die erste Zeile der Daten die Namen der Variablen enthält. Wählen Sie die "Abhängigen Variablen" (oder Modellvariable) als das „Gewicht“. Die quantitativen erklärenden Variablen sind die Größe und das Alter. Die qualitative Variable ist das Geschlecht. Die übrigen Optionen wurden bei den Vorgaben belassen.
Die Berechnungen beginnen, sobald der Button OK geklickt wird.
Interpretieren der Ergebnisse einer ANCOVA
Die Ergebnisse werden angezeigt. Die erste Tabelle zeigt die Koeffizienten der Anpassungsgüte. Der R² (Determinationskoeffizient) gibt den reellen Eindruck über den Prozentsatz der Variabilität der abhängigen Variablen an, die durch die erklärenden Variablen beschrieben wird. Je näher R² bei 1 liegt, desto besser ist die Anpassung.
In unserem Fall wird 63% der Variabilität des Gewichts durch die Größe, das Alter und das Geschlecht erklärt. Die übrigen 37% sind in anderen Variablen versteckt, die nicht gemessen wurden oder während dieses Experiments nicht messbar sind und die das Modell in den "Zufallseffekten" verbirgt. Man kann unterstellen, dass ein gewisser genetischer und Ernährungseinfluss besteht, aber es könnte der Fall sein, dass durch einfaches Umformen der verfügbaren Variablen man schon bessere Ergebnisse erhält.
Es ist wichtig die Ergebnisse der Varianzanalyse-Tabelle zu untersuchen (siehe unten). Diese Ergebnisse lassen uns entscheiden, ob die erklärenden Variablen eine signifikante Information (Nullhypothese H0) in das Modell einbringen oder nicht. Mit anderen Worten ausgedrückt, ist dies eine Art zu überprüfen, ob es Sinn macht den Mittelwert zu benutzen, um die gesamte Population zu beschreiben, oder ob die Information, die von der/den erklärenden Variable(n) eingebracht wurde, wertvoll ist.
Anhand der Tatsache, dass die Wahrscheinlichkeit die dem F value entspricht kleiner als 0.0001 ist, ist das Risiko kleiner als 0.01%, dass die Annahme der Nullhypothese (kein Einfluss der erklärenden Variablen) falsch ist. Daher kann man sicher schließen, dass ein Effekt der drei Variablen auf die abhängige Variable besteht. Daher kann man schließen, dass die drei Variablen signifikante Information einbringen.
Wir möchten ebenfalls herausfinden, ob die beiden Variablen und ihre Interaktion die gleiche Information hergeben. Um dies durchzuführen, müssen wir die Tabellen Typ I SS und Typ III SS näher untersuchen (siehe unten). Die Tabelle Typ I SS wird erzeugt mittels Hinzufügen der Variablen einer nach der anderen in das Modell und die Berechnung der zugehörigen Effekts auf die Quadratsumme des Modells (Modell SS). Als Folge hiervon hat die Reihenfolge der Variablenauswahl einen Einfluss auf das Ergebnis. Je kleiner die Wahrscheinlichkeit F, die zu einer bestimmten Variable gehört ist, desto stärker ist der Einfluss der Variable auf das Modell, da die Variable aus diesem Grund hinzugefügt wurde. Man kann sehen, dass das Geschlecht nur wenig Information in das Modell einbringt, nachdem Größe und Alter schon hinzugefügt wurden.
Die Tabelle Typ III SS wird berechnet mittels Entfernen von je einer Variable aus dem Modell, um den Einfluss auf die Qualität des Modells zu messen. Das heißt, dass die Reihenfolge der Variablenauswahl keinen Einfluss auf die Werte des Typ III SS hat. Die Typ III SS Tabelle wird ist im Allgemeinen die beste Methode zur Interpretation der Ergebnisse, falls eine Interaktion im Modell enthalten ist. Je kleiner die Wahrscheinlichkeit F, die zu einer bestimmten Variable gehört ist, desto stärker ist der Einfluss der Variable auf das Modell. Man kann sehen, dass das Geschlecht am wenigsten Information in das Modell einbringt.
Die folgende Tabelle zeigt Modelldetails an. Diese Tabelle ist hilfreich, falls Vorhersagen benötigt werden oder falls Sie die Modellkoeffizienten für eine bestimmte Population mit denen für eine andere Population vergleichen müssen. Man kann sehen, dass der p-value für den Parameter Geschlecht 0.83 beträgt, und dass die der zugehörige Konfidenzbereich 0 enthält. Dies bestätigt den schwachen Einfluss des Geschlechts auf das Modell. Wenn man die zu Geschlecht-w zugehörigen Parameter betrachtet, so scheint es, dass für ein gegebenes Alter und Größe, die Tatsache ein Mädchen zu sein, einen leichte Gewichtszunahme bedeutet.
Die nächste Tabelle zeigt die Residuen an. Man kann die reduzierten Residuen (standardisierte Residuen) genauer betrachten. Diese Residuen, die nach den Prämissen der ANOVA normalverteilt sein sollten. Dies bedeutet unter anderem, dass 95% der Residuen im Intervall [-1.96, 1.96] liegen. Alle Werte außerhalb dieses Intervalls sind potentielle Ausreißer oder deuten darauf, dass die Normalitätsannahme falsch ist. Hier wurde der XLSTAT DataFlagger benutzt (siehe Tools Toolleiste), um die Residuen zu kennzeichnen, die nicht im Intervall [-1.96, 1.96] liegen.
Man kann 16 verdächtige Residuen von 237 finden, was 6% anstatt der zulässigen 5%, daher könnte dies zum zurückweisen der Normalitätshypothese führen. Eine genauere Analyse der Residuen wurde im Tutorial über Anpassung an eine Verteilung vorgestellt.
Das unten abgebildete Diagramm zeigt die Vorhersagewerte gegenüber den beobachteten Werten. Die Konfidenzintervalle erlauben die Identifikation von potentiellen Ausreißern.
Das Balkendiagramm der Residuen (siehe unten) erlaubt es die standardisierten Residuen gegenüber dem Gewicht darzustellen. Es deutet an, dass das Residuum mit dem Gewicht ansteigt. Das Histogramm der Residuen erlaubt es, rasch die Residuen darzustellen, die außerhalb des Bereiches [-2, 2] liegen.
Schlussfolgerung für diese ANCOVA
Als Fazit kann man sagen, dass die Größe, das Alter und das Geschlecht 63% der Variabilität des Gewichts erklären. Eine signifikante Menge an Information wird nicht durch das ANCOVA Modell erklärt, das verwendet wurde. Weitere Analysen wären notwendig.
War dieser Artikel nützlich?
- Ja
- Nein