Nächste-Nachbarn-Klassifikation (KNN) in Excel
Dieses Tutorium wird Ihnen helfen, eine K nächste Nachbarn-Analyse durch maschinelles Lernen in Excel mithilfe der XLSTAT Software einzurichten und zu interpretieren. Sie sind nicht sicher, ob es sich hierbei um die überwachte maschinelle Lernfunktion handelt, nach der Sie suchen? Weitere Hinweise finden Sie hier.
Datensatz für die Durchführung einer K nächste Nachbarn-Klassifikation
Absicht dieses Tutoriums
Die Absicht dieses Tutoriums besteht darin, die Klassifikationsmethode K nächste Nachbarn (KNN) zu verwenden, um festzulegen, ob ein Brustgewebe gut- oder bösartig ist. Wir verwenden die ersten 100 Beobachtungen als Lerndatensatz, und die letzten 20 Beobachtungen als Vorhersagedatensatz. Folglich wurde die Krebsklasse in den 20 letzten Beobachtungen mit Absicht entfernt. Die Klassifikation K nächste Nachbarn wird mithilfe der folgenden erklärenden Lernvariablen durchgeführt:
- Gruppendicke: Gutartige Zellen neigen dazu, sich in Einzelschichten zu gruppieren, während Krebszellen sich eher in Mehrfachschichten gruppieren.
- Einheitlichkeit der Zellgröße: Krebszellen neigen dazu, in ihrer Größe zu variieren.
- Einheitlichkeit der Zellform: Krebszellen neigen dazu, in ihrer Form zu variieren.
- Randhaftung: Normale Zellen neigen dazu, zusammenzuhalten. Krebszellen neigen dazu, diese Fähigkeit zu verlieren. Daher ist der Verlust von Adhäsion ein Zeichen von Bösartigkeit.
- Größe einzelner Epithelzellen: Bezieht sich auf die oben erwähnte Einförmigkeit. Epithelzellen, die signifikant vergrößert sind, können bösartige Zellen sein.
- Nackte Zellkerne: Kerne, die nicht von Zytoplasma umgeben sind (der Rest der Zelle). Diese findet man typischerweise bei gutartigen Tumoren.
- Homogenes Chromatin: Beschreibt eine einheitliche „Textur“ des Zellkerns, die bei gutartigen Zellen zu sehen ist. In Krebszellen neigt das Chromatin dazu, grober zu sein
- Normale Kernkörperchen: Kernkörperchen sind kleine Strukturen, die im Zellkern zu sehen sind. In normalen Zellen ist das Kernkörperchen normalerweise sehr klein, wenn es überhaupt zu sehen ist. In Krebszellen werden die Kernkörperchen auffälliger, und manchmal gibt es mehrere von ihnen.
- Mitose: Kernteilung plus Zytokinese, was zwei identische Tochterzellen produziert Die abhängige Variable entspricht der Klasse einer Beobachtung (gutartig oder bösartig).
Einrichten einer K nächste Nachbarn-Klassifikation in XLSTAT
Nach dem Öffnen von XLSTAT wählen Sie den Befehl XLSTAT/Maschinelles Lernen/K nächste Nachbarn.
Das Dialogfenster K nächste Nachbarn erscheint.
Wählen Sie die Klassen des Lernsatzes im Feld Y/Qualitative Variablen. Die erklärenden Variablen, die sich auf den Trainingsdatensatz beziehen, müssen im Feld X/Erklärende Variablen/quantitativ ausgewählt werden. Wählen Sie im Feld Vorhersagedatensatz die Variablen aus, die mit den 20 Beobachtungen unten im Datensatz verbunden sind. Stellen Sie die Anzahl der Nachbarn auf 3 ein.
In der Registerkarte Option können verschiedene Algorithmus-Parameter ausgewählt und modifiziert werden. Es ist beispielsweise möglich, zu spezifizieren, ob Kernel- oder Abstandsfunktionen zum Berechnen von Ähnlichkeiten verwendet werden sollen.
Die Berechnungen beginnen, sobald sie auf OK geklickt haben.
Interpretieren der Ergebnisse einer K nächste Nachbarn-Klassifikation in XLSTAT
Die erste Tabelle zeigt Häufigkeiten und Prozentsätze der beiden abhängigen Variablenkategorien im Lerndatensatz an (gutartig, bösartig). Die zweite Tabelle zeigt Statistiken an, die sich auf die erklärenden Variablen im Lerndatensatz beziehen, und die dritte bezieht sich auf den Vorhersagedatensatz
Die durch gekreuzte Validierung geschätzte Fehlerrate liegt bei 0,04, was ein gutes Ergebnis ist.
Die Klassenvorhersagen des Vorhersagedatensatzes werden zuerst nach Klasse angezeigt…
…Dann nach Beobachtung:
Dann werden für jede verfolgte Beobachtung die Klassen der Nachbarn und ihre jeweiligen Abstände zur verfolgten Beobachtung in der folgenden Tabelle zusammengefasst. Nachstehend zeigen wir die Verfolgungsinformationen entsprechend den ersten beiden Beobachtungen:
War dieser Artikel nützlich?
- Ja
- Nein