¿Qué método de clusterización debería elegir?
Objetivo de este tutorial
Nota. En la presente traducción se utilizan los términos ‘cluster’ o ‘clusterización’. Conviven tales anglicismos junto con términos tales como ‘aglomeración’, ‘agrupación’, ‘conglomerados’, y similares, debido al uso común de los términos originales en inglés (o los anglicismos derivados) en la literatura científica en español.
El objetivo de este tutorial es ayudar a los usuarios de XLSTAT a seleccionar una herramienta de análisis de conglomerados (clusters) apropiada para analizar sus datos.
¿Qué es el análisis de conglomerados (clusters)?
Los métodos de análisis de conglomerados permiten agrupar objetos (observaciones o individuos) en clases (conglomerados o ‘clusters’) de tal manera que los objetos que pertenecen a la misma clase son más similares entre sí que a los objetos pertenecientes a otras clases. La proximidad entre los objetos se basa en un conjunto de variables medidas en todos los objetos. Los métodos de análisis de conglomerados son ampliamente utilizados en las técnicas exploratorias de minería de datos. Veamos algunos ejemplos:
En datos de expresión (transcriptómica, proteómica, metabolómica, etc.), estos métodos permiten la detección de individuos que tienen perfiles similares de expresión o características que tienen patrones de expresión similares.
En la investigación de mercados, los métodos de agrupamiento permiten detectar diferentes perfiles de consumidores utilizando datos provenientes de encuestas.
En ecología, estos métodos ayudan a identificar grupos de sitios que alojan comunidades similares.
Métodos disponibles en XLSTAT
XLSTAT propone cuatro diferentes métodos de clusterización, disponibles en el botón Análisis de datos:
Análisis de Correspondencias. # Qué método de clusterización elegir
Cada método tiene sus propias características, que se resumen en la tabla siguiente.
Contribución de la variable a cada clase, posibilidad de predecir la pertenencia a la clase de nuevas observaciones (mediante ecuación de calificación) |
---|
*Después de los cálculos, la pertenencia de cada observación a las clases se proporciona de modos diferentes, de acuerdo al método de agrupamiento o clusterización utilizado. La forma determinista implica la asignación de cada objeto a una clase única, en tanto que la forma probabilística muestra la probabilidad de pertenencia de una observación a cada clase. # Un paso más
Pueden manejarse conjuntos de datos muy grandes combinando distintos métodos. Por ejemplo, los clusters obtenidos mediante el método de k-medias podrían usarse como observaciones dentro de un procedimiento de clusterización jerárquica aglomerativa. Puede encontrar más información en este tutorial.
¿Ha sido útil este artículo?
- Sí
- No