Métodos de análisis de conglomerados. El análisis de conglomerados es un algoritmo para estudiar datos divididos en grupos en función de características similares.


El análisis de conglomerados es

Buen día. Respeto a las personas que son fanáticas de su trabajo.

Maxim, amigo mío, pertenece a esta categoría. Trabaja constantemente con números, los analiza y elabora los informes adecuados.

Ayer almorzamos juntos y durante casi media hora me habló del análisis de conglomerados: qué es y en qué casos está justificado y apropiado su uso. Bueno, ¿qué soy yo?

Tengo buena memoria, así que les proporcionaré todos estos datos, por cierto, que ya conocía, en su forma original e informativa.

El análisis de conglomerados está diseñado para dividir un conjunto de objetos en grupos homogéneos (clústeres o clases). Este es un problema de clasificación de datos multidimensional.

Hay alrededor de 100 algoritmos de agrupamiento diferentes, pero los más utilizados son el análisis de conglomerados jerárquico y el agrupamiento de k-medias.

¿Dónde se utiliza el análisis de conglomerados? En marketing, esta es la segmentación de competidores y consumidores.

En gestión: dividir el personal en grupos de diferentes niveles de motivación, clasificar proveedores, identificar situaciones de producción similares en las que se producen defectos.

En medicina: clasificación de síntomas, pacientes, fármacos. En sociología, la división de los encuestados en grupos homogéneos. De hecho, el análisis de conglomerados ha demostrado su eficacia en todas las esferas de la vida humana.

La belleza de este método es que funciona incluso cuando hay pocos datos y no se cumplen los requisitos de normalidad de las distribuciones de variables aleatorias y otros requisitos de los métodos clásicos de análisis estadístico.

Expliquemos la esencia del análisis de conglomerados sin recurrir a una terminología estricta:
Supongamos que realizó una encuesta a los empleados y desea determinar cómo administrar el personal de manera más efectiva.

Es decir, desea dividir a los empleados en grupos y resaltar las palancas de gestión más efectivas para cada uno de ellos. Al mismo tiempo, las diferencias entre grupos deben ser obvias y dentro del grupo los encuestados deben ser lo más similares posible.

Para resolver el problema, se propone utilizar el análisis de conglomerados jerárquico.

Como resultado, obtendremos un árbol, al observar el cual debemos decidir en cuántas clases (clústeres) queremos dividir el personal.

Supongamos que decidimos dividir al personal en tres grupos, luego, al estudiar a los encuestados que se encuentran en cada grupo, obtendremos una tabla con aproximadamente el siguiente contenido:


Expliquemos cómo se forma la tabla anterior. La primera columna contiene el número del grupo, el grupo cuyos datos se reflejan en la línea.

Por ejemplo, el primer grupo está formado por un 80% de hombres. El 90% del primer grupo pertenece a la categoría de edad de 30 a 50 años y el 12% de los encuestados cree que los beneficios son muy importantes. Etcétera.

Intentemos crear retratos de los encuestados de cada grupo:

  1. El primer grupo está formado principalmente por hombres maduros que ocupan puestos de liderazgo. No les interesa el paquete social (MED, LGOTI, TIME-free time). Prefieren recibir un buen salario que la ayuda de un empleador.
  2. El grupo dos, por el contrario, da preferencia al paquete social. Está formado principalmente por personas "mayores" que ocupan puestos bajos. El salario es ciertamente importante para ellos, pero hay otras prioridades.
  3. El tercer grupo es el "más joven". A diferencia de los dos anteriores, existe un evidente interés por las oportunidades de aprendizaje y desarrollo profesional. Esta categoría de empleados tiene buenas posibilidades de unirse pronto al primer grupo.

Así, al planificar una campaña para introducir métodos eficaces de gestión de personal, es obvio que en nuestra situación es posible aumentar el paquete social del segundo grupo en detrimento, por ejemplo, de los salarios.

Si hablamos de qué especialistas deberían enviarse a recibir formación, definitivamente podemos recomendar que presten atención al tercer grupo.

Fuente: http://www.nickart.spb.ru/analysis/cluster.php

Características del análisis de conglomerados.

Un grupo es el precio de un activo durante un cierto período de tiempo durante el cual se realizaron transacciones. El volumen resultante de compras y ventas se indica mediante un número dentro del grupo.

La barra de cualquier período de tiempo suele contener varios grupos. Esto le permite ver en detalle los volúmenes de compras, ventas y su saldo en cada barra individual, en cada nivel de precios.


Un cambio en el precio de un activo implica inevitablemente una cadena de movimientos de precios en otros instrumentos.

¡Atención!

En la mayoría de los casos, comprender un movimiento de tendencia ocurre ya en el momento en que se está desarrollando rápidamente, y entrar al mercado siguiendo la tendencia corre el riesgo de terminar en una onda correctiva.

Para que las transacciones sean exitosas, es necesario comprender la situación actual y poder anticipar los movimientos futuros de los precios. Esto se puede aprender analizando el gráfico de conglomerados.

Mediante el análisis de conglomerados, puede ver la actividad de los participantes del mercado incluso dentro de la barra de precios más pequeña. Este es el análisis más preciso y detallado, ya que muestra la distribución puntual de los volúmenes de transacciones en cada nivel de precio del activo.

Existe un conflicto constante entre los intereses de vendedores y compradores en el mercado. Y cada pequeño movimiento de precios (tick) es un movimiento hacia un compromiso -el nivel de precios- que en este momento conviene a ambas partes.

Pero el mercado es dinámico, el número de vendedores y compradores cambia constantemente. Si en un momento el mercado estuvo dominado por los vendedores, en el momento siguiente lo más probable es que haya compradores.

El número de transacciones completadas en niveles de precios adyacentes tampoco es el mismo. Y, sin embargo, la situación del mercado se refleja primero en el volumen total de transacciones y sólo después en el precio.

Si observa las acciones de los participantes dominantes en el mercado (vendedores o compradores), entonces puede predecir el movimiento del precio en sí.

Para aplicar con éxito el análisis de conglomerados, primero es necesario comprender qué son un conglomerado y un delta.


Un grupo es un movimiento de precios que se divide en niveles en los que se realizaron transacciones con volúmenes conocidos. Delta muestra la diferencia entre las compras y ventas que ocurren en cada grupo.

Cada cluster, o grupo de deltas, permite entender si los compradores o vendedores dominan el mercado en un momento dado.

Basta con calcular el delta total sumando ventas y compras. Si el delta es negativo, entonces el mercado está sobrevendido y hay transacciones de venta redundantes. Cuando el delta es positivo, los compradores dominan claramente el mercado.

El delta mismo puede tomar un valor normal o crítico. El valor del volumen delta por encima de lo normal en el grupo está resaltado en rojo.

Si el delta es moderado, esto caracteriza un estado plano en el mercado. Con un valor delta normal, se observa un movimiento de tendencia en el mercado, pero un valor crítico es siempre un presagio de una reversión de precios.

Comercio de divisas utilizando CA

Para obtener el máximo beneficio, es necesario poder determinar la transición del delta de un nivel moderado a uno normal. De hecho, en este caso, podrá notar el comienzo de la transición del movimiento plano al de tendencia y podrá obtener el mayor beneficio.

Un gráfico de grupos es más visual; puede ver niveles significativos de acumulación y distribución de volúmenes, y generar niveles de soporte y resistencia. Esto permite al comerciante encontrar la entrada exacta a la operación.

Con la ayuda del delta se puede juzgar el predominio de las ventas o compras en el mercado. El análisis de conglomerados le permite observar transacciones y rastrear sus volúmenes dentro de una barra de cualquier TF.

Esto es especialmente importante cuando se acerca a niveles significativos de soporte o resistencia. Los juicios de grupo son la clave para comprender el mercado.

Fuente: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Áreas y características de aplicación del análisis de conglomerados.

El término análisis de conglomerados (acuñado por primera vez por Tryon, 1939) en realidad incluye un conjunto de diferentes algoritmos de clasificación.

Pregunta general La pregunta que se plantean los investigadores de muchos campos es cómo organizar los datos observados en estructuras visuales, es decir, ampliar las taxonomías.

Según el sistema moderno adoptado en biología, los humanos pertenecen a primates, mamíferos, amniotas, vertebrados y animales.

Tenga en cuenta que en esta clasificación, cuanto mayor es el nivel de agregación, menos similitud hay entre los miembros de la clase correspondiente.

Los humanos tienen más similitudes con otros primates (es decir, simios) que con miembros "periféricos" de la familia de los mamíferos (es decir, perros), etc.

Tenga en cuenta que la discusión anterior se refiere a algoritmos de agrupamiento, pero no menciona nada sobre las pruebas de significación estadística.

De hecho, el análisis de conglomerados no es tanto un método estadístico ordinario como un "conjunto" de varios algoritmos para "distribuir objetos en conglomerados".

Existe el punto de vista de que, a diferencia de muchos otros procedimientos estadísticos, los métodos de análisis de conglomerados se utilizan en la mayoría de los casos cuando no se tienen hipótesis a priori sobre las clases, pero aún se encuentran en la etapa descriptiva del estudio.

¡Atención!

Debe entenderse que el análisis de conglomerados determina la “solución significativa más probable”.

Por lo tanto, la prueba de significación estadística no es realmente aplicable aquí, incluso en los casos en los que se conocen los niveles p (como en el método K-medias).

Las técnicas de agrupamiento se utilizan en una amplia variedad de campos. Hartigan (1975) hizo una excelente revisión de muchos estudios publicados que contenían resultados obtenidos utilizando métodos de análisis de conglomerados.

Por ejemplo, en el campo de la medicina, la agrupación de enfermedades, tratamientos para enfermedades o síntomas de enfermedades conduce a taxonomías ampliamente utilizadas.

En el campo de la psiquiatría, el diagnóstico correcto de grupos de síntomas como paranoia, esquizofrenia, etc. es crucial para una terapia exitosa. En arqueología, mediante el análisis de conglomerados, los investigadores intentan establecer taxonomías de herramientas de piedra, objetos funerarios, etc.

Existen aplicaciones generalizadas del análisis de conglomerados en la investigación de mercados. En general, siempre que es necesario clasificar “montañas” de información en grupos adecuados para su posterior procesamiento, el análisis de conglomerados resulta muy útil y eficaz.

Agrupación de árboles

El ejemplo dado en la sección Propósito principal explica el propósito del algoritmo de agrupación de árboles.

El propósito de este algoritmo es agrupar objetos (como animales) en grupos suficientemente grandes utilizando alguna medida de similitud o distancia entre objetos. El resultado típico de este tipo de agrupamiento es un árbol jerárquico.

Considere un diagrama de árbol horizontal. El diagrama comienza con cada objeto de la clase (en el lado izquierdo del diagrama).

Ahora imagina que poco a poco (en pasos muy pequeños) “relajas” tu criterio sobre qué objetos son únicos y cuáles no.

En otras palabras, se reduce el umbral relacionado con la decisión de combinar dos o más objetos en un grupo.

Como resultado, se unen cada vez más. numero mayor objetos y agregan (combinan) cada vez más grupos formados por elementos cada vez más diferentes.

Finalmente, en el último paso, todos los objetos se combinan. En estos diagramas, los ejes horizontales representan la distancia de unión (en los diagramas de árbol vertical, los ejes verticales representan la distancia de unión).

Entonces, para cada nodo en el gráfico (donde se forma un nuevo grupo), puede ver el valor de distancia para el cual los elementos correspondientes están asociados en un nuevo grupo único.

Cuando los datos tienen una "estructura" clara en términos de grupos de objetos que son similares entre sí, es probable que esta estructura se refleje en el árbol jerárquico mediante diferentes ramas.

Como resultado de un análisis exitoso utilizando el método de fusión, es posible detectar grupos (ramas) e interpretarlos.

El método de unión o agrupamiento de árboles se utiliza para formar grupos de disimilitud o distancia entre objetos. Estas distancias se pueden definir en un espacio unidimensional o multidimensional.

Por ejemplo, si agruparas los tipos de comida en una cafetería, podrías tener en cuenta la cantidad de calorías que contiene, el precio, el sabor subjetivo, etc.

La forma más directa de calcular distancias entre objetos en un espacio multidimensional es calcular distancias euclidianas.

Si tiene un espacio bidimensional o tridimensional, entonces esta medida es la distancia geométrica real entre objetos en el espacio (como si las distancias entre objetos se midieran con una cinta métrica).

Sin embargo, al algoritmo de agrupación no le "importa" si las distancias "proporcionadas" para esa distancia son las reales o alguna otra medida de distancia derivada, que sea más significativa para el investigador; y el desafío para los investigadores es seleccionar el método adecuado para aplicaciones específicas.

Distancia euclidiana. Este parece ser el tipo de distancia más común. Es simplemente una distancia geométrica en el espacio multidimensional y se calcula de la siguiente manera:

Tenga en cuenta que la distancia euclidiana (y su cuadrado) se calcula a partir de los datos originales, no de los datos estandarizados.

Esta es una forma común de calcularlo, que tiene ciertas ventajas (por ejemplo, la distancia entre dos objetos no cambia cuando se introduce un nuevo objeto en el análisis, que puede ser un valor atípico).

¡Atención!

Sin embargo, las distancias pueden verse muy influenciadas por las diferencias entre los ejes a partir de los cuales se calculan las distancias. Por ejemplo, si uno de los ejes se mide en centímetros y luego lo convierte a milímetros (multiplicando los valores por 10), entonces la distancia euclidiana final (o el cuadrado de la distancia euclidiana) calculada a partir de las coordenadas cambiará. enormemente y, como resultado, los resultados del análisis de conglomerados pueden diferir mucho de los anteriores.

Distancia euclidiana al cuadrado. A veces es posible que desees elevar al cuadrado la distancia euclidiana estándar para dar más peso a los objetos que están más separados.

Esta distancia se calcula de la siguiente manera:

Distancia a una cuadra de la ciudad (distancia de Manhattan). Esta distancia es simplemente el promedio de las diferencias sobre las coordenadas.

En la mayoría de los casos, esta medida de distancia produce los mismos resultados que la distancia euclidiana ordinaria.

Sin embargo, observamos que para esta medida la influencia de las grandes diferencias individuales (valores atípicos) se reduce (ya que no están al cuadrado). La distancia de Manhattan se calcula mediante la fórmula:

Distancia de Chebyshev. Esta distancia puede resultar útil cuando se quiere definir dos objetos como "diferentes" si difieren en alguna coordenada (en cualquier dimensión). La distancia de Chebyshev se calcula mediante la fórmula:

Distancia de poder. A veces se desea aumentar o disminuir progresivamente los pesos relacionados con una dimensión para la cual los objetos correspondientes son muy diferentes.

Esto se puede lograr utilizando la distancia de ley de potencia. La distancia de potencia se calcula mediante la fórmula:

donde r y p son parámetros definidos por el usuario. Unos pocos ejemplos de cálculos pueden mostrar cómo “funciona” esta medida.

El parámetro p es responsable de la ponderación gradual de las diferencias a lo largo de coordenadas individuales, el parámetro r es responsable de la ponderación progresiva de grandes distancias entre objetos. Si ambos parámetros r y p son iguales a dos, entonces esta distancia coincide con la distancia euclidiana.

Porcentaje de desacuerdo. Esta medida se utiliza cuando los datos son categóricos. Esta distancia se calcula mediante la fórmula:

Reglas de asociación o conexión

En el primer paso, cuando cada objeto es un grupo separado, las distancias entre estos objetos están determinadas por la medida seleccionada.

Sin embargo, cuando se unen varios objetos, surge la pregunta: ¿cómo se deben determinar las distancias entre los grupos?

En otras palabras, se necesita una regla de unión o conexión para los dos clusters. Aquí hay varias posibilidades: por ejemplo, puede vincular dos grupos cuando dos objetos cualesquiera en dos grupos amigo más cercano entre sí que la distancia de comunicación correspondiente.

En otras palabras, se utiliza la "regla del vecino más cercano" para determinar la distancia entre grupos; este método se llama método de enlace único.

Esta regla forma grupos "fibrosos", es decir. grupos “unidos entre sí” sólo por elementos individuales que resultan estar más cercanos entre sí.

Alternativamente, puede utilizar vecinos en grupos que estén más alejados entre sí por todos los demás pares de objetos. Este método se denomina método de enlace completo.

También existen muchos otros métodos para combinar clusters similares a los discutidos.

Enlace único (método del vecino más cercano). Como se describió anteriormente, en este método, la distancia entre dos grupos está determinada por la distancia entre los dos objetos más cercanos (vecinos más cercanos) en diferentes grupos.

Esta regla debe, en cierto sentido, encadenar objetos para formar grupos, y los grupos resultantes tienden a estar representados por largas "cadenas".

Enlace completo (método de los vecinos más lejanos). En este método, las distancias entre grupos están determinadas por la distancia más grande entre dos objetos cualesquiera en diferentes grupos (es decir, "vecinos más distantes").

Promedio por pares no ponderado. En este método, la distancia entre dos grupos diferentes se calcula como la distancia promedio entre todos los pares de objetos que los contienen.

El método es efectivo cuando los objetos realmente forman diferentes “arboledas”, pero funciona igualmente bien en casos de grupos extendidos (“tipo cadena”).

Tenga en cuenta que en su libro, Sneath y Sokal (1973) introducen la abreviatura UPGMA para referirse a este método como el método de grupos de pares no ponderados que utiliza promedios aritméticos.

Promedio ponderado por pares. El método es idéntico al método de promedio por pares no ponderado, excepto que el tamaño de los grupos correspondientes (es decir, la cantidad de objetos que contienen) se utiliza como factor de ponderación en los cálculos.

Por lo tanto, se debe utilizar el método propuesto (en lugar del anterior) cuando se supone que los tamaños de conglomerados son desiguales.

El libro de Sneath y Sokal (1973) introduce el acrónimo WPGMA para referirse a este método como el método de grupos de pares ponderados que utiliza promedios aritméticos.

Método del centroide no ponderado. En este método, la distancia entre dos grupos se define como la distancia entre sus centros de gravedad.

¡Atención!

Sneath y Sokal (1973) utilizan el acrónimo UPGMC para referirse a este método como el método de grupos de pares no ponderados que utiliza el promedio del centroide.

Método del centroide ponderado (mediana). Este método es idéntico al anterior, excepto que los cálculos utilizan pesos para tener en cuenta la diferencia entre los tamaños de los grupos (es decir, la cantidad de objetos que contienen).

Por lo tanto, si existen (o se sospecha) diferencias significativas en el tamaño de los conglomerados, este método es preferible al anterior.

Sneath y Sokal (1973) utilizaron la abreviatura WPGMC para referirse a él como método de grupos de pares ponderados utilizando el promedio centroide.

El método de Ward. Este método es diferente de todos los demás métodos porque utiliza técnicas de análisis de varianza para estimar las distancias entre grupos.

El método minimiza la suma de cuadrados (SS) de dos grupos (hipotéticos) cualesquiera que se puedan formar en cada paso.

Los detalles se pueden encontrar en Ward (1963). En general, el método parece muy eficaz, pero tiende a crear pequeños grupos.

Este método se analizó anteriormente en términos de los "objetos" que deben agruparse. En todos los demás tipos de análisis, la cuestión de interés para el investigador suele expresarse en términos de observaciones o variables.

Resulta que la agrupación, tanto por observaciones como por variables, puede conducir a resultados bastante interesantes.

Por ejemplo, imagine que un investigador médico está recopilando datos sobre diversas características (variables) de las condiciones (casos) de los pacientes que padecen una enfermedad cardíaca.

Es posible que un investigador desee agrupar observaciones (pacientes) para identificar grupos de pacientes con síntomas similares.

Al mismo tiempo, es posible que el investigador desee agrupar variables para identificar grupos de variables que estén asociadas con condiciones físicas similares.

Después de esta discusión sobre si agrupar observaciones o variables, uno podría preguntarse, ¿por qué no agrupar en ambas direcciones?

El módulo Análisis de conglomerados contiene una eficiente rutina de unión bidireccional que le permite hacer precisamente eso.

Sin embargo, la agrupación bidireccional se utiliza (relativamente raramente) en circunstancias en las que se espera que tanto las observaciones como las variables contribuyan simultáneamente al descubrimiento de grupos significativos.

Así, volviendo al ejemplo anterior, podemos suponer que un investigador médico necesita identificar grupos de pacientes que son similares en relación con ciertos grupos de características de condición física.

La dificultad para interpretar los resultados obtenidos surge del hecho de que las similitudes entre diferentes grupos pueden surgir de (o ser la causa de) algunas diferencias en subconjuntos de variables.

Por tanto, los grupos resultantes son de naturaleza heterogénea. Esto puede parecer un poco confuso al principio; de hecho, en comparación con otros métodos de análisis de conglomerados descritos, la unión bidireccional es probablemente el método menos utilizado.

Sin embargo, algunos investigadores creen que ofrece un medio poderoso de análisis exploratorio de datos (para más información). información detallada tal vez desee consultar la descripción que hace Hartigan de este método (Hartigan, 1975).

K significa método

Este método de agrupación difiere significativamente de métodos de aglomeración como la Unión (agrupación de árboles) y la Unión bidireccional. Supongamos que ya tiene hipótesis sobre el número de conglomerados (basadas en observaciones o variables).

Puede indicarle al sistema que forme exactamente tres grupos para que sean lo más distintos posible.

Este es exactamente el tipo de problema que resuelve el algoritmo K-means. En general, el método K-medias construye exactamente K grupos diferentes ubicados lo más cerca posible. largas distancias de cada uno.

En el ejemplo de la condición física, un investigador médico podría tener una “corazonada” a partir de su experiencia clínica de que sus pacientes generalmente se clasifican en tres categorías diferentes.

¡Atención!

Si este es el caso, entonces los promedios de las diversas medidas de parámetros físicos para cada grupo proporcionarán una forma cuantitativa de representar las hipótesis del investigador (por ejemplo, los pacientes en el grupo 1 tienen un parámetro 1 alto, un parámetro 2 bajo, etc.) .

Desde un punto de vista computacional, se puede considerar este método como un análisis de varianza a la inversa. El programa comienza con K grupos seleccionados aleatoriamente y luego cambia la membresía de los objetos en ellos para que:

  1. minimizar la variabilidad dentro de los grupos,
  2. maximizar la variabilidad entre conglomerados.

Este método es similar al ANOVA inverso en que la prueba de significancia en ANOVA compara la variabilidad entre grupos y dentro del grupo al probar la hipótesis de que las medias de los grupos difieren entre sí.

En el agrupamiento de K-medias, el programa mueve objetos (es decir, observaciones) de un grupo (grupo) a otro para obtener el resultado más significativo al realizar un análisis de varianza (ANOVA).

Normalmente, una vez que se obtienen los resultados de un análisis de conglomerados de K-medias, se pueden calcular las medias de cada conglomerado a lo largo de cada dimensión para evaluar qué tan diferentes son los conglomerados entre sí.

Lo ideal sería obtener medias muy variables para la mayoría, si no todas, las mediciones utilizadas en el análisis.

Fuente: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Clasificación de objetos según sus características.

El análisis de conglomerados es un conjunto de métodos estadísticos multidimensionales para clasificar objetos según las características que los caracterizan, dividir un conjunto de objetos en grupos homogéneos que son similares en la definición de criterios e identificar objetos de un determinado grupo.

Un grupo es un grupo de objetos identificados como resultado de un análisis de grupos basado en una medida determinada de similitud o diferencia entre objetos.

Objeto: estos son objetos de investigación específicos que deben clasificarse. Los objetos de clasificación son, por regla general, observaciones. Por ejemplo, consumidores de productos, países o regiones, productos, etc.

Aunque es posible realizar análisis de conglomerados por variables. La clasificación de objetos en el análisis de conglomerados multidimensional se produce según varios criterios simultáneamente.

Pueden ser variables cuantitativas o categóricas, según el método de análisis de conglomerados. Entonces, el objetivo principal del análisis de conglomerados es encontrar grupos de objetos similares en la muestra.

El conjunto de métodos estadísticos multivariados de análisis de conglomerados se puede dividir en métodos jerárquicos (aglomerativos y divisivos) y no jerárquicos (método k-medias, análisis de conglomerados en dos etapas).

Sin embargo, no existe una clasificación de métodos generalmente aceptada y los métodos de análisis de conglomerados a veces también incluyen métodos para construir árboles de decisión, redes neuronales, análisis discriminante y regresión logística.

El ámbito de uso del análisis de conglomerados, debido a su versatilidad, es muy amplio. El análisis de conglomerados se utiliza en economía, marketing, arqueología, medicina, psicología, química, biología, administración Pública, filología, antropología, sociología y otros campos.

A continuación se muestran algunos ejemplos del uso del análisis de conglomerados:

  • medicina – clasificación de enfermedades, sus síntomas, métodos de tratamiento, clasificación de grupos de pacientes;
  • marketing – tareas de optimizar la línea de productos de la empresa, segmentar el mercado por grupos de bienes o consumidores, identificar consumidores potenciales;
  • sociología: dividir a los encuestados en grupos homogéneos;
  • psiquiatría: el diagnóstico correcto de grupos de síntomas es decisivo para el éxito de la terapia;
  • biología: clasificación de organismos por grupo;
  • Economía: clasificación de las entidades constituyentes de la Federación de Rusia según su atractivo para la inversión.

Fuente: http://www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

Comprender el análisis de conglomerados

El análisis de conglomerados incluye un conjunto de diferentes algoritmos de clasificación. Una pregunta común que hacen los investigadores en muchos campos es cómo organizar los datos observados en estructuras visuales.

Por ejemplo, los biólogos se propusieron dividir a los animales en diferentes tipos describir significativamente las diferencias entre ellos.

La tarea del análisis de conglomerados es dividir el conjunto inicial de objetos en grupos de objetos similares que estén cerca unos de otros. Estos grupos se llaman clusters.

En otras palabras, el análisis de conglomerados es una de las formas de clasificar objetos según sus características. Es deseable que los resultados de la clasificación tengan una interpretación significativa.

Los resultados obtenidos mediante métodos de análisis de conglomerados se utilizan en la mayoría Varias áreas. En marketing, esta es la segmentación de competidores y consumidores.

En psiquiatría, el diagnóstico correcto de síntomas como paranoia, esquizofrenia, etc. es decisivo para el éxito de una terapia.

En la gestión, es importante clasificar a los proveedores e identificar situaciones de producción similares en las que ocurren defectos. En sociología, la división de los encuestados en grupos homogéneos. En la inversión de cartera, es importante agrupar valores por similitud en la tendencia de la rentabilidad con el fin de compilar, con base en la información obtenida sobre el mercado de valores, un portafolio de inversiones óptimo que permita maximizar el beneficio de las inversiones con un determinado grado de riesgo.

En general, siempre que sea necesario clasificar una gran cantidad de información de este tipo y presentarla en una forma adecuada para su posterior procesamiento, el análisis de conglomerados resulta muy útil y eficaz.

El análisis de conglomerados le permite considerar una cantidad bastante grande de información y comprimir en gran medida grandes cantidades de información socioeconómica, haciéndola compacta y visual.

¡Atención!

El análisis de conglomerados es de gran importancia en relación con conjuntos de series temporales que caracterizan el desarrollo económico (por ejemplo, las condiciones económicas y de productos básicos generales).

Aquí se pueden resaltar períodos en los que los valores de los indicadores correspondientes eran bastante cercanos, así como determinar grupos de series temporales cuya dinámica es más similar.

En las tareas de previsión socioeconómica, la combinación del análisis de conglomerados con otros métodos es muy prometedora. Métodos cuantitativos(por ejemplo, con análisis de regresión).

Ventajas y desventajas

El análisis de conglomerados permite una clasificación objetiva de cualquier objeto que se caracterice por una serie de características. Hay una serie de beneficios que se pueden derivar de esto:

  1. Los grupos resultantes se pueden interpretar, es decir, pueden describir qué grupos existen realmente.
  2. Se pueden descartar grupos individuales. Esto es útil en los casos en que se cometieron ciertos errores al recopilar datos, como resultado de lo cual los valores de los indicadores para objetos individuales se desvían marcadamente. Al aplicar el análisis de conglomerados, dichos objetos se incluyen en un grupo separado.
  3. Sólo aquellos conglomerados que tengan las características de interés pueden seleccionarse para un análisis más detallado.

Como cualquier otro método, el análisis de conglomerados tiene ciertas desventajas y limitaciones. En particular, la composición y el número de clusters dependen de los criterios de partición seleccionados.

Al reducir la matriz de datos original a una forma más compacta, pueden surgir ciertas distorsiones y las características individuales de los objetos individuales pueden perderse debido a su reemplazo con las características de valores generalizados de los parámetros del grupo.

Métodos

Actualmente se conocen más de cien algoritmos de agrupamiento diferentes. Su diversidad se explica no sólo por diferentes métodos computacionales, sino también varios conceptos, agrupamiento subyacente.

Los siguientes métodos de agrupación se implementan en el paquete Statistica.

  • Algoritmos jerárquicos: agrupación de árboles. Los algoritmos jerárquicos se basan en la idea de agrupamiento secuencial. En el paso inicial, cada objeto se considera como un grupo separado. En el siguiente paso, algunos de los grupos más cercanos entre sí se combinarán en un grupo separado.
  • Método K-medias. Este método se utiliza con mayor frecuencia. Pertenece al grupo de los denominados métodos de referencia del análisis de conglomerados. El número de grupos K lo especifica el usuario.
  • Combinación de dos entradas. Cuando se utiliza este método, la agrupación se realiza simultáneamente tanto por variables (columnas) como por observaciones (filas).

El procedimiento de agrupación bidireccional se utiliza en los casos en los que se puede esperar que la agrupación simultánea de variables y observaciones produzca resultados significativos.

Los resultados del procedimiento son estadísticas descriptivas de las variables y observaciones, así como un gráfico de colores bidimensional en el que los valores de los datos están codificados por colores.

A partir de la distribución de los colores, puedes hacerte una idea de los grupos homogéneos.

Normalización de variables

Dividir el conjunto inicial de objetos en grupos implica calcular las distancias entre objetos y seleccionar objetos cuya distancia sea la más pequeña de todas las posibles.

La más utilizada es la distancia euclidiana (geométrica) que todos conocemos. Esta métrica corresponde a ideas intuitivas sobre la proximidad de los objetos en el espacio (como si las distancias entre objetos se midieran con una cinta métrica).

Pero para una métrica determinada, la distancia entre objetos puede verse muy afectada por cambios en las escalas (unidades de medida). Por ejemplo, si una de las características se mide en milímetros y luego su valor se convierte a centímetros, la distancia euclidiana entre objetos cambiará mucho. Esto conducirá al hecho de que los resultados del análisis de conglomerados pueden diferir significativamente de los anteriores.

Si las variables se miden en diferentes unidades de medida, entonces se requiere su normalización preliminar, es decir, una transformación de los datos originales que los convierta en cantidades adimensionales.

La normalización distorsiona en gran medida la geometría del espacio original, lo que puede cambiar los resultados de la agrupación.

En el paquete Statistica, la normalización de cualquier variable x se realiza mediante la fórmula:

Para hacer esto, haga clic derecho en el nombre de la variable y seleccione la secuencia de comandos en el menú que se abre: Rellenar/Estandarizar bloque/Estandarizar columnas. Los valores de la variable normalizada serán iguales a cero y la varianza será igual a uno.

Método K-medias en el programa Statistica

El método K-means divide un conjunto de objetos en numero dado K diferentes clusters ubicados a las mayores distancias posibles entre sí.

Normalmente, una vez que se obtienen los resultados de un análisis de conglomerados de K-medias, se pueden calcular las medias de cada conglomerado a lo largo de cada dimensión para evaluar qué tan diferentes son los conglomerados entre sí.

Lo ideal sería obtener medias muy variables para la mayoría de las mediciones utilizadas en el análisis.

Los valores del estadístico F obtenidos para cada dimensión son otro indicador de qué tan bien la dimensión correspondiente discrimina entre conglomerados.

Como ejemplo, consideremos los resultados de una encuesta realizada a 17 empleados de una empresa sobre su satisfacción con los indicadores de calidad de su carrera. La tabla proporciona respuestas a las preguntas de la encuesta sobre escala de diez puntos(1 – puntuación mínima, 10 – máxima).

Los nombres de las variables corresponden a las respuestas a las siguientes preguntas:

  1. SLC: una combinación de objetivos personales y objetivos organizacionales;
  2. OSO – sentido de equidad en la remuneración;
  3. TBD: proximidad territorial al hogar;
  4. OEB – sensación de bienestar económico;
  5. KR – crecimiento profesional;
  6. JSR – deseo de cambiar de trabajo;
  7. RSD – sensación de bienestar social.

A partir de estos datos, es necesario dividir a los empleados en grupos e identificar las palancas de gestión más eficaces para cada uno de ellos.

Al mismo tiempo, las diferencias entre grupos deben ser obvias y dentro del grupo los encuestados deben ser lo más similares posible.

Hoy en día, la mayoría de las encuestas sociológicas dan sólo el porcentaje de votos: se tiene en cuenta el número principal de los que respondieron positivamente o el porcentaje de los que no estaban satisfechos, pero esta cuestión no se considera sistemáticamente.

La mayoría de las veces, la encuesta no muestra una tendencia en la situación. En algunos casos, es necesario contar no el número de personas que están "a favor" o "en contra", sino la distancia o la medida de similitud, es decir, determinar grupos de personas que piensan aproximadamente de la misma manera.

Los procedimientos de análisis de conglomerados se pueden utilizar para identificar, basándose en datos de encuestas, algunas relaciones de características realmente existentes y generar su tipología sobre esta base.

¡Atención!

La presencia de hipótesis a priori de un sociólogo cuando trabaja con procedimientos de análisis de conglomerados no es una condición necesaria.

En Statistica, el análisis de conglomerados se realiza de la siguiente manera.

Al elegir el número de grupos, guíese por lo siguiente: el número de grupos, si es posible, no debe ser demasiado grande.

La distancia a la que se unen los objetos de un grupo determinado debería, si es posible, mucho menor que la distancia a la que algo más se une a este grupo.

Al elegir el número de grupos, la mayoría de las veces hay varias soluciones correctas al mismo tiempo.

Nos interesa, por ejemplo, cómo se comparan las respuestas a las preguntas de la encuesta entre los empleados ordinarios y la dirección de la empresa. Por tanto elegimos K=2. Para una mayor segmentación, puede aumentar el número de clústeres.

  1. seleccionar observaciones con la distancia máxima entre los centros de los conglomerados;
  2. ordenar distancias y seleccionar observaciones a intervalos regulares (configuración predeterminada);
  3. tome las primeras observaciones como centros y adjunte los objetos restantes a ellos.

Para nuestros propósitos, la opción 1) es adecuada.

Muchos algoritmos de agrupamiento a menudo “imponen” una estructura antinatural a los datos y desorientan al investigador. Por lo tanto, es imperativo aplicar varios algoritmos de análisis de conglomerados y sacar conclusiones basadas en evaluación general resultados del algoritmo

Los resultados del análisis se pueden ver en el cuadro de diálogo que aparece:

Si selecciona la pestaña Gráfico de medias, se construirá un gráfico de las coordenadas de los centros de los conglomerados:


Cada línea discontinua en este gráfico corresponde a uno de los grupos. Cada división en el eje horizontal del gráfico corresponde a una de las variables incluidas en el análisis.

El eje vertical corresponde a los valores promedio de las variables de los objetos incluidos en cada uno de los clusters.

Se puede observar que existen diferencias significativas en la actitud de los dos grupos de personas hacia sus carreras en casi todas las cuestiones. Sólo hay total unanimidad en una cuestión: la sensación de bienestar social (SSW), o más bien, la falta del mismo (2,5 puntos sobre 10).

Podemos suponer que el grupo 1 representa a los trabajadores y el grupo 2 representa a la gerencia. Los gerentes están más satisfechos con el crecimiento profesional (CR), la combinación de metas personales y metas organizacionales (CLO).

Tienen niveles más altos de bienestar económico percibido (SEW) y equidad salarial percibida (SPE).

Están menos preocupados por la proximidad territorial al hogar (TPH) que los trabajadores, probablemente debido a menos problemas con el transporte. Además, los directivos tienen menos ganas de cambiar de trabajo (JSR).

A pesar de que los trabajadores se dividen en dos categorías, responden a la mayoría de las preguntas de manera relativamente igualitaria. En otras palabras, si algo no conviene al conjunto general de empleados, tampoco conviene a la alta dirección, y viceversa.

La coordinación de horarios nos permite sacar conclusiones de que el bienestar de un grupo se refleja en el bienestar de otro.

El grupo 1 no está satisfecho con la proximidad territorial a su hogar. Este grupo constituye el grueso de trabajadores que llegan a la empresa principalmente desde distintos puntos de la ciudad.

Por tanto, es posible proponer a la dirección principal destinar parte de los beneficios a la construcción de viviendas para los empleados de la empresa.

Existen diferencias significativas en la actitud de los dos grupos de personas hacia sus carreras. Aquellos empleados que están satisfechos con el crecimiento profesional, que tienen una alta coincidencia de metas personales y de la organización, no tienen deseos de cambiar de trabajo y se sienten satisfechos con los resultados de su trabajo.

Por el contrario, los empleados que quieren cambiar de trabajo y no están satisfechos con los resultados de su trabajo no están satisfechos con los indicadores indicados. La alta dirección debería prestar especial atención a la situación actual.

Los resultados del análisis de varianza para cada característica se muestran al hacer clic en el botón Análisis de varianza.

Se muestran la suma de las desviaciones al cuadrado de los objetos desde los centros del grupo (SS dentro) y la suma de las desviaciones al cuadrado entre los centros del grupo (SS entre), los valores estadísticos F y los niveles de significancia p.

¡Atención!

Para nuestro ejemplo, los niveles de significancia de dos variables son bastante grandes, lo que se explica por el pequeño número de observaciones. En la versión completa del estudio, que se puede encontrar en el trabajo, la hipótesis sobre la igualdad de medias para los centros de conglomerados se rechaza en niveles de significancia inferiores a 0,01.

El botón Guardar clasificaciones y distancias muestra la cantidad de objetos incluidos en cada grupo y las distancias de los objetos al centro de cada grupo.

La tabla muestra los números de observación (CASE_NO), los grupos constituyentes con números de CLUSTER y la distancia desde el centro de cada grupo (DISTANCIA).

La información sobre objetos que pertenecen a clústeres se puede escribir en un archivo y utilizar en análisis mas extenso. En este ejemplo, una comparación de los resultados obtenidos con los cuestionarios mostró que el grupo 1 está formado principalmente por trabajadores comunes y el grupo 2 por gerentes.

Así, se puede observar que al procesar los resultados de la encuesta, el análisis de conglomerados resultó ser un método poderoso que nos permite sacar conclusiones a las que no se puede llegar construyendo un histograma de promedios o calculando el porcentaje de personas satisfechas con varios indicadores del calidad de vida laboral.

La agrupación de árboles es un ejemplo de un algoritmo jerárquico, cuyo principio es combinar secuencialmente en un grupo, primero los elementos más cercanos y luego cada vez más distantes entre sí.

La mayoría de estos algoritmos parten de una matriz de similitud (distancia) y cada elemento individual se considera primero como un grupo separado.

Después de cargar el módulo de análisis de conglomerados y seleccionar Unirse (agrupación de árboles), en la ventana para ingresar parámetros de agrupación, puede cambiar los siguientes parámetros:

  • Datos iniciales (Entrada). Pueden tener la forma de una matriz de los datos estudiados (Datos sin procesar) y la forma de una matriz de distancias (Matriz de distancias).
  • Agrupación de observaciones (Casos (sin procesar)) o variables (Variable (columnas)) que describen el estado de un objeto.
  • Medida de distancia. Aquí puede seleccionar las siguientes medidas: Distancias euclidianas, Distancias euclidianas al cuadrado, Distancia entre manzanas (Manhattan), Distancia métrica de Chebychev, Distancia de potencia...), Porcentaje de desacuerdo.
  • Método de agrupación (regla de fusión (vinculación)). Aquí son posibles las siguientes opciones: Enlace único, Enlace completo, Promedio de grupo de pares no ponderado, Promedio de grupo de pares ponderado), centroide de grupo de pares no ponderado, centroide de grupo de pares ponderado (mediana), método de Ward.

Como resultado de la agrupación, se construye un dendrograma horizontal o vertical, un gráfico en el que se determinan las distancias entre objetos y grupos cuando se combinan secuencialmente.

La estructura de árbol del gráfico le permite definir grupos según el umbral seleccionado: una distancia específica entre grupos.

Además, se muestra una matriz de distancias entre los objetos originales (Matriz de distancias); desviaciones promedio y estándar para cada objeto fuente (estadísticas distiptivas).

Para el ejemplo considerado, realizaremos un análisis de conglomerados de variables con configuración predeterminada. El dendrograma resultante se muestra en la figura.


El eje vertical del dendrograma muestra las distancias entre objetos y entre objetos y grupos. Por tanto, la distancia entre las variables OEB y OSD es cinco. En el primer paso, estas variables se combinan en un grupo.

Los segmentos horizontales del dendrograma se dibujan en niveles correspondientes a los valores de distancia umbral seleccionados para un paso de agrupación determinado.

El gráfico muestra que la pregunta “deseo de cambiar de trabajo” (MTS) forma un grupo separado. En general, las ganas de ir a cualquier parte visitan a todos por igual. A continuación, un grupo aparte es la cuestión de la proximidad territorial al hogar (TDP).

En términos de importancia, ocupa el segundo lugar, lo que confirma la conclusión sobre la necesidad de construcción de viviendas realizada a partir de los resultados del estudio mediante el método K-medias.

La percepción de bienestar económico (SEW) y la equidad salarial (WFE) se combinan: este es un bloque de cuestiones económicas. Carrera(KR) y la combinación de objetivos personales y organizacionales (LOG) también se combinan.

Otros métodos de agrupamiento, así como la elección de otros tipos de distancias, no provocan un cambio significativo en el dendrograma.

Resultados:

  1. El análisis de conglomerados es una herramienta poderosa para el análisis exploratorio de datos y la investigación estadística en cualquier área temática.
  2. El programa Statistica implementa métodos jerárquicos y estructurales de análisis de conglomerados. Las ventajas de este paquete estadístico provienen de sus capacidades gráficas. Se proporcionan visualizaciones gráficas bidimensionales y tridimensionales de los clusters resultantes en el espacio de las variables estudiadas, así como los resultados del procedimiento jerárquico para agrupar objetos.
  3. Es necesario aplicar varios algoritmos de análisis de conglomerados y sacar conclusiones basadas en una evaluación general de los resultados de los algoritmos.
  4. El análisis de conglomerados se puede considerar exitoso si se completa diferentes caminos, los resultados fueron comparados y encontrados patrones generales, y se encontraron grupos estables independientemente del método de agrupación.
  5. El análisis de conglomerados nos permite identificar situaciones problemáticas y describir formas de resolverlos. En consecuencia, este método de estadística no paramétrica puede considerarse como una parte integral del análisis de sistemas.

10.1.1 Conceptos básicos.

Que se estudie el conjunto objetos, cada uno de los cuales se caracteriza características medidas. Se requiere dividir esta población en grupos que sean en cierto sentido homogéneos. Al mismo tiempo, prácticamente no existe información a priori sobre la naturaleza de la distribución. -vector dimensional
dentro de las clases.
Los grupos resultantes se suelen llamar clusters (taxones, imágenes), métodos para encontrarlos - análisis de conglomerados(taxonomía numérica o reconocimiento de patrones de autoaprendizaje).

La solución al problema es determinar la estratificación natural de los resultados de las observaciones en grupos claramente definidos que se encuentran a cierta distancia entre sí. (Puede resultar que muchas observaciones no muestren una estratificación natural en grupos, es decir, formen un grupo).

La forma habitual de representar datos iniciales en problemas de análisis de conglomerados es una matriz.

,

cada línea representa los resultados de la medición las características consideradas en uno de los objetos.

Agrupación está destinado a dividir un conjunto de objetos en grupos homogéneos ( grupos o clases). Si los datos de muestra se representan como puntos en el espacio de características, entonces el problema agrupamiento Todo se reduce a la definición de "condensaciones de puntos".

El concepto de cluster se traduce como “cluster”, “bunch”. Los sinónimos del término "agrupación" son "clasificación automática", "aprendizaje no supervisado" y "taxonomía".

El propósito de la agrupación es buscar estructuras existentes. La agrupación es un procedimiento descriptivo, no hace ninguna inferencia estadística, pero brinda la oportunidad de realizar análisis exploratorios y estudiar la "estructura de los datos". Las clases no se definen de antemano; se buscan los grupos más similares y homogéneos. Un cluster se puede caracterizar como un grupo de objetos que tienen propiedades comunes.

Las características de un cluster se pueden describir como dos:

    homogeneidad interna;

    aislamiento externo.

Los grupos pueden ser separados o exclusivos (no superpuestos, exclusivos) y superpuestos. En la figura 1 se muestra una representación esquemática de los grupos que no se superponen y que se cruzan. 10.1.

Arroz. 10.1 Clústeres disjuntos y superpuestos

El término "análisis de conglomerados", introducido por primera vez por Tryon en 1939, combina más de 100 algoritmos diferentes.

A diferencia de los problemas de clasificación, el análisis de conglomerados no requiere suposiciones a priori sobre el conjunto de datos, no impone restricciones a la representación de los objetos en estudio y permite analizar indicadores de varios tipos de datos (datos de intervalo, frecuencias, datos binarios). . Hay que recordar que las variables deben medirse en escalas comparables.

10.1.2 Características del conglomerado

Un grupo tiene las siguientes características matemáticas: centro, radio, desviación estándar, tamaño del grupo.

Cada objeto de población en el análisis de conglomerados se considera como un punto en un espacio de características determinado. El valor de cada uno de los atributos de una unidad determinada sirve como su coordenada en este espacio.

El centro del grupo es la media geométrica de los puntos en el espacio de variables.

Radio del grupo: la distancia máxima de los puntos desde el centro del grupo.

Si es imposible asignar inequívocamente un objeto a uno de dos grupos mediante procedimientos matemáticos, entonces dichos objetos se denominan controvertidos y se detecta una superposición de grupos. Un objeto controvertido es un objeto que, según su similitud, puede clasificarse en varios grupos.

El tamaño de un grupo se puede determinar por el radio del grupo o por la desviación estándar de los objetos de ese grupo. Un objeto pertenece a un grupo si la distancia desde el objeto al centro del grupo es menor que el radio del grupo. Si esta condición se cumple para dos o más grupos, el objeto es discutible. La ambigüedad de este problema puede ser resuelta por un experto o analista.

Cada grupo incluye muchos enfoques y algoritmos.

Usando varios métodos En el análisis de conglomerados, el analista puede obtener diferentes soluciones para los mismos datos. Esto se considera normal. Consideremos en detalle los métodos jerárquicos y no jerárquicos.

La esencia de la agrupación jerárquica es combinar secuencialmente grupos más pequeños en grupos más grandes o dividir grupos grandes en grupos más pequeños.

Métodos de aglomeración jerárquica (Agglomerative Nesting, AGNES) Este grupo de métodos se caracteriza por la combinación secuencial de elementos iniciales y la correspondiente reducción en el número de clusters.

Al comienzo del algoritmo, todos los objetos son grupos separados. En el primer paso, los objetos más similares se combinan en un grupo. En los pasos siguientes, la fusión continúa hasta que todos los objetos forman un grupo. Métodos jerárquicos divisibles (divisibles) (ANÁLISIS DIvisivo, DIANA) Estos métodos son el opuesto lógico de los métodos aglomerativos. Al comienzo del algoritmo, todos los objetos pertenecen a un grupo, que en pasos posteriores se divide en grupos más pequeños, lo que da como resultado una secuencia de grupos divididos.

Los métodos no jerárquicos revelan una mayor estabilidad con respecto al ruido y los valores atípicos, la elección incorrecta de métricas y la inclusión de variables insignificantes en el conjunto que participa en la agrupación. El precio que hay que pagar por estas ventajas del método es la palabra “a priori”. El analista debe predeterminar el número de clusters, el número de iteraciones o regla de detención y algunos otros parámetros de clustering. Esto es especialmente difícil para los principiantes.

Si no hay suposiciones sobre el número de clústeres, se recomienda utilizar algoritmos jerárquicos. Sin embargo, si el tamaño de la muestra no lo permite, una posible forma es realizar una serie de experimentos con diferentes números de conglomerados, por ejemplo, comenzar a dividir el conjunto de datos en dos grupos y, aumentando gradualmente su número, comparar los resultados. Debido a esta “variación” de resultados, se logra una flexibilidad de agrupación bastante grande.

Los métodos jerárquicos, a diferencia de los no jerárquicos, se niegan a determinar el número de grupos, pero construyen árbol completo clusters anidados.

Dificultades de los métodos de agrupamiento jerárquico: limitación del tamaño del conjunto de datos; elección de medida de proximidad; inflexibilidad de las clasificaciones resultantes.

La ventaja de este grupo de métodos en comparación con los métodos no jerárquicos es su visibilidad y la capacidad de obtener una comprensión detallada de la estructura de datos.

Cuando se utilizan métodos jerárquicos, es posible identificar con bastante facilidad valores atípicos en un conjunto de datos y, como resultado, mejorar la calidad de los datos. Este procedimiento es la base del algoritmo de agrupamiento de dos pasos. Un conjunto de datos de este tipo se puede utilizar posteriormente para realizar agrupaciones no jerárquicas.

Hay otro aspecto que ya se ha mencionado en esta conferencia. Se trata de agrupar todo el conjunto de datos o una muestra del mismo. Este aspecto es esencial para ambos grupos de métodos considerados, pero es más crítico para los métodos jerárquicos. Los métodos jerárquicos no pueden funcionar con grandes conjuntos de datos y el uso de algún muestreo, p. partes de los datos podrían permitir la aplicación de estos métodos.

Los resultados de agrupamiento pueden no tener suficiente justificación estadística. Por otro lado, a la hora de resolver problemas de agrupamiento, es aceptable una interpretación no estadística de los resultados obtenidos, así como una variedad bastante grande de variantes del concepto de cluster. Esta interpretación no estadística permite al analista obtener resultados de agrupamiento que lo satisfagan, lo que a menudo resulta difícil cuando se utilizan otros métodos.

1) Método de conexiones completas.

La esencia de este método es que dos objetos que pertenecen al mismo grupo (grupo) tienen un coeficiente de similitud menor que un cierto valor umbral S. En términos de la distancia euclidiana d, esto significa que la distancia entre dos puntos (objetos) del grupo no debe exceder un cierto valor umbral h. Por tanto, h define el diámetro máximo permitido del subconjunto que forma el grupo.

2) Método de distancia local máxima.

Cada objeto se trata como un grupo de un solo punto. Los objetos se agrupan según la siguiente regla: dos grupos se combinan si la distancia máxima entre los puntos de un grupo y los puntos del otro es mínima. El procedimiento consta de n - 1 pasos y el resultado son particiones que coinciden con todas las particiones posibles en el método anterior para cualquier valor de umbral.

3) Método de la palabra.

En este método se utiliza como función objetivo la suma intragrupo de desviaciones al cuadrado, que no es más que la suma de las distancias al cuadrado entre cada punto (objeto) y el promedio del grupo que contiene este objeto. En cada paso, se combinan dos grupos que conducen a un aumento mínimo en la función objetivo, es decir, suma de cuadrados dentro del grupo. Este método tiene como objetivo combinar grupos ubicados muy cerca.

4) Método centroide.

La distancia entre dos conglomerados se define como la distancia euclidiana entre los centros (promedios) de estos conglomerados:

d2 ij = (`X -`Y)Т(`X -`Y) La agrupación ocurre en etapas: en cada uno de los n-1 pasos, se combinan dos agrupaciones G y p, que tienen un valor mínimo d2ij Si n1 es mucho mayor que n2, entonces los centros de unión de los dos conglomerados están cerca uno del otro y las características del segundo conglomerado prácticamente se ignoran al combinar conglomerados. Este método a veces también se denomina método de grupo ponderado.

Sabemos que la Tierra es uno de los 8 planetas que giran alrededor del Sol. El Sol es sólo una estrella entre los 200 mil millones de estrellas de la galaxia vía Láctea. Es muy difícil comprender este número. Sabiendo esto, podemos hacer una suposición sobre la cantidad de estrellas en el universo: aproximadamente 4X10^22. Podemos ver alrededor de un millón de estrellas en el cielo, aunque esto es sólo una pequeña parte del número real de estrellas. Entonces, tenemos dos preguntas:

  1. ¿Qué es una galaxia?
  2. ¿Y cuál es la conexión entre las galaxias y el tema del artículo (análisis de conglomerados)?


Una galaxia es un conjunto de estrellas, gas, polvo, planetas y nubes interestelares. Normalmente, las galaxias se parecen a una figura espiral o edéptica. En el espacio, las galaxias están separadas unas de otras. Los enormes agujeros negros suelen ser los centros de la mayoría de las galaxias.

Como veremos en la siguiente sección, existen muchas similitudes entre las galaxias y el análisis de cúmulos. Las galaxias existen en un espacio tridimensional, el análisis de conglomerados es un análisis multidimensional que se lleva a cabo en un espacio de n dimensiones.

La nota: Un agujero negro es el centro de una galaxia. Usaremos una idea similar con respecto a los centroides para el análisis de conglomerados.

Análisis de conglomerados

Supongamos que es el jefe de marketing y relaciones con el consumidor de una empresa de telecomunicaciones. Entiendes que cada consumidor es diferente y que necesitas diferentes estrategias para atraer a diferentes consumidores. Apreciará el poder de una herramienta como la segmentación de clientes para optimizar costos. Para actualizar sus conocimientos sobre el análisis de conglomerados, considere el siguiente ejemplo que ilustra a 8 consumidores y la duración promedio de sus llamadas (locales e internacionales). A continuación los datos:

Para una mejor comprensión, dibujemos un gráfico donde el eje x mostrará la duración promedio de las llamadas internacionales y el eje y mostrará la duración promedio de las llamadas locales. A continuación se muestra el gráfico:

La nota: Esto es similar a analizar la disposición de las estrellas en el cielo nocturno (aquí las estrellas son reemplazadas por consumidores). Además, en lugar de un espacio tridimensional, tenemos uno bidimensional, definido por la duración de las llamadas locales e internacionales como los ejes x e y.
Ahora bien, hablando en términos de galaxias, la tarea se formula de la siguiente manera: encontrar la posición de los agujeros negros; en el análisis de conglomerados, estos se denominan centroides. Para detectar centroides, comenzaremos tomando puntos arbitrarios como posiciones de los centroides.

Distancia euclidiana para encontrar centroides para conglomerados

En nuestro caso, colocaremos arbitrariamente dos centroides (C1 y C2) en puntos con coordenadas (1, 1) y (3, 4). ¿Por qué elegimos estos dos centroides? La visualización visual de los puntos en el gráfico nos muestra que hay dos grupos que analizaremos. Sin embargo, veremos más adelante que la respuesta a esta pregunta no es tan sencilla para un conjunto de datos grande.
A continuación, mediremos la distancia entre los centroides (C1 y C2) y todos los puntos de la gráfica usando la fórmula euclidiana para encontrar la distancia entre dos puntos.

Nota: La distancia se puede calcular usando otras fórmulas, por ejemplo,

  1. Distancia euclidiana al cuadrado: para dar peso a los objetos que están más distantes entre sí.
  2. Distancia de Manhattan – para reducir el impacto de las emisiones
  3. distancia de poder: para aumentar o disminuir la influencia a lo largo de coordenadas específicas
  4. porcentaje de desacuerdo – para datos categóricos
  5. y etc.
Las columnas 3 y 4 (Distancia desde C1 y C2) son la distancia calculada usando esta fórmula. Por ejemplo, para el primer consumidor

Perteneciente a los centroides ( última columna) se calcula en función de la proximidad a los centroides (C1 y C2). El primer consumidor está más cerca del centroide n.° 1 (1,41 en comparación con 2,24) y, por lo tanto, pertenece al grupo con centroide C1.

A continuación se muestra un gráfico que ilustra los centroides C1 y C2 (mostrados como un diamante azul y naranja). Los consumidores se representan por el color del centroide correspondiente al grupo al que fueron asignados.

Dado que seleccionamos los centroides al azar, el segundo paso es hacer que esta selección sea iterativa. La nueva posición del centroide se elige como el promedio de los puntos del grupo correspondiente. Entonces, por ejemplo, para el primer centroide (estos son los consumidores 1, 2 y 3). Por lo tanto, la nueva coordenada x para el centroide C1 es la coordenada x promedio de estos consumidores (2+1+1)/3 = 1,33. Obtendremos nuevas coordenadas para C1 (1.33, 2.33) y C2 (4.4, 4.2). El nuevo gráfico se muestra a continuación:

Finalmente, colocaremos los centroides en el centro del grupo correspondiente. Gráfico a continuación:

Las posiciones de nuestros agujeros negros (centros de cúmulos) en nuestro ejemplo son C1 (1,75, 2,25) y C2 (4,75, 4,75). Los dos cúmulos de arriba son como dos galaxias separadas en el espacio entre sí.

Entonces, veamos los ejemplos más a fondo. Enfrentémonos a la tarea de segmentar a los consumidores según dos parámetros: edad e ingresos. Digamos que tenemos 2 consumidores, de 37 y 44 años, con ingresos de $90.000 y $62.000, respectivamente. Si queremos medir la distancia euclidiana entre los puntos (37, 90000) y (44, 62000), veremos que en este caso la variable renta “domina” a la variable edad y su cambio afecta mucho a la distancia. Necesitamos alguna estrategia para resolver este problema; de lo contrario, nuestro análisis dará un resultado incorrecto. La solución a este problema es llevar nuestros valores a escalas comparables. La normalización es la solución a nuestro problema.

Normalización de datos

Existen muchos enfoques para la normalización de datos. Por ejemplo, normalización mínimo-máximo. Para esta normalización se utiliza la siguiente fórmula

en este caso X* es un valor normalizado, min y max son las coordenadas mínima y máxima de todo el conjunto X
(Tenga en cuenta que esta fórmula coloca todas las coordenadas en el segmento)
Miremos nuestro ejemplo, digamos que el ingreso máximo es $130,000 y el mínimo es $45,000. El valor normalizado de la renta del consumidor A es

Este ejercicio lo haremos para todos los puntos de cada variable (coordenadas). Los ingresos del segundo consumidor (62.000) pasarán a ser 0,2 después del procedimiento de normalización. Además, que las edades mínima y máxima sean 23 y 58 años respectivamente. Después de la normalización, las edades de nuestros dos consumidores serán 0,4 y 0,6.

Es fácil ver que todos nuestros datos ahora se encuentran entre los valores 0 y 1. Por lo tanto, ahora tenemos conjuntos de datos normalizados en escalas comparables.

Recuerde, antes del procedimiento de análisis de conglomerados, se debe realizar la normalización.

Agrupación de tareas en minería de datos

Introducción al análisis de conglomerados

De toda la amplia gama de aplicaciones del análisis de conglomerados, por ejemplo, problemas de previsión socioeconómica.

Al analizar y pronosticar fenómenos socioeconómicos, el investigador se topa con frecuencia con la multidimensionalidad de su descripción. Esto sucede al resolver el problema de la segmentación del mercado, construyendo una tipología de países según suficiente un número grande indicadores, pronosticar las condiciones del mercado para bienes individuales, estudiar y pronosticar la depresión económica y muchos otros problemas.

Los métodos de análisis multivariado son la herramienta cuantitativa más eficaz para estudiar los procesos socioeconómicos descritos por una gran cantidad de características. Estos incluyen análisis de conglomerados, taxonomía, reconocimiento de patrones y análisis factorial.

Análisis de conglomerados Refleja más claramente las características del análisis multivariado en la clasificación, el análisis factorial, en el estudio de las relaciones.

A veces, el enfoque de análisis de conglomerados se denomina en la literatura taxonomía numérica, clasificación numérica, reconocimiento de autoaprendizaje, etc.

El análisis de conglomerados encontró su primera aplicación en sociología. El nombre análisis de conglomerados proviene de la palabra inglesa cluster - manojo, acumulación. Por primera vez en 1939, el investigador Trion definió y describió el tema del análisis de conglomerados. El objetivo principal del análisis de conglomerados es dividir el conjunto de objetos y características en estudio en grupos o conglomerados que sean homogéneos en el sentido apropiado. Esto significa que se está resolviendo el problema de clasificar datos e identificar la estructura correspondiente en ellos. Los métodos de análisis de conglomerados se pueden utilizar en una amplia variedad de casos, incluso en los casos en los que hablamos de agrupaciones simples, en las que todo se reduce a la formación de grupos a partir de la similitud cuantitativa.

La gran ventaja del análisis de conglomerados el hecho de que le permite dividir objetos no según un parámetro, sino según un conjunto completo de características. Además, el análisis de conglomerados, a diferencia de la mayoría de los métodos matemáticos y estadísticos, no impone ninguna restricción sobre el tipo de objetos considerados y permite considerar una variedad de datos iniciales de naturaleza casi arbitraria. Esto es de gran importancia, por ejemplo, para pronosticar la situación del mercado, cuando los indicadores tienen una forma diversa, lo que dificulta el uso de enfoques econométricos tradicionales.

El análisis de conglomerados le permite considerar una cantidad bastante grande de información y reducir y comprimir drásticamente grandes cantidades de información socioeconómica, haciéndola compacta y visual.

El análisis de conglomerados es importante en relación con conjuntos de series temporales que caracterizan el desarrollo económico (por ejemplo, las condiciones económicas y de productos básicos generales). Aquí se pueden resaltar períodos en los que los valores de los indicadores correspondientes eran bastante cercanos, así como determinar grupos de series temporales cuya dinámica es más similar.

El análisis de conglomerados se puede utilizar de forma iterativa. En este caso, la investigación se lleva a cabo hasta lograr los resultados requeridos. Además, cada ciclo aquí puede proporcionar información que puede cambiar en gran medida la dirección y los enfoques para una mayor aplicación del análisis de conglomerados. Este proceso se puede representar como un sistema de retroalimentación.

En las tareas de previsión socioeconómica, la combinación del análisis de conglomerados con otros métodos cuantitativos (por ejemplo, el análisis de regresión) es muy prometedora.

Como cualquier otro método , el análisis de conglomerados tiene ciertas desventajas y limitaciones: En particular, el número de clústeres depende de los criterios de partición seleccionados. Al reducir la matriz de datos original a una forma más compacta, pueden ocurrir ciertas distorsiones y las características individuales de los objetos individuales pueden perderse debido a la sustitución de sus características por valores generalizados de los parámetros del grupo. Al clasificar objetos, a menudo se ignora la posibilidad de la ausencia de valores de grupo en el conjunto considerado.

En el análisis de conglomerados se considera que:

a) las características seleccionadas permiten, en principio, la división deseada en conglomerados;

b) las unidades de medida (escala) se eligen correctamente.

La elección de la escala juega un papel importante. Normalmente, los datos se normalizan restando la media y dividiéndolos por la desviación estándar para que la varianza sea igual a uno.

1. Problema de agrupación

La tarea de agrupar es, en base a los datos contenidos en el conjunto X, dividir muchos objetos GRAMO en metro (metro– entero) grupos (subconjuntos) Pregunta 1Pregunta 2,…,qm, de modo que cada objeto Gj pertenecían a uno y sólo un subconjunto de la partición y que los objetos que pertenecían al mismo grupo eran similares, mientras que los objetos que pertenecían a diferentes grupos eran diferentes.

Por ejemplo, dejemos GRAMO incluye n países, cualquiera de los cuales se caracteriza por su PNB per cápita ( F 1), número METRO automóviles por cada mil personas ( F 2), consumo de electricidad per cápita ( F 3), consumo per cápita de acero ( F 4) etc. Entonces X1(vector de medición) es un conjunto de características específicas para el primer país, x2- para el segundo, X3 para el tercero, etc. El objetivo es clasificar los países por nivel de desarrollo.

La solución al problema del análisis de conglomerados son las particiones que satisfacen algún criterio de optimización. Este criterio puede ser algún tipo de funcional que exprese los niveles de deseabilidad de varias particiones y agrupaciones, lo que se denomina función objetivo. Por ejemplo, la suma de las desviaciones al cuadrado dentro del grupo se puede tomar como función objetivo:

Dónde xj- representa medidas j-ésimo objeto.

Para resolver el problema del análisis de conglomerados, es necesario definir los conceptos de similitud y heterogeneidad.

Está claro que los objetos i -th y j-th caería en un grupo cuando la distancia (lejanía) entre puntos X i Y Xj Sería lo suficientemente pequeño y se dividiría en diferentes grupos cuando esta distancia fuera lo suficientemente grande. Así, caer en uno o diferentes grupos de objetos está determinado por el concepto de distancia entre X i Y Xj de Eh, Dónde Eh - R-espacio euclidiano dimensional. Función no negativa d(X i, X j) se llama función de distancia (métrica) si:

A) d(Xyo, X j)³ 0 , para todos X i Y Xj de Eh

b) d(Xyo, X j) = 0, si y solo si X i= X j

V) d(Xyo, X j) = d(X j, X i)

GRAMO) d(Xyo, X j)£ d(Xi, X k) + d(X k, X j), donde X j; Xyo y Xk- tres vectores cualesquiera de Eh.

Significado d(Xyo, X j) Para Xi Y X j se llama distancia entre Xi Y Xj y es equivalente a la distancia entre GRAMOi Y Gj según las características seleccionadas (F 1, F 2, F 3, ..., F p).

Las funciones de distancia más utilizadas son:

1. distancia euclidiana d 2 (Xyo, X j) =

2. yo 1- norma re 1 (Xyo, X j) =

3. Supremo es la norma d ¥ (Xyo, X j) = sup

k = 1, 2, ..., p

4. lp- norma dp ​​(Xyo, X j) =

La métrica euclidiana es la más popular. La métrica l 1 es la más fácil de calcular. La norma suprema se calcula fácilmente e incluye un procedimiento de pedido, un l p- la norma cubre funciones de distancias 1, 2, 3,.

Sean n dimensiones X 1, X 2,..., Xnorte presentado como una matriz de datos de tamaño pag´ norte:

Entonces la distancia entre pares de vectores d(X i, Xj) se puede representar como una matriz de distancias simétrica:

El concepto opuesto a la distancia es el concepto de similitud entre objetos. GRAMO i . Y Gj. Función real no negativa S(X i; X j) = S i j se llama medida de similitud si:

1) 0 £ S(Xi,Xj)< 1 para X i ¹ Xj

2) S( Xi, Xi) = 1

3) S( Xi, Xj) = S(Xj, X i )

Los pares de valores de medidas de similitud se pueden combinar en una matriz de similitud:

Tamaño Syo llamado coeficiente de similitud.

2. Métodos de agrupación

Hoy en día existen bastantes métodos de análisis de conglomerados. Veamos algunos de ellos (los métodos que se indican a continuación generalmente se denominan métodos de varianza mínima).

Dejar X- matriz de observación: X = (X 1, X 2,..., X u) y el cuadrado de la distancia euclidiana entre X i Y Xj determinado por la fórmula:

1) Método de enlace completo.

La esencia de este método es que dos objetos que pertenecen al mismo grupo (grupo) tienen un coeficiente de similitud menor que un cierto valor umbral. S. En términos de distancia euclidiana d esto significa que la distancia entre dos puntos (objetos) del grupo no debe exceder un cierto valor umbralh. De este modo, hdefine el diámetro máximo permitido del subconjunto que forma el grupo.

2) Método de distancia local máxima.

Cada objeto se trata como un grupo de un solo punto. Los objetos se agrupan según la siguiente regla: dos grupos se combinan si la distancia máxima entre los puntos de un grupo y los puntos del otro es mínima. El procedimiento consiste en norte - 1 pasos y el resultado son particiones que coinciden con todas las particiones posibles en el método anterior para cualquier valor de umbral.

3) método de palabra.

En este método se utiliza como función objetivo la suma intragrupo de desviaciones al cuadrado, que no es más que la suma de las distancias al cuadrado entre cada punto (objeto) y el promedio del grupo que contiene este objeto. En cada paso, se combinan dos grupos que conducen a un aumento mínimo en la función objetivo, es decir, suma de cuadrados dentro del grupo. Este método tiene como objetivo combinar grupos ubicados muy cerca.

4) Método centroide.

La distancia entre dos conglomerados se define como la distancia euclidiana entre los centros (promedios) de estos conglomerados:

re 2ij =(` X -` Y) T (` X -` Y) La agrupación ocurre en etapas en cada uno de n-1 Los pasos combinan dos grupos. GRAMO Y pag , teniendo un valor mínimo d 2 ij Si n 1 mucho más norte 2, entonces los centros de unión de dos conglomerados están cerca uno del otro y las características del segundo conglomerado prácticamente se ignoran al fusionar conglomerados. Este método a veces también se denomina método de grupo ponderado.

3. Algoritmo de agrupamiento secuencial

Consideremos Ι = (Ι 1, Ι 2,… Ιnorte) como muchos grupos (yo 1), (Ι 2 ),…(Ιnorte). Elijamos dos de ellos, por ejemplo, Ι i Y yo j, que en cierto sentido están más cerca entre sí y los combinaremos en un solo grupo. El nuevo conjunto de conglomerados, que ya consta de n -1 conglomerados, será:

(Ι1), (Ι2)…, i, Ι j ), …, (Ιnorte).

Repitiendo el proceso, obtenemos sucesivos conjuntos de clusters que consisten en (norte-2), (norte-3), (norte –4) etc. racimos. Al final del procedimiento, se puede obtener un cluster que consta de n objetos y que coincide con el conjunto original. Ι = (Ι 1, Ι 2,… Ιnorte).

Como medida de distancia, tomamos el cuadrado de la métrica euclidiana. d i j 2. y calcular la matriz re = (rei j 2 ), donde dyo j 2- cuadrado de la distancia entre

Ι i y yo j:

….

yo norte

re 12 2

re 13 2

….

d 1n 2

re 23 2

….

d2n2

….

d 3n 2

….

….

….

yo norte

Deja que la distancia entre Ι i Y Ι j será mínimo:

d i j 2 = min (d yo j 2 , yo¹ j). Nos formamos con la ayuda. Ι i Y Ι j nuevo grupo

yo, yo j). Construyamos uno nuevo ((n-1), (n-1)) matriz de distancias

(yo, yo, j)

….

yo norte

(Ι yo; Ι j)

d i j 2 1

d i j 2 2

….

d yo j 2 norte

re 12 2

re 1 3

….

re 1 2 norte

….

re 2 norte

….

d3n

(norte-2) Las filas de la última matriz se toman de la anterior y la primera fila se calcula de nuevo. Los cálculos se pueden reducir al mínimo si podemos expresar d i j 2 k ,k = 1, 2,…,norte; (k¹ i¹ j) a través de los elementos de la matriz original.

Inicialmente, la distancia se determina sólo entre grupos de un solo elemento, pero es necesario determinar las distancias entre grupos que contienen más de un elemento. Esto se puede hacer de varias formas y, dependiendo del método elegido, obtenemos algoritmos de análisis de conglomerados con diferentes propiedades. Puedes, por ejemplo, poner la distancia entre el cluster i+j y algún otro grupo k, igual a la media aritmética de las distancias entre conglomerados i Y k y grupos j Y k:

d i+j,k = ½ (d i k + d j k).

Pero también se puede definir d i+j,k como el mínimo de estas dos distancias:

d i+j,k = min (d i k + d j k).

Así, se describe el primer paso del algoritmo jerárquico aglomerativo. Los pasos posteriores son similares.

Se puede obtener una clase bastante amplia de algoritmos si se utiliza la siguiente fórmula general para recalcular distancias:

d i+j,k = A(w) min(d ik d jk) + B(w) max(d ik d jk), Dónde

A(w) = , sidik£ DJK

A(w) = , sidik> DJK

B(w) = , sid i k £ DJK

B (w) =, Sidik> DJK

Dónde n yo Y nj- número de elementos en grupos i Y j, A w– un parámetro libre, cuya elección está determinada por un algoritmo específico. Por ejemplo, cuando w = 1 obtenemos el algoritmo llamado "conexión promedio", para el cual la fórmula de recálculo de distancia toma la forma:

d i+j,k =

En este caso, la distancia entre dos grupos en cada paso del algoritmo resulta ser igual a la media aritmética de las distancias entre todos los pares de elementos, de modo que un elemento del par pertenece a un grupo y el otro a otro.

El significado visual del parámetro w queda claro si ponemos w® ¥ . La fórmula para recalcular distancias toma la forma:

d i+j,k =mín (d i, kDJK)

Este será el algoritmo llamado "vecino más cercano", que permite identificar grupos de cualquier forma compleja, siempre que las diferentes partes de dichos grupos estén conectadas por cadenas de elementos cercanos entre sí. En este caso, la distancia entre dos grupos en cada paso del algoritmo resulta ser igual a la distancia entre los dos elementos más cercanos pertenecientes a estos dos grupos.

Muy a menudo se supone que se dan las distancias iniciales (diferencias) entre los elementos que se agrupan. En algunos problemas esto es cierto. Sin embargo, solo se especifican los objetos y sus características, y se construye una matriz de distancias basada en estos datos. Dependiendo de si se calculan distancias entre objetos o entre características de los objetos, se utilizan diferentes métodos.

En el caso del análisis de conglomerados de objetos, la medida de diferencia más común es el cuadrado de la distancia euclidiana

(Dónde x ih, x jh- valores h-ésimo signo para i th y j-ésimos objetos, y metro- número de características), o la propia distancia euclidiana. Si los signos se atribuyen peso diferente, entonces estos pesos se pueden tener en cuenta al calcular la distancia

A veces se utiliza la distancia como medida de diferencia, calculada mediante la fórmula:

que se denominan: distancia "Hamming", "Manhattan" o "manzana".

Una medida natural de la similitud de las características de los objetos en muchas tareas es el coeficiente de correlación entre ellas.

Dónde mi, mj,d i,d j- respectivamente desviaciones media y estándar de las características i Y j. Una medida de la diferencia entre características puede ser el valor. 1-r. En algunos problemas, el signo del coeficiente de correlación es insignificante y depende únicamente de la elección de la unidad de medida. En este caso, se utiliza la medida de diferencia entre las características. ô 1 - r i j ô

4. Número de conglomerados

Una cuestión muy importante es la de elegir el número necesario de clústeres. A veces puedes elegir m número de grupos a priori. Sin embargo, en el caso general, este número se determina en el proceso de división del conjunto en grupos.

Fortier y Solomon llevaron a cabo una investigación y se descubrió que se debe tomar el número de grupos para lograr la probabilidad. a que se ha encontrado la mejor partición. Por tanto, el número óptimo de divisiones es función de la fracción dada. b las mejores o en algún sentido particiones admisibles en el conjunto de todas las posibles. Cuanto mayor es la proporción, mayor es la dispersión total b particiones admisibles. Fortier y Solomon desarrollaron una tabla que se puede usar para encontrar la cantidad de divisiones necesarias. S(a , b ) dependiendo de a Y b (Dónde a es la probabilidad de que se encuentre la mejor partición, b - la proporción de las mejores particiones en numero total particiones) Además, como medida de heterogeneidad, no es la medida de dispersión la que se utiliza, sino la medida de membresía introducida por Holzenger y Harman. tabla de valores S(a , b ) se da a continuación.

tabla de valoresS(a , b )

b \ a

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

Muy a menudo, el criterio para combinar (el número de grupos) es un cambio en la función correspondiente. Por ejemplo, la suma de las desviaciones al cuadrado:

El proceso de agrupación debe corresponder aquí a un aumento mínimo secuencial en el valor del criterio. mi. Presencia de un fuerte salto en valor mi puede interpretarse como una característica del número de conglomerados que existen objetivamente en la población objeto de estudio.

Entonces, la segunda forma de determinar el mejor número de grupos se reduce a identificar los saltos determinados por la transición de fase de un estado de objetos fuertemente ligado a uno débilmente ligado.

5. Dendogramas

Mayoría método conocido La representación matricial de distancia o similitud se basa en la idea de un dendograma o diagrama de árbol. Un dendograma se puede definir como una representación gráfica de los resultados de un proceso de agrupamiento secuencial, que se lleva a cabo en términos de una matriz de distancias. Utilizando un dendograma, se puede representar gráfica o geométricamente el procedimiento de agrupamiento, siempre que este procedimiento opere sólo con elementos de la matriz de distancia o similitud.

Hay muchas formas de construir dendogramas. En el dendograma, los objetos se ubican verticalmente a la izquierda, los resultados de la agrupación se ubican a la derecha. Los valores de distancia o similitud correspondientes a la estructura de nuevos grupos se representan a lo largo de una línea horizontal encima de los dendogramas.

Figura 1

La Figura 1 muestra un ejemplo de un dendograma. La figura 1 corresponde al caso de seis objetos. ( norte=6) Y kcaracterísticas (signos). Objetos A Y CON son los más cercanos y, por lo tanto, se combinan en un grupo en un nivel de proximidad de 0,9. ObjetosDY mi fusionarse en el nivel 0.8. Ahora tenemos 4 grupos:

(A, C), (F), ( D, mi), ( B) .

Luego se forman grupos (A, C, F) Y ( mi, D, B) , correspondiente a niveles de proximidad de 0,7 y 0,6. Finalmente, todos los objetos se agrupan en un grupo a un nivel de 0,5.

El tipo de dendograma depende de la elección de la medida de similitud o distancia entre objetos y grupos y del método de agrupación. El punto más importante es la elección de la medida de similitud o medida de distancia entre el objeto y el grupo.

La cantidad de algoritmos de análisis de conglomerados es demasiado grande. Todos ellos se pueden dividir en jerárquicos y no jerárquicos.

Los algoritmos jerárquicos están asociados a la construcción de dendogramas y se dividen en:

a) aglomerativo, caracterizado por la combinación secuencial de elementos iniciales y la correspondiente disminución en el número de grupos;

b) divisible (divisible), en el que el número de grupos aumenta, a partir de uno, como resultado de lo cual se forma una secuencia de grupos divididos.

Los algoritmos de análisis de conglomerados hoy en día tienen una buena implementación de software, lo que permite resolver problemas de mayor dimensión.

6. Datos

El análisis de conglomerados se puede aplicar a datos de intervalos, frecuencias y datos binarios. Es importante que las variables varíen en escalas comparables.

La heterogeneidad de las unidades de medida y la imposibilidad resultante de expresar válidamente los valores de varios indicadores en la misma escala lleva a que las distancias entre puntos que reflejan la posición de los objetos en el espacio de sus propiedades resulten depender de un escala elegida arbitrariamente. Para eliminar la heterogeneidad de la medición de los datos originales, todos sus valores están prenormalizados, es decir, se expresan a través de la relación entre estos valores y un determinado valor que refleja determinadas propiedades de un indicador determinado. La normalización de los datos iniciales para el análisis de conglomerados a veces se lleva a cabo dividiendo los valores iniciales por la desviación estándar de los indicadores correspondientes. Otra forma es calcular la denominada contribución estandarizada. También es llamado Contribución Z.

z -la contribución muestra cuántas desviaciones estándar separan una observación determinada de la media:

Dónde xyo– el significado de esta observación,- promedio, S- Desviación Estándar.

Promedio para Z -las contribuciones son cero y la desviación estándar es 1.

La estandarización permite comparar observaciones de diferentes distribuciones. Si la distribución de una variable es normal (o cercana a lo normal) y la media y la varianza se conocen o se estiman a partir de muestras grandes, entonces z -La entrada de observación proporciona información más específica sobre su ubicación.

Tenga en cuenta que los métodos de estandarización implican reconocer todas las características como equivalentes desde el punto de vista de determinar la similitud de los objetos considerados. Ya se ha señalado que en relación con la economía, no siempre parece justificado reconocer la equivalencia de varios indicadores. Sería deseable, junto con la estandarización, dar a cada uno de los indicadores un peso que refleje su importancia para establecer las similitudes y diferencias de los objetos.

En esta situación, es necesario recurrir a un método para determinar los pesos de los indicadores individuales: una encuesta de expertos. Por ejemplo, al resolver el problema de clasificar países por nivel desarrollo economico Los resultados de una encuesta realizada a 40 destacados expertos de Moscú sobre los problemas de los países desarrollados se utilizaron en una escala de diez puntos:

indicadores generalizados de desarrollo socioeconómico – 9 puntos;

indicadores de distribución sectorial de la población ocupada – 7 puntos;

indicadores de prevalencia de mano de obra contratada – 6 puntos;

indicadores que caracterizan el elemento humano de las fuerzas productivas – 6 puntos;

indicadores de desarrollo de las fuerzas productivas materiales – 8 puntos;

indicador de gasto público – 4 puntos;

indicadores “militares-económicos” – 3 puntos;

indicadores sociodemográficos – 4 puntos.

Las valoraciones de los expertos se mantuvieron relativamente estables.

Las evaluaciones de expertos proporcionan una cierta base para determinar la importancia de los indicadores incluidos en un grupo particular de indicadores. Multiplicar los valores normalizados de los indicadores por el coeficiente correspondiente a la puntuación media de la evaluación permite calcular las distancias entre puntos que reflejan la posición de los países en el espacio multidimensional, teniendo en cuenta el peso desigual de sus características.

Muy a menudo, al resolver este tipo de problemas, se utilizan no uno, sino dos cálculos: el primero, en el que todas las características se consideran equivalentes, el segundo, donde se les asignan diferentes pesos de acuerdo con los valores promedio de las evaluaciones de expertos.

7. Aplicación del análisis de conglomerados.

Veamos algunas aplicaciones del análisis de conglomerados.

1. Dividir a los países en grupos según su nivel de desarrollo.

Se estudiaron 65 países según 31 indicadores (ingreso nacional per cápita, proporción de la población empleada en la industria en %, ahorro per cápita, proporción de la población empleada en la agricultura en %, esperanza de vida promedio, número de automóviles por 1 mil habitantes, el número de fuerzas armadas por millón de habitantes, la proporción del PIB de la industria en%, la proporción del PIB de la agricultura en%, etc.)

Cada país actúa en esta consideración como un objeto caracterizado por determinados valores de 31 indicadores. En consecuencia, se pueden representar como puntos en un espacio de 31 dimensiones. Este espacio suele denominarse espacio de propiedades de los objetos que se estudian. La comparación de la distancia entre estos puntos reflejará el grado de proximidad de los países en cuestión, su similitud entre sí. El significado socioeconómico de esta comprensión de la similitud significa que se consideran países cuanto más similares son, menores son las diferencias entre los mismos indicadores con los que se describen.

El primer paso de dicho análisis es identificar un par de economías nacionales tomadas en cuenta en la matriz de similitud, cuya distancia es la más pequeña. Obviamente estas serán las economías más parecidas y parecidas. En el análisis que sigue, ambos países se consideran un solo grupo, un solo grupo. En consecuencia, la matriz original se transforma de modo que sus elementos se convierten en las distancias entre todos los pares posibles no de 65, sino de 64 objetos (63 economías y un grupo recién transformado), una unión condicional de los dos países más similares. De la matriz de similitud original se eliminan filas y columnas correspondientes a las distancias del par de países incluidos en la fusión a todos los demás, pero se agregan una fila y una columna que contienen la distancia entre el cluster obtenido durante la fusión y otros países.

Se supone que la distancia entre el conglomerado recién obtenido y los países es igual al promedio de las distancias entre este último y los dos países que componen el nuevo conglomerado. En otras palabras, el grupo combinado de países se considera como un todo con características aproximadamente iguales al promedio de las características de los países incluidos en él.

El segundo paso del análisis es considerar la matriz así transformada con 64 filas y columnas. Nuevamente se identifica un par de economías cuya distancia es valor más pequeño, y ellos, como en el primer caso, se juntan. En este caso, la distancia más pequeña puede ser entre un par de países, o entre cualquier país y la unión de países obtenida en la etapa anterior.

Otros procedimientos son similares a los descritos anteriormente: en cada etapa, la matriz se transforma de modo que se excluyen de ella dos columnas y dos filas que contienen la distancia a los objetos (pares de países o asociaciones - grupos) reunidos en la etapa anterior. ; las filas y columnas excluidas se reemplazan con una columna y una fila que contienen las distancias desde las nuevas uniones hasta los objetos restantes; luego, el par de objetos más cercanos se identifica en la matriz modificada. El análisis continúa hasta que la matriz se agota por completo (es decir, hasta que todos los países se combinan en un todo). Los resultados generalizados del análisis matricial se pueden presentar en forma de un árbol de similitud (dendograma), similar al descrito anteriormente, con la única diferencia de que el árbol de similitud, que refleja la proximidad relativa de los 65 países que estamos considerando, es mucho más complejo que el diagrama en el que sólo aparecen cinco economías nacionales. Este árbol, según la cantidad de objetos que se comparan, incluye 65 niveles. El primer nivel (inferior) contiene puntos correspondientes a cada país por separado. Al conectar estos dos puntos en el segundo nivel se muestra un par de países que están más cerca en términos del tipo general de economía nacional. En el tercer nivel, se observa la siguiente proporción similar de países por pares (como ya se mencionó, dicha proporción puede ser nueva pareja países, o un nuevo país y un par de países similares ya identificados). Y así hasta el último nivel, en el que todos los países estudiados actúan como un solo conjunto.

Como resultado de la aplicación del análisis de conglomerados se obtuvieron los siguientes cinco grupos de países:

· Grupo afroasiático;

· Grupo latino-asiático;

· Grupo latino-mediterráneo;

· un grupo de países capitalistas desarrollados (sin EE.UU.)

· EE.UU

La introducción de nuevos indicadores además de los 31 utilizados aquí, o su sustitución por otros, conduce naturalmente a cambios en los resultados de la clasificación de los países.

2. División de países según el criterio de similitud de cultura.

Como sabes, el marketing debe tener en cuenta la cultura de los países (costumbres, tradiciones, etc.).

A través del clustering se obtuvieron los siguientes grupos de países:

· Arábica;

· Medio este;

· escandinavo;

· Se habla alemán;

· Habla ingles;

· Románico europeo;

· Latinoamericano;

· Lejano este.

3. Desarrollo de un pronóstico de las condiciones del mercado de zinc.

El análisis de conglomerados juega un papel importante en la etapa de reducción del modelo económico y matemático del mercado de productos básicos, ayudando a facilitar y simplificar los procedimientos computacionales, asegurando una mayor compacidad de los resultados obtenidos manteniendo la precisión necesaria. El uso del análisis de conglomerados permite dividir todo el conjunto inicial de indicadores de mercado en grupos (clústeres) según criterios apropiados, facilitando así la selección de los indicadores más representativos.

El análisis de conglomerados se utiliza ampliamente para modelar las condiciones del mercado. En la práctica, la mayoría de los problemas de pronóstico dependen del uso del análisis de conglomerados.

Por ejemplo, la tarea de elaborar una previsión para el mercado del zinc.

Inicialmente se seleccionaron 30 indicadores clave del mercado mundial del zinc:

X 1 - tiempo

Cifras de producción:

X 2 - en el mundo

X4 - Europa

X5 - Canadá

X6 - Japón

X7 - Australia

Indicadores de consumo:

X 8 - en el mundo

X10 - Europa

X11 - Canadá

X12 - Japón

X13 - Australia

Reservas de zinc de los fabricantes:

X 14 - en el mundo

X16 - Europa

X 17 - otros países

Reservas de zinc de los consumidores:

X 18 - en EE. UU.

X 19 - en Inglaterra

X10 - en Japón

Importación de minerales y concentrados de zinc (miles de toneladas)

X 21 - en EE. UU.

X22 - en Japón

X 23 - en Alemania

Exportación de minerales y concentrados de zinc (miles de toneladas)

X 24 - de Canadá

X 25 - de Australia

Importación de zinc (miles de toneladas)

X 26 - en EE. UU.

X 27 - a Inglaterra

X 28 - en Alemania

Exportaciones de zinc (miles de toneladas)

X 29 - de Canadá

X 30 - de Australia

Para determinar dependencias específicas se utilizó el aparato de análisis de correlación y regresión. El análisis de relaciones se realizó sobre la base de una matriz de coeficientes de correlación pareados. Aquí se aceptó la hipótesis sobre la distribución normal de los indicadores de mercado analizados. Está claro que r ij no es el único indicador posible de la relación entre los indicadores utilizados. La necesidad de utilizar el análisis de conglomerados en este problema se debe al hecho de que la cantidad de indicadores que afectan el precio del zinc es muy grande. Es necesario reducirlos por varias de las siguientes razones:

a) falta de datos estadísticos completos sobre todas las variables;

b) una gran complicación de los procedimientos computacionales cuando se introduce una gran cantidad de variables en el modelo;

c) el uso óptimo de los métodos de análisis de regresión requiere que el número de valores observados exceda el número de variables al menos entre 6 y 8 veces;

d) el deseo de utilizar variables estadísticamente independientes en el modelo, etc.

Es muy difícil realizar un análisis de este tipo directamente sobre una matriz relativamente engorrosa de coeficientes de correlación. Mediante el análisis de conglomerados, todo el conjunto de variables del mercado se puede dividir en grupos de tal manera que los elementos de cada conglomerado estén altamente correlacionados entre sí y los representantes diferentes grupos se caracterizaron por una correlación débil.

Para resolver este problema, se utilizó uno de los algoritmos de análisis de conglomerados jerárquicos aglomerativos. En cada paso, el número de grupos se reduce en uno debido a la combinación óptima, en cierto sentido, de dos grupos. El criterio para la fusión es un cambio en la función correspondiente. Como tal función, utilizamos los valores de las sumas de las desviaciones al cuadrado calculadas mediante las siguientes fórmulas:

(j = 1, 2,…,metro),

Dónde j- número de grupo, norte- número de elementos en el grupo.

r ij-coeficiente de correlación de pares.

Así, el proceso de agrupación debe corresponder a un aumento mínimo secuencial en el valor del criterio. mi.

En la primera etapa, la matriz de datos inicial se presenta como un conjunto que consta de grupos, cada uno de los cuales incluye un elemento. El proceso de agrupación comienza con la combinación de dicho par de conglomerados, lo que conduce a un aumento mínimo en la suma de las desviaciones al cuadrado. Esto requiere estimar los valores de la suma de desviaciones al cuadrado para cada una de las posibles asociaciones de clusters. En la siguiente etapa, se consideran los valores de las sumas de las desviaciones al cuadrado para clusters, etcétera. Este proceso se detendrá en algún paso. Para hacer esto, debe controlar el valor de la suma de las desviaciones al cuadrado. Considerando una secuencia de valores crecientes, se puede percibir un salto (uno o varios) en su dinámica, lo que puede interpretarse como una característica del número de grupos “objetivamente” existentes en la población en estudio. En el ejemplo dado, los saltos se produjeron cuando el número de grupos era 7 y 5. El número de grupos no debería reducirse más, porque esto conduce a una disminución en la calidad del modelo. Después de obtener los clusters, se seleccionan las variables más importantes desde el punto de vista económico y más estrechamente relacionadas con el criterio elegido de la situación del mercado, en este caso, con las cotizaciones del zinc en la Bolsa de Metales de Londres. Este enfoque nos permite preservar una parte importante de la información contenida en el conjunto original de indicadores iniciales del mercado.

Selección del editor
Para preparar la masa necesitarás los siguientes ingredientes: Huevos (3 unidades) Jugo de limón (2 cucharaditas) Agua (3 cucharadas) Vainillina (1 bolsa) Soda (1/2...

Los planetas son significadores o indicadores de la calidad de la energía, de una u otra área de nuestra vida. Estos son repetidores que reciben y...

Los prisioneros de Auschwitz fueron liberados cuatro meses antes del final de la Segunda Guerra Mundial. En ese momento ya quedaban pocos. Casi muero...

Una variante de la demencia senil con cambios atróficos localizados principalmente en los lóbulos temporal y frontal del cerebro. Clínicamente...
El Día Internacional de la Mujer, aunque originalmente era un día de igualdad de género y un recordatorio de que las mujeres tienen los mismos derechos que los hombres...
La filosofía ha tenido una gran influencia en la vida humana y la sociedad. A pesar de que la mayoría de los grandes filósofos murieron hace mucho tiempo, sus...
En una molécula de ciclopropano, todos los átomos de carbono están ubicados en el mismo plano. Con esta disposición de los átomos de carbono en el ciclo, los ángulos de enlace...
Para utilizar vistas previas de presentaciones, cree una cuenta de Google e inicie sesión:...
Diapositiva 2 Tarjeta de visita Territorio: 1.219.912 km² Población: 48.601.098 personas. Capital: Ciudad del Cabo Idioma oficial: inglés, afrikáans,...