Методи за клъстерен анализ. Клъстерният анализ е алгоритъм за изучаване на данни, разделени на групи въз основа на подобни характеристики


Клъстерният анализ е

Добър ден. Уважавам хората, които са фенове на работата им.

Максим, моят приятел, принадлежи към тази категория. Непрекъснато работи с числа, анализира ги и прави съответните отчети.

Вчера обядвахме заедно и почти половин час той ми разказваше за клъстерния анализ – какво представлява и в какви случаи е оправдано и уместно използването му. Е, какво съм аз?

Имам добра памет, така че ще ви предоставя всички тези данни, между другото, които вече знаех, в оригиналния им и най-информативен вид.

Клъстерният анализ е предназначен да раздели набор от обекти на хомогенни групи (клъстери или класове). Това е многоизмерен проблем за класификация на данни.

Има около 100 различни алгоритма за клъстериране, но най-често използваните са йерархичен клъстерен анализ и k-средно клъстериране.

Къде се използва клъстерен анализ? В маркетинга това е сегментирането на конкуренти и потребители.

В управлението: разделяне на персонала на групи с различни нива на мотивация, класифициране на доставчици, идентифициране на подобни производствени ситуации, при които възникват дефекти.

В медицината - класификация на симптомите, пациентите, лекарствата. В социологията разделянето на респондентите на хомогенни групи. Всъщност клъстерният анализ се е доказал добре във всички сфери на човешкия живот.

Красотата на този метод е, че той работи дори когато има малко данни и изискванията за нормалност на разпределенията на случайни променливи и други изисквания на класическите методи за статистически анализ не са изпълнени.

Нека обясним същността на клъстерния анализ, без да прибягваме до строга терминология:
Да приемем, че сте провели проучване на служители и искате да определите как най-ефективно да управлявате персонала.

Тоест искате да разделите служителите на групи и да подчертаете най-ефективните лостове за управление за всяка от тях. В същото време разликите между групите трябва да са очевидни, а респондентите в групата трябва да бъдат възможно най-сходни.

За решаване на проблема се предлага да се използва йерархичен клъстерен анализ.

В резултат на това ще получим дърво, гледайки което трябва да решим на колко класа (клъстери) искаме да разделим персонала.

Да предположим, че решим да разделим персонала на три групи, след което за изследване на респондентите, които попадат във всеки клъстер, ще получим таблица с приблизително следното съдържание:


Нека обясним как се формира горната таблица. Първата колона съдържа номера на клъстера - групата, данните за която са отразени в реда.

Например, първият клъстер е 80% мъже. 90% от първия клъстер попадат във възрастовата категория от 30 до 50 години, а 12% от анкетираните смятат, че придобивките са много важни. И така нататък.

Нека се опитаме да създадем портрети на респондентите от всеки клъстер:

  1. Първата група се състои предимно от зрели мъже, които заемат ръководни позиции. Те не се интересуват от социалния пакет (MED, LGOTI, TIME-free time). Те предпочитат да получават добра заплата, отколкото помощ от работодател.
  2. Втора група, напротив, дава предимство на социалния пакет. Състои се предимно от „възрастни” хора, заемащи ниски позиции. Заплатата със сигурност е важна за тях, но има други приоритети.
  3. Третата група е най-младата. За разлика от предишните две, има очевиден интерес към обучение и възможности за професионално развитие. Тази категория служители има добри шансове скоро да се присъедини към първата група.

По този начин, когато се планира кампания за въвеждане на ефективни методи за управление на персонала, очевидно е, че в нашата ситуация е възможно да се увеличи социалният пакет на втората група в ущърб, например, на заплатите.

Ако говорим за това кои специалисти трябва да бъдат изпратени за обучение, определено можем да препоръчаме да обърнете внимание на третата група.

Източник: http://www.nickart.spb.ru/analysis/cluster.php

Характеристики на клъстерния анализ

Клъстерът е цената на актив за определен период от време, през който са извършени транзакции. Полученият обем покупки и продажби се обозначава с число вътре в клъстера.

Лентата на всяка времева рамка обикновено съдържа няколко клъстера. Това ви позволява да видите в детайли обемите на покупките, продажбите и техния баланс във всеки отделен бар, на всяко ценово ниво.


Промяната в цената на един актив неизбежно води до верига от ценови движения на други инструменти.

внимание!

В повечето случаи разбирането на движението на тренда се случва още в момента, в който то се развива бързо, а навлизането на пазара по тенденцията рискува да се окаже в корекционна вълна.

За успешни транзакции трябва да разбирате текущата ситуация и да можете да предвидите бъдещи движения на цените. Това може да се научи чрез анализиране на клъстерната графика.

Използвайки клъстерен анализ, можете да видите активността на участниците на пазара дори в най-малката ценова лента. Това е най-точният и подробен анализ, тъй като показва точковото разпределение на обемите на транзакциите на всяко ценово ниво на актива.

На пазара има постоянен конфликт между интересите на продавачите и купувачите. И всяко най-малко движение на цените (тик) е движение към компромис - ценово ниво - което в момента устройва и двете страни.

Но пазарът е динамичен, броят на продавачите и купувачите непрекъснато се променя. Ако в даден момент пазарът е бил доминиран от продавачи, то в следващия момент най-вероятно ще има купувачи.

Броят на извършените транзакции на съседни ценови нива също не е еднакъв. И все пак, първо пазарната ситуация се отразява в общия обем на сделките и едва след това в цената.

Ако видите действията на доминиращите участници на пазара (продавачи или купувачи), тогава можете да предвидите самото движение на цената.

За да приложите успешно клъстерен анализ, първо трябва да разберете какво представляват клъстер и делта.


Клъстерът е движение на цените, което е разделено на нива, на които са направени транзакции с известни обеми. Delta показва разликата между покупките и продажбите, възникващи във всеки клъстер.

Всеки клъстер или група делта ви позволява да разберете дали купувачите или продавачите доминират на пазара в даден момент.

Достатъчно е просто да изчислите общата делта, като сумирате продажбите и покупките. Ако делтата е отрицателна, тогава пазарът е свръхпродаден и има излишни транзакции за продажба. Когато делтата е положителна, купувачите очевидно доминират на пазара.

Самата делта може да приеме нормална или критична стойност. Стойността на делта обема над нормалното в клъстера е подчертана в червено.

Ако делтата е умерена, тогава това характеризира плоско състояние на пазара. При нормална делта стойност се наблюдава движение на тренда на пазара, но критичната стойност винаги е предвестник на обръщане на цената.

Forex търговия с помощта на CA

За да получите максимална печалба, трябва да можете да определите прехода на делта от умерено ниво към нормално. Всъщност в този случай можете да забележите самото начало на прехода от плоскост към движение на тренда и да можете да получите най-голямата печалба.

Клъстерната диаграма е по-визуална; можете да видите значителни нива на натрупване и разпределение на обеми и да изградите нива на подкрепа и съпротива. Това позволява на търговеца да намери точното влизане в сделката.

Използвайки делта, можете да прецените преобладаването на продажбите или покупките на пазара. Клъстерният анализ ви позволява да наблюдавате транзакциите и да проследявате техните обеми в лента на всеки TF.

Това е особено важно при наближаване на значителни нива на подкрепа или съпротива. Клъстерните преценки са ключът към разбирането на пазара.

Източник: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Области и особености на приложение на клъстерния анализ

Терминът клъстерен анализ (въведен за първи път от Tryon, 1939) всъщност включва набор от различни алгоритми за класификация.

Често задаван въпрос от изследователи в много области е как да се организират наблюдаваните данни във визуални структури, т.е. разширяване на таксономиите.

Според съвременната система, приета в биологията, хората принадлежат към примати, бозайници, амниоти, гръбначни и животни.

Имайте предвид, че в тази класификация, колкото по-високо е нивото на агрегиране, толкова по-малко прилики има между членовете в съответния клас.

Хората имат повече прилики с други примати (т.е. маймуни), отколкото с „отдалечени“ членове на семейството на бозайниците (т.е. кучета) и т.н.

Имайте предвид, че предишната дискусия се отнася до алгоритми за клъстериране, но не споменава нищо за тестване на статистическа значимост.

Всъщност клъстерният анализ не е толкова обикновен статистически метод, колкото „набор“ от различни алгоритми за „разпределяне на обекти в клъстери“.

Има гледна точка, че за разлика от много други статистически процедури, методите за клъстерен анализ се използват в повечето случаи, когато нямате априорни хипотези за класовете, но все още сте в описателния етап на изследването.

внимание!

Трябва да се разбере, че клъстерният анализ определя „най-вероятното значимо решение“.

Следователно, тестването на статистическата значимост не е наистина приложимо тук, дори в случаите, когато p-нивата са известни (както в метода на K-средните).

Техниките за групиране се използват в голямо разнообразие от области. Hartigan (1975) дава отличен преглед на много публикувани проучвания, съдържащи резултати, получени с помощта на методите на клъстерен анализ.

Например, в областта на медицината групирането на заболявания, лечение на заболявания или симптоми на заболявания води до широко използвани таксономии.

В областта на психиатрията правилното диагностициране на клъстери от симптоми като параноя, шизофрения и др. е от решаващо значение за успешната терапия. В археологията, използвайки клъстерен анализ, изследователите се опитват да установят таксономии на каменни инструменти, погребални предмети и др.

Има широко разпространени приложения на клъстерния анализ в маркетинговите изследвания. Като цяло, когато е необходимо да се класифицират „планини“ от информация в групи, подходящи за по-нататъшна обработка, клъстерният анализ се оказва много полезен и ефективен.

Дървовидно групиране

Примерът, даден в раздела Основна цел, обяснява целта на алгоритъма за дървовидно групиране.

Целта на този алгоритъм е да групира обекти (като животни) в достатъчно големи клъстери, използвайки някаква мярка за сходство или разстояние между обектите. Типичният резултат от такова групиране е йерархично дърво.

Помислете за хоризонтална дървовидна диаграма. Диаграмата започва с всеки обект в класа (от лявата страна на диаграмата).

Сега си представете, че постепенно (на много малки стъпки) „отпускате“ критерия си за това кои обекти са уникални и кои не.

С други думи, вие намалявате прага, свързан с решението да комбинирате два или повече обекта в един клъстер.

В резултат на това свързвате все повече и повече обекти заедно и събирате (комбинирате) все повече и повече клъстери, състоящи се от все по-различни елементи.

И накрая, в последната стъпка всички обекти се комбинират заедно. В тези диаграми хоризонталните оси представляват разстоянието на свързване (във вертикалните дървовидни диаграми вертикалните оси представляват разстоянието на свързване).

Така че за всеки възел в графиката (където се формира нов клъстер) можете да видите стойността на разстоянието, за което съответните елементи са свързани в нов единичен клъстер.

Когато данните имат ясна „структура“ по отношение на клъстери от обекти, които са подобни един на друг, тогава тази структура вероятно ще бъде отразена в йерархичното дърво от различни клонове.

В резултат на успешен анализ с помощта на метода на сливане става възможно да се открият клъстери (клонове) и да се интерпретират.

Методът на обединение или дървовидно клъстериране се използва за формиране на клъстери с различия или разстояние между обекти. Тези разстояния могат да бъдат определени в едномерно или многомерно пространство.

Например, ако трябва да групирате видове храни в кафене, можете да вземете предвид броя на калориите, които съдържа, цената, субективната вкусова оценка и т.н.

Най-прекият начин за изчисляване на разстояния между обекти в многомерното пространство е изчисляването на евклидови разстояния.

Ако имате дву- или триизмерно пространство, тогава тази мярка е действителното геометрично разстояние между обектите в пространството (сякаш разстоянията между обектите са измерени с ролетка).

Въпреки това, алгоритъмът за обединяване не се „грижи“ дали разстоянията, „осигурени“ за това разстояние, са реалните или някаква друга извлечена мярка за разстояние, която е по-значима за изследователя; и предизвикателството за изследователите е да изберат правилния метод за конкретни приложения.

Евклидово разстояние.Това изглежда е най-често срещаният тип разстояние. Това е просто геометрично разстояние в многомерно пространство и се изчислява, както следва:

Имайте предвид, че евклидовото разстояние (и неговият квадрат) се изчислява от оригиналните данни, а не от стандартизираните данни.

Това е често срещан начин за изчисляване, който има определени предимства (например разстоянието между два обекта не се променя, когато в анализа се въведе нов обект, което може да бъде отклонение).

внимание!

Разстоянията обаче могат да бъдат значително повлияни от разликите между осите, от които се изчисляват разстоянията. Например, ако една от осите се измерва в сантиметри и след това я преобразувате в милиметри (умножавайки стойностите по 10), тогава крайното евклидово разстояние (или квадратът на евклидовото разстояние), изчислено от координатите, ще се промени значително и в резултат на това резултатите от клъстерния анализ могат да се различават значително от предишните.

Евклидово разстояние на квадрат.Понякога може да искате да повдигнете на квадрат стандартното евклидово разстояние, за да придадете по-голяма тежест на обекти, които са по-отдалечени един от друг.

Това разстояние се изчислява, както следва:

Разстояние от градски блок (разстояние Манхатън).Това разстояние е просто средната стойност на разликите в координатите.

В повечето случаи тази мярка за разстояние дава същите резултати като обикновеното евклидово разстояние.

Отбелязваме обаче, че за тази мярка влиянието на индивидуалните големи разлики (отклонения) е намалено (тъй като те не са повдигнати на квадрат). Разстоянието Манхатън се изчислява по формулата:

Чебишевско разстояние.Това разстояние може да бъде полезно, когато някой иска да дефинира два обекта като "различни", ако се различават по която и да е координата (във всяко едно измерение). Разстоянието Чебишев се изчислява по формулата:

Силово разстояние.Понякога желаете прогресивно да увеличите или намалите тегло, свързано с измерение, за което съответните обекти са много различни.

Това може да се постигне чрез степенно разстояние. Разстоянието на мощността се изчислява по формулата:

където r и p са дефинирани от потребителя параметри. Няколко примера за изчисления могат да покажат как „работи“ тази мярка.

Параметърът p е отговорен за постепенното претегляне на разликите по отделните координати, параметърът r е отговорен за прогресивното претегляне на големи разстояния между обектите. Ако и двата параметъра r и p са равни на две, то това разстояние съвпада с евклидовото разстояние.

Процент на несъгласие.Тази мярка се използва, когато данните са категорични. Това разстояние се изчислява по формулата:

Правила за асоцииране или свързване

На първата стъпка, когато всеки обект е отделен клъстер, разстоянията между тези обекти се определят от избраната мярка.

Но когато няколко обекта са свързани заедно, възниква въпросът как трябва да се определят разстоянията между клъстерите?

С други думи, за двата клъстера е необходимо правило за обединение или свързване. Тук има различни възможности: например можете да свържете два клъстера заедно, когато всеки два обекта в два клъстера са по-близо един до друг от съответното разстояние на връзката.

С други думи, вие използвате "правилото за най-близкия съсед", за да определите разстоянието между клъстерите; този метод се нарича метод на единична връзка.

Това правило изгражда „влакнести“ клъстери, т.е. клъстери, „свързани заедно“ само от отделни елементи, които се оказват най-близо един до друг.

Като алтернатива можете да използвате съседи в клъстери, които са най-отдалечени един от друг от всички други двойки обекти. Този метод се нарича метод на пълна връзка.

Има и много други методи за комбиниране на клъстери, подобни на обсъжданите.

Единична връзка (метод на най-близкия съсед). Както е описано по-горе, при този метод разстоянието между два клъстера се определя от разстоянието между двата най-близки обекта (най-близки съседи) в различни клъстери.

Това правило трябва, в известен смисъл, да свързва обекти заедно, за да образуват клъстери, а получените клъстери са склонни да бъдат представени от дълги "вериги".

Пълна връзка (метод на най-отдалечените съседи).При този метод разстоянията между клъстерите се определят от най-голямото разстояние между всеки два обекта в различни клъстери (т.е. „най-отдалечени съседи“).

Непретеглена средна стойност по двойки.При този метод разстоянието между два различни клъстера се изчислява като средното разстояние между всички двойки обекти в тях.

Методът е ефективен, когато обектите всъщност образуват различни „горички“, но работи еднакво добре и в случаите на разширени (тип „верига“) клъстери.

Обърнете внимание, че в своята книга Sneath и Sokal (1973) въвеждат съкращението UPGMA, за да обозначат този метод като непретеглен метод на двойка-група, използващ средни аритметични стойности.

Претеглена средна стойност по двойки.Методът е идентичен с метода на непретеглената двойна средна стойност, с изключение на това, че размерът на съответните клъстери (т.е. броят на обектите, които съдържат) се използва като тегловен фактор в изчисленията.

Следователно предложеният метод трябва да се използва (вместо предишния), когато се предполагат неравномерни размери на клъстерите.

Книгата на Sneath и Sokal (1973) въвежда акронима WPGMA за обозначаване на този метод като метод на претеглена двойка-група, използващ средни аритметични стойности.

Метод на непретеглен центроид. При този метод разстоянието между два клъстера се определя като разстоянието между техните центрове на тежест.

внимание!

Sneath и Sokal (1973) използват акронима UPGMC, за да обозначат този метод като метод на непретеглена двойка-група, използвайки средната центроидна стойност.

Метод на претеглен центроид (медиана). Този метод е идентичен с предишния, с изключение на това, че изчисленията използват тегла, за да вземат предвид разликата между размерите на клъстерите (т.е. броя на обектите в тях).

Следователно, ако има (или се подозират) значителни разлики в размерите на клъстерите, този метод е за предпочитане пред предишния.

Sneath и Sokal (1973) използват съкращението WPGMC, за да го нарекат метод на претеглена двойка-група, използвайки средната центроидна стойност.

Метод на Уорд.Този метод е различен от всички други методи, тъй като използва техники за анализ на дисперсията за оценка на разстоянията между клъстерите.

Методът минимизира сумата от квадрати (SS) за всеки два (хипотетични) клъстера, които могат да бъдат формирани на всяка стъпка.

Подробности могат да бъдат намерени в Ward (1963). Като цяло методът изглежда много ефективен, но има тенденция да създава малки клъстери.

Този метод беше обсъден по-рано по отношение на "обектите", които трябва да бъдат групирани. Във всички останали видове анализ въпросът, който представлява интерес за изследователя, обикновено се изразява чрез наблюдения или променливи.

Оказва се, че групирането, както по наблюдения, така и по променливи, може да доведе до доста интересни резултати.

Например, представете си, че медицински изследовател събира данни за различни характеристики (променливи) на състоянията (случаи) на пациенти, страдащи от сърдечни заболявания.

Изследователят може да поиска да групира наблюдения (пациенти), за да идентифицира групи от пациенти с подобни симптоми.

В същото време изследователят може да иска да групира променливи, за да идентифицира групи от променливи, които са свързани с подобни физически условия.

След тази дискусия относно това дали да групирате наблюдения или променливи, някой може да попита, защо да не групирате и в двете посоки?

Модулът за анализ на клъстери съдържа ефективна рутина за двупосочно свързване, която ви позволява да правите точно това.

Въпреки това двупосочното обединяване се използва (сравнително рядко) при обстоятелства, при които се очаква както наблюденията, така и променливите да допринесат едновременно за откриването на значими клъстери.

По този начин, връщайки се към предишния пример, можем да предположим, че медицинският изследовател трябва да идентифицира групи от пациенти, които са сходни по отношение на определени групи от характеристики на физическото състояние.

Трудността при тълкуването на получените резултати възниква от факта, че приликите между различни клъстери могат да възникнат от (или да са причина за) някои разлики в подмножества от променливи.

Следователно получените клъстери са хетерогенни по природа. Това може да изглежда малко мъгляво в началото; всъщност, в сравнение с другите описани методи за клъстерен анализ, двупосочното свързване вероятно е най-рядко използваният метод.

Някои изследователи обаче смятат, че той предлага мощно средство за проучвателен анализ на данни (за повече информация вижте описанието на този метод от Hartigan (1975).

K означава метод

Този метод на групиране се различава значително от такива агломеративни методи като Union (дървовидно групиране) и Two-way union. Да приемем, че вече имате хипотези за броя на клъстерите (въз основа на наблюдения или променливи).

Можете да кажете на системата да формира точно три клъстера, така че да са възможно най-различни.

Това е точно типът проблем, който решава алгоритъмът на K-средните. Като цяло методът K-means изгражда точно K различни клъстера, разположени на възможно най-голямо разстояние един от друг.

В примера с физическото състояние един медицински изследовател може да има „предчувствие“ от своя клиничен опит, че неговите пациенти обикновено попадат в три различни категории.

внимание!

Ако това е така, тогава средните стойности на различните измервания на физическите параметри за всеки клъстер ще осигурят количествен начин за представяне на хипотезите на изследователя (напр. пациентите в клъстер 1 имат висок параметър 1, нисък параметър 2 и т.н.) .

От изчислителна гледна точка можете да мислите за този метод като за анализ на дисперсията в обратна посока. Програмата започва с K произволно избрани клъстера и след това променя членството на обектите в тях, така че:

  1. минимизиране на променливостта в клъстерите,
  2. увеличете максимално променливостта между клъстерите.

Този метод е подобен на обратната ANOVA, тъй като тестът за значимост в ANOVA сравнява междугруповата и вътрешногруповата променливост при тестване на хипотезата, че груповите средни стойности се различават една от друга.

При клъстерирането на K-означава, програмата премества обекти (т.е. наблюдения) от една група (клъстер) в друга, за да получи най-значимия резултат при извършване на дисперсионен анализ (ANOVA).

Обикновено, след като се получат резултатите от клъстерен анализ на K-средни стойности, средните стойности за всеки клъстер по всяко измерение могат да бъдат изчислени, за да се оцени колко различни са клъстерите един от друг.

В идеалния случай трябва да получите много различни средни стойности за повечето, ако не и за всички, измервания, използвани в анализа.

Източник: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Класификация на обектите според техните характеристики

Клъстерният анализ е набор от многомерни статистически методи за класифициране на обекти според характеристиките, които ги характеризират, разделяне на набор от обекти на хомогенни групи, които са сходни при определяне на критерии, и идентифициране на обекти от определена група.

Клъстерът е група от обекти, идентифицирани в резултат на клъстерен анализ въз основа на дадена мярка за сходство или разлики между обектите.

Обект – това са специфични обекти на изследване, които трябва да бъдат класифицирани. Обектите на класификация по правило са наблюденията. Например потребители на продукти, държави или региони, продукти и т.н.

Въпреки че е възможно да се проведе клъстерен анализ по променливи. Класификацията на обектите в многомерния клъстерен анализ се извършва по няколко критерия едновременно.

Те могат да бъдат или количествени, или категорични променливи, в зависимост от метода на клъстерен анализ. И така, основната цел на клъстерния анализ е да се намерят групи от подобни обекти в извадката.

Наборът от многовариантни статистически методи за клъстерен анализ може да бъде разделен на йерархични методи (агломеративни и разделителни) и нейерархични (метод на k-средните стойности, двуетапен клъстерен анализ).

Въпреки това, няма общоприета класификация на методите, а методите за клъстерен анализ понякога включват и методи за конструиране на дървета на решения, невронни мрежи, дискриминантен анализ и логистична регресия.

Обхватът на използване на клъстерния анализ, поради неговата гъвкавост, е много широк. Клъстерният анализ се използва в икономиката, маркетинга, археологията, медицината, психологията, химията, биологията, публичната администрация, филологията, антропологията, социологията и други области.

Ето няколко примера за използване на клъстерен анализ:

  • медицина – класификация на заболяванията, техните симптоми, методи на лечение, класификация на групи пациенти;
  • маркетинг - задачи за оптимизиране на продуктовата линия на компанията, сегментиране на пазара по групи стоки или потребители, идентифициране на потенциални потребители;
  • социология – разделяне на респондентите на хомогенни групи;
  • психиатрия – правилното диагностициране на групи от симптоми е определящо за успешната терапия;
  • биология - класификация на организмите по групи;
  • икономика - класификация на субектите на Руската федерация според инвестиционната привлекателност.

Източник: http://www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

Разбиране на клъстерния анализ

Клъстерният анализ включва набор от различни алгоритми за класификация. Често задаван въпрос от изследователи в много области е как да се организират наблюдаваните данни във визуални структури.

Например, биолозите се стремят да класифицират животните в различни видове, за да опишат смислено разликите между тях.

Задачата на клъстерния анализ е да раздели първоначалния набор от обекти на групи от подобни обекти, които са близо един до друг. Тези групи се наричат ​​клъстери.

С други думи, клъстерният анализ е един от начините за класифициране на обекти според техните характеристики. Желателно е резултатите от класификацията да имат смислена интерпретация.

Резултатите, получени чрез методите на клъстерен анализ, се използват в голямо разнообразие от области. В маркетинга това е сегментирането на конкуренти и потребители.

В психиатрията правилното диагностициране на симптоми като параноя, шизофрения и др. е определящо за успешната терапия.

При управлението е важно да се класифицират доставчиците и да се идентифицират подобни производствени ситуации, при които възникват дефекти. В социологията разделянето на респондентите на хомогенни групи. При портфейлното инвестиране е важно да се групират ценни книжа по сходство в тенденциите на възвръщаемост, за да се създаде, въз основа на информацията, получена за фондовия пазар, оптимален инвестиционен портфейл, който ви позволява да увеличите максимално възвръщаемостта на инвестициите при дадена степен на риск.

Като цяло, винаги когато е необходимо да се класифицира голямо количество информация от този вид и да се представи във вид, подходящ за по-нататъшна обработка, клъстерният анализ се оказва много полезен и ефективен.

Клъстерният анализ ви позволява да разгледате доста голямо количество информация и значително да компресирате големи количества социално-икономическа информация, което ги прави компактни и визуални.

внимание!

Клъстерният анализ е от голямо значение във връзка с набори от времеви редове, характеризиращи икономическото развитие (например общи икономически и стокови условия).

Тук можете да маркирате периоди, когато стойностите на съответните индикатори са били доста близки, както и да определите групи от времеви редове, чиято динамика е най-сходна.

В задачите на социално-икономическото прогнозиране комбинацията от клъстерен анализ с други количествени методи (например регресионен анализ) е много обещаваща.

Предимства и недостатъци

Клъстерният анализ позволява обективна класификация на всякакви обекти, които се характеризират с редица характеристики. Има редица ползи, които могат да се извлекат от това:

  1. Получените клъстери могат да бъдат интерпретирани, тоест те могат да опишат какви групи действително съществуват.
  2. Индивидуалните клъстери могат да бъдат изхвърлени. Това е полезно в случаите, когато са допуснати определени грешки при събирането на данни, в резултат на което стойностите на показателите за отделни обекти рязко се отклоняват. При прилагане на клъстерен анализ такива обекти попадат в отделен клъстер.
  3. Само тези клъстери, които имат характеристиките, представляващи интерес, могат да бъдат избрани за по-нататъшен анализ.

Както всеки друг метод, клъстерният анализ има определени недостатъци и ограничения. По-специално, съставът и броят на клъстерите зависи от избраните критерии за разделяне.

При намаляване на оригиналния масив от данни до по-компактна форма могат да възникнат определени изкривявания и индивидуалните характеристики на отделните обекти могат да бъдат загубени поради замяната им с характеристиките на обобщени стойности на параметрите на клъстера.

Методи

Понастоящем са известни повече от сто различни клъстерни алгоритми. Тяхното разнообразие се обяснява не само с различни изчислителни методи, но и с различни концепции, залегнали в основата на групирането.

Следните методи за клъстериране са внедрени в пакета Statistica.

  • Йерархични алгоритми – дървовидно групиране. Йерархичните алгоритми се основават на идеята за последователно групиране. В началната стъпка всеки обект се разглежда като отделен клъстер. В следващата стъпка някои от клъстерите, които са най-близо един до друг, ще бъдат комбинирани в отделен клъстер.
  • Метод на K-средствата. Този метод се използва най-често. Принадлежи към групата на така наречените референтни методи за клъстерен анализ. Броят на клъстерите K се определя от потребителя.
  • Комбиниране с два входа. Когато се използва този метод, клъстерирането се извършва едновременно както по променливи (колони), така и по наблюдения (редове).

Процедурата за двупосочно обединяване се използва в случаите, когато може да се очаква едновременното групиране на променливи и наблюдения да доведе до значими резултати.

Резултатите от процедурата са описателна статистика за променливите и наблюденията, както и двуизмерна цветна диаграма, в която стойностите на данните са цветно кодирани.

Въз основа на разпределението на цветовете можете да получите представа за хомогенни групи.

Нормализация на променливи

Разделянето на първоначалния набор от обекти на клъстери включва изчисляване на разстоянията между обектите и избиране на обекти, чието разстояние е най-малкото от всички възможни.

Най-често използваното е евклидовото (геометрично) разстояние, което е познато на всички ни. Този показател съответства на интуитивните представи за близостта на обектите в пространството (сякаш разстоянията между обектите се измерват с ролетка).

Но за дадена метрика разстоянието между обектите може да бъде силно повлияно от промени в мащабите (мерни единици). Например, ако една от характеристиките се измери в милиметри и след това стойността й се преобразува в сантиметри, евклидовото разстояние между обектите ще се промени значително. Това ще доведе до факта, че резултатите от клъстерния анализ могат да се различават значително от предишните.

Ако променливите се измерват в различни мерни единици, тогава е необходима тяхната предварителна нормализация, т.е. трансформация на оригиналните данни, която ги преобразува в безразмерни количества.

Нормализирането значително изкривява геометрията на оригиналното пространство, което може да промени резултатите от групирането

В пакета Statistica нормализацията на всяка променлива x се извършва с помощта на формулата:

За да направите това, щракнете с десния бутон върху името на променливата и изберете последователността от команди в менюто, което се отваря: Попълване/ Стандартизиране на блок/ Стандартизиране на колони. Стойностите на нормализираната променлива ще станат равни на нула, а дисперсията ще стане равна на единица.

Метод на K-средните в програмата Statistica

Методът K-means разделя набор от обекти на даден брой K от различни клъстери, разположени на възможно най-голямо разстояние един от друг.

Обикновено, след като се получат резултатите от клъстерен анализ на K-средни стойности, средните стойности за всеки клъстер по всяко измерение могат да бъдат изчислени, за да се оцени колко различни са клъстерите един от друг.

В идеалния случай трябва да получите много различни средни стойности за повечето от измерванията, използвани в анализа.

F-статистическите стойности, получени за всяко измерение, са друг индикатор за това колко добре съответното измерение прави разлика между клъстерите.

Като пример, разгледайте резултатите от проучване на 17 служители на предприятие относно удовлетвореността от показателите за качеството на тяхната кариера. Таблицата дава отговори на въпросите на анкетата по десетобална система (1 е минималната оценка, 10 е максималната).

Имената на променливите съответстват на отговорите на следните въпроси:

  1. SLC – комбинация от лични цели и организационни цели;
  2. OSO – чувство за справедливост при възнаграждението;
  3. TBD - териториална близост до дома;
  4. OEB – чувство за икономическо благополучие;
  5. KR – кариерно израстване;
  6. ЖСР – желание за смяна на работа;
  7. RSD – чувство за социално благополучие.

Използвайки тези данни, е необходимо да се разделят служителите на групи и да се идентифицират най-ефективните лостове за управление за всяка от тях.

В същото време разликите между групите трябва да са очевидни, а респондентите в групата трябва да бъдат възможно най-сходни.

Днес повечето социологически проучвания дават само процента на гласовете: броят се основният брой на онези, които са отговорили положително, или процентът на недоволните, но този въпрос не се разглежда систематично.

Най-често проучването не показва тенденция в ситуацията. В някои случаи е необходимо да се брои не броят на хората, които са „за“ или „против“, а разстоянието или мярката за сходство, тоест да се определят групи от хора, които мислят приблизително по един и същи начин.

Процедурите за клъстерен анализ могат да се използват за идентифициране, въз основа на данни от проучване, на някои наистина съществуващи връзки между характеристиките и генериране на тяхната типология на тази основа.

внимание!

Наличието на каквито и да било априорни хипотези на социолога при работа с процедурите на клъстерния анализ не е необходимо условие.

В Statistica клъстерният анализ се извършва по следния начин.

Когато избирате броя на клъстерите, се ръководете от следното: броят на клъстерите, ако е възможно, не трябва да бъде твърде голям.

Разстоянието, на което обектите на даден клъстер са били обединени, трябва, ако е възможно, да бъде много по-малко от разстоянието, на което нещо друго се присъединява към този клъстер.

При избора на броя на клъстерите най-често има няколко правилни решения едновременно.

Интересуваме се например как се сравняват отговорите на въпросите на анкетата между обикновените служители и ръководството на предприятието. Следователно избираме K=2. За по-нататъшно сегментиране можете да увеличите броя на клъстерите.

  1. изберете наблюдения с максимално разстояние между центровете на клъстера;
  2. сортиране на разстояния и избор на наблюдения на редовни интервали (настройка по подразбиране);
  3. вземете първите наблюдения като центрове и прикрепете останалите обекти към тях.

За нашите цели вариант 1) е подходящ.

Много алгоритми за групиране често „налагат“ неестествена структура на данните и дезориентират изследователя. Ето защо е изключително необходимо да се приложат няколко алгоритма за клъстерен анализ и да се направят изводи въз основа на цялостна оценка на резултатите от алгоритмите.

Резултатите от анализа могат да се видят в диалоговия прозорец, който се появява:

Ако изберете раздела Графика на средните стойности, ще бъде построена графика на координатите на центровете на клъстерите:


Всяка прекъсната линия в тази графика съответства на един от клъстерите. Всяко деление на хоризонталната ос на графиката съответства на една от променливите, включени в анализа.

Вертикалната ос съответства на средните стойности на променливите за обектите, включени във всеки от клъстерите.

Може да се отбележи, че има значителни разлики в отношението на двете групи хора към кариерата им по почти всички въпроси. Пълно единодушие има само по един въпрос – чувството за социално благополучие (ССБ), или по-скоро липсата му (2,5 точки от 10).

Можем да приемем, че клъстер 1 представлява работниците, а клъстер 2 представлява ръководството. Мениджърите са по-доволни от кариерното израстване (CG), комбинацията от лични цели и организационни цели (CLO).

Те имат по-високи нива на възприемано икономическо благополучие (SEW) и възприемано справедливо заплащане (SPE).

Те са по-малко загрижени за териториалната близост до дома (TPH), отколкото работниците, вероятно поради по-малкото проблеми с транспорта. Също така мениджърите имат по-малко желание да сменят работата си (JSR).

Въпреки факта, че работниците са разделени на две категории, те отговарят на повечето въпроси относително еднакво. С други думи, ако нещо не устройва общата група служители, същото не устройва и висшето ръководство и обратното.

Координирането на графиците ни позволява да направим изводи, че благосъстоянието на една група се отразява в благосъстоянието на друга.

Клъстер 1 не е доволен от териториалната близост до дома. Тази група е по-голямата част от работниците, които идват в предприятието предимно от различни части на града.

Следователно е възможно да се предложи на главното ръководство да разпредели част от печалбата за изграждането на жилища за служителите на компанията.

Съществуват значителни разлики в отношението на двете групи хора към кариерата. Тези служители, които са доволни от кариерното си израстване, които имат високо ниво на съответствие между личните си цели и целите на организацията, нямат желание да сменят работата си и се чувстват удовлетворени от резултатите от работата си.

Обратно, служителите, които искат да сменят работата си и са недоволни от резултатите от работата си, не са доволни от посочените показатели. Висшето ръководство трябва да обърне специално внимание на настоящата ситуация.

Резултатите от дисперсионния анализ за всяка характеристика се показват, като щракнете върху бутона Анализ на дисперсията.

Показват се сумата от квадратните отклонения на обектите от центровете на клъстера (SS Within) и сумата от квадратните отклонения между центровете на клъстера (SS Between), F-статистическите стойности и нивата на значимост p.

внимание!

За нашия пример нивата на значимост за две променливи са доста големи, което се обяснява с малкия брой наблюдения. В пълната версия на изследването, която може да бъде намерена в работата, хипотезата за равенството на средствата за клъстерните центрове се отхвърля при нива на значимост по-малки от 0,01.

Бутонът Запазване на класификациите и разстоянията показва броя на обектите, включени във всеки клъстер, и разстоянията на обектите до центъра на всеки клъстер.

Таблицата показва числата за наблюдение (CASE_NO), съставните клъстери с номера на КЛУСТЕР и разстоянието от центъра на всеки клъстер (РАЗСТОЯНИЕ).

Информацията за обекти, принадлежащи към клъстери, може да бъде записана във файл и използвана при по-нататъшен анализ. В този пример сравнението на резултатите, получени с въпросниците, показа, че клъстер 1 се състои основно от обикновени работници, а клъстер 2 от мениджъри.

По този начин може да се отбележи, че при обработката на резултатите от проучването клъстерният анализ се оказа мощен метод, който ни позволява да правим заключения, които не могат да бъдат достигнати чрез конструиране на хистограма от средни стойности или изчисляване на процента на хората, доволни от различни показатели на качеството на трудовия живот.

Дървовидното групиране е пример за йерархичен алгоритъм, чийто принцип е последователно да се комбинират в клъстер първо най-близките, а след това все по-отдалечените елементи един от друг.

Повечето от тези алгоритми започват от матрица на подобие (разстояние) и всеки отделен елемент първо се разглежда като отделен клъстер.

След зареждане на модула за клъстерен анализ и избор на Joining (дървовидно клъстериране), в прозореца за въвеждане на параметри за клъстериране, можете да промените следните параметри:

  • Изходни данни (Вход). Те могат да бъдат под формата на матрица на изследваните данни (Raw data) и под формата на матрица на разстоянието (Distance matrix).
  • Групиране на наблюдения (Case (raw)) или променливи (Variable (colons)), описващи състоянието на обект.
  • Мярка за разстояние. Тук можете да изберете следните мерки: Евклидови разстояния, Евклидови разстояния на квадрат, Разстояние град-блок (Манхатън), метрика на разстоянието Чебичев, Разстояние на мощността ...), Процентно несъгласие.
  • Метод на групиране (правило за амалгамиране (свързване)). Тук са възможни следните опции: единична връзка, пълна връзка, непретеглена средна двойка-група, претеглена средна двойка-група), непретеглен центроид на двойка-група, претеглен центроид на двойка-група (медиана), метод на Уорд.

В резултат на клъстерирането се изгражда хоризонтална или вертикална дендрограма - графика, на която се определят разстоянията между обекти и клъстери, когато те се комбинират последователно.

Дървовидната структура на графиката ви позволява да дефинирате клъстери в зависимост от избрания праг - определено разстояние между клъстерите.

Освен това се показва матрица на разстоянията между оригиналните обекти (Distance matrix); средни и стандартни отклонения за всеки изходен обект (дистиптивна статистика).

За разглеждания пример ще проведем клъстерен анализ на променливи с настройки по подразбиране. Получената дендрограма е показана на фигурата.


Вертикалната ос на дендрограмата показва разстоянията между обектите и между обектите и клъстерите. Така разстоянието между променливите OEB и OSD е пет. На първата стъпка тези променливи се комбинират в един клъстер.

Хоризонталните сегменти на дендрограмата се изчертават на нива, съответстващи на стойностите на праговите разстояния, избрани за дадена стъпка на групиране.

Графиката показва, че въпросът „желание за смяна на работата“ (WSW) образува отделен клъстер. Като цяло желанието да отидете навсякъде посещава всички еднакво. След това отделен клъстер е въпросът за териториалната близост до дома (TDP).

По значимост той е на второ място, което потвърждава извода за необходимостта от жилищно строителство, направен въз основа на резултатите от изследването по метода на K-средните.

Възприемането на икономическото благополучие (SEW) и справедливото заплащане (WFE) са комбинирани - това е блок от икономически въпроси. Кариерното развитие (CR) и комбинацията от лични и организационни цели (LOG) също са комбинирани.

Други методи за групиране, както и изборът на други видове разстояния не водят до значителна промяна в дендрограмата.

Резултати:

  1. Клъстерният анализ е мощен инструмент за проучвателен анализ на данни и статистически изследвания във всяка тематична област.
  2. Програмата Statistica прилага както йерархични, така и структурни методи за клъстерен анализ. Предимствата на този статистически пакет произтичат от техните графични възможности. Представени са двумерни и тримерни графични изображения на получените клъстери в пространството на изследваните променливи, както и резултатите от йерархичната процедура за групиране на обекти.
  3. Необходимо е да се приложат няколко алгоритма за клъстерен анализ и да се направят изводи въз основа на цялостна оценка на резултатите от алгоритмите.
  4. Клъстерният анализ може да се счита за успешен, ако се извършва по различни начини, резултатите се сравняват и се откриват общи модели и се намират стабилни клъстери, независимо от метода на клъстериране.
  5. Клъстерният анализ ви позволява да идентифицирате проблемни ситуации и да очертаете начини за тяхното разрешаване. Следователно този метод на непараметрична статистика може да се разглежда като неразделна част от системния анализ.

10.1.1 Основни понятия.

Нека наборът се изучава обекти, всеки от които се характеризира измерени знаци. Необходимо е тази популация да се раздели на групи, които са хомогенни в известен смисъл. В същото време практически няма априорна информация за характера на разпространението -дименсионален вектор
вътре в класове.
Получените групи обикновено се наричат клъстери (таксони, изображения), методи за намирането им - клъстерен анализ(числова таксономия или самообучаващо се разпознаване на модели).

Решението на проблема е да се определи естествената стратификация на резултатите от наблюдението в ясно дефинирани клъстери, разположени на определено разстояние един от друг. (Може да се окаже, че много наблюдения не показват естествена стратификация в клъстери, т.е. те образуват един клъстер).

Обичайната форма за представяне на първоначалните данни в проблемите на клъстерния анализ е матрица

,

всеки ред от които представлява резултатите от измерването характеристиките, които се разглеждат в един от обектите.

Клъстеризиране е предназначен за разделяне на набор от обекти на хомогенни групи ( клъстериили класове). Ако примерните данни са представени като точки в пространството на характеристиките, проблемът е групиранесе свежда до определението за „концентрации на точки“.

Концепцията за клъстер се превежда като „грозд“, „грозд“. Синоними на термина "групиране" са "автоматична класификация", "неконтролирано обучение" и "таксономия".

Целта на групирането е търсене на съществуващи структури. Групирането е описателна процедура, тя не прави никакви статистически изводи, но предоставя възможност за провеждане на проучвателен анализ и изследване на „структурата на данните“. Класовете не се определят предварително, а се търсят най-сходните, хомогенни групи. Клъстерът може да се характеризира като група от обекти, които имат общи свойства.

Характеристиките на клъстера могат да бъдат описани като две:

    вътрешна хомогенност;

    външна изолация.

Клъстерите могат да бъдат несвързани или изключителни (неприпокриващи се, изключителни) и припокриващи се. Схематично представяне на неприпокриващи се и пресичащи се клъстери е дадено на фиг. 10.1.

Ориз. 10.1 Разединени и припокриващи се групи

Терминът "клъстерен анализ", въведен за първи път от Tryon през 1939 г., комбинира повече от 100 различни алгоритми.

За разлика от проблемите с класификацията, клъстерният анализ не изисква априорни предположения за набора от данни, не налага ограничения върху представянето на изследваните обекти и ви позволява да анализирате индикатори на различни типове данни (интервални данни, честоти, двоични данни) . Трябва да се помни, че променливите трябва да се измерват в сравними скали.

10.1.2 Характеристики на клъстера

Клъстерът има следните математически характеристики: център, радиус, стандартно отклонение, размер на клъстера.

Всеки обект на популация в клъстерния анализ се разглежда като точка в дадено пространство на характеристиките. Стойността на всеки от атрибутите на дадена единица служи като нейна координата в това пространство.

Центърът на клъстера е средното геометрично на точките в пространството на променливите.

Радиус на клъстера - максималното разстояние на точките от центъра на клъстера.

Ако е невъзможно недвусмислено да се присвои обект на един от двата клъстера с помощта на математически процедури, тогава такива обекти се наричат ​​спорни и се открива припокриване на клъстери. Спорен обект е обект, който въз основа на сходството си може да бъде класифициран в няколко групи.

Размерът на клъстера може да се определи или от радиуса на клъстера, или от стандартното отклонение на обектите за този клъстер. Един обект принадлежи към клъстер, ако разстоянието от обекта до центъра на клъстера е по-малко от радиуса на клъстера. Ако това условие е изпълнено за два или повече клъстера, обектът е спорен. Неяснотата на този проблем може да бъде разрешена от експерт или анализатор.

Всяка група включва много подходи и алгоритми.

Използвайки различни техники за клъстерен анализ, анализаторът може да получи различни решения за едни и същи данни. Това се счита за нормално. Нека разгледаме подробно йерархичните и нейерархичните методи.

Същността на йерархичното клъстериране е последователното комбиниране на по-малки клъстери в по-големи или разделяне на големи клъстери на по-малки.

Йерархични агломеративни методи (Agglomerative Nesting, AGNES) Тази група методи се характеризира с последователно комбиниране на началните елементи и съответно намаляване на броя на клъстерите.

В началото на алгоритъма всички обекти са отделни клъстери. В първата стъпка най-сходните обекти се комбинират в клъстер. В следващите стъпки сливането продължава, докато всички обекти образуват един клъстер. Йерархични делими (делими) методи (DIvisive ANAlysis, DIANA) Тези методи са логическа противоположност на агломеративните методи. В началото на алгоритъма всички обекти принадлежат към един клъстер, който в следващите стъпки се разделя на по-малки клъстери, което води до последователност от групи за разделяне.

Нейерархичните методи разкриват по-висока стабилност по отношение на шум и извънредни стойности, неправилен избор на метрики и включване на незначителни променливи в набора, участващ в клъстерирането. Цената, която трябва да се плати за тези предимства на метода, е думата „априори“. Анализаторът трябва предварително да определи броя на клъстерите, броя на итерациите или правилото за спиране и някои други параметри на клъстерите. Това е особено трудно за начинаещи.

Ако няма предположения относно броя на клъстерите, се препоръчва използването на йерархични алгоритми. Въпреки това, ако размерът на извадката не позволява това, възможен начин е да се проведат серия от експерименти с различен брой клъстери, например да започнете да разделяте набора от данни на две групи и като постепенно увеличавате техния брой, сравнете резултатите. Благодарение на тази „вариация“ на резултатите се постига доста голяма гъвкавост на клъстерирането.

Йерархичните методи, за разлика от нейерархичните, отказват да определят броя на клъстерите, а изграждат пълно дърво от вложени клъстери.

Трудности на методите за йерархично клъстериране: ограничение на размера на набора от данни; избор на мярка за близост; негъвкавост на получените класификации.

Предимството на тази група методи в сравнение с нейерархичните методи е тяхната видимост и възможността за получаване на подробно разбиране на структурата на данните.

Когато се използват йерархични методи, е възможно доста лесно да се идентифицират отклоненията в набор от данни и в резултат на това да се подобри качеството на данните. Тази процедура е в основата на алгоритъма за клъстериране в две стъпки. Такъв набор от данни може по-късно да се използва за извършване на нейерархично групиране.

Има още един аспект, който вече беше споменат в тази лекция. Това е въпрос на клъстериране на целия набор от данни или извадка от него. Този аспект е от съществено значение и за двете разглеждани групи методи, но е по-критичен за йерархичните методи. Йерархичните методи не могат да работят с големи набори от данни и използването на някои проби, напр. части от данните могат да позволят прилагането на тези методи.

Резултатите от групирането може да нямат достатъчна статистическа обосновка. От друга страна, при решаването на проблемите на клъстерирането е приемлива нестатистическа интерпретация на получените резултати, както и доста голямо разнообразие от варианти на концепцията за клъстер. Тази нестатистическа интерпретация позволява на анализатора да получи резултати от групиране, които го удовлетворяват, което често е трудно при използване на други методи.

1) Метод на пълните връзки.

Същността на този метод е, че два обекта, принадлежащи към една и съща група (клъстер), имат коефициент на сходство, който е по-малък от определена прагова стойност S. По отношение на евклидовото разстояние d това означава, че разстоянието между две точки (обекти) на клъстера не трябва да надвишава определена прагова стойност h. По този начин h определя максимално допустимия диаметър на подмножеството, което образува клъстера.

2) Метод на максимално локално разстояние.

Всеки обект се третира като клъстер от една точка. Обектите се групират по следното правило: два клъстера се комбинират, ако максималното разстояние между точките на единия клъстер и точките на другия е минимално. Процедурата се състои от n - 1 стъпки и резултатът е дялове, които съвпадат с всички възможни дялове в предишния метод за всякакви прагови стойности.

3) Методът на Word.

При този метод вътрешногруповата сума на квадратите на отклоненията се използва като целева функция, която не е нищо повече от сумата на квадратите на разстоянията между всяка точка (обект) и средната стойност на клъстера, съдържащ този обект. На всяка стъпка се комбинират два клъстера, които водят до минимално увеличение на целевата функция, т.е. сума от квадрати в рамките на групата. Този метод има за цел да комбинира близко разположени клъстери.

4) Метод на центроида.

Разстоянието между два клъстера се определя като евклидовото разстояние между центровете (средните стойности) на тези клъстери:

d2 ij = (`X -`Y)Т(`X -`Y) Клъстерирането става на етапи: на всяка от n-1 стъпки се комбинират два клъстера G и p, които имат минимална стойност d2ij Ако n1 е много по-голямо отколкото n2, тогава центровете на обединението на двата клъстера са близо един до друг и характеристиките на втория клъстер практически се игнорират при комбиниране на клъстери. Този метод понякога се нарича още метод на претеглена група.

Знаем, че Земята е една от 8-те планети, които се въртят около Слънцето. Слънцето е само една звезда сред около 200 милиарда звезди в галактиката Млечен път. Много е трудно да се разбере това число. Знаейки това, можем да направим предположение за броя на звездите във Вселената - приблизително 4X10^22. Можем да видим около милион звезди в небето, въпреки че това е само малка част от действителния брой звезди. И така, имаме два въпроса:

  1. Какво е галактика?
  2. И каква е връзката между галактиките и темата на статията (клъстерен анализ)


Галактиката е колекция от звезди, газ, прах, планети и междузвездни облаци. Обикновено галактиките приличат на спирала или едептична фигура. В космоса галактиките са отделени една от друга. Огромните черни дупки често са центровете на повечето галактики.

Както ще обсъдим в следващия раздел, има много прилики между галактиките и клъстерния анализ. Галактиките съществуват в триизмерно пространство, клъстерният анализ е многоизмерен анализ, извършен в n-измерно пространство.

Бележката: Черната дупка е центърът на галактика. Ще използваме подобна идея по отношение на центроидите за клъстерен анализ.

Клъстерен анализ

Да приемем, че сте ръководител на маркетинга и връзките с потребителите в телекомуникационна компания. Разбирате, че всеки потребител е различен и че имате нужда от различни стратегии, за да привлечете различни потребители. Ще оцените силата на такъв инструмент като сегментиране на клиенти за оптимизиране на разходите. За да опресните знанията си за клъстерния анализ, разгледайте следния пример, илюстриращ 8 потребителя и средната продължителност на техните разговори (местни и международни). Данните по-долу:

За по-добро разбиране, нека начертаем графика, където оста x ще показва средната продължителност на международните разговори, а оста Y ще показва средната продължителност на местните разговори. По-долу е графиката:

Бележката: Това е подобно на анализа на подреждането на звездите в нощното небе (тук звездите са заменени от потребители). Освен това, вместо триизмерно пространство, имаме двуизмерно, дефинирано от продължителността на местните и международните разговори като осите x и y.
Сега, говорейки по отношение на галактиките, задачата е формулирана по следния начин - да се намери позицията на черните дупки; в клъстерния анализ те се наричат ​​центроиди. За да открием центроиди, ще започнем, като вземем произволни точки като центроидни позиции.

Евклидово разстояние за намиране на центроиди за клъстери

В нашия случай произволно ще поставим два центроида (C1 и C2) в точки с координати (1, 1) и (3, 4). Защо избрахме тези два центроида? Визуалното показване на точките на графиката ни показва, че има два клъстера, които ще анализираме. По-късно обаче ще видим, че отговорът на този въпрос не е толкова прост за голям набор от данни.
След това ще измерим разстоянието между центроидите (C1 и C2) и всички точки на графиката, използвайки формулата на Евклид, за да намерим разстоянието между две точки.

Забележка: Разстоянието може да се изчисли с помощта на други формули, напр.

  1. квадратно евклидово разстояние – за да придадете тежест на обекти, които са по-отдалечени един от друг
  2. Разстояние Манхатън – за намаляване на въздействието на емисиите
  3. дистанция на мощността – за увеличаване/намаляване на влиянието по определени координати
  4. процент на несъгласие – за категорични данни
  5. и т.н.
Колона 3 и 4 (Разстояние от C1 и C2) е разстоянието, изчислено с помощта на тази формула. Например за първия потребител

Членството в центроида (последната колона) се изчислява въз основа на близостта до центроидите (C1 и C2). Първият потребител е по-близо до центроид #1 (1,41 в сравнение с 2,24) и следователно принадлежи към клъстера с центроид C1.

По-долу има графика, илюстрираща центроидите C1 и C2 (показани като син и оранжев диамант). Потребителите са изобразени с цвета на съответния центроид, към който клъстер са били присвоени.

Тъй като произволно избрахме центроидите, втората стъпка е да направим този избор итеративен. Новата центроидна позиция се избира като средна стойност за точките в съответния клъстер. Така например за първия центроид (това са потребители 1, 2 и 3). Следователно новата x-координата за центроида C1 е средната x-координата на тези потребители (2+1+1)/3 = 1,33. Ще получим нови координати за C1 (1.33, 2.33) и C2 (4.4, 4.2). Новата графика е по-долу:

Накрая ще поставим центроидите в центъра на съответния клъстер. Графика по-долу:

Позициите на нашите черни дупки (центрове на клъстери) в нашия пример са C1 (1.75, 2.25) и C2 (4.75, 4.75). Двата клъстера по-горе са като две галактики, отделени в пространството една от друга.

Така че, нека да разгледаме примерите по-нататък. Нека се сблъскаме със задачата да сегментираме потребителите по два параметъра: възраст и доход. Да кажем, че имаме 2 потребители, на възраст 37 и 44 години, с доходи съответно $90 000 и $62 000. Ако искаме да измерим евклидовото разстояние между точките (37, 90 000) и (44, 62 000), ще видим, че в този случай променливата доход „доминира“ променливата възраст и нейната промяна значително влияе на разстоянието. Имаме нужда от някаква стратегия, за да разрешим този проблем, в противен случай нашият анализ ще даде неправилен резултат. Решението на този проблем е да доведем нашите ценности до сравними мащаби. Нормализирането е решението на нашия проблем.

Нормализиране на данните

Има много подходи за нормализиране на данните. Например минимално-максимално нормиране. За тази нормализация се използва следната формула

в този случай X* е нормализираната стойност, min и max са минималните и максималните координати за цялото множество X
(Забележете, че тази формула поставя всички координати върху сегмента)
Нека да разгледаме нашия пример, да кажем, че максималният доход е $130 000, а минималният е $45 000. Нормализираната стойност на дохода за потребител А е

Ще направим това упражнение за всички точки за всяка променлива (координати). Доходът за втория потребител (62000) ще стане 0,2 след процедурата по нормализиране. Освен това нека минималната и максималната възраст да бъдат съответно 23 и 58 години. След нормализиране възрастта на нашите два консуматора ще бъде 0,4 и 0,6.

Лесно е да се види, че всички наши данни сега попадат между стойностите 0 и 1. Следователно сега имаме нормализирани набори от данни в сравними мащаби.

Не забравяйте, че преди процедурата за клъстерен анализ трябва да се извърши нормализиране.

Клъстерни задачи в Data Mining

Въведение в клъстерния анализ

От целия широк спектър от приложения на клъстерния анализ, например проблемите на социално-икономическото прогнозиране.

При анализа и прогнозирането на социално-икономическите явления изследователят често се сблъсква с многоизмерността на тяхното описание. Това се случва при решаване на проблема със сегментирането на пазара, конструиране на типология на страни въз основа на доста голям брой показатели, прогнозиране на пазарните условия за отделни стоки, изучаване и прогнозиране на икономическа депресия и много други проблеми.

Методите за многомерен анализ са най-ефективният количествен инструмент за изследване на социално-икономическите процеси, описвани с голям брой характеристики. Те включват клъстерен анализ, таксономия, разпознаване на модели и факторен анализ.

Клъстерен анализнай-ясно отразява характеристиките на многовариантния анализ в класификацията, факторния анализ - в изследването на връзките.

Понякога подходът на клъстерния анализ се нарича в литературата числена таксономия, числена класификация, самообучаващо се разпознаване и др.

Клъстерният анализ намери своето първо приложение в социологията. Наименованието клъстерен анализ идва от английската дума cluster – куп, натрупване. За първи път през 1939 г. предметът на клъстерния анализ е дефиниран и описан от изследователя Трион. Основната цел на клъстерния анализ е да раздели набора от изследвани обекти и характеристики на групи или клъстери, които са хомогенни в подходящия смисъл. Това означава, че проблемът с класифицирането на данните и идентифицирането на съответната структура в тях се решава. Методите за клъстерен анализ могат да се използват в най-различни случаи, дори и в случаите, когато говорим за просто групиране, при което всичко се свежда до формирането на групи на базата на количествено сходство.

Голямото предимство на клъстерния анализе, че ви позволява да разделяте обекти не според един параметър, а според цял набор от характеристики. В допълнение, клъстерният анализ, за ​​разлика от повечето математически и статистически методи, не налага никакви ограничения върху типа на разглежданите обекти и позволява да се разглеждат различни първоначални данни от почти произволен характер. Това е от голямо значение, например, за прогнозиране на пазарната ситуация, когато индикаторите имат разнообразна форма, което затруднява използването на традиционните иконометрични подходи.

Клъстерният анализ ви позволява да разгледате доста голямо количество информация и драматично да намалите и компресирате големи количества социално-икономическа информация, което ги прави компактни и визуални.

Клъстерният анализ е важен във връзка с набори от времеви редове, характеризиращи икономическото развитие (например общи икономически и стокови условия). Тук можете да маркирате периоди, когато стойностите на съответните индикатори са били доста близки, както и да определите групи от времеви редове, чиято динамика е най-сходна.

Клъстерният анализ може да се използва итеративно. В този случай изследването се провежда до постигане на необходимите резултати. Освен това всеки цикъл тук може да предостави информация, която може значително да промени посоката и подходите към по-нататъшното приложение на клъстерния анализ. Този процес може да бъде представен като система за обратна връзка.

В задачите на социално-икономическото прогнозиране комбинацията от клъстерен анализ с други количествени методи (например регресионен анализ) е много обещаваща.

Точно като всеки друг метод , клъстерният анализ има определени недостатъци и ограничения: По-специално, броят на клъстерите зависи от избраните критерии за разделяне. При намаляване на оригиналния масив от данни до по-компактна форма могат да възникнат определени изкривявания и индивидуалните характеристики на отделните обекти могат да бъдат загубени поради замяната на техните характеристики с обобщените стойности на параметрите на клъстера. При класифицирането на обекти често се игнорира възможността за липса на стойности на клъстер в разглеждания набор.

При клъстерния анализ се счита, че:

а) избраните характеристики позволяват по принцип желаното разделяне на клъстери;

б) мерните единици (скала) са избрани правилно.

Изборът на мащаб играе голяма роля. Обикновено данните се нормализират чрез изваждане на средната стойност и разделяне на стандартното отклонение, така че дисперсията да е равна на единица.

1. Проблем с групирането

Задачата на клъстерирането е въз основа на данните, съдържащи се в набора х, разделят много обекти ЖНа м (м– цели) клъстери (подмножества) Въпрос 1Q 2 , …,Qm, така че всеки обект Gjпринадлежат към едно и само едно подмножество на дяла и че обектите, принадлежащи към един и същи клъстер, са подобни, докато обектите, принадлежащи към различни клъстери, са различни.

Например, нека Жвключва n държави, всяка от които се характеризира с БНП на глава от населението ( F 1), номер Мколи на 1 хил. души ( Е 2), консумация на електроенергия на глава от населението ( Е 3), потребление на стомана на глава от населението ( Е 4) и т.н. Тогава X 1(вектор на измерване) е набор от определени характеристики за първата държава, X 2- за второто, X 3за третото и т.н. Целта е да се категоризират държавите по ниво на развитие.

Решението на проблема с клъстерния анализ са дялове, които отговарят на някакъв критерий за оптималност. Този критерий може да бъде някакъв вид функционал, изразяващ нивата на желателност на различни дялове и групи, който се нарича целева функция. Например вътрешногруповата сума на квадратните отклонения може да се приеме като целева функция:

Където x j- представлява измервания й-ти обект.

За да се реши проблемът с клъстерния анализ, е необходимо да се дефинират концепциите за сходство и хетерогенност.

Ясно е, че обекти аз -та и й-th ще попадне в един клъстер, когато разстоянието (отдалечеността) между точките х азИ X jще бъде достатъчно малък и ще падне в различни клъстери, когато това разстояние е достатъчно голямо. По този начин попадането в един или различни клъстери от обекти се определя от концепцията за разстояние между тях х аз И X jот Ер, Където Ер - Р-мерно евклидово пространство. Неотрицателна функция d(X аз, X j) се нарича функция на разстоянието (метрика), ако:

а) d(Xi, X j)³ 0 , за всички х аз И X jот Ер

б) d(Xi, X j) = 0, ако и само ако х аз= X j

V) d(Xi, X j) = d(X j, X аз)

G) d(Xi, X j)£ d(Xi, X k) + d(X k, X j), където X j; хi и X k- всякакви три вектора от Ер.

Значение d(Xi, X j)За хазИ х j се нарича разстоянието между хазИ X jи е еквивалентен на разстоянието между ЖазИ Gjспоред избраните характеристики (F 1, F 2, F 3, ..., F p).

Най-често използваните функции за разстояние са:

1. Евклидово разстояние d 2 (Xi , X j) =

2. l 1- норма d 1 (Xi , X j) =

3. Супремумът е норма д ¥ i , X j) = sup

k = 1, 2, ..., p

4. l стр- норма d p ​​​​(Xi , X j) =

Евклидовата метрика е най-популярната. Показателят l 1 е най-лесният за изчисляване. Висшата норма се изчислява лесно и включва процедура за поръчка, a l p- нормата обхваща функции от разстояния 1, 2, 3,.

Нека n измерения X 1, X 2,..., Xнпредставени като матрица на данни с размер стр´ н:

След това разстоянието между двойки вектори d(X аз, X j)може да се представи като симетрична матрица на разстоянието:

Концепцията, противоположна на разстоянието, е концепцията за сходството между обектите Ж аз . И Gj. Неотрицателна реална функция S(X аз; X j) = S азйсе нарича мярка за подобие, ако:

1) 0 £ S(X i, X j)< 1 за X аз ¹ X j

2) С( хаз, Хаз) = 1

3) С( хаз, Хй) = S(Xй, Х аз )

Двойките от стойности на мярка за сходство могат да бъдат комбинирани в матрица за сходство:

Размер Сijнаречен коефициент на подобие.

2. Методи за групиране

Днес има доста методи за клъстерен анализ. Нека разгледаме някои от тях (методите, дадени по-долу, обикновено се наричат ​​методи с минимална вариация).

Позволявам х- матрица за наблюдение: X = (X 1, X 2,..., X u)и квадрата на евклидовото разстояние между х аз И X jопределя се по формулата:

1) Пълен метод на връзката.

Същността на този метод е, че два обекта, принадлежащи към една и съща група (клъстер), имат коефициент на сходство, който е по-малък от определена прагова стойност С. По отношение на евклидовото разстояние дтова означава, че разстоянието между две точки (обекти) на клъстера не трябва да надвишава определена прагова стойностч. По този начин, чопределя максимално допустимия диаметър на подмножеството, образуващо клъстера.

2) Метод на максимално локално разстояние.

Всеки обект се третира като клъстер от една точка. Обектите се групират по следното правило: два клъстера се комбинират, ако максималното разстояние между точките на единия клъстер и точките на другия е минимално. Процедурата се състои от n - 1стъпки и резултатът е дялове, които съвпадат с всички възможни дялове в предишния метод за всякакви прагови стойности.

3) Методът на Word.

При този метод вътрешногруповата сума на квадратите на отклоненията се използва като целева функция, която не е нищо повече от сумата на квадратите на разстоянията между всяка точка (обект) и средната стойност на клъстера, съдържащ този обект. На всяка стъпка се комбинират два клъстера, които водят до минимално увеличение на целевата функция, т.е. сума от квадрати в рамките на групата. Този метод има за цел да комбинира близко разположени клъстери.

4) Метод на центроида.

Разстоянието между два клъстера се определя като евклидовото разстояние между центровете (средните стойности) на тези клъстери:

г 2ij =(` Х -` Y) T (` Х -` Y)Групирането се извършва на етапи във всеки от n–1стъпки комбинират два клъстера ЖИ стр , с минимална стойност d 2 ijАко n 1много повече n 2, тогава центровете на обединение на два клъстера са близо един до друг и характеристиките на втория клъстер практически се игнорират при сливането на клъстери. Този метод понякога се нарича още метод на претеглена група.

3. Алгоритъм за последователно групиране

Нека помислим Ι = (Ι 1, Ι 2, … Ιн)като много клъстери (I 1), (I 2),…(Iн). Да изберем две от тях, напр. Ι аз И Ι j, които в известен смисъл са по-близо един до друг и ще ги обединим в един клъстер. Новият набор от клъстери, който вече се състои от n -1 клъстери, ще бъде:

(I 1), (I 2)…, аз, Ι j ), …, (Ιн).

Повтаряйки процеса, получаваме последователни набори от клъстери, състоящи се от (n -2), (n -3), (n –4)и т.н. клъстери. В края на процедурата можете да получите клъстер, състоящ се от n обекта и съвпадащ с оригиналния набор Ι = (Ι 1, Ι 2, … Ιн).

Като мярка за разстояние вземаме квадрата на евклидовата метрика д азй 2. и изчислете матрицата D = (di j 2 ), където di j 2- квадрат на разстоянието между

Ι ази аз j:

….

Ι n

d 12 2

d 13 2

….

d 1n 2

d 23 2

….

d2n2

….

d 3n 2

….

….

….

Ι n

Нека разстоянието между Ι азИ Ι j ще бъде минимално:

д аз й 2 = min (d i j 2, т.е¹ й).Оформяме с помощта Ι азИ Ι j нов клъстер

i, l j). Да построим нов ((n-1), (n-1))матрица на разстоянието

(I i, I j)

….

Ι n

(Ι i; Ι j)

d i j 2 1

d i j 2 2

….

d i j 2 n

d 12 2

d 1 3

….

d 1 2 n

….

d 2 n

….

d 3n

(n -2)Редовете за последната матрица се вземат от предишната, а първият ред се изчислява наново. Изчисленията могат да бъдат сведени до минимум, ако можем да изразим d i j 2 k ,k = 1, 2,…,н; (к¹ аз¹ й)чрез елементите на оригиналната матрица.

Първоначално разстоянието се определя само между едноелементни клъстери, но е необходимо да се определят разстоянията между клъстери, съдържащи повече от един елемент. Това може да стане по различни начини и в зависимост от избрания метод се получават алгоритми за клъстерен анализ с различни свойства. Можете например да поставите разстоянието между клъстера i+jи някой друг клъстер к, равно на средноаритметичното на разстоянията между клъстерите азИ ки клъстери йИ к:

d i+j,k = ½ (d i k + d j k).

Но може и да се определи d i+j,kкато минималното от тези две разстояния:

d i+j,k = min (d i k + d j k).

По този начин е описана първата стъпка на агломеративния йерархичен алгоритъм. Следващите стъпки са подобни.

Може да се получи доста широк клас алгоритми, ако се използва следната обща формула за преизчисляване на разстояния:

d i+j,k = A(w) min(d ik d jk) + B(w) max(d ik d jk),Където

A(w) = , акоd ik£ djk

A(w) = , акоd ik> djk

B(w) = , акод аз к £ djk

Б (w) =, Акоd ik> djk

Където n iИ n j- брой елементи в клъстери азИ й, А w– свободен параметър, чийто избор се определя от определен алгоритъм. Например, когато w = 1получаваме така наречения алгоритъм за „средна връзка“, за който формулата за преизчисляване на разстоянието приема формата:

d i+j,k =

В този случай разстоянието между два клъстера на всяка стъпка от алгоритъма се оказва равно на средноаритметичното на разстоянията между всички двойки елементи, така че единият елемент от двойката принадлежи на един клъстер, а другият на друг.

Визуалното значение на параметъра w става ясно, ако поставим w® ¥ . Формулата за преизчисляване на разстояния приема формата:

d i+j,k =мин. (д азdjk)

Това ще бъде така нареченият алгоритъм на „най-близкия съсед“, който ви позволява да идентифицирате клъстери с всякаква сложна форма, при условие че различните части на такива клъстери са свързани с вериги от елементи, близки един до друг. В този случай разстоянието между два клъстера на всяка стъпка от алгоритъма се оказва равно на разстоянието между двата най-близки елемента, принадлежащи на тези два клъстера.

Много често се приема, че са дадени началните разстояния (разлики) между групираните елементи. При някои проблеми това наистина е вярно. Посочват се обаче само обекти и техните характеристики и въз основа на тези данни се изгражда матрица на разстоянието. В зависимост от това дали се изчисляват разстоянията между обектите или между характеристиките на обектите се използват различни методи.

В случай на клъстерен анализ на обекти, най-честата мярка за разлика е или квадратът на евклидовото разстояние

(Където x ih, x jh- стойности ч-ти знак за азта и й-ти обекти и м- брой характеристики), или самото евклидово разстояние. Ако на характеристиките са присвоени различни тегла, тогава тези тегла могат да бъдат взети предвид при изчисляване на разстоянието

Понякога разстоянието се използва като мярка за разлика, изчислена по формулата:

които се наричат: разстояние "Хаминг", "Манхатън" или "градски блок".

Естествена мярка за сходството на характеристиките на обекта в много задачи е коефициентът на корелация между тях

Където m i, m j,даз,дй- съответно средни и стандартни отклонения за характеристики азИ й. Мярка за разликата между характеристиките може да бъде стойността 1 - r. В някои задачи знакът на корелационния коефициент е незначителен и зависи само от избора на мерна единица. В този случай се използва мярката за разлика между характеристиките ô 1 - r i j ô

4. Брой клъстери

Много важен въпрос е проблемът с избора на необходимия брой клъстери. Понякога можете да изберете m брой клъстери a priori. Но в общия случай този брой се определя в процеса на разделяне на множеството на клъстери.

Изследванията са проведени от Фортие и Соломон и е установено, че трябва да се вземе броят на клъстерите, за да се постигне вероятността а че е намерен най-добрият дял. По този начин оптималният брой разделяния е функция на дадената дроб b най-добрите или в някакъв смисъл допустими дялове в множеството от всички възможни. Колкото по-голяма е пропорцията, толкова по-голяма е общата дисперсия b допустими прегради. Фортие и Соломон разработиха таблица, която може да се използва за намиране на необходимия брой разделяния. С(а , b ) зависи от а И b (Където а е вероятността да бъде намерен най-добрият дял, b - делът на най-добрите дялове в общия брой дялове) Освен това, като мярка за хетерогенност, не се използва мярката за дисперсия, а мярката за членство, въведена от Холценгер и Харман. Таблица със стойности С(а , b ) е дадено по-долу.

Таблица със стойностиС(а , b )

b \ а

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

Доста често критерият за комбиниране (броят на клъстерите) е промяна в съответната функция. Например сумата от квадратите на отклоненията:

Тук процесът на групиране трябва да съответства на последователно минимално увеличение на стойността на критерия д. Наличие на рязък скок в стойността дможе да се интерпретира като характеристика на броя на клъстерите, които обективно съществуват в изследваната популация.

И така, вторият начин за определяне на най-добрия брой клъстери се свежда до идентифициране на скокове, определени от фазовия преход от силно свързано към слабо свързано състояние на обекти.

5. Дендограми

Най-известният метод за представяне на матрица за разстояние или подобие се основава на идеята за дендограма или дървовидна диаграма. Дендограмата може да се дефинира като графично представяне на резултатите от последователен процес на групиране, който се извършва по отношение на матрица на разстоянието. С помощта на дендограма можете графично или геометрично да представите процедурата за групиране, при условие че тази процедура работи само с елементи от матрицата на разстоянието или подобието.

Има много начини за конструиране на дендограми. В дендограмата обектите са разположени вертикално отляво, резултатите от групирането са разположени отдясно. Стойностите на разстоянието или сходството, съответстващи на структурата на нови клъстери, са изобразени по хоризонтална линия в горната част на дендограмите.

Фиг. 1

Фигура 1 показва един пример за дендограма. Фигура 1 съответства на случай на шест обекта ( н=6) И кхарактеристики (признаци). Обекти АИ СЪСса най-близките и следователно са комбинирани в един клъстер на ниво на близост от 0,9. ОбектидИ дсливане на ниво 0.8. Сега имаме 4 клъстера:

(A, C), (Е), ( д, д), ( б) .

След това се образуват клъстери (A, C, Е) И ( д, д, б) , съответстващи на нива на близост от 0,7 и 0,6. Накрая всички обекти се групират в един клъстер на ниво 0,5.

Типът на дендограмата зависи от избора на мярка за сходство или разстояние между обекти и клъстери и метода на клъстериране. Най-важният момент е изборът на мярка за сходство или мярка за разстояние между обекта и клъстера.

Броят на алгоритмите за клъстерен анализ е твърде голям. Всички те могат да бъдат разделени на йерархични и нейерархични.

Йерархичните алгоритми са свързани с изграждането на дендограми и се разделят на:

а) агломеративен, характеризиращ се с последователна комбинация от изходни елементи и съответно намаляване на броя на клъстерите;

б) делими (делими), при които броят на клъстерите се увеличава, започвайки от един, което води до образуването на последователност от разделящи се групи.

Алгоритмите за клъстерен анализ днес имат добра софтуерна реализация, която позволява решаването на проблеми от най-голямо измерение.

6. Данни

Клъстерният анализ може да се приложи към интервални данни, честоти и двоични данни. Важно е променливите да варират в сравними мащаби.

Разнородността на мерните единици и произтичащата от това невъзможност за валидно изразяване на стойностите на различни показатели в една и съща скала води до факта, че разстоянията между точките, отразяващи положението на обектите в пространството на техните свойства, се оказват зависими от произволно избран мащаб. За да се елиминира хетерогенността в измерването на изходните данни, всички техни стойности са предварително нормализирани, т.е. се изразяват чрез съотношението на тези стойности към определена стойност, която отразява определени свойства на даден показател. Нормализирането на първоначалните данни за клъстерен анализ понякога се извършва чрез разделяне на първоначалните стойности на стандартното отклонение на съответните индикатори. Друг начин е да се изчисли така наречената стандартизирана вноска. Нарича се още Z-принос.

З -приносът показва колко стандартни отклонения отделят дадено наблюдение от средната стойност:

Където x i– значението на това наблюдение,- средно аритметично, С- стандартно отклонение.

Средно за Z -приносите са нула и стандартното отклонение е 1.

Стандартизацията позволява да се сравняват наблюдения от различни разпределения. Ако разпределението на променлива е нормално (или близко до нормалното) и средната стойност и дисперсията са известни или оценени от големи извадки, тогаваЗ -Входът за наблюдение предоставя по-конкретна информация за местоположението му.

Обърнете внимание, че методите за стандартизация означават признаване на всички характеристики като еквивалентни от гледна точка на определяне на сходството на разглежданите обекти. Вече беше отбелязано, че по отношение на икономиката признаването на еквивалентността на различни показатели не винаги изглежда оправдано. Би било желателно, наред със стандартизацията, на всеки от показателите да се придаде тежест, отразяваща значението му при установяване на приликите и разликите на обектите.

В тази ситуация е необходимо да се прибегне до метод за определяне на теглата на отделните показатели - анкета на експерти. Например при решаването на проблема за класифициране на страните по ниво на икономическо развитие бяха използвани резултатите от проучване на 40 водещи московски експерти по проблемите на развитите страни по десетобална скала:

обобщени показатели за социално-икономическо развитие – 9 точки;

показатели за отраслово разпределение на заетото население – 7 точки;

показатели за разпространение на наемния труд – 6 точки;

показатели, характеризиращи човешкия елемент на производителните сили – 6 точки;

показатели за развитие на материалните производителни сили – 8 точки;

показател за държавни разходи – 4 точки;

„военноикономически” показатели – 3 точки;

социално-демографски показатели – 4 точки.

Оценките на експертите са относително стабилни.

Експертните оценки дават определена основа за определяне на важността на показателите, включени в определена група показатели. Умножаването на нормализираните стойности на показателите по коефициента, съответстващ на средната оценка, позволява да се изчислят разстоянията между точките, отразяващи позицията на страните в многоизмерното пространство, като се вземе предвид неравномерното тегло на техните характеристики.

Доста често при решаването на такива проблеми се използват не едно, а две изчисления: първото, при което всички характеристики се считат за еквивалентни, второто, където им се дават различни тегла в съответствие със средните стойности на експертните оценки.

7. Приложение на клъстерен анализ

Нека да разгледаме някои приложения на клъстерния анализ.

1. Разделяне на страните на групи по ниво на развитие.

Изследвани са 65 страни по 31 показателя (национален доход на глава от населението, дял на заетото в индустрията население в %, спестявания на глава от населението, дял на заетото в селското стопанство в %, средна продължителност на живота, брой автомобили на 1 хиляди жители, числеността на въоръжените сили на 1 милион жители, делът на БВП на промишлеността в%, делът на БВП на селското стопанство в% и др.)

Всяка държава в това отношение действа като обект, характеризиращ се с определени стойности на 31 показателя. Съответно те могат да бъдат представени като точки в 31-измерно пространство. Такова пространство обикновено се нарича пространство на свойствата на обектите, които се изучават. Сравнението на разстоянието между тези точки ще отразява степента на близост на въпросните държави, тяхната прилика една с друга. Социално-икономическият смисъл на това разбиране за сходство означава, че държавите се считат за толкова по-сходни, колкото по-малки са разликите между едни и същи показатели, с които са описани.

Първата стъпка на такъв анализ е да се идентифицира двойка национални икономики, взети предвид в матрицата на сходството, разстоянието между които е най-малко. Това очевидно ще бъдат най-сходните, сходни икономики. В следващата дискусия и двете страни се считат за една група, един клъстер. Съответно оригиналната матрица се трансформира така, че нейните елементи стават разстояния между всички възможни двойки не 65, а 64 обекта - 63 икономики и новотрансформиран клъстер - условно обединение на двете най-сходни държави. От оригиналната матрица на сходството се премахват редове и колони, съответстващи на разстоянията от двойката държави, включени в сливането, до всички останали, но се добавят ред и колона, съдържащи разстоянието между клъстера, получен по време на сливането, и други държави.

Приема се, че разстоянието между новополучения клъстер и страните е равно на средната стойност на разстоянията между последните и двете страни, съставляващи новия клъстер. С други думи, комбинираната група страни се разглежда като едно цяло с характеристики, приблизително равни на средната стойност на характеристиките на включените в нея държави.

Втората стъпка от анализа е да се разгледа така трансформираната матрица с 64 реда и колони. Отново се идентифицира двойка икономики, разстоянието между които е най-малко значимо, и те, както в първия случай, се събират заедно. В този случай най-малкото разстояние може да бъде между двойка държави или между всяка държава и съюза от държави, получен на предишния етап.

По-нататъшните процедури са подобни на описаните по-горе: на всеки етап матрицата се трансформира, така че две колони и два реда, съдържащи разстоянието до обекти (двойки държави или асоциации - клъстери), събрани на предишния етап, са изключени от нея ; изключените редове и колони се заменят с колона и ред, съдържащи разстоянията от новите съединения до останалите обекти; тогава двойката най-близки обекти се идентифицира в модифицираната матрица. Анализът продължава до пълното изчерпване на матрицата (т.е. докато всички държави не бъдат комбинирани в едно цяло). Обобщените резултати от матричния анализ могат да бъдат представени под формата на дърво на сходството (дендограма), подобно на описаното по-горе, с единствената разлика, че дървото на сходството, което отразява относителната близост на всички 65 държави, които разглеждаме, е много по-сложна от диаграмата, в която се появяват само пет национални икономики. Това дърво, според броя на сравняваните обекти, включва 65 нива. Първото (долното) ниво съдържа точки, съответстващи на всяка страна поотделно. Свързването на тези две точки на второ ниво показва двойка държави, които са най-близки по отношение на общия тип национална икономика. На третото ниво се отбелязва следващото подобно съотношение по двойки на страните (както вече беше споменато, това съотношение може да съдържа или нова двойка държави, или нова държава и вече идентифицирана двойка подобни държави). И така до последното ниво, на което всички изследвани държави действат като един комплект.

В резултат на прилагането на клъстерен анализ са получени следните пет групи държави:

· Афро-азиатска група;

· латино-азиатска група;

· латино-средиземноморска група;

· група развити капиталистически страни (без САЩ)

· САЩ

Въвеждането на нови показатели извън използваните тук 31 индикатора или замяната им с други естествено води до промени в резултатите от класификацията на страните.

2. Разделяне на страните според критерия за сходство на културата.

Както знаете, маркетингът трябва да отчита културата на страните (обичаи, традиции и т.н.).

Чрез групиране бяха получени следните групи държави:

· арабски;

· Средноизточен;

· скандинавски;

· немскоезични;

· Англо говорящ;

· Романски европейски;

· Латино американец;

· Далечния изток.

3. Разработване на прогноза за условията на пазара на цинк.

Клъстерният анализ играе важна роля на етапа на редуциране на икономико-математическия модел на стоковия пазар, като спомага за улесняване и опростяване на изчислителните процедури, осигурявайки по-голяма компактност на получените резултати при запазване на необходимата точност. Използването на клъстерен анализ позволява да се раздели целият първоначален набор от пазарни индикатори на групи (клъстери) според подходящи критерии, като по този начин се улеснява изборът на най-представителните индикатори.

Клъстерният анализ се използва широко за моделиране на пазарни условия. На практика повечето проблеми с прогнозирането разчитат на използването на клъстерен анализ.

Например задачата за разработване на прогноза за пазара на цинк.

Първоначално бяха избрани 30 ключови индикатора на световния пазар на цинк:

X 1 - време

Производствени данни:

X 2 - в света

X 4 - Европа

X 5 - Канада

X 6 - Япония

X 7 - Австралия

Показатели за консумация:

X 8 - в света

X 10 - Европа

X 11 - Канада

X 12 - Япония

X 13 - Австралия

Резерви от цинк на производителите:

X 14 - в света

X 16 - Европа

X 17 - други страни

Резерви на цинк на потребителите:

X 18 - в САЩ

X 19 - в Англия

X 10 - в Япония

Внос на цинкови руди и концентрати (хил. тона)

X 21 - в САЩ

X 22 - в Япония

X 23 - в Германия

Износ на цинкови руди и концентрати (хил. тона)

X 24 - от Канада

X 25 - от Австралия

Внос на цинк (хил. тона)

X 26 - в САЩ

X 27 - в Англия

X 28 - в Германия

Износ на цинк (хиляди тона)

X 29 - от Канада

X 30 - от Австралия

За определяне на специфични зависимости е използван апаратът за корелационен и регресионен анализ. Анализът на връзките е извършен на базата на матрица от сдвоени корелационни коефициенти. Тук се приема хипотезата за нормалното разпределение на анализираните пазарни индикатори, като става ясно, че r ij не са единственият възможен индикатор за връзката между използваните индикатори. Необходимостта от използване на клъстерен анализ в този проблем се дължи на факта, че броят на индикаторите, влияещи върху цената на цинка, е много голям. Има нужда от тяхното намаляване поради няколко от следните причини:

а) липса на пълни статистически данни за всички променливи;

б) рязко усложняване на изчислителните процедури, когато в модела се въвеждат голям брой променливи;

в) оптималното използване на методите за регресионен анализ изисква броят на наблюдаваните стойности да надвишава броя на променливите най-малко 6-8 пъти;

г) желанието да се използват статистически независими променливи в модела и др.

Много е трудно да се извърши такъв анализ директно върху относително тромава матрица от корелационни коефициенти. С помощта на клъстерен анализ целият набор от пазарни променливи може да бъде разделен на групи по такъв начин, че елементите на всеки клъстер да са силно свързани помежду си, а представителите на различни групи се характеризират със слаба корелация.

За решаването на този проблем беше използван един от алгоритмите за агломеративен йерархичен клъстерен анализ. На всяка стъпка броят на клъстерите се намалява с един поради оптималната в известен смисъл комбинация от две групи. Критерият за обединяване е промяна на съответната функция. Като такава функция използвахме стойностите на сумите на квадратните отклонения, изчислени по следните формули:

(j = 1, 2, …,м),

Където й- номер на клъстера, н- брой елементи в клъстера.

r ij-коефициент на корелация на двойки.

По този начин процесът на групиране трябва да съответства на последователно минимално увеличение на стойността на критерия д.

На първия етап първоначалният масив от данни се представя като набор от клъстери, всеки от които включва по един елемент. Процесът на групиране започва с комбинирането на такава двойка клъстери, което води до минимално увеличение на сумата на квадратните отклонения. Това изисква оценка на стойностите на сумата от квадратните отклонения за всяко от възможните клъстерни асоциации. На следващия етап се разглеждат стойностите на сумите на квадратните отклонения клъстери и др. Този процес ще бъде спрян на някаква стъпка. За да направите това, трябва да наблюдавате стойността на сумата от квадратните отклонения. Като се има предвид последователност от нарастващи стойности, може да се долови скок (един или няколко) в нейната динамика, което може да се тълкува като характеристика на броя на групите, които „обективно“ съществуват в изследваната популация. В дадения пример са възникнали скокове, когато броят на клъстерите е бил 7 и 5. Броят на групите не трябва да се намалява допълнително, т.к. това води до намаляване на качеството на модела. След получаване на клъстерите се избират променливите, които са най-важни в икономически смисъл и най-тясно свързани с избрания критерий на пазарната ситуация - в този случай с котировките на цинка на Лондонската метална борса. Този подход ни позволява да запазим значителна част от информацията, съдържаща се в оригиналния набор от първоначални пазарни индикатори.

Избор на редакторите
Господин Журден е търговец, но се стреми да стане благороден благородник. Затова учи, наема учители по музика, танци, философия,...

На баща ми, който ме научи на баланс - във всичко, но особено когато се опитвах да прескачам камъни през река, и който отбеляза, че...

Снимките за рожден ден са универсален поздрав, който ще подхожда на приятел, приятелка, колега или родители. Рожден ден...

Добър ден приятели! Всеки от вас знае, че подготовката за рождения ден на любим човек е отговорна и вълнуваща. Искам да...
Дори и най-малкият представител на нашето общество знае, че „трябва да се държи” по определен начин на масата. Какво е възможно и какво...
Уроците по рисуване с молив стъпка по стъпка са класове, които ще ви помогнат да овладеете техники за рисуване, независимо от вашите способности или...
admin Най-вероятно всеки периодично има желание да нарисува нещо, и то не просто драскулка, а така че всички да го харесат....
Поканени сте на бизнес конференция и не знаете какво да облечете? Ако това събитие няма строг дрескод, предлагаме...
резюме на презентациите Защитата на Сталинград Слайдове: 12 Думи: 598 Звуци: 0 Ефекти: 0 Защитата на Сталинград. Битката за...