Metódy zhlukovej analýzy. Zhluková analýza je algoritmus na štúdium údajov rozdelených do skupín podľa podobných charakteristík.


Klastrová analýza je

Dobrý deň. Tu mám rešpekt k ľuďom, ktorí sú fanúšikmi ich práce.

Maxim, môj priateľ, patrí do tejto kategórie. Neustále pracuje s číslami, analyzuje ich, robí relevantné reporty.

Včera sme boli spolu na obede, tak mi skoro pol hodiny rozprával o zhlukovej analýze - čo to je a v akých prípadoch je jej aplikácia rozumná a účelná. No a čo ja?

Mám dobrú pamäť, preto vám poskytnem všetky tieto údaje, o ktorých som už vedel v pôvodnej a najinformatívnejšej podobe.

Klastrová analýza je navrhnutá tak, aby rozdelila množinu objektov do homogénnych skupín (klastrov alebo tried). Toto je úloha viacrozmernej klasifikácie údajov.

Existuje asi 100 rôznych klastrovacích algoritmov, avšak najčastejšie používané sú hierarchická klastrová analýza a k-means klastrovanie.

Kde sa používa klastrová analýza? V marketingu ide o segmentáciu konkurentov a spotrebiteľov.

V manažmente: rozdelenie personálu do skupín rôznej úrovne motivácie, klasifikácia dodávateľov, identifikácia podobných výrobných situácií, v ktorých dochádza k manželstvu.

V medicíne klasifikácia symptómov, pacientov, liekov. V sociológii rozdelenie respondentov do homogénnych skupín. V skutočnosti sa klastrová analýza osvedčila vo všetkých sférach ľudského života.

Krása tejto metódy je v tom, že funguje aj vtedy, keď je málo údajov a nie sú splnené požiadavky na normalitu rozdelenia náhodných veličín a iné požiadavky klasických metód štatistickej analýzy.

Vysvetlime podstatu klastrovej analýzy bez toho, aby sme sa uchýlili k striktnej terminológii:
Povedzme, že ste vykonali prieskum medzi zamestnancami a chcete zistiť, ako môžete najefektívnejšie riadiť svojich zamestnancov.

To znamená, že chcete rozdeliť zamestnancov do skupín a pre každú z nich vybrať najefektívnejšie ovládacie páky. Zároveň by mali byť zrejmé rozdiely medzi skupinami a v rámci skupiny by si mali byť respondenti čo najviac podobní.

Na vyriešenie problému sa navrhuje použiť hierarchickú zhlukovú analýzu.

V dôsledku toho dostaneme strom, pri pohľade na ktorý sa musíme rozhodnúť, do koľkých tried (zhlukov) chceme zamestnancov rozdeliť.

Predpokladajme, že sa rozhodneme rozdeliť zamestnancov do troch skupín a potom na štúdium respondentov, ktorí spadali do každého zhluku, dostaneme tablet s nasledujúcim obsahom:


Vysvetlíme si, ako vzniká vyššie uvedená tabuľka. Prvý stĺpec obsahuje číslo klastra – skupiny, ktorej údaje sa odrážajú v riadku.

Napríklad prvý zhluk je z 80 % mužský. 90 % z prvého klastra patrí do vekovej skupiny od 30 do 50 rokov a 12 % opýtaných sa domnieva, že benefity sú veľmi dôležité. A tak ďalej.

Pokúsme sa urobiť portréty respondentov každého klastra:

  1. Prvou skupinou sú najmä muži v zrelom veku, zastávajúci vedúce pozície. Sociálny balíček (MED, LGOTI, TIME-free time) ich nezaujíma. Radšej dostávajú dobrý plat, ako pomoc od zamestnávateľa.
  2. Skupina dva, naopak, preferuje sociálny balíček. Pozostáva najmä z „starých“ ľudí obsadzujúcich nízke pozície. Plat je pre nich určite dôležitý, ale sú tu aj iné priority.
  3. Tretia skupina sú „najmladší“. Na rozdiel od predchádzajúcich dvoch je zjavný záujem o vzdelávanie a možnosti profesionálneho rastu. Táto kategória zamestnancov má dobrú šancu čoskoro doplniť prvú skupinu.

Pri plánovaní kampane na zavedenie efektívnych metód personálneho manažmentu je teda zrejmé, že v našej situácii je možné zvýšiť sociálny balíček pre druhú skupinu napríklad na úkor miezd.

Ak hovoríme o tom, ktorí špecialisti by mali byť poslaní na školenie, potom určite odporúčame venovať pozornosť tretej skupine.

Zdroj: http://www.nickart.spb.ru/analysis/cluster.php

Vlastnosti klastrovej analýzy

Klaster je cena aktíva v určitom časovom období, počas ktorého sa uskutočnili transakcie. Výsledný objem nákupov a predajov je označený číslom v rámci zhluku.

Pruh akéhokoľvek TF obsahuje spravidla niekoľko zhlukov. To vám umožní detailne vidieť objemy nákupov, predajov a ich zostatok v každom jednotlivom pruhu, pre každú cenovú hladinu.


Zmena ceny jedného aktíva so sebou nevyhnutne prináša reťazec cenových pohybov aj na iných nástrojoch.

Pozor!

Vo väčšine prípadov k pochopeniu trendového pohybu dochádza už v momente, keď sa rýchlo rozvíja a vstup na trh pozdĺž trendu je spojený s pádom do korekčnej vlny.

Pre úspešné obchody je potrebné porozumieť aktuálnej situácii a vedieť predvídať budúce pohyby cien. Dá sa to naučiť analýzou klastrového grafu.

Pomocou klastrovej analýzy môžete vidieť aktivitu účastníkov trhu aj v tej najmenšej cenovej lište. Toto je najpresnejšia a najpodrobnejšia analýza, pretože ukazuje bodové rozdelenie objemov transakcií pre každú cenovú hladinu aktív.

Na trhu dochádza k neustálej konfrontácii medzi záujmami predávajúcich a kupujúcich. A každý najmenší cenový pohyb (tick) je posunom ku kompromisu – cenovej hladine – ktorý momentálne vyhovuje obom stranám.

Trh je ale dynamický, počet predávajúcich a kupujúcich sa neustále mení. Ak v určitom okamihu na trhu dominovali predajcovia, v ďalšom okamihu s najväčšou pravdepodobnosťou budú kupujúci.

Počet uskutočnených transakcií v susedných cenových hladinách tiež nie je rovnaký. A predsa sa najprv situácia na trhu premietne do celkového objemu transakcií a až potom do ceny.

Ak vidíte akcie dominantných účastníkov trhu (predávajúcich alebo kupujúcich), môžete predpovedať samotný pohyb ceny.

Ak chcete úspešne použiť klastrovú analýzu, musíte najprv pochopiť, čo je klaster a delta.


Klaster sa nazýva cenový pohyb, ktorý je rozdelený na úrovne, na ktorých sa uskutočnili transakcie so známymi objemami. Delta ukazuje rozdiel medzi nákupom a predajom v každom klastri.

Každý klaster alebo skupina delt vám umožňuje zistiť, či v danom čase na trhu dominujú kupujúci alebo predávajúci.

Celkovú deltu stačí vypočítať súčtom predajov a nákupov. Ak je delta záporná, potom je trh prepredaný, existujú nadbytočné predajné transakcie. Keď je delta pozitívna, na trhu jednoznačne dominujú kupujúci.

Samotná delta môže nadobudnúť normálnu alebo kritickú hodnotu. Hodnota delta objemu nad normálnou hodnotou v klastri je zvýraznená červenou farbou.

Ak je delta mierna, potom to charakterizuje plochý stav na trhu. Pri normálnej hodnote delta je na trhu pozorovaný trendový pohyb, ale kritická hodnota je vždy predzvesťou zvrátenia ceny.

Forexové obchodovanie s CA

Ak chcete získať maximálny zisk, musíte byť schopní určiť prechod delty z miernej úrovne na normálnu. V tomto prípade si skutočne môžete všimnúť úplný začiatok prechodu z plochého na trendový pohyb a byť schopný získať čo najväčší zisk.

Klastrový graf je viac vizuálny, môžete na ňom vidieť významné úrovne akumulácie a distribúcie objemov, budovanie podpory a úrovne odporu. To umožňuje obchodníkovi nájsť presný vstup do obchodu.

Pomocou delty je možné posúdiť prevahu predajov alebo nákupov na trhu. Klastrová analýza vám umožňuje sledovať transakcie a sledovať ich objemy v rámci ľubovoľného TF.

Toto je obzvlášť dôležité, keď sa blížite k významným úrovniam podpory alebo odporu. Klastrové úsudky sú kľúčom k pochopeniu trhu.

Zdroj: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Oblasti a vlastnosti aplikácie zhlukovej analýzy

Pojem klastrová analýza (prvýkrát zavedený Tryonom, 1939) v skutočnosti zahŕňa súbor rôznych klasifikačných algoritmov.

Častou otázkou, ktorú si kladú výskumníci v mnohých oblastiach, je, ako usporiadať pozorované dáta do vizuálnych štruktúr, t.j. rozšíriť taxonómie.

Podľa moderného systému akceptovaného v biológii patrí človek medzi primáty, cicavce, amnioty, stavovce a zvieratá.

Všimnite si, že v tejto klasifikácii platí, že čím vyššia je úroveň agregácie, tým menšia je podobnosť medzi členmi v zodpovedajúcej triede.

Človek má viac podobností s inými primátmi (t. j. ľudoopmi) ako so „vzdialenými“ členmi čeľade cicavcov (t. j. psami) atď.

Všimnite si, že predchádzajúca diskusia sa týka klastrovacích algoritmov, ale nespomína nič o testovaní štatistickej významnosti.

Klastrová analýza v skutočnosti nie je ani tak bežnou štatistickou metódou, ako skôr „množinou“ rôznych algoritmov na „distribúciu objektov do zhlukov“.

Existuje názor, že na rozdiel od mnohých iných štatistických postupov sa metódy zhlukovej analýzy používajú vo väčšine prípadov, keď nemáte žiadne apriórne hypotézy o triedach, ale stále ste v popisnej fáze výskumu.

Pozor!

Malo by sa chápať, že klastrová analýza určuje „najzmysluplnejšie rozhodnutie“.

Testovanie štatistickej významnosti tu preto nie je v skutočnosti použiteľné, dokonca ani v prípadoch, keď sú známe hladiny p (ako napríklad v metóde K-means).

Technika klastrovania sa používa v širokej škále oblastí. Hartigan (1975) poskytol vynikajúci prehľad mnohých publikovaných štúdií obsahujúcich výsledky získané metódami zhlukovej analýzy.

Napríklad v oblasti medicíny vedie zoskupovanie chorôb, liečenie chorôb alebo symptómov chorôb k široko používaným taxonómiám.

V oblasti psychiatrie je pre úspešnú liečbu rozhodujúca správna diagnóza zhlukov symptómov, ako je paranoja, schizofrénia atď. V archeológii sa výskumníci pomocou zhlukovej analýzy snažia stanoviť taxonómie kamenných nástrojov, pohrebných predmetov atď.

Zhluková analýza má široké uplatnenie v marketingovom výskume. Vo všeobecnosti vždy, keď je potrebné zatriediť „hory“ informácií do skupín vhodných na ďalšie spracovanie, zhluková analýza sa ukazuje ako veľmi užitočná a efektívna.

Zhlukovanie stromov

Príklad v časti Primárny účel vysvetľuje účel algoritmu spájania (zhlukovania stromov).

Účelom tohto algoritmu je spojiť objekty (napríklad zvieratá) do dostatočne veľkých zhlukov pomocou určitej miery podobnosti alebo vzdialenosti medzi objektmi. Typickým výsledkom takéhoto zhlukovania je hierarchický strom.

Zvážte horizontálny stromový diagram. Diagram začína každým objektom v triede (na ľavej strane diagramu).

Teraz si predstavte, že postupne (veľmi malými krokmi) „oslabujete“ svoje kritérium pre to, aké predmety sú jedinečné a ktoré nie.

Inými slovami, znížite prah súvisiaci s rozhodnutím spojiť dva alebo viac objektov do jedného klastra.

Výsledkom je, že spájate stále viac objektov a agregujete (spájate) stále viac a viac zhlukov čoraz odlišných prvkov.

Nakoniec sa v poslednom kroku všetky objekty zlúčia. V týchto grafoch predstavujú horizontálne osi združovaciu vzdialenosť (vo vertikálnych dendrogramoch zvislé osi predstavujú združovaciu vzdialenosť).

Takže pre každý uzol v grafe (kde sa vytvorí nový zhluk) môžete vidieť veľkosť vzdialenosti, na ktorú sú zodpovedajúce prvky spojené do nového jedného zhluku.

Keď majú údaje jasnú „štruktúru“ v zmysle zhlukov objektov, ktoré sú si navzájom podobné, potom sa táto štruktúra pravdepodobne prejaví v hierarchickom strome rôznymi vetvami.

Výsledkom úspešnej analýzy metódou join je možnosť detegovať zhluky (vetvy) a interpretovať ich.

Metóda zjednotenia alebo stromového zhlukovania sa používa pri vytváraní zhlukov rozdielov alebo vzdialenosti medzi objektmi. Tieto vzdialenosti môžu byť definované v jednorozmernom alebo viacrozmernom priestore.

Napríklad, ak musíte v kaviarni zoskupiť druhy jedál, môžete vziať do úvahy počet kalórií v nich obsiahnutých, cenu, subjektívne hodnotenie chuti atď.

Najpriamejším spôsobom výpočtu vzdialenosti medzi objektmi vo viacrozmernom priestore je výpočet euklidovských vzdialeností.

Ak máte 2D alebo 3D priestor, potom je táto miera skutočnou geometrickou vzdialenosťou medzi objektmi v priestore (ako keby boli vzdialenosti medzi objektmi merané páskou).

Algoritmus združovania sa však „nestará“ o to, či „poskytnuté“ vzdialenosti sú skutočné alebo nejaké iné odvodené miery vzdialenosti, čo je pre výskumníka zmysluplnejšie; a výzvou pre výskumníkov je vybrať správnu metódu pre konkrétne aplikácie.

Euklidovská vzdialenosť. Zdá sa, že ide o najbežnejší typ vzdialenosti. Je to jednoducho geometrická vzdialenosť vo viacrozmernom priestore a vypočíta sa takto:

Všimnite si, že euklidovská vzdialenosť (a jej štvorec) sa vypočítava z pôvodných údajov, nie zo štandardizovaných údajov.

Toto je obvyklý spôsob výpočtu, ktorý má určité výhody (napríklad vzdialenosť medzi dvoma objektmi sa nemení, keď sa do analýzy zavedie nový objekt, čo sa môže ukázať ako odľahlá hodnota).

Pozor!

Vzdialenosti však môžu byť značne ovplyvnené rozdielmi medzi osami, z ktorých sa vzdialenosti počítajú. Napríklad, ak je jedna z osí meraná v centimetroch a potom ju prevediete na milimetre (vynásobením hodnôt 10), potom bude konečná euklidovská vzdialenosť (alebo druhá mocnina euklidovskej vzdialenosti) vypočítaná zo súradníc sa dramaticky menia a v dôsledku toho sa výsledky zhlukovej analýzy môžu veľmi líšiť od predchádzajúcich.

Štvorec euklidovskej vzdialenosti. Niekedy možno budete chcieť umocniť štandardnú euklidovskú vzdialenosť, aby ste dali väčšiu váhu vzdialenejším objektom.

Táto vzdialenosť sa vypočíta takto:

Vzdialenosť medzi mestskými blokmi (Manhattan). Táto vzdialenosť je jednoducho priemerom rozdielov medzi súradnicami.

Vo väčšine prípadov táto miera vzdialenosti vedie k rovnakým výsledkom ako pre obvyklú Euklidovu vzdialenosť.

Všimnite si však, že pre toto opatrenie sa vplyv jednotlivých veľkých rozdielov (odľahlých hodnôt) znižuje (pretože nie sú na druhú mocninu). Vzdialenosť Manhattan sa vypočíta podľa vzorca:

Čebyševova vzdialenosť. Táto vzdialenosť môže byť užitočná, keď chceme definovať dva objekty ako "odlišné", ak sa líšia v ktorejkoľvek jednej súradnici (akejkoľvek jednej dimenzii). Čebyševova vzdialenosť sa vypočíta podľa vzorca:

Výkonová vzdialenosť. Niekedy je žiaduce postupne zvyšovať alebo znižovať hmotnosť týkajúcu sa rozmeru, pre ktorý sú zodpovedajúce predmety veľmi odlišné.

To sa dá dosiahnuť pomocou mocninovej vzdialenosti. Výkonová vzdialenosť sa vypočíta podľa vzorca:

kde r a p sú užívateľom definované parametre. Niekoľko príkladov výpočtov môže ukázať, ako toto opatrenie „funguje“.

Parameter p je zodpovedný za postupné váženie rozdielov v jednotlivých súradniciach, parameter r je zodpovedný za progresívne váženie veľkých vzdialeností medzi objektmi. Ak sa oba parametre - r a p, rovnajú dvom, potom sa táto vzdialenosť zhoduje s euklidovskou vzdialenosťou.

Percento nesúhlasu. Toto opatrenie sa používa, keď sú údaje kategorické. Táto vzdialenosť sa vypočíta podľa vzorca:

Asociačné alebo asociačné pravidlá

V prvom kroku, keď je každý objekt samostatným zhlukom, sú vzdialenosti medzi týmito objektmi určené vybranou mierou.

Keď je však niekoľko objektov spojených dohromady, vyvstáva otázka, ako by sa mali určiť vzdialenosti medzi zhlukami?

Inými slovami, potrebujete pravidlo spojenia alebo prepojenia pre dva klastre. Tu sú rôzne možnosti: napríklad môžete spojiť dva zhluky, keď sú akékoľvek dva objekty v dvoch zhlukoch bližšie k sebe, než je zodpovedajúca vzdialenosť spojenia.

Inými slovami, na určenie vzdialenosti medzi klastrami používate „pravidlo najbližšieho suseda“; táto metóda sa nazýva metóda jedného prepojenia.

Toto pravidlo vytvára „vláknité“ zhluky, t.j. klastre „spojené“ iba jednotlivými prvkami, ktoré sú náhodou bližšie k sebe ako ostatné.

Prípadne môžete použiť susedov v zhlukoch, ktoré sú od seba najďalej zo všetkých ostatných párov funkcií. Táto metóda sa nazýva metóda úplného prepojenia.

Existuje aj mnoho ďalších metód spájania klastrov, podobných tým, o ktorých sa diskutovalo.

Jednoduché pripojenie (metóda najbližšieho suseda). Ako je opísané vyššie, v tejto metóde je vzdialenosť medzi dvoma zhlukami určená vzdialenosťou medzi dvoma najbližšími objektmi (najbližšími susedmi) v rôznych zhlukoch.

Toto pravidlo musí v istom zmysle spájať objekty, aby vytvorili zhluky, a výsledné zhluky majú tendenciu byť reprezentované dlhými „reťazcami“.

Plné pripojenie (metóda najvzdialenejších susedov). V tejto metóde sú vzdialenosti medzi zhlukami definované ako najväčšia vzdialenosť medzi akýmikoľvek dvoma objektmi v rôznych zhlukoch (t.j. „najvzdialenejší susedia“).

Nevážený párový priemer. V tejto metóde sa vzdialenosť medzi dvoma rôznymi zhlukami vypočíta ako priemerná vzdialenosť medzi všetkými pármi objektov v nich.

Metóda je účinná, keď objekty skutočne tvoria rôzne „háje“, ale rovnako dobre funguje aj v prípadoch rozšírených (typu „reťazca“) zhlukov.

Všimnite si, že vo svojej knihe Sneath a Sokal (1973) zaviedli skratku UPGMA na označenie tejto metódy ako metódy nevážených párových skupín s použitím aritmetických priemerov.

Vážený párový priemer. Metóda je identická s metódou neváženého párového priemeru s tým rozdielom, že ako váhový faktor sa pri výpočtoch používa veľkosť príslušných zhlukov (tj počet objektov, ktoré obsahujú).

Preto by sa navrhovaná metóda mala použiť (skôr ako predchádzajúca), keď sa predpokladajú nerovnaké veľkosti zhlukov.

Sneath a Sokal (1973) zavádzajú skratku WPGMA na označenie tejto metódy ako metódy vážených párových skupín s použitím aritmetických priemerov.

Metóda neváženého ťažiska. V tejto metóde je vzdialenosť medzi dvoma klastrami definovaná ako vzdialenosť medzi ich ťažiskami.

Pozor!

Sneath a Sokal (1973) používajú skratku UPGMC na označenie tejto metódy ako metódy neváženej párovej skupiny s použitím priemeru ťažiska.

Metóda váženého ťažiska (medián). Táto metóda je identická s predchádzajúcou, s tým rozdielom, že pri výpočtoch sa používajú váhy, ktoré zohľadňujú rozdiel medzi veľkosťami zhlukov (t. j. počtom objektov v nich).

Preto, ak existujú (alebo existuje podozrenie) na významné rozdiely vo veľkostiach klastrov, táto metóda je vhodnejšia ako predchádzajúca.

Sneath a Sokal (1973) použili skratku WPGMC, aby ju označili ako metódu vážených párových skupín s použitím ťažiskového priemeru.

Wardova metóda. Táto metóda sa líši od všetkých ostatných metód, pretože používa metódy ANOVA na odhad vzdialeností medzi klastrami.

Metóda minimalizuje súčet štvorcov (SS) pre akékoľvek dva (hypotetické) zhluky, ktoré môžu byť vytvorené v každom kroku.

Podrobnosti možno nájsť vo Wardovi (1963). Vo všeobecnosti sa metóda javí ako veľmi efektívna, ale má tendenciu vytvárať malé zhluky.

Skôr sa o tejto metóde hovorilo v súvislosti s „objektmi“, ktoré by mali byť zoskupené. Vo všetkých ostatných typoch analýzy je otázka, ktorá je pre výskumníka zaujímavá, zvyčajne vyjadrená z hľadiska pozorovaní alebo premenných.

Ukazuje sa, že zhlukovanie, či už pozorovaní alebo premenných, môže viesť k celkom zaujímavým výsledkom.

Predstavte si napríklad, že lekársky výskumník zhromažďuje údaje o rôznych charakteristikách (premenných) stavov (pozorovaní) pacientov s ochorením srdca.

Výskumník môže chcieť zoskupiť pozorovania (pacientov), ​​aby identifikoval zoskupenia pacientov s podobnými symptómami.

Zároveň si výskumník môže želať zoskupiť premenné, aby identifikoval zhluky premenných, ktoré sú spojené s podobným fyzickým stavom.e

Po tejto diskusii o tom, či zhlukovať pozorovania alebo premenné, by sme si mohli položiť otázku, prečo nezhlukovať oboma smermi?

Modul Cluster Analysis obsahuje efektívny obojsmerný postup spojenia, ktorý to umožňuje.

Obojsmerné združovanie sa však používa (pomerne zriedkavo) za okolností, keď sa očakáva, že pozorovania aj premenné prispejú súčasne k objaveniu zmysluplných zhlukov.

Ak sa teda vrátime k predchádzajúcemu príkladu, môžeme predpokladať, že lekársky výskumník potrebuje identifikovať skupiny pacientov, ktoré sú podobné vo vzťahu k určitým skupinám charakteristík fyzického stavu.

Ťažkosti pri interpretácii získaných výsledkov vyplývajú zo skutočnosti, že podobnosti medzi rôznymi klastrami môžu pochádzať z určitých rozdielov v podmnožinách premenných (alebo môžu byť príčinou).

Preto sú výsledné zhluky vo svojej podstate heterogénne. Možno sa to na prvý pohľad zdá trochu zahmlené; v porovnaní s inými opísanými metódami klastrovej analýzy je obojsmerné združovanie pravdepodobne najmenej bežne používanou metódou.

Niektorí výskumníci sa však domnievajú, že ponúka silný nástroj na prieskumnú analýzu údajov (viac informácií nájdete v Hartiganovom opise tejto metódy (Hartigan, 1975)).

K znamená metóda

Táto metóda klastrovania sa výrazne líši od aglomeračných metód, ako je Union (stromové zhlukovanie) a Two-Way Union. Predpokladajme, že už máte hypotézy o počte zhlukov (podľa pozorovania alebo premennej).

Systému môžete prikázať, aby vytvoril presne tri zhluky tak, aby boli čo najrôznejšie.

Toto je presne ten typ problému, ktorý rieši algoritmus K-Means. Vo všeobecnosti metóda K-means vytvára presne K odlišných zhlukov vzdialených od seba čo najďalej.

V príklade fyzického stavu môže mať lekársky výskumník „tušenie“ zo svojej klinickej skúsenosti, že jeho pacienti vo všeobecnosti spadajú do troch rôznych kategórií.

Pozor!

Ak áno, potom prostriedky rôznych meraní fyzikálnych parametrov pre každý klaster by poskytli kvantitatívny spôsob reprezentácie hypotéz výskumníka (napr. pacienti v klastri 1 majú vysoký parameter 1, nižší parameter 2 atď.).

Z výpočtového hľadiska si túto metódu môžete predstaviť ako analýzu rozptylu „spätne“. Program začína s K náhodne vybranými klastrami a potom mení príslušnosť objektov k nim, aby:

  1. minimalizovať variabilitu v rámci klastrov,
  2. maximalizovať variabilitu medzi klastrami.

Táto metóda je podobná reverznej analýze rozptylu (ANOVA) v tom, že test významnosti v ANOVA porovnáva variabilitu medzi skupinami oproti variabilite v rámci skupiny pri testovaní hypotézy, že priemery skupín sa navzájom líšia.

Pri zhlukovaní K-means program presúva objekty (t. j. pozorovania) z jednej skupiny (klastra) do druhej, aby pri vykonávaní analýzy rozptylu (ANOVA) získal najvýznamnejší výsledok.

Po získaní výsledkov klastrovej analýzy K-priemerov sa zvyčajne dajú vypočítať priemery pre každý klaster pre každú dimenziu, aby sa posúdilo, ako sa klastre navzájom líšia.

V ideálnom prípade by ste mali získať veľmi odlišné prostriedky pre väčšinu, ak nie všetky, meraní použitých v analýze.

Zdroj: http://www.bimetrica.tomsk.ru/textbook/modules/stcluan.html

Klasifikácia objektov podľa ich vlastností

Zhluková analýza (zhluková analýza) - súbor viacrozmerných štatistických metód na klasifikáciu objektov podľa ich charakteristík, rozdelenie súboru objektov do homogénnych skupín, ktoré sú si blízke z hľadiska kritérií definovania, výber objektov určitej skupiny.

Klaster je skupina objektov identifikovaných ako výsledok zhlukovej analýzy na základe danej miery podobnosti alebo rozdielu medzi objektmi.

Objektom sú konkrétne predmety štúdia, ktoré je potrebné klasifikovať. Objekty v klasifikácii sú spravidla pozorovania. Napríklad spotrebitelia produktov, krajín alebo regiónov, produktov atď.

Aj keď je možné vykonať zhlukovú analýzu podľa premenných. Klasifikácia objektov vo viacrozmernej zhlukovej analýze prebieha podľa niekoľkých kritérií súčasne.

Môžu to byť kvantitatívne aj kategorické premenné v závislosti od metódy zhlukovej analýzy. Hlavným cieľom zhlukovej analýzy je teda nájsť vo vzorke skupiny podobných objektov.

Súbor viacrozmerných štatistických metód zhlukovej analýzy možno rozdeliť na hierarchické metódy (aglomeratívne a deliace) a nehierarchické (metóda k-means, dvojstupňová zhluková analýza).

Neexistuje však žiadna všeobecne akceptovaná klasifikácia metód a metódy klastrovej analýzy niekedy zahŕňajú aj metódy konštrukcie rozhodovacích stromov, neurónových sietí, diskriminačnej analýzy a logistickej regresie.

Rozsah klastrovej analýzy je vzhľadom na jej všestrannosť veľmi široký. Zhluková analýza sa používa v ekonómii, marketingu, archeológii, medicíne, psychológii, chémii, biológii, verejnej správe, filológii, antropológii, sociológii a ďalších oblastiach.

Tu je niekoľko príkladov použitia klastrovej analýzy:

  • medicína - klasifikácia chorôb, ich symptómy, spôsoby liečby, klasifikácia skupín pacientov;
  • marketing - úlohy optimalizácie produktového radu spoločnosti, segmentácia trhu podľa skupín tovarov alebo spotrebiteľov, identifikácia potenciálneho spotrebiteľa;
  • sociológia - rozdelenie respondentov do homogénnych skupín;
  • psychiatria – správna diagnostika symptómových skupín je rozhodujúca pre úspešnú terapiu;
  • biológia - klasifikácia organizmov podľa skupín;
  • ekonomika - klasifikácia subjektov Ruskej federácie podľa investičnej atraktivity.

Zdroj: http://www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analyz.html

Všeobecné informácie o klastrovej analýze

Klastrová analýza zahŕňa súbor rôznych klasifikačných algoritmov. Častou otázkou, ktorú si výskumníci v mnohých oblastiach kladú, je, ako usporiadať pozorované údaje do vizuálnych štruktúr.

Cieľom biológov je napríklad rozdeliť zvieratá na rôzne druhy, aby zmysluplne popísali rozdiely medzi nimi.

Úlohou zhlukovej analýzy je rozdeliť počiatočnú množinu objektov do skupín podobných, blízkych objektov. Tieto skupiny sa nazývajú klastre.

Inými slovami, zhluková analýza je jedným zo spôsobov klasifikácie objektov podľa ich charakteristík. Je žiaduce, aby výsledky klasifikácie mali zmysluplnú interpretáciu.

Výsledky získané metódami zhlukovej analýzy sa využívajú v rôznych oblastiach. V marketingu je to segmentácia konkurentov a spotrebiteľov.

V psychiatrii je pre úspešnú terapiu rozhodujúca správna diagnostika symptómov ako paranoja, schizofrénia atď.

V manažmente je dôležitá klasifikácia dodávateľov, identifikácia podobných výrobných situácií, v ktorých dochádza k manželstvu. V sociológii rozdelenie respondentov do homogénnych skupín. Pri portfóliovom investovaní je dôležité zoskupovať cenné papiere podľa ich podobnosti v trende výnosu s cieľom zostaviť na základe získaných informácií o akciovom trhu optimálne investičné portfólio, ktoré umožňuje maximalizovať návratnosť investícií pri danom stupni rizika. .

Vo všeobecnosti vždy, keď je potrebné klasifikovať veľké množstvo informácií tohto druhu a prezentovať ich vo forme vhodnej na ďalšie spracovanie, zhluková analýza sa ukazuje ako veľmi užitočná a efektívna.

Klastrová analýza umožňuje zvážiť pomerne veľké množstvo informácií a značne komprimovať veľké polia sociálno-ekonomických informácií, vďaka čomu sú kompaktné a vizuálne.

Pozor!

Zhluková analýza má veľký význam vo vzťahu k súborom časových radov charakterizujúcich ekonomický vývoj (napríklad všeobecné ekonomické a komoditné podmienky).

Tu je možné vyčleniť obdobia, kedy boli hodnoty zodpovedajúcich ukazovateľov pomerne blízko, ako aj určiť skupiny časových radov, ktorých dynamika je najpodobnejšia.

V problémoch sociálno-ekonomického prognózovania je veľmi sľubné kombinovať zhlukovú analýzu s inými kvantitatívnymi metódami (napríklad s regresnou analýzou).

Výhody a nevýhody

Zhluková analýza umožňuje objektívnu klasifikáciu akýchkoľvek objektov, ktoré sa vyznačujú množstvom znakov. Z toho vyplýva množstvo výhod:

  1. Výsledné zhluky môžu byť interpretované, to znamená, že opisujú, aké skupiny skutočne existujú.
  2. Jednotlivé zhluky môžu byť vyradené. To je užitočné v prípadoch, keď sa v súbore údajov vyskytli určité chyby, v dôsledku ktorých sa hodnoty ukazovateľov pre jednotlivé objekty výrazne líšia. Pri aplikácii zhlukovej analýzy takéto objekty spadajú do samostatného zhluku.
  3. Pre ďalšiu analýzu je možné vybrať len tie zhluky, ktoré majú charakteristiky záujmu.

Ako každá iná metóda, aj klastrová analýza má určité nevýhody a obmedzenia. Najmä zloženie a počet zhlukov závisí od zvolených kritérií rozdelenia.

Pri redukcii počiatočného dátového poľa do kompaktnejšej podoby môže dochádzať k určitým deformáciám a môže dôjsť aj k strate jednotlivých vlastností jednotlivých objektov v dôsledku ich nahradenia charakteristikami zovšeobecnených hodnôt parametrov klastra.

Metódy

V súčasnosti je známych viac ako sto rôznych zhlukových algoritmov. Ich rôznorodosť je vysvetlená nielen rôznymi výpočtovými metódami, ale aj rôznymi konceptmi, ktoré sú základom klastrovania.

Balík Statistica implementuje nasledujúce metódy klastrovania.

  • Hierarchické algoritmy - stromové zhlukovanie. Hierarchické algoritmy sú založené na myšlienke sekvenčného zoskupovania. V počiatočnom kroku sa každý objekt považuje za samostatný zhluk. V ďalšom kroku sa niektoré z klastrov, ktoré sú najbližšie k sebe, spoja do samostatného klastra.
  • Metóda K-means. Táto metóda je najčastejšie používaná. Patrí do skupiny takzvaných referenčných metód zhlukovej analýzy. Počet klastrov K nastavuje užívateľ.
  • Obojsmerná asociácia. Pri použití tejto metódy sa zhlukovanie vykonáva súčasne podľa premenných (stĺpcov) aj výsledkov pozorovania (riadkov).

Procedúra obojsmerného spojenia sa vykonáva vtedy, keď možno očakávať, že simultánne zoskupovanie premenných a pozorovaní poskytne zmysluplné výsledky.

Výsledkom postupu sú popisné štatistiky o premenných a prípadoch, ako aj dvojrozmerná farebná tabuľka, na ktorej sú hodnoty údajov farebne odlíšené.

Rozložením farieb môžete získať predstavu o homogénnych skupinách.

Normalizácia premenných

Rozdelenie počiatočnej množiny objektov do zhlukov je spojené s výpočtom vzdialeností medzi objektmi a výberom objektov, pričom vzdialenosť medzi nimi je najmenšia zo všetkých možných.

Najčastejšie používaná je nám všetkým známa euklidovská (geometrická) vzdialenosť. Táto metrika zodpovedá intuitívnym predstavám o blízkosti objektov v priestore (akoby sa vzdialenosti medzi objektmi merali pomocou páskového meradla).

Ale pre danú metriku môže byť vzdialenosť medzi objektmi silne ovplyvnená zmenami mierok (jednotiek merania). Ak sa napríklad jeden z prvkov meria v milimetroch a potom sa jeho hodnota prevedie na centimetre, euklidovská vzdialenosť medzi objektmi sa dramaticky zmení. To povedie k tomu, že výsledky zhlukovej analýzy sa môžu výrazne líšiť od predchádzajúcich.

Ak sa premenné merajú v rôznych meracích jednotkách, potom je potrebná ich predbežná normalizácia, teda transformácia počiatočných údajov, ktorá ich prevedie na bezrozmerné veličiny.

Normalizácia silne deformuje geometriu pôvodného priestoru, čo môže zmeniť výsledky zhlukovania

V balíku Statistica je každá premenná x normalizovaná podľa vzorca:

Ak to chcete urobiť, kliknite pravým tlačidlom myši na názov premennej a z ponuky, ktorá sa otvorí, vyberte postupnosť príkazov: Vyplniť/ Štandardizovať blok/ Štandardizovať stĺpce. Hodnoty normalizovanej premennej sa budú rovnať nule a odchýlky sa budú rovnať jednej.

Metóda K-means v programe Statistica

Metóda K-means rozdeľuje množinu objektov na daný počet K rôznych zhlukov umiestnených v najväčšej možnej vzdialenosti od seba.

Po získaní výsledkov klastrovej analýzy K-priemerov sa zvyčajne dajú vypočítať priemery pre každý klaster pre každú dimenziu, aby sa posúdilo, ako sa klastre navzájom líšia.

V ideálnom prípade by ste mali získať veľmi odlišné prostriedky pre väčšinu meraní používaných v analýze.

Hodnoty F-štatistiky získané pre každú dimenziu sú ďalším indikátorom toho, ako dobre príslušná dimenzia rozlišuje medzi klastrami.

Ako príklad uveďme výsledky prieskumu medzi 17 zamestnancami podniku o spokojnosti s indikátormi kvality kariéry. Tabuľka obsahuje odpovede na otázky dotazníka na desaťbodovej škále (1 je minimálne skóre, 10 je maximum).

Názvy premenných zodpovedajú odpovediam na nasledujúce otázky:

  1. SLT - kombinácia osobných cieľov a cieľov organizácie;
  2. OSO - zmysel pre spravodlivosť v mzdách;
  3. TBD - územná blízkosť domu;
  4. PEW - pocit ekonomického blahobytu;
  5. ČR - kariérny rast;
  6. ZhSR - túžba zmeniť zamestnanie;
  7. OSB dosky sú pocitom sociálnej pohody.

Pomocou týchto údajov je potrebné rozdeliť zamestnancov do skupín a pre každú z nich vybrať najefektívnejšie ovládacie páky.

Zároveň by mali byť zrejmé rozdiely medzi skupinami a v rámci skupiny by si mali byť respondenti čo najviac podobní.

K dnešnému dňu väčšina sociologických prieskumov dáva iba percento hlasov: zvažuje sa hlavný počet kladných odpovedí alebo percento nespokojných, ale táto otázka sa systematicky nezohľadňuje.

Prieskum najčastejšie neukazuje trendy v situácii. V niektorých prípadoch je potrebné počítať nie počet ľudí, ktorí sú „za“ alebo „proti“, ale vzdialenosť alebo mieru podobnosti, teda určiť skupiny ľudí, ktorí si myslia to isté.

Postupy zhlukovej analýzy možno na základe údajov z prieskumu použiť na identifikáciu niektorých skutočne existujúcich vzťahov prvkov a na tomto základe vytvoriť ich typológiu.

Pozor!

Prítomnosť akýchkoľvek apriórnych hypotéz sociológa pri práci s postupmi klastrovej analýzy nie je nevyhnutnou podmienkou.

V programe Statistica sa klastrová analýza vykonáva nasledovne.

Pri výbere počtu klastrov sa riaďte nasledujúcim: počet klastrov, ak je to možné, by nemal byť príliš veľký.

Vzdialenosť, v ktorej boli objekty daného zhluku spojené, by mala byť, ak je to možné, oveľa menšia ako vzdialenosť, v ktorej sa k tomuto zhluku pripája niečo iné.

Pri výbere počtu zhlukov sa najčastejšie vyskytuje niekoľko správnych riešení súčasne.

Zaujíma nás napríklad, ako odpovede na otázky dotazníka korelujú s radovými zamestnancami a vedením podniku. Preto zvolíme K=2. Pre ďalšiu segmentáciu môžete zvýšiť počet klastrov.

  1. vyberte pozorovania s maximálnou vzdialenosťou medzi stredmi zhlukov;
  2. triediť vzdialenosti a vyberať pozorovania v pravidelných intervaloch (predvolené nastavenie);
  3. vezmite prvé pozorovacie centrá a pripevnite na ne zvyšok predmetov.

Možnosť 1 je pre naše účely vhodná.

Mnoho klastrovacích algoritmov často „vnucuje“ štruktúru, ktorá nie je vlastná údajom a dezorientuje výskumníka. Preto je mimoriadne potrebné použiť niekoľko algoritmov klastrovej analýzy a vyvodiť závery na základe všeobecného hodnotenia výsledkov algoritmov.

Výsledky analýzy je možné zobraziť v dialógovom okne, ktoré sa zobrazí:

Ak vyberiete kartu Graf priemerov, vykreslí sa graf súradníc stredov klastrov:


Každá prerušovaná čiara na tomto grafe zodpovedá jednému zo zhlukov. Každé delenie horizontálnej osi grafu zodpovedá jednej z premenných zahrnutých do analýzy.

Vertikálna os zodpovedá priemerným hodnotám premenných pre objekty zahrnuté v každom z klastrov.

Možno poznamenať, že takmer vo všetkých otázkach existujú značné rozdiely v postoji týchto dvoch skupín ľudí k služobnej kariére. Len v jednom čísle je úplná jednomyseľnosť – v zmysle sociálneho blahobytu (OSB), respektíve jeho nedostatku (2,5 bodu z 10).

Dá sa predpokladať, že klaster 1 predstavuje pracovníkov a klaster 2 predstavuje manažment. Manažéri sú viac spokojní s kariérnym rozvojom (CR), kombináciou osobných cieľov a organizačných cieľov (SOL).

Majú vyšší pocit ekonomického blahobytu (SEW) a zmysel pre rovnosť odmeňovania (SWA).

Sú menej znepokojení blízkosťou domova ako pracovníci, pravdepodobne kvôli menším problémom s dopravou. Manažéri tiež menej túžia po zmene zamestnania (JSR).

Napriek tomu, že pracovníci sú rozdelení do dvoch kategórií, na väčšinu otázok dávajú relatívne rovnaké odpovede. Inými slovami, ak niečo nevyhovuje všeobecnej skupine zamestnancov, nevyhovuje to ani vrcholovému manažmentu a naopak.

Harmonizácia grafov nám umožňuje dospieť k záveru, že blaho jednej skupiny sa odráža v pohode druhej.

Zhluk 1 nie je spokojný s územnou blízkosťou domu. Táto skupina je hlavnou časťou pracovníkov, ktorí do podniku prichádzajú najmä z rôznych častí mesta.

Preto je možné ponúknuť vrcholovému manažmentu, aby časť zisku pridelil na výstavbu bytov pre zamestnancov podniku.

Výrazné rozdiely vidno v postoji týchto dvoch skupín ľudí k služobnej kariére. Tí zamestnanci, ktorí sú spokojní s kariérnym rastom, ktorí majú vysokú zhodu osobných cieľov a cieľov organizácie, nemajú chuť meniť zamestnanie a pociťujú spokojnosť s výsledkami svojej práce.

Naopak, zamestnanci, ktorí chcú zmeniť prácu a sú nespokojní s výsledkami svojej práce, nie sú spokojní s uvedenými ukazovateľmi. Vyšší manažment by mal venovať osobitnú pozornosť súčasnej situácii.

Výsledky analýzy rozptylu pre každý atribút sa zobrazia po stlačení tlačidla Analýza rozptylu.

Zobrazia sa súčty druhých mocnín odchýlok objektov od stredov zhlukov (SS Within) a súčty druhých mocnín odchýlok medzi stredmi zhlukov (SS Between), hodnoty F-štatistiky a hladiny významnosti p.

Pozor!

V našom príklade sú hladiny významnosti pre dve premenné pomerne veľké, čo sa vysvetľuje malým počtom pozorovaní. V plnej verzii štúdie, ktorú možno nájsť v príspevku, sú hypotézy o rovnosti priemerov pre centrá klastrov zamietnuté na hladinách významnosti menších ako 0,01.

Tlačidlo Uložiť klasifikácie a vzdialenosti zobrazuje počet objektov zahrnutých v každom klastri a vzdialenosti objektov od stredu každého klastra.

Tabuľka zobrazuje čísla prípadov (CASE_NO), ktoré tvoria klastre s číslami CLUSTER, a vzdialenosti od stredu každého klastra (DISTANCE).

Informácie o objektoch patriacich do klastrov možno zapísať do súboru a použiť pri ďalšej analýze. V tomto príklade porovnanie výsledkov získaných s dotazníkmi ukázalo, že klaster 1 pozostáva hlavne z radových pracovníkov a klaster 2 - z manažérov.

Je teda vidieť, že pri spracovaní výsledkov prieskumu sa zhluková analýza ukázala ako výkonná metóda, ktorá umožňuje vyvodiť závery, ktoré nie je možné dosiahnuť zostavením histogramu priemerov alebo výpočtom percenta tých, ktorí sú spokojní s rôznymi ukazovateľmi kvalitu pracovného života.

Stromové zhlukovanie je príkladom hierarchického algoritmu, ktorého princípom je postupne zhlukovať do zhluku najskôr najbližšie a potom stále vzdialenejšie prvky od seba.

Väčšina týchto algoritmov vychádza z matice podobnosti (vzdialeností) a každý jednotlivý prvok sa najskôr považuje za samostatný zhluk.

Po načítaní modulu analýzy klastrov a výbere položky Joining (klastrovanie stromov) môžete zmeniť nasledujúce parametre v okne zadávania parametrov klastrovania:

  • Počiatočné údaje (vstup). Môžu byť vo forme matice študovaných údajov (Raw data) a vo forme matice vzdialeností (Distance matrix).
  • Zhlukovanie (Cluster) pozorovaní (Cases (raw)) alebo premenných (Variable (stĺpce)), ktoré popisujú stav objektu.
  • Miery vzdialenosti. Tu si môžete vybrať nasledujúce miery: Euklidovské vzdialenosti, Štvorcové euklidovské vzdialenosti, vzdialenosť mestských blokov (Manhattan), metrika Chebychevovej vzdialenosti, moc ...), percento nesúhlasu (percento nesúhlasu).
  • Metóda klastrovania (pravidlo amalgamácie (prepojenia). Tu sú možné nasledujúce možnosti: Single Linkage, Complete Linkage, Nevážený priemer párovej skupiny, Vážený priemer párovej skupiny ), Nevážené ťažisko párovej skupiny, Vážené ťažisko párovej skupiny (medián), Wardova metóda.

V dôsledku zhlukovania sa vytvára horizontálny alebo vertikálny dendrogram - graf, na ktorom sa pri postupnom kombinovaní určujú vzdialenosti medzi objektmi a zhlukami.

Stromová štruktúra grafu umožňuje definovať zhluky v závislosti od zvoleného prahu – danej vzdialenosti medzi zhlukmi.

Okrem toho sa zobrazí matica vzdialeností medzi pôvodnými objektmi (Distance matrix); priemer a štandardné odchýlky pre každý zdrojový objekt (Distiptive statistics).

Pre uvažovaný príklad vykonáme zhlukovú analýzu premenných s predvolenými nastaveniami. Výsledný dendrogram je znázornený na obrázku.


Zvislá os dendrogramu znázorňuje vzdialenosti medzi objektmi a medzi objektmi a zhlukami. Takže vzdialenosť medzi premennými SEB a OSD sa rovná piatim. Tieto premenné sú v prvom kroku spojené do jedného klastra.

Horizontálne segmenty dendrogramu sú nakreslené na úrovniach zodpovedajúcich prahovým vzdialenostiam vybraným pre daný krok zhlukovania.

Z grafu je vidieť, že otázka „chuť zmeniť zamestnanie“ (JSR) tvorí samostatný zhluk. Vo všeobecnosti platí, že túžba vysypať sa kdekoľvek navštevuje každého rovnako. Ďalej, samostatným klastrom je otázka územnej blízkosti domova (LHB).

Z hľadiska dôležitosti je na druhom mieste, čo potvrdzuje záver o potrebe bytovej výstavby, urobený podľa výsledkov štúdie metódou K-means.

Pocity ekonomického blahobytu (PEW) a mzdovej rovnosti (PWA) sa spájajú – to je blok ekonomických otázok. Spája sa aj kariérny postup (CR) a kombinácia osobných cieľov a cieľov organizácie (COL).

Iné metódy zhlukovania, ako aj výber iných typov vzdialeností nevedú k výraznej zmene dendrogramu.

Výsledky:

  1. Zhluková analýza je výkonný nástroj na prieskumnú analýzu údajov a štatistický výskum v akejkoľvek oblasti.
  2. Program Statistica implementuje hierarchické aj štrukturálne metódy zhlukovej analýzy. Výhody tohto štatistického balíka spočívajú v ich grafických schopnostiach. Poskytnuté sú dvojrozmerné a trojrozmerné grafické znázornenia získaných zhlukov v priestore študovaných premenných, ako aj výsledky hierarchického postupu pri zoskupovaní objektov.
  3. Je potrebné aplikovať niekoľko algoritmov klastrovej analýzy a vyvodiť závery na základe všeobecného hodnotenia výsledkov algoritmov.
  4. Klastrovú analýzu možno považovať za úspešnú, ak sa vykonáva rôznymi spôsobmi, výsledky sa porovnávajú a nájdu sa spoločné vzorce a nájdu sa stabilné zhluky bez ohľadu na metódu zhlukovania.
  5. Klastrová analýza vám umožňuje identifikovať problémové situácie a načrtnúť spôsoby ich riešenia. Preto možno túto metódu neparametrickej štatistiky považovať za integrálnu súčasť systémovej analýzy.

10.1.1 Základné pojmy.

Nechajte kolekciu objekty, z ktorých každý je charakterizovaný merané vlastnosti. Je potrebné rozdeliť túto kolekciu do skupín, ktoré sú v určitom zmysle homogénne. Zároveň prakticky neexistujú žiadne apriórne informácie o charaktere distribúcie -rozmerný vektor
vnútri tried.
Výsledné skupiny sa zvyčajne nazývajú zhluky (taxóny, obrázky), metódy na ich nájdenie - zhluková analýza(numerická taxonómia alebo samoučiace sa rozpoznávanie vzorov).

Riešením úlohy je určenie prirodzenej stratifikácie výsledkov pozorovaní do jasne definovaných zhlukov ležiacich v určitej vzdialenosti od seba. (Môže sa ukázať, že súbor pozorovaní nevykazuje prirodzenú stratifikáciu do zhlukov, t.j. tvorí jeden zhluk).

Obvyklou formou reprezentácie počiatočných údajov v problémoch zhlukovej analýzy je matica

,

z ktorých každý riadok predstavuje výsledky merania uvažované vlastnosti jedného z objektov.

Zhlukovanie je určený na rozdelenie množiny objektov do homogénnych skupín ( klastre alebo triedy). Ak sú vzorové údaje reprezentované ako body v priestore prvkov, ide o problém zhlukovanie redukuje na definíciu „bodových kondenzácií“.

Pojem zhluk (cluster) sa prekladá ako „zhluk“, „zhluk“. Synonymá pre výraz "zhlukovanie" sú "automatická klasifikácia", "učenie bez dozoru" a "taxonómia".

Účelom klastrovania je vyhľadávanie existujúcich štruktúr. Klastrovanie je popisný postup, nevytvára žiadne štatistické závery, ale poskytuje príležitosť na vykonanie prieskumnej analýzy a štúdium „štruktúry údajov“. Triedy nie sú vopred určené, hľadá sa čo najpodobnejšie, homogénne skupiny. Klaster možno opísať ako skupinu objektov, ktoré majú spoločné vlastnosti.

Klaster má dve vlastnosti:

    vnútorná homogenita;

    vonkajšia izolácia.

Klastre môžu byť neprekrývajúce sa alebo exkluzívne (neprekrývajúce sa, exkluzívne) a pretínajúce sa (prekrývajúce sa). Schematické znázornenie nepretínajúcich sa a pretínajúcich sa zhlukov je uvedené na obr. 10.1.

Ryža. 10.1 Nespojené a prekrývajúce sa zhluky

Pojem „zhluková analýza“, ktorý prvýkrát zaviedol Tryon v roku 1939, kombinuje viac ako 100 rôznych algoritmov.

Na rozdiel od klasifikačných problémov, klastrová analýza nevyžaduje a priori predpoklady o súbore údajov, neukladá obmedzenia na reprezentáciu skúmaných objektov a umožňuje analyzovať ukazovatele rôznych typov údajov (intervalové údaje, frekvencie, binárne údaje) . Treba mať na pamäti, že premenné sa musia merať na porovnateľných mierkach.

10.1.2 Charakteristika klastra

Zhluk má nasledujúce matematické charakteristiky: stred, polomer, smerodajnú odchýlku, veľkosť zhluku.

Každý objekt populácie v zhlukovej analýze sa považuje za bod v danom priestore znakov. Hodnota každého z atribútov danej jednotky slúži ako jej súradnica v tomto priestore.

Stred klastra je miestom bodov v priestore premenných.

Polomer klastra - maximálna vzdialenosť bodov od stredu zhluku.

Ak nie je možné jednoznačne priradiť objekt k jednému z dvoch zhlukov pomocou matematických postupov, potom sa takéto objekty nazývajú sporné a zistí sa prekrytie zhlukov. Sporný objekt je objekt, ktorý možno priradiť k niekoľkým klastrom na základe podobnosti.

Veľkosť klastra môže byť určená buď polomerom klastra alebo štandardnou odchýlkou ​​vlastností pre tento klaster. Objekt patrí do zhluku, ak je vzdialenosť od objektu k stredu zhluku menšia ako polomer zhluku. Ak je táto podmienka splnená pre dva alebo viac zhlukov, objekt je sporný. Nejednoznačnosť tohto problému môže odstrániť odborník alebo analytik.

Každá zo skupín obsahuje mnoho prístupov a algoritmov.

Pomocou rôznych metód klastrovej analýzy môže analytik získať rôzne riešenia pre rovnaké údaje. Toto sa považuje za normálne. Podrobne zvážte hierarchické a nehierarchické metódy.

Podstatou hierarchického zhluku je postupné spájanie menších zhlukov do väčších zhlukov alebo delenie veľkých zhlukov na menšie.

Hierarchické aglomeračné metódy (Agglomerative Nesting, AGNES) Táto skupina metód sa vyznačuje dôsledným zjednotením pôvodných prvkov a zodpovedajúcim poklesom počtu zhlukov.

Na začiatku algoritmu sú všetky objekty samostatné zhluky. V prvom kroku sa najpodobnejšie objekty spoja do zhluku. V nasledujúcich krokoch zlučovanie pokračuje, kým všetky objekty nevytvoria jeden zhluk. Hierarchické deliteľné (deliteľné) metódy (DIvisive ANAlysis, DIANA) Tieto metódy sú logickým opakom aglomeračných metód. Na začiatku algoritmu patria všetky objekty do jedného zhluku, ktorý sa v nasledujúcich krokoch rozdelí na menšie zhluky, čím sa vytvorí postupnosť deliacich skupín.

Nehierarchické metódy odhaľujú vyššiu odolnosť voči šumu a odľahlým hodnotám, nesprávny výber metriky, zahrnutie nevýznamných premenných do súboru zapojených do zhlukovania. Cena, ktorú treba zaplatiť za tieto výhody metódy, je slovo „a priori“. Analytik musí vopred určiť počet klastrov, počet iterácií alebo pravidlo zastavenia, ako aj niektoré ďalšie parametre klastrovania. To je obzvlášť ťažké pre začiatočníkov.

Ak neexistujú žiadne predpoklady o počte zhlukov, odporúča sa použiť hierarchické algoritmy. Ak to však veľkosť vzorky neumožňuje, možnou cestou je vykonať sériu experimentov s rôznym počtom zhlukov, napríklad začať deliť súbor údajov z dvoch skupín a s postupným zvyšovaním ich počtu porovnávať výsledky. Vďaka tejto "variácii" výsledkov sa dosiahne dostatočne veľká flexibilita zhlukovania.

Hierarchické metódy na rozdiel od nehierarchických odmietajú určiť počet zhlukov, ale budujú kompletný strom vnorených zhlukov.

Zložitosti metód hierarchického zhlukovania: obmedzenie objemu súboru údajov; výber miery blízkosti; nepružnosť získaných klasifikácií.

Výhodou tejto skupiny metód v porovnaní s nehierarchickými metódami je ich prehľadnosť a možnosť získať detailnú predstavu o štruktúre údajov.

Pri použití hierarchických metód je možné pomerne jednoducho identifikovať odľahlé hodnoty v súbore údajov a v dôsledku toho zlepšiť kvalitu údajov. Tento postup je základom dvojkrokového klastrovacieho algoritmu. Takýto súbor údajov možno neskôr použiť na nehierarchické zhlukovanie.

Je tu ešte jeden aspekt, ktorý už bol spomenutý v tejto prednáške. Ide o zhlukovanie celej populácie údajov alebo ich vzorky. Tento aspekt je podstatný pre obe uvažované skupiny metód, ale kritickejší je pre hierarchické metódy. Hierarchické metódy nedokážu pracovať s veľkými súbormi údajov a použitie nejakého výberu, t.j. časť údajov by mohla umožniť použitie týchto metód.

Výsledky zoskupovania nemusia mať dostatočné štatistické opodstatnenie. Na druhej strane pri riešení klastrovacích problémov je akceptovateľná neštatistická interpretácia získaných výsledkov, ako aj pomerne široká škála možností koncepcie klastra. Takáto neštatistická interpretácia umožňuje analytikovi získať uspokojivé výsledky zhlukovania, čo je často ťažké pri použití iných metód.

1) Metóda úplných spojení.

Podstata tejto metódy spočíva v tom, že dva objekty patriace do rovnakej skupiny (zhluku) majú koeficient podobnosti, ktorý je menší ako nejaká prahová hodnota S. Z hľadiska euklidovskej vzdialenosti d to znamená, že vzdialenosť medzi dvoma bodmi (objektmi) klaster by nemal prekročiť určitú prahovú hodnotu h. h teda určuje maximálny povolený priemer podmnožiny tvoriacej zhluk.

2) Metóda maximálnej lokálnej vzdialenosti.

Každý objekt sa považuje za jednobodový zhluk. Objekty sa zoskupujú podľa nasledujúceho pravidla: dva zhluky sa kombinujú, ak je maximálna vzdialenosť medzi bodmi jedného zhluku a bodmi druhého minimálna. Postup pozostáva z n - 1 krokov a výsledkom sú oddiely, ktoré zodpovedajú všetkým možným oddielom v predchádzajúcej metóde pre akékoľvek prahové hodnoty.

3) Slovná metóda.

V tejto metóde sa ako účelová funkcia používa vnútroskupinový súčet štvorcových odchýlok, čo nie je nič iné ako súčet štvorcových vzdialeností medzi každým bodom (objektom) a priemerom pre zhluk obsahujúci tento objekt. V každom kroku sa kombinujú dva zhluky, ktoré vedú k minimálnemu zvýšeniu účelovej funkcie, t.j. vnútroskupinový súčet štvorcov. Táto metóda je zameraná na kombinovanie tesne umiestnených zhlukov.

4) Centroidová metóda.

Vzdialenosť medzi dvoma zhlukami je definovaná ako euklidovská vzdialenosť medzi stredmi (priemermi) týchto zhlukov:

d2 ij = (`X -`Y)Т(`X -`Y) Klastrovanie postupuje krok za krokom, v každom z n-1 krokov sa spoja dva zhluky G a p s minimálnou hodnotou d2ij Ak je n1 oveľa väčšie ako n2, potom sú stredy spojenia dvoch zhlukov blízko seba a charakteristiky druhého zhluku sa pri spojení zhlukov prakticky ignorujú. Niekedy sa táto metóda niekedy nazýva aj metóda vážených skupín.

Vieme, že Zem je jednou z 8 planét, ktoré obiehajú okolo Slnka. Slnko je len hviezda medzi asi 200 miliardami hviezd v galaxii Mliečna dráha. Je veľmi ťažké pochopiť toto číslo. Keď to vieme, môžeme urobiť predpoklad o počte hviezd vo vesmíre - približne 4X10^22. Na oblohe môžeme vidieť asi milión hviezd, hoci je to len malý zlomok skutočného počtu hviezd. Máme teda dve otázky:

  1. Čo je galaxia?
  2. A aká je súvislosť medzi galaxiami a témou článku (zhluková analýza)


Galaxia je súbor hviezd, plynu, prachu, planét a medzihviezdnych oblakov. Galaxie zvyčajne pripomínajú špirálu alebo edeptický obrazec. Vo vesmíre sú galaxie od seba oddelené. Obrovské čierne diery sú najčastejšie centrami väčšiny galaxií.

Ako budeme diskutovať v ďalšej časti, medzi galaxiami a analýzou zhlukov je veľa podobností. Galaxie existujú v trojrozmernom priestore, klastrová analýza je viacrozmerná analýza vykonávaná v n-rozmernom priestore.

Poznámka: Čierna diera je stredom galaxie. Podobný nápad použijeme pre centroidy na analýzu zhlukov.

zhluková analýza

Povedzme, že ste vedúcim marketingu a vzťahov so zákazníkmi v telekomunikačnej spoločnosti. Chápete, že všetci zákazníci sú rôzni a že na oslovenie rôznych zákazníkov potrebujete rôzne stratégie. Oceníte silu takého nástroja, akým je segmentácia zákazníkov na optimalizáciu nákladov. Ak si chcete oprášiť svoje znalosti o klastrovej analýze, zvážte nasledujúci príklad, ktorý ilustruje 8 zákazníkov a ich priemernú dĺžku konverzácie (miestne a medzinárodné). Nižšie sú uvedené údaje:

Pre lepšie vnímanie si nakreslíme graf, kde os x bude priemerné trvanie medzinárodných hovorov a os y priemerné trvanie miestnych hovorov. Nižšie je uvedený graf:

Poznámka: Je to podobné ako pri analýze polohy hviezd na nočnej oblohe (tu hviezdy nahrádzajú spotrebitelia). Okrem toho máme namiesto 3D priestoru 2D, definovaný trvaním miestnych a medzinárodných hovorov, ako osi x a y.
Teraz, keď hovoríme o galaxiách, problém je formulovaný nasledovne - nájsť polohu čiernych dier; v zhlukovej analýze sa nazývajú centroidy. Na zistenie ťažísk začneme tým, že ako polohu ťažísk vezmeme ľubovoľné body.

Euklidovská vzdialenosť na nájdenie centroidov pre klastre

V našom prípade náhodne umiestnime dva ťažiská (C1 a C2) do bodov so súradnicami (1, 1) a (3, 4). Prečo sme si vybrali tieto dva centroidy? Vizuálne zobrazenie bodov na grafe nám ukazuje, že existujú dva zhluky, ktoré budeme analyzovať. Neskôr však uvidíme, že odpoveď na túto otázku nebude pre veľký súbor údajov taká jednoduchá.
Ďalej zmeriame vzdialenosť medzi ťažiskami (C1 a C2) a všetkými bodmi na grafe pomocou Euklidovho vzorca, aby sme našli vzdialenosť medzi dvoma bodmi.

Poznámka: Vzdialenosť možno vypočítať aj pomocou iných vzorcov, napr.

  1. štvorec euklidovskej vzdialenosti - dať váhu predmetom, ktoré sú od seba viac vzdialené
  2. Vzdialenosť Manhattan – na zníženie vplyvu emisií
  3. mocenská vzdialenosť - na zvýšenie / zníženie vplyvu na konkrétne súradnice
  4. percentuálny nesúhlas - pre kategorické údaje
  5. atď.
Stĺpce 3 a 4 (Vzdialenosť od C1 a C2) je vzdialenosť vypočítaná pomocou tohto vzorca. Napríklad pre prvého používateľa

Príslušnosť k ťažiskám (posledný stĺpec) sa vypočíta podľa princípu blízkosti ťažísk (C1 a C2). Prvý spotrebiteľ je bližšie k ťažisku #1 (1,41 v porovnaní s 2,24), preto patrí do klastra s ťažiskom C1.

Nižšie je uvedený graf znázorňujúci centroidy C1 a C2 (znázornené ako modrý a oranžový diamant). Spotrebitelia sú znázornení vo farbe zodpovedajúceho ťažiska, ku ktorému boli priradení.

Keďže sme si svojvoľne vybrali centroidy, druhým krokom je urobiť tento výber iteratívnym. Nová poloha ťažísk sa vyberie ako priemer pre body zodpovedajúceho zhluku. Takže napríklad pre prvé ťažisko (sú to spotrebitelia 1, 2 a 3). Preto je nová súradnica x pre ťažisko C1 priemerom súradníc x týchto spotrebiteľov (2+1+1)/3 = 1,33. Získame nové súradnice pre C1 (1.33, 2.33) a C2 (4.4, 4.2). Nový graf je uvedený nižšie:

Nakoniec centroidy umiestnime do stredu príslušného zhluku. Graf nižšie:

Pozície našich čiernych dier (centrá klastrov) v našom príklade sú C1 (1,75, 2,25) a C2 (4,75, 4,75). Dve zhluky nad nimi sú ako dve galaxie oddelené od seba vo vesmíre.

Pozrime sa teda na príklady ďalej. Postavme sa pred úlohu segmentovať spotrebiteľov podľa dvoch parametrov: veku a príjmu. Predpokladajme, že máme 2 spotrebiteľov vo veku 37 a 44 rokov s príjmom 90 000 USD a 62 000 USD. Ak chceme zmerať euklidovskú vzdialenosť medzi bodmi (37, 90000) a (44, 62000), uvidíme, že v tomto prípade premenná príjmu „dominuje“ premennej veku a jej zmena silne ovplyvňuje vzdialenosť. Na vyriešenie tohto problému potrebujeme nejaký druh stratégie, inak naša analýza poskytne nesprávny výsledok. Riešením tohto problému je dostať naše hodnoty do porovnateľných mier. Normalizácia je riešením nášho problému.

Normalizácia údajov

Existuje mnoho prístupov k normalizácii údajov. Napríklad minimálna-maximálna normalizácia. Na túto normalizáciu sa používa nasledujúci vzorec

v tomto prípade X* je normalizovaná hodnota, min a max sú minimálne a maximálne súradnice v celej množine X
(Poznámka, tento vzorec umiestni všetky súradnice na segment )
Zoberme si náš príklad, nech je maximálny príjem 130 000 USD a minimálny 45 000 USD. Normalizovaná hodnota príjmu pre spotrebiteľa A je

Toto cvičenie urobíme pre všetky body pre každú premennú (súradnicu). Príjem pre druhého spotrebiteľa (62000) bude po normalizácii 0,2. Okrem toho nech je minimálny a maximálny vek 23 a 58 rokov. Po normalizácii bude vek našich dvoch spotrebiteľov 0,4 a 0,6.

Je ľahké vidieť, že teraz sú všetky naše údaje medzi 0 a 1. Preto teraz máme normalizované súbory údajov na porovnateľných mierkach.

Pamätajte, že pred procedúrou klastrovej analýzy je potrebné vykonať normalizáciu.

Klastrovanie úloh v Data Mining

Úvod do klastrovej analýzy

Z celej rozsiahlej oblasti použitia klastrovej analýzy je to napríklad problém sociálno-ekonomického prognózovania.

Pri analýze a predpovedaní sociálno-ekonomických javov sa výskumník často stretáva s mnohorozmernosťou ich opisu. Stáva sa to pri riešení problému segmentácie trhu, budovaní typológie krajín podľa dostatočne veľkého počtu ukazovateľov, predpovedaní trhovej situácie pre jednotlivé tovary, skúmaní a predpovedaní hospodárskej depresie a mnohých ďalších problémov.

Metódy viacrozmernej analýzy sú najúčinnejším kvantitatívnym nástrojom na štúdium sociálno-ekonomických procesov opísaných veľkým množstvom charakteristík. Patrí medzi ne zhluková analýza, taxonómia, rozpoznávanie vzorov a faktorová analýza.

zhluková analýza najzreteľnejšie odráža znaky viacrozmernej analýzy pri klasifikácii, faktorovej analýze - pri štúdiu komunikácie.

Niekedy sa prístup zhlukovej analýzy v literatúre označuje ako numerická taxonómia, numerická klasifikácia, samoučenie sa atď.

Zhluková analýza našla svoje prvé uplatnenie v sociológii. Názov klastrová analýza pochádza z anglického slova cluster – hromada, hromadenie. Prvýkrát v roku 1939 definoval predmet zhlukovej analýzy a jej popis vypracoval výskumník Trion. Hlavným účelom zhlukovej analýzy je rozdeliť súbor skúmaných objektov a prvkov do skupín alebo zhlukov, ktoré sú v príslušnom zmysle homogénne. To znamená, že sa rieši problém klasifikácie údajov a identifikácie zodpovedajúcej štruktúry v nich. Metódy zhlukovej analýzy je možné použiť v rôznych prípadoch, dokonca aj v prípadoch, keď hovoríme o jednoduchom zoskupení, v ktorom všetko závisí od vytvorenia skupín podľa kvantitatívnej podobnosti.

Veľkou výhodou zhlukovej analýzy v tom, že umožňuje rozdeliť objekty nie podľa jedného parametra, ale podľa celého súboru funkcií. Okrem toho zhluková analýza, na rozdiel od väčšiny matematických a štatistických metód, neukladá žiadne obmedzenia na typ posudzovaných objektov a umožňuje nám zvážiť súbor počiatočných údajov takmer ľubovoľnej povahy. Má to veľký význam napríklad pre konjunktúrne prognózovanie, keď majú ukazovatele rôzne formy, ktoré sťažujú používanie tradičných ekonometrických prístupov.

Klastrová analýza umožňuje zvážiť pomerne veľké množstvo informácií a drasticky zredukovať, komprimovať veľké polia sociálno-ekonomických informácií, urobiť ich kompaktnými a vizuálnymi.

Zhluková analýza má veľký význam vo vzťahu k súborom časových radov charakterizujúcich ekonomický vývoj (napríklad všeobecné ekonomické a komoditné podmienky). Tu je možné vyčleniť obdobia, kedy boli hodnoty zodpovedajúcich ukazovateľov pomerne blízko, ako aj určiť skupiny časových radov, ktorých dynamika je najpodobnejšia.

Klastrovú analýzu možno použiť cyklicky. V tomto prípade sa štúdia vykonáva, kým sa nedosiahnu požadované výsledky. Každý cyklus tu zároveň môže poskytnúť informácie, ktoré môžu výrazne zmeniť smer a prístupy ďalšej aplikácie zhlukovej analýzy. Tento proces môže byť reprezentovaný ako systém spätnej väzby.

V úlohách sociálno-ekonomického prognózovania je veľmi sľubné kombinovať zhlukovú analýzu s inými kvantitatívnymi metódami (napríklad s regresnou analýzou).

Ako každá iná metóda klastrová analýza má určité nevýhody a obmedzenia: Najmä počet klastrov závisí od zvolených kritérií rozdelenia. Pri redukcii počiatočného dátového poľa do kompaktnejšej podoby môže dochádzať k určitým deformáciám a môže dôjsť aj k strate jednotlivých vlastností jednotlivých objektov v dôsledku ich nahradenia charakteristikami zovšeobecnených hodnôt parametrov klastra. Pri klasifikácii objektov sa veľmi často ignoruje možnosť absencie akýchkoľvek klastrových hodnôt v uvažovanej množine.

Pri klastrovej analýze sa uvažuje, že:

a) zvolené charakteristiky v zásade umožňujú požadované zhlukovanie;

b) jednotky merania (mierka) sú zvolené správne.

Veľkú úlohu zohráva výber mierky. Údaje sa zvyčajne normalizujú odčítaním priemeru a delením štandardnou odchýlkou ​​tak, aby sa rozptyl rovnal jednej.

1. Úloha klastrovania

Úlohou klastrovania je na základe údajov obsiahnutých v súbore X, rozdeliť veľa predmetov G na m (m– celé) zhluky (podmnožiny) Q1,Q 2, …,Q m, takže každý objekt Gj patria do jednej a len jednej podmnožiny oddielov a že objekty patriace do rovnakého klastra sú podobné, zatiaľ čo objekty patriace do rôznych klastrov sú heterogénne.

Napríklad nech G zahŕňa n krajín, z ktorých každá je charakterizovaná HNP na obyvateľa ( F1), číslo Máut na 1000 ľudí F2), spotreba elektriny na obyvateľa ( F3), spotreba ocele na obyvateľa ( F4) atď. Potom X 1(vektor merania) je súbor špecifikovaných charakteristík pre prvú krajinu, X 2- za druhé, X 3 za tretiu a tak ďalej. Výzvou je rozdeliť krajiny podľa úrovne rozvoja.

Riešením problému klastrovej analýzy sú partície, ktoré spĺňajú určité kritérium optimálnosti. Týmto kritériom môže byť nejaká funkcionalita, ktorá vyjadruje úrovne vhodnosti rôznych oddielov a zoskupení, čo sa nazýva účelová funkcia. Napríklad vnútroskupinový súčet štvorcových odchýlok možno považovať za cieľovú funkciu:

kde x j- predstavuje merania j-tý predmet.

Na vyriešenie problému zhlukovej analýzy je potrebné definovať pojem podobnosti a heterogenity.

Je jasné, že objekty i -té a j-tá by spadla do jedného zhluku pri vzdialenosti (vzdialenosti) medzi bodmi X i a X j by bol dostatočne malý a spadol by do rôznych zhlukov, keď by táto vzdialenosť bola dostatočne veľká. Zasiahnutie jedného alebo rôznych zhlukov objektov je teda určené konceptom vzdialenosti medzi nimi X i a X j od ty, kde ty - R-rozmerný euklidovský priestor. Nezáporná funkcia d(X i, Х j) sa nazýva funkcia vzdialenosti (metrická), ak:

a) d(Xja, Х j)³ 0 , pre všetkých X i a X j od ty

b) d(Xi, Х j) = 0, ak a len vtedy X i= Х j

v) d(Xi, Xj) = d(Xj, X i)

G) d(Xja, Х j)£ d(Xi, Xk) + d(Xk, Xj), kde Xj; Xja a Х k- ľubovoľné tri vektory z ty.

Význam d(Xja, Х j) pre Xi a X j sa nazýva vzdialenosť medzi Xi a X j a je ekvivalentná vzdialenosti medzi Gi a Gj podľa zvolených charakteristík (F 1, F 2, F 3, ..., F p).

Najčastejšie používané funkcie vzdialenosti sú:

1. Euklidovská vzdialenosť d2 (Xi , Х j) =

2. l 1- norma d1 (Xi , Х j) =

3. Supremum – norma d ¥ (Xi , Х j) = súp

k = 1, 2, ..., s

4. lp- norma d p ​​​​(Xi , Х j) =

Najpopulárnejšia je euklidovská metrika. Metriku l 1 je najjednoduchšie vypočítať. Najvyššia norma sa dá ľahko vypočítať a obsahuje postup objednávania, a lp- norma pokrýva funkcie vzdialeností 1, 2, 3,.

Nech je n meraní X 1, X 2,..., Xn sú prezentované vo forme dátovej matice s veľkosťou p´ n:

Potom vzdialenosť medzi pármi vektorov d(X i, Х j) môže byť reprezentovaná ako matica symetrickej vzdialenosti:

Koncept opačný k vzdialenosti je koncept podobnosti medzi objektmi. G i . a Gj. Nezáporná reálna funkcia S(X i; Xj) = S i j sa nazýva miera podobnosti, ak:

1) 0 £ S(Xi, Xj)< 1 pre X i ¹ X j

2) S( Xi, Xi) = 1

3) S( Xi, Xj) = S(Xj, X i )

Páry hodnôt miery podobnosti možno kombinovať do matice podobnosti:

hodnota Sij nazývaný koeficient podobnosti.

2. Metódy klastrovania

V súčasnosti existuje veľa metód klastrovej analýzy. Zastavme sa pri niektorých z nich (metódy uvedené nižšie sa zvyčajne nazývajú metódy minimálneho rozptylu).

Nechaj X- pozorovacia matica: X \u003d (X 1, X 2, ..., X u) a druhou mocninou euklidovskej vzdialenosti medzi X i a X j sa určuje podľa vzorca:

1) Úplný spôsob pripojenia.

Podstatou tejto metódy je, že dva objekty patriace do rovnakej skupiny (klastra) majú koeficient podobnosti, ktorý je menší ako určitá prahová hodnota. S. Z hľadiska euklidovskej vzdialenosti d to znamená, že vzdialenosť medzi dvoma bodmi (objektmi) zhluku by nemala presiahnuť určitú prahovú hodnotuh. Touto cestou, hdefinuje maximálny povolený priemer podmnožiny tvoriacej zhluk.

2) Metóda maximálnej lokálnej vzdialenosti.

Každý objekt sa považuje za jednobodový zhluk. Objekty sa zoskupujú podľa nasledujúceho pravidla: dva zhluky sa spoja, ak je maximálna vzdialenosť medzi bodmi jedného zhluku a bodmi druhého minimálna. Postup pozostáva z n - 1 kroky a výsledkom sú oddiely, ktoré sa zhodujú so všetkými možnými oddielmi v predchádzajúcej metóde pre akékoľvek prahové hodnoty.

3) Slovná metóda.

V tejto metóde sa ako účelová funkcia používa vnútroskupinový súčet štvorcových odchýlok, čo nie je nič iné ako súčet štvorcových vzdialeností medzi každým bodom (objektom) a priemerom pre zhluk obsahujúci tento objekt. V každom kroku sa kombinujú dva zhluky, ktoré vedú k minimálnemu zvýšeniu účelovej funkcie, t.j. vnútroskupinový súčet štvorcov. Táto metóda je zameraná na kombinovanie tesne umiestnených zhlukov.

4) centroidná metóda.

Vzdialenosť medzi dvoma zhlukami je definovaná ako euklidovská vzdialenosť medzi stredmi (priemermi) týchto zhlukov:

d2ij =(` X-` Y) T (` X-` Y) Klastrovanie prebieha postupne na každom z nich n–1 kroky spájajú dva zhluky G a p s minimálnou hodnotou d2ij Ak n 1 oveľa viac n 2, potom sú zlučovacie centrá dvoch klastrov blízko seba a charakteristiky druhého klastra sa pri zlúčení zhlukov prakticky ignorujú. Niekedy sa táto metóda niekedy nazýva aj metóda vážených skupín.

3. Algoritmus sekvenčného klastrovania

Zvážte Ι = (Ι 1, Ι 2, … Ιn) toľko zhlukov (ja 1), (Ι 2),...(Ιn). Vyberme dve z nich, napr. Ι i a jj, ktoré sú v istom zmysle k sebe bližšie a spájajú ich do jedného zhluku. Nová sada klastrov, ktorá už pozostáva z n -1 klastrov, bude:

(Ι 1 ), (Ι 2 )…, i, Ι j ), …, (Ιn).

Opakovaním procesu získame po sebe nasledujúce sady zhlukov, ktoré pozostávajú z (n-2), (n-3), (n-4) atď. klastre. Na konci postupu môžete získať zhluk pozostávajúci z n objektov a zhodujúci sa s pôvodnou množinou Ι = (Ι 1, Ι 2, … Ιn).

Ako mieru vzdialenosti berieme druhú mocninu euklidovskej metriky d i j2. a vypočítajte maticu D = (di j 2 ), kde dja j 2 je štvorec vzdialenosti medzi

Ι i a ja:

….

ja n

d 12 2

d 13 2

….

d 1n 2

d 23 2

….

d 2n 2

….

d 3n 2

….

….

….

ja n

Nechajte vzdialenosť medzi Ι i a Ι j bude minimálne:

d i j 2 = min (dij2, i¹ j). Formujeme s Ι i a Ι j nový klaster

ja, ja j). Poďme postaviť nový ((n-1), (n-1)) matica vzdialenosti

(ja, ja j)

….

ja n

(ja; ja j)

d i j 2 1

d i j 2 2

….

d i j 2 n

d 12 2

d 1 3

….

d 1 2 n

….

d2n

….

d3n

(n-2) riadky pre poslednú maticu sa prevezmú z predchádzajúcej a prvý riadok sa prepočíta. Výpočty môžu byť obmedzené na minimum, ak sa dá vyjadriť d i j 2 k , k = 1, 2,…,n (k¹ i¹ j) prostredníctvom prvkov pôvodnej matrice.

Spočiatku sa vzdialenosť určovala iba medzi jednoprvkovými zhlukmi, ale je potrebné určiť aj vzdialenosti medzi zhlukami obsahujúcimi viac ako jeden prvok. Dá sa to urobiť rôznymi spôsobmi av závislosti od zvolenej metódy získame algoritmy klastrovej analýzy s rôznymi vlastnosťami. Dá sa napríklad určiť vzdialenosť medzi zhlukom i + j a nejaký iný klaster k, ktorá sa rovná aritmetickému priemeru vzdialeností medzi zhlukami i a k a klastre j a k:

dj+j,k = ½ (di k + dj k).

Ale dá sa aj definovať d i+j,k ako minimum z týchto dvoch vzdialeností:

dj+j,k = min(di k + dj k).

Je teda opísaný prvý krok operácie aglomeratívneho hierarchického algoritmu. Ďalšie kroky sú rovnaké.

Pomerne širokú triedu algoritmov možno získať, ak sa na prepočet vzdialeností použije nasledujúci všeobecný vzorec:

d i+j,k = A(w) min(d ik d jk) + B(w) max (d ik d jk), kde

A(w) = akdik£ djk

A(w) = akdik> djk

B(w) = akd i k £ djk

B(w) =, akdik> djk

kde n i a nj- počet prvkov v zhlukoch i a j, a w je voľný parameter, ktorého výber určuje konkrétny algoritmus. Napríklad kedy w = 1 dostaneme takzvaný algoritmus „priemerného spojenia“, pre ktorý má vzorec na prepočet vzdialeností tvar:

d i+j,k =

V tomto prípade sa vzdialenosť medzi dvoma klastrami v každom kroku algoritmu rovná aritmetickému priemeru vzdialeností medzi všetkými pármi prvkov tak, že jeden prvok z páru patrí do jedného klastra a druhý do iného.

Vizuálny význam parametra w bude jasný, ak dáme w® ¥ . Vzorec na prevod vzdialenosti má tvar:

d i+j,k =min (d i,kdjk)

Pôjde o takzvaný algoritmus „najbližší sused“, ktorý umožňuje vybrať zhluky ľubovoľne zložitého tvaru za predpokladu, že rôzne časti takýchto zhlukov sú spojené reťazami prvkov blízko seba. V tomto prípade sa vzdialenosť medzi dvoma klastrami v každom kroku algoritmu rovná vzdialenosti medzi dvoma najbližšími prvkami patriacimi do týchto dvoch klastrov.

Pomerne často sa predpokladá, že počiatočné vzdialenosti (rozdiely) medzi zoskupenými prvkami sú dané. V niektorých prípadoch je to pravda. Špecifikované sú však iba objekty a ich charakteristiky a na základe týchto údajov je zostavená matica vzdialenosti. V závislosti od toho, či sa počítajú vzdialenosti medzi objektmi alebo medzi vlastnosťami objektov, sa používajú rôzne metódy.

V prípade zhlukovej analýzy objektov je najbežnejšou mierou rozdielu buď druhá mocnina euklidovskej vzdialenosti

(kde x ih , x jh- hodnoty h-tý znak pre i th a j-té predmety a m je počet charakteristík), alebo samotná euklidovská vzdialenosť. Ak sú vlastnostiam priradené rôzne váhy, potom sa tieto váhy môžu brať do úvahy pri výpočte vzdialenosti

Niekedy sa ako miera rozdielu používa vzdialenosť vypočítaná podľa vzorca:

ktoré sa nazývajú: vzdialenosť „Hamming“, „Manhattan“ alebo „mestský blok“.

Prirodzeným meradlom podobnosti charakteristík objektov v mnohých problémoch je korelačný koeficient medzi nimi

kde m ja, m j,d ja,d j- priemerné a štandardné odchýlky pre charakteristiky i a j. Mierou rozdielu medzi charakteristikami môže byť hodnota 1-r. V niektorých úlohách je znamienko korelačného koeficientu nevýznamné a závisí len od voľby mernej jednotky. V tomto prípade, ako miera rozdielu medzi charakteristikami, ô 1-r i j ô

4. Počet zhlukov

Veľmi dôležitou otázkou je problém výberu potrebného počtu klastrov. Niekedy je možné a priori zvoliť m počet zhlukov. Vo všeobecnom prípade sa však toto číslo určuje v procese rozdelenia súboru do zhlukov.

Štúdie vykonali Fortier a Solomon a zistilo sa, že na dosiahnutie pravdepodobnosti je potrebné vziať počet zhlukov. a nájsť najlepší oddiel. Optimálny počet oddielov je teda funkciou daného zlomku b najlepšie alebo v istom zmysle prípustné oddiely v množine všetkých možných. Celkový rozptyl bude tým väčší, čím vyšší bude podiel b prípustné rozdelenia. Fortier a Solomon vyvinuli tabuľku, z ktorej je možné zistiť počet potrebných partícií. S(a , b ) záležiac ​​na a a b (kde a je pravdepodobnosť, že sa nájde najlepší oddiel, b je podiel najlepších oddielov na celkovom počte oddielov) Okrem toho sa ako miera heterogenity nepoužíva miera rozptylu, ale miera členstva, ktorú zaviedli Holzenger a Harman. Tabuľka hodnôt S(a , b ) nižšie.

Tabuľka hodnôtS(a , b )

b \ a

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

Pomerne často je kritériom pre kombinovanie (počet zhlukov) zmena zodpovedajúcej funkcie. Napríklad súčty štvorcových odchýlok:

Proces zoskupovania tu musí zodpovedať postupnému minimálnemu zvýšeniu hodnoty kritéria E. Prítomnosť prudkého skoku v hodnote E možno interpretovať ako charakteristiku počtu zhlukov, ktoré objektívne existujú v skúmanej populácii.

Takže druhý spôsob, ako určiť najlepší počet zhlukov, je identifikovať skoky určené fázovým prechodom zo silne viazaného do slabo viazaného stavu objektov.

5. Dendogramy

Najznámejšia metóda reprezentácie matice vzdialenosti alebo podobnosti je založená na myšlienke dendogramu alebo stromového diagramu. Dendogram možno definovať ako grafickú reprezentáciu výsledkov sekvenčného zhlukovacieho procesu, ktorý sa vykonáva pomocou matice vzdialeností. Pomocou dendogramu je možné graficky alebo geometricky znázorniť postup zhlukovania za predpokladu, že tento postup pracuje len s prvkami matice vzdialenosti alebo podobnosti.

Existuje mnoho spôsobov, ako vytvoriť dendrogramy. V dendrograme sú objekty umiestnené vertikálne vľavo, výsledky zhlukovania sú vpravo. Hodnoty vzdialenosti alebo podobnosti zodpovedajúce štruktúre nových zhlukov sú zobrazené pozdĺž vodorovnej priamky cez dendrogramy.

Obr

Obrázok 1 ukazuje jeden príklad dendrogramu. Obrázok 1 zodpovedá prípadu šiestich objektov ( n=6) a kvlastnosti (znaky). Objekty ALE a OD sú najbližšie, a preto sú spojené do jedného zhluku na úrovni blízkosti rovnajúcej sa 0,9. ObjektyDa E v kombinácii na úrovni 0,8. Teraz máme 4 klastre:

(A, C), (F), ( D, E), ( B) .

Vytvárajú sa ďalšie zhluky (A, C, F) a ( E, D, B) , čo zodpovedá úrovni blízkosti rovnajúcej sa 0,7 a 0,6. Nakoniec sú všetky objekty zoskupené do jedného zhluku na úrovni 0,5.

Typ dendogramu závisí od výberu miery podobnosti alebo vzdialenosti medzi objektom a zhlukom a od metódy zhlukovania. Najdôležitejším bodom je výber miery podobnosti alebo miery vzdialenosti medzi objektom a zhlukom.

Počet algoritmov klastrovej analýzy je príliš veľký. Všetky sa dajú rozdeliť na hierarchické a nehierarchické.

Hierarchické algoritmy sú spojené s konštrukciou dendogramov a delia sa na:

a) aglomeratívne, vyznačujúce sa konzistentnou kombináciou počiatočných prvkov a zodpovedajúcim poklesom počtu zhlukov;

b) deliteľné (deliteľné), v ktorých sa zvyšuje počet zhlukov, počnúc jedným, v dôsledku čoho sa vytvára postupnosť štiepiacich sa skupín.

Algoritmy klastrovej analýzy majú dnes dobrú softvérovú implementáciu, ktorá umožňuje riešiť problémy najvyššej dimenzie.

6. Údaje

Klastrovú analýzu možno použiť na intervalové údaje, frekvencie, binárne údaje. Je dôležité, aby sa premenné menili na porovnateľných mierkach.

Heterogenita meracích jednotiek a následná nemožnosť primeraného vyjadrenia hodnôt rôznych ukazovateľov v rovnakej mierke vedie k tomu, že vzdialenosť medzi bodmi, odrážajúca polohu objektov v priestore ich vlastností, sa ukazuje závisieť od ľubovoľne zvolenej mierky. Aby sa eliminovala heterogenita merania počiatočných údajov, všetky ich hodnoty sú predbežne normalizované, t.j. sú vyjadrené pomerom týchto hodnôt k určitej hodnote, ktorá odráža určité vlastnosti tohto ukazovateľa. Normalizácia počiatočných údajov pre klastrovú analýzu sa niekedy vykonáva vydelením počiatočných hodnôt štandardnou odchýlkou ​​zodpovedajúcich ukazovateľov. Ďalším spôsobom je výpočet takzvaného štandardizovaného príspevku. Je to aj tzv Z-príspevok.

Z -príspevok ukazuje, koľko štandardných odchýlok oddeľuje dané pozorovanie od priemeru:

Kde x ije hodnota tohto pozorovania,- priemerný, S- smerodajná odchýlka.

Priemer pre Z -príspevok je nula a štandardná odchýlka je 1.

Štandardizácia umožňuje porovnanie pozorovaní z rôznych distribúcií. Ak je rozdelenie premennej normálne (alebo blízke normálu) a priemer a rozptyl sú známe alebo odhadnuté z veľkých vzoriek, potom Z -vstup z pozorovania poskytuje konkrétnejšie informácie o jeho polohe.

Všimnite si, že normalizačné metódy znamenajú uznanie všetkých znakov ako ekvivalentných z hľadiska objasnenia podobnosti uvažovaných objektov. Už bolo poznamenané, že vo vzťahu k ekonomike sa uznanie rovnocennosti rôznych ukazovateľov nezdá vždy opodstatnené. Bolo by žiaduce, spolu s normalizáciou, dať každému z indikátorov váhu, ktorá odráža jeho význam pri zisťovaní podobností a rozdielov medzi objektmi.

V tejto situácii sa treba uchýliť k metóde určovania váh jednotlivých ukazovateľov – prieskumu odborníkov. Napríklad pri riešení problému klasifikácie krajín podľa úrovne ekonomického rozvoja sme vychádzali z výsledkov prieskumu 40 popredných moskovských odborníkov na problémy vyspelých krajín na desaťbodovej škále:

zovšeobecnené ukazovatele sociálno-ekonomického rozvoja - 9 bodov;

ukazovatele odvetvového rozloženia zamestnaného obyvateľstva - 7 bodov;

ukazovatele prevalencie prenajatej práce - 6 bodov;

ukazovatele charakterizujúce ľudský prvok výrobných síl - 6 bodov;

ukazovatele vývoja materiálnych výrobných síl - 8 bodov;

ukazovateľ verejných výdavkov - 4 body;

"vojensko-ekonomické" ukazovatele - 3 body;

sociodemografické ukazovatele - 4 body.

Odhady odborníkov boli relatívne stabilné.

Odborné hodnotenia poskytujú dobre známy základ na určenie dôležitosti ukazovateľov zaradených do určitej skupiny ukazovateľov. Násobenie normalizovaných hodnôt ukazovateľov koeficientom zodpovedajúcim priemernému hodnotiacemu skóre umožňuje vypočítať vzdialenosti medzi bodmi, ktoré odrážajú polohu krajín vo viacrozmernom priestore, berúc do úvahy nerovnakú váhu ich vlastností.

Pomerne často sa pri riešení takýchto problémov nepoužíva jeden, ale dva výpočty: prvý, v ktorom sa všetky znaky považujú za ekvivalentné, druhý, kde sa im priraďujú rôzne váhy v súlade s priemernými hodnotami odborných odhadov.

7. Aplikácia zhlukovej analýzy

Pozrime sa na niektoré aplikácie klastrovej analýzy.

1. Rozdelenie krajín do skupín podľa úrovne rozvoja.

Študovalo sa 65 krajín podľa 31 ukazovateľov (národný dôchodok na obyvateľa, podiel obyvateľstva zamestnaného v priemysle v %, úspory na obyvateľa, podiel obyvateľstva zamestnaného v poľnohospodárstve v %, priemerná dĺžka života, počet áut na 1 tisíc obyvateľov, počet ozbrojených síl na 1 milión obyvateľov, podiel HDP v priemysle v %, podiel HDP v poľnohospodárstve v %, atď.)

Každá z krajín vystupuje v tejto úvahe ako objekt charakterizovaný určitými hodnotami 31 ukazovateľov. V súlade s tým môžu byť reprezentované ako body v 31-rozmernom priestore. Takýto priestor sa zvyčajne nazýva priestor vlastníctva skúmaných objektov. Porovnanie vzdialenosti medzi týmito bodmi bude odrážať stupeň blízkosti uvažovaných krajín, ich vzájomnú podobnosť. Socioekonomický význam tohto chápania podobnosti znamená, že krajiny sa považujú za čím viac podobné, tým menšie sú rozdiely medzi rovnakými ukazovateľmi, ktorými sú opísané.

Prvým krokom takejto analýzy je identifikácia dvojice národných ekonomík zahrnutých do matice podobnosti, pričom vzdialenosť medzi nimi je najmenšia. Pôjde zrejme o najpodobnejšie, podobné ekonomiky. V nasledujúcej úvahe sú obe tieto krajiny považované za jednu skupinu, jeden klaster. V súlade s tým je pôvodná matica transformovaná tak, že jej prvkami sú vzdialenosti medzi všetkými možnými pármi nie 65, ale 64 objektov - 63 ekonomík a novo transformovaný klaster - podmienené spojenie dvoch najpodobnejších krajín. Riadky a stĺpce zodpovedajúce vzdialenostiam od dvojice krajín zahrnutých v únii k všetkým ostatným sa z pôvodnej matice podobnosti vypustia, ale pridajú sa riadky a stĺpce obsahujúce vzdialenosť medzi zhlukom získaným úniou a ostatnými krajinami.

Predpokladá sa, že vzdialenosť medzi novo získaným klastrom a krajinami sa rovná priemeru vzdialeností medzi posledne menovaným a dvoma krajinami, ktoré tvoria nový klaster. Inými slovami, kombinovaná skupina krajín sa považuje za celok s charakteristikami približne rovnakými ako priemer charakteristík krajín, ktoré ju tvoria.

Druhým krokom analýzy je uvažovanie takto transformovanej matice so 64 riadkami a stĺpcami. Opäť sa identifikuje dvojica ekonomík, pričom vzdialenosť medzi nimi je najmenej dôležitá a tie sa, rovnako ako v prvom prípade, spájajú. V tomto prípade môže byť najmenšia vzdialenosť medzi dvojicou krajín, ako aj medzi ľubovoľnou krajinou a úniou krajín získanou v predchádzajúcej fáze.

Ďalšie postupy sú podobné tým, ktoré sú opísané vyššie: v každej fáze sa matica transformuje tak, že z nej sú vylúčené dva stĺpce a dva riadky obsahujúce vzdialenosť k objektom (páry krajín alebo združení - zhlukov), ktoré sa spojili v predchádzajúcej fáze. ; vylúčené riadky a stĺpce sú nahradené stĺpcom s riadkom obsahujúcim vzdialenosti od nových spojení k ostatným objektom; ďalej sa v upravenej matici odhalí dvojica najbližších objektov. Analýza pokračuje až do úplného vyčerpania matice (t. j. kým sa všetky krajiny nespoja). Zovšeobecnené výsledky maticovej analýzy možno znázorniť vo forme stromu podobnosti (dendogramu), podobného tomu, ktorý je opísaný vyššie, len s tým rozdielom, že strom podobnosti, ktorý odráža relatívnu blízkosť všetkých 65 krajín, o ktorých uvažujeme, je oveľa komplikovanejšie ako schéma, v ktorej sa objavuje len päť národných ekonomík. Tento strom podľa počtu zhodných objektov obsahuje 65 úrovní. Prvá (nižšia) úroveň obsahuje body zodpovedajúce každej krajine zvlášť. Prepojenie týchto dvoch bodov na druhej úrovni ukazuje dvojicu krajín, ktoré sú si z hľadiska všeobecného typu národných ekonomík najbližšie. Na tretej úrovni je zaznamenaný ďalší najpodobnejší párový pomer krajín (ako už bolo uvedené, v tomto pomere môže byť buď nový pár krajín, alebo nová krajina a už identifikovaný pár podobných krajín). A tak ďalej až po poslednú úroveň, na ktorej všetky skúmané krajiny vystupujú ako jeden súbor.

Výsledkom aplikácie klastrovej analýzy bolo získaných päť skupín krajín:

Afro-ázijská skupina

latinsko-ázijská skupina;

latinsko-stredomorská skupina;

skupina vyspelých kapitalistických krajín (bez USA)

USA

Zavedenie nových ukazovateľov nad rámec tu používaných 31 ukazovateľov alebo ich nahradenie inými prirodzene vedie k zmene výsledkov klasifikácie krajín.

2. Rozdelenie krajín podľa kritéria blízkosti kultúry.

Ako viete, marketing musí zohľadňovať kultúru krajín (zvyky, tradície atď.).

Klastrovaním sa získali tieto skupiny krajín:

· arabčina;

Stredný východ

· škandinávsky;

nemecky hovoriaci

· Anglicky hovoriacej;

románsky európsky;

· Latinský Američan;

Ďaleký východ.

3. Vypracovanie prognózy trhu so zinkom.

Zhluková analýza zohráva významnú úlohu v štádiu redukcie ekonomicko-matematického modelu konjunktúry komodít, prispieva k uľahčeniu a zjednodušeniu výpočtových postupov, zabezpečuje väčšiu kompaktnosť získaných výsledkov pri zachovaní požadovanej presnosti. Použitie zhlukovej analýzy umožňuje rozdeliť celý počiatočný súbor trhových ukazovateľov do skupín (zhlukov) podľa relevantných kritérií, čím sa uľahčuje výber najreprezentatívnejších ukazovateľov.

Klastrová analýza sa široko používa na modelovanie trhových podmienok. V praxi je väčšina prognostických úloh založená na použití klastrovej analýzy.

Napríklad úloha vypracovať prognózu trhu so zinkom.

Spočiatku bolo vybraných 30 kľúčových ukazovateľov globálneho trhu so zinkom:

X 1 - čas

Výrobné čísla:

X 2 - vo svete

X 4 - Európa

X 5 - Kanada

X 6 - Japonsko

X 7 - Austrália

Ukazovatele spotreby:

X 8 - vo svete

X 10 - Európa

X 11 - Kanada

X 12 - Japonsko

X 13 - Austrália

Zásoby výrobcov zinku:

X 14 - vo svete

X 16 - Európa

X 17 - ostatné krajiny

Spotrebiteľské zásoby zinku:

X 18 - v USA

X 19 - v Anglicku

X 10 - v Japonsku

Dovoz zinkových rúd a koncentrátov (tis. ton)

X 21 - v USA

X 22 - v Japonsku

X 23 - v Nemecku

Vývoz zinkových rúd a koncentrátov (tisíc ton)

X 24 - z Kanady

X 25 - z Austrálie

Dovoz zinku (tisíc ton)

X 26 - v USA

X 27 - do Anglicka

X 28 - v Nemecku

Vývoz zinku (tisíc ton)

X 29 - z Kanady

X 30 - z Austrálie

Na určenie špecifických závislostí bol použitý aparát korelačnej a regresnej analýzy. Vzťahy boli analyzované na základe matice párových korelačných koeficientov. Tu bola prijatá hypotéza normálneho rozdelenia analyzovaných ukazovateľov konjunktúry, pričom je zrejmé, že r ij nie sú jediným možným ukazovateľom vzťahu medzi použitými ukazovateľmi. Potreba použiť klastrovú analýzu v tomto probléme je spôsobená tým, že množstvo ukazovateľov ovplyvňujúcich cenu zinku je veľmi veľké. Je potrebné ich znížiť z niekoľkých nasledujúcich dôvodov:

a) nedostatok úplných štatistických údajov pre všetky premenné;

b) prudká komplikácia výpočtových postupov, keď sa do modelu zavedie veľké množstvo premenných;

c) optimálne využitie metód regresnej analýzy vyžaduje prekročenie počtu pozorovaných hodnôt nad počtom premenných najmenej 6-8 krát;

d) túžba použiť v modeli štatisticky nezávislé premenné atď.

Je veľmi ťažké vykonať takúto analýzu priamo na relatívne objemnej matici korelačných koeficientov. Pomocou klastrovej analýzy možno celý súbor trhových premenných rozdeliť do skupín tak, že prvky každého klastra navzájom silne korelujú a zástupcovia rôznych skupín sa vyznačujú slabou koreláciou.

Na vyriešenie tohto problému bol použitý jeden z algoritmov aglomeratívnej hierarchickej klastrovej analýzy. V každom kroku sa počet zhlukov zníži o jeden v dôsledku optimálneho, v určitom zmysle, spojenia dvoch skupín. Kritériom spojenia je zmena príslušnej funkcie. V závislosti od toho sa použili hodnoty súčtu štvorcových odchýlok vypočítaných podľa nasledujúcich vzorcov:

(j = 1, 2, …,m),

kde j- číslo klastra, n- počet prvkov v zhluku.

rij-koeficient párovej korelácie.

Proces zoskupovania teda musí zodpovedať postupnému minimálnemu zvýšeniu hodnoty kritéria E.

V prvej fáze je počiatočné dátové pole prezentované ako súbor pozostávajúci zo zhlukov, z ktorých každý obsahuje jeden prvok. Proces zoskupovania začína spojením takejto dvojice zhlukov, čo vedie k minimálnemu zvýšeniu súčtu štvorcových odchýlok. To si vyžaduje odhad hodnôt súčtu štvorcových odchýlok pre každú z možných klastrové združenia. V ďalšej fáze sa už berú do úvahy hodnoty súčtu štvorcových odchýlok klastre atď. Tento proces sa v určitom kroku zastaví. Aby ste to dosiahli, musíte sledovať hodnotu súčtu štvorcových odchýlok. Ak vezmeme do úvahy postupnosť rastúcich hodnôt, je možné zachytiť skok (jeden alebo viacero) v jej dynamike, ktorý možno interpretovať ako charakteristiku počtu skupín „objektívne“ existujúcich v skúmanej populácii. Vo vyššie uvedenom príklade sa skoky uskutočnili, keď bol počet zhlukov 7 a 5. Ďalej by sa počet skupín nemal znižovať, pretože to vedie k zníženiu kvality modelu. Po získaní klastrov sa vyberú premenné, ktoré sú najdôležitejšie v ekonomickom zmysle a najviac súvisia s vybraným trhovým kritériom – v tomto prípade s kotáciami zinku na London Metal Exchange. Tento prístup vám umožňuje uložiť významnú časť informácií obsiahnutých v pôvodnom súbore počiatočných indikátorov konjunktúry.

Voľba redaktora
Robert Anson Heinlein je americký spisovateľ. Spolu s Arthurom C. Clarkom a Isaacom Asimovom patrí medzi „veľkú trojku“ zakladateľov...

Letecká doprava: hodiny nudy prerušované chvíľami paniky El Boliska 208 Odkaz na citát 3 minúty na zamyslenie...

Ivan Alekseevič Bunin - najväčší spisovateľ prelomu XIX-XX storočia. Do literatúry vstúpil ako básnik, vytvoril nádherné poetické ...

Tony Blair, ktorý nastúpil do úradu 2. mája 1997, sa stal najmladším šéfom britskej vlády...
Od 18. augusta v ruských kinách tragikomédia „Chlapi so zbraňami“ s Jonahom Hillom a Milesom Tellerom v hlavných úlohách. Film rozpráva...
Tony Blair sa narodil Leovi a Hazel Blairovým a vyrastal v Durhame. Jeho otec bol prominentný právnik, ktorý kandidoval do parlamentu...
HISTÓRIA RUSKA Téma č.12 ZSSR v 30. rokoch industrializácia v ZSSR Industrializácia je zrýchlený priemyselný rozvoj krajiny, v ...
PREDSLOV "... Tak v týchto končinách sme s pomocou Božou dostali nohu, než vám blahoželáme," napísal Peter I. v radosti do Petrohradu 30. augusta...
Téma 3. Liberalizmus v Rusku 1. Vývoj ruského liberalizmu Ruský liberalizmus je originálny fenomén založený na ...