Metode klaster analize. Klaster analiza je algoritam za proučavanje podataka podijeljenih u grupe na temelju sličnih karakteristika


Klaster analiza je

Dobar dan. Poštujem ljude koji obožavaju njihov rad.

Maxim, moj prijatelj, pripada ovoj kategoriji. Konstantno radi s brojevima, analizira ih i izrađuje odgovarajuća izvješća.

Jučer smo zajedno ručali i skoro pola sata pričao mi je o klaster analizi – što je to i u kojim slučajevima je opravdana i primjerena njena primjena. Pa, što sam ja?

Imam dobro pamćenje, pa ću vam sve ove podatke, usput, za koje sam već znao, dati u izvornom i najinformativnijem obliku.

Klaster analiza je dizajnirana da podijeli skup objekata u homogene grupe (klastere ili klase). Ovo je višedimenzionalni problem klasifikacije podataka.

Postoji oko 100 različitih algoritama klasteriranja, no najčešće se koriste hijerarhijska klasterska analiza i k-means klasteriranje.

Gdje se koristi klaster analiza? U marketingu je to segmentacija konkurenata i potrošača.

U menadžmentu: podjela osoblja u grupe različitih razina motivacije, klasifikacija dobavljača, identificiranje sličnih proizvodnih situacija u kojima se javljaju nedostaci.

U medicini - klasifikacija simptoma, bolesnika, lijekova. U sociologiji, podjela ispitanika na homogene skupine. Zapravo, klaster analiza se dobro pokazala u svim sferama ljudskog života.

Ljepota ove metode je u tome što funkcionira čak i kada ima malo podataka i nisu ispunjeni zahtjevi normalnosti distribucija slučajnih varijabli i ostali zahtjevi klasičnih metoda statističke analize.

Objasnimo bit klaster analize bez pribjegavanja strogoj terminologiji:
Recimo da ste proveli anketu među zaposlenicima i želite utvrditi kako najučinkovitije upravljati osobljem.

Odnosno, želite podijeliti zaposlenike u skupine i istaknuti najučinkovitije upravljačke poluge za svaku od njih. Pritom, razlike između skupina trebaju biti očite, a unutar skupine ispitanici trebaju biti što sličniji.

Za rješavanje problema predlaže se korištenje hijerarhijske klaster analize.

Kao rezultat, dobit ćemo stablo, gledajući u koje moramo odlučiti na koliko klasa (klastera) želimo podijeliti osoblje.

Pretpostavimo da odlučimo podijeliti osoblje u tri skupine, a zatim za proučavanje ispitanika koji spadaju u svaki klaster dobit ćemo tablicu približno sljedećeg sadržaja:


Objasnimo kako nastaje gornja tablica. Prvi stupac sadrži broj klastera - grupe čiji se podaci odražavaju u retku.

Na primjer, prvi klaster je 80% muškaraca. 90% prvog klastera spada u dobnu kategoriju od 30 do 50 godina, a 12% ispitanika smatra da su beneficije vrlo važne. I tako dalje.

Pokušajmo napraviti portrete ispitanika iz svakog klastera:

  1. Prvu skupinu čine uglavnom zreli muškarci koji zauzimaju vodeće pozicije. Ne zanima ih socijalni paket (MED, LGOTI, TIME-free time). Radije primaju dobru plaću nego pomoć poslodavca.
  2. Grupa dva, naprotiv, daje prednost socijalnom paketu. Sastoji se uglavnom od “starijih” ljudi koji zauzimaju niske položaje. Plaća im je svakako bitna, ali postoje drugi prioriteti.
  3. Treća skupina je "najmlađa". Za razliku od prethodna dva, evidentan je interes za učenjem i mogućnostima stručnog usavršavanja. Ova kategorija zaposlenika ima dobre šanse uskoro se pridružiti prvoj skupini.

Dakle, kada se planira kampanja za uvođenje učinkovitih metoda upravljanja osobljem, očito je da je u našoj situaciji moguće povećati socijalni paket druge skupine na štetu, primjerice, plaća.

Ako govorimo o tome koje stručnjake treba poslati na obuku, svakako možemo preporučiti da obratite pozornost na treću skupinu.

Izvor: http://www.nickart.spb.ru/analysis/cluster.php

Značajke klaster analize

Klaster je cijena imovine tijekom određenog vremenskog razdoblja tijekom kojeg su obavljene transakcije. Rezultirajući obujam kupnje i prodaje označen je brojem unutar klastera.

Traka bilo kojeg vremenskog okvira obično sadrži nekoliko klastera. To vam omogućuje detaljan pregled obujma kupnje, prodaje i njihovog stanja u svakoj pojedinačnoj traci, na svakoj razini cijena.


Promjena cijene jedne imovine neizbježno povlači za sobom lanac kretanja cijena drugih instrumenata.

Pažnja!

U većini slučajeva, razumijevanje kretanja trenda događa se već u trenutku kada se on brzo razvija, a ulazak na tržište uz trend riskira završiti u valu korekcije.

Za uspješne transakcije morate razumjeti trenutnu situaciju i moći predvidjeti buduća kretanja cijena. To se može naučiti analizom klaster grafa.

Pomoću analize klastera možete vidjeti aktivnost tržišnih sudionika čak i unutar najmanje cjenovne trake. Ovo je najpreciznija i najdetaljnija analiza jer pokazuje raspodjelu točaka obujma transakcija na svakoj razini cijene imovine.

Na tržištu postoji stalni sukob između interesa prodavača i kupaca. I svaki najmanji pomak cijene (tick) je pomak prema kompromisu - razini cijene - koja trenutno odgovara objema stranama.

Ali tržište je dinamično, broj prodavača i kupaca se stalno mijenja. Ako su u jednom trenutku tržištem dominirali prodavači, onda će u sljedećem trenutku vrlo vjerojatno biti kupaca.

Broj izvršenih transakcija na susjednim razinama cijena također nije isti. Pa ipak, prvo se stanje na tržištu očituje u ukupnom volumenu transakcija, a tek onda u cijeni.

Ako vidite radnje dominantnih sudionika na tržištu (prodavača ili kupaca), tada možete predvidjeti samo kretanje cijene.

Da biste uspješno primijenili klaster analizu, prvo morate razumjeti što su klaster i delta.


Klaster je kretanje cijene koje je podijeljeno na razine na kojima su napravljene transakcije s poznatim količinama. Delta pokazuje razliku između kupnje i prodaje u svakom klasteru.

Svaki klaster ili skupina delta omogućuje vam da shvatite dominiraju li kupci ili prodavači tržištem u određenom trenutku.

Dovoljno je samo izračunati ukupnu deltu zbrajanjem prodaje i kupnje. Ako je delta negativna, tada je tržište preprodano i postoje suvišne prodajne transakcije. Kada je delta pozitivna, kupci jasno dominiraju tržištem.

Sama delta može uzeti normalnu ili kritičnu vrijednost. Vrijednost delta volumena iznad normale u klasteru označena je crvenom bojom.

Ako je delta umjerena, tada to karakterizira ravno stanje na tržištu. Uz normalnu delta vrijednost, uočava se kretanje trenda na tržištu, ali kritična vrijednost uvijek je preteča preokreta cijene.

Forex trgovanje pomoću CA

Da biste ostvarili maksimalnu dobit, morate moći odrediti prijelaz delte s umjerene razine na normalnu. Doista, u ovom slučaju možete primijetiti sam početak prijelaza s ravnog na kretanje trenda i moći dobiti najveći profit.

Grafikon klastera je vizualniji; možete vidjeti značajne razine akumulacije i distribucije volumena te izgraditi razine podrške i otpora. To omogućuje trgovcu da pronađe točan ulaz u trgovinu.

Pomoću delte možete procijeniti prevlast prodaje ili kupnje na tržištu. Analiza klastera omogućuje vam promatranje transakcija i praćenje njihovih količina unutar trake bilo kojeg TF-a.

Ovo je posebno važno kada se približavate značajnim razinama podrške ili otpora. Prosudbe klastera ključ su za razumijevanje tržišta.

Izvor: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Područja i značajke primjene klaster analize

Pojam klaster analiza (prvi ga je skovao Tryon, 1939.) zapravo uključuje skup različitih algoritama klasifikacije.

Uobičajeno pitanje koje postavljaju istraživači u mnogim područjima je kako organizirati promatrane podatke u vizualne strukture, tj. proširiti taksonomije.

Prema suvremenom sustavu prihvaćenom u biologiji, ljudi pripadaju primatima, sisavcima, amniotima, kralježnjacima i životinjama.

Imajte na umu da u ovoj klasifikaciji, što je viša razina agregacije, to je manje sličnosti između članova u odgovarajućoj klasi.

Ljudi imaju više sličnosti s drugim primatima (tj. majmunima) nego s "odvojenim" članovima obitelji sisavaca (tj. psima), itd.

Imajte na umu da se prethodna rasprava odnosi na algoritme klasteriranja, ali ne spominje ništa o testiranju statističke značajnosti.

Zapravo, analiza klastera nije toliko obična statistička metoda koliko "skup" različitih algoritama za "distribuciju objekata u klastere".

Postoji stajalište da se, za razliku od mnogih drugih statističkih postupaka, metode klaster analize koriste u većini slučajeva kada nemate nikakvih apriornih hipoteza o klasama, već su još uvijek u deskriptivnoj fazi istraživanja.

Pažnja!

Treba razumjeti da analiza klastera određuje "najvjerojatnije značajno rješenje".

Stoga testiranje statističke značajnosti ovdje nije stvarno primjenjivo, čak ni u slučajevima kada su p-razine poznate (kao u metodi K-srednjih vrijednosti).

Tehnike klasteriranja koriste se u velikom broju područja. Hartigan (1975) je dao izvrstan pregled mnogih objavljenih studija koje sadrže rezultate dobivene metodama klaster analize.

Na primjer, u području medicine, grupiranje bolesti, liječenja bolesti ili simptoma bolesti dovodi do naširoko korištenih taksonomija.

U području psihijatrije, ispravna dijagnoza skupova simptoma kao što su paranoja, shizofrenija itd. ključna je za uspješnu terapiju. U arheologiji, pomoću klaster analize, istraživači pokušavaju uspostaviti taksonomije kamenih alata, pogrebnih predmeta itd.

Postoje raširene primjene klaster analize u marketinškim istraživanjima. Općenito, kad god je potrebno klasificirati “planine” informacija u skupine pogodne za daljnju obradu, klaster analiza pokazuje se vrlo korisnom i učinkovitom.

Grupiranje stabala

Primjer naveden u odjeljku Glavna svrha objašnjava svrhu algoritma klasteriranja stabla.

Svrha ovog algoritma je grupirati objekte (kao što su životinje) u dovoljno velike skupine koristeći neku mjeru sličnosti ili udaljenosti između objekata. Tipičan rezultat takvog klasteriranja je hijerarhijsko stablo.

Razmotrimo horizontalni dijagram stabla. Dijagram počinje svakim objektom u klasi (na lijevoj strani dijagrama).

Sada zamislite da postupno (u vrlo malim koracima) "opuštate" svoj kriterij o tome koji su objekti jedinstveni, a koji nisu.

Drugim riječima, snižavate prag koji se odnosi na odluku o kombiniranju dva ili više objekata u jedan klaster.

Kao rezultat toga, povezujete sve više i više objekata zajedno i agregirate (kombinirate) sve više i više klastera koji se sastoje od sve više različitih elemenata.

Konačno, u zadnjem koraku, svi objekti se kombiniraju. U ovim dijagramima, vodoravne osi predstavljaju udaljenost spajanja (u dijagramima okomitog stabla, okomite osi predstavljaju udaljenost spajanja).

Dakle, za svaki čvor na grafikonu (gdje se formira novi klaster), možete vidjeti vrijednost udaljenosti za koju su odgovarajući elementi povezani u novi pojedinačni klaster.

Kada podaci imaju jasnu "strukturu" u smislu klastera objekata koji su slični jedni drugima, tada će se ta struktura vjerojatno odražavati u hijerarhijskom stablu po različitim granama.

Kao rezultat uspješne analize metodom spajanja, moguće je otkriti klastere (grane) i interpretirati ih.

Metoda spajanja ili stabla klasteriranja koristi se za formiranje klastera različitosti ili udaljenosti između objekata. Te se udaljenosti mogu definirati u jednodimenzionalnom ili višedimenzionalnom prostoru.

Na primjer, ako biste grupirali vrste hrane u kafiću, mogli biste uzeti u obzir broj kalorija koje sadrži, cijenu, subjektivnu ocjenu okusa itd.

Najizravniji način izračuna udaljenosti između objekata u višedimenzionalnom prostoru je izračunavanje euklidskih udaljenosti.

Ako imate dvodimenzionalni ili trodimenzionalni prostor, tada je ova mjera stvarna geometrijska udaljenost između objekata u prostoru (kao da su udaljenosti između objekata izmjerene metrom).

Međutim, algoritam udruživanja ne "brine" jesu li udaljenosti "osigurane" za tu udaljenost stvarne ili neka druga izvedena mjera udaljenosti, koja je značajnija za istraživača; a izazov za istraživače je odabrati pravu metodu za specifične primjene.

Euklidska udaljenost.Čini se da je ovo najčešći tip udaljenosti. To je jednostavno geometrijska udaljenost u višedimenzionalnom prostoru i izračunava se na sljedeći način:

Imajte na umu da se euklidska udaljenost (i njezin kvadrat) izračunava iz izvornih podataka, a ne iz standardiziranih podataka.

Ovo je uobičajeni način izračunavanja, koji ima određene prednosti (na primjer, udaljenost između dva objekta ne mijenja se kada se novi objekt uvede u analizu, što može biti outlier).

Pažnja!

Međutim, na udaljenosti mogu uvelike utjecati razlike između osi s kojih se udaljenosti izračunavaju. Na primjer, ako se jedna od osi mjeri u centimetrima, a zatim je pretvorite u milimetre (množenjem vrijednosti s 10), tada će se konačna euklidska udaljenost (ili kvadrat euklidske udaljenosti) izračunata iz koordinata promijeniti uvelike, pa se zbog toga rezultati klaster analize mogu uvelike razlikovati od prethodnih.

Euklidska udaljenost na kvadrat. Ponekad ćete možda htjeti kvadrirati standardnu ​​euklidsku udaljenost kako biste dali veću težinu objektima koji su međusobno udaljeniji.

Ova se udaljenost izračunava na sljedeći način:

Udaljenost gradskih blokova (udaljenost Manhattana). Ova udaljenost je jednostavno prosjek razlika u koordinatama.

U većini slučajeva ova mjera udaljenosti daje iste rezultate kao i obična euklidska udaljenost.

Međutim, napominjemo da je za ovu mjeru utjecaj pojedinačnih velikih razlika (outliers) smanjen (budući da nisu kvadrirani). Udaljenost Manhattana izračunava se pomoću formule:

Čebiševljeva udaljenost. Ova udaljenost može biti korisna kada se dva objekta žele definirati kao "različita" ako se razlikuju u bilo kojoj koordinati (u bilo kojoj dimenziji). Čebiševljeva udaljenost izračunava se pomoću formule:

Udaljenost snage. Ponekad se želi progresivno povećati ili smanjiti težinu koja se odnosi na dimenziju za koju su odgovarajući objekti vrlo različiti.

To se može postići pomoću zakona snage udaljenosti. Udaljenost snage izračunava se pomoću formule:

gdje su r i p korisnički definirani parametri. Nekoliko primjera izračuna može pokazati kako ova mjera "radi".

Parametar p odgovoran je za postupno ponderiranje razlika duž pojedinačnih koordinata, parametar r odgovoran je za postupno ponderiranje velikih udaljenosti između objekata. Ako su oba parametra r i p jednaka dva, tada se ta udaljenost poklapa s euklidskom udaljenošću.

Postotak neslaganja. Ova mjera se koristi kada su podaci kategorički. Ta se udaljenost izračunava po formuli:

Pravila pridruživanja ili povezivanja

U prvom koraku, kada je svaki objekt zaseban klaster, udaljenosti između tih objekata određuju se odabranom mjerom.

Međutim, kada je više objekata povezano zajedno, postavlja se pitanje kako odrediti udaljenosti između klastera?

Drugim riječima, potrebno je pravilo unije ili povezivanja za dva klastera. Ovdje postoje razne mogućnosti: na primjer, možete povezati dva klastera zajedno kada su bilo koja dva objekta u dva klastera bliže jedan drugome od odgovarajuće udaljenosti veze.

Drugim riječima, koristite "pravilo najbližeg susjeda" za određivanje udaljenosti između klastera; ova metoda se naziva metoda jedne veze.

Ovo pravilo gradi “vlaknaste” nakupine, tj. klasteri "međusobno povezani" samo pojedinačnim elementima koji su slučajno najbliži jedni drugima.

Alternativno, možete koristiti susjede u klasterima koji su najudaljeniji jedan od drugog po svim ostalim parovima objekata. Ova metoda se naziva metoda pune veze.

Postoje i mnoge druge metode za kombiniranje klastera slične onima o kojima smo raspravljali.

Jedna veza (metoda najbližeg susjeda). Kao što je gore opisano, u ovoj metodi udaljenost između dva klastera određena je udaljenošću između dva najbliža objekta (najbližih susjeda) u različitim klasterima.

Ovo pravilo mora, u određenom smislu, nizati objekte zajedno da formiraju klastere, a rezultirajući klasteri imaju tendenciju da budu predstavljeni dugim "lancima".

Puna veza (metoda najudaljenijih susjeda). U ovoj metodi, udaljenosti između klastera određene su najvećom udaljenošću između bilo koja dva objekta u različitim klasterima (tj. "najudaljenijim susjedima").

Neponderirani prosjek po parovima. U ovoj se metodi udaljenost između dva različita klastera izračunava kao prosječna udaljenost između svih parova objekata u njima.

Metoda je učinkovita kada objekti zapravo tvore različite "šumice", ali jednako dobro radi u slučajevima proširenih ("lančanog" tipa) klastera.

Imajte na umu da u svojoj knjizi Sneath i Sokal (1973.) uvode kraticu UPGMA kako bi ovu metodu označili kao metodu neponderirane grupe parova koja koristi aritmetičke prosjeke.

Ponderirani prosjek po parovima. Metoda je identična metodi neponderiranog prosjeka po paru, osim što se veličina odgovarajućih klastera (to jest, broj objekata koje sadrže) koristi kao faktor težine u izračunima.

Stoga bi se predložena metoda trebala koristiti (a ne prethodna) kada se pretpostavljaju nejednake veličine klastera.

Knjiga autora Sneatha i Sokala (1973.) uvodi akronim WPGMA koji označava ovu metodu kao metodu ponderirane grupe parova koja koristi aritmetičke prosjeke.

Metoda neponderiranog centroida. U ovoj metodi, udaljenost između dva klastera definirana je kao udaljenost između njihovih težišta.

Pažnja!

Sneath i Sokal (1973.) koriste akronim UPGMC kako bi ovu metodu označili kao metodu neponderirane grupe parova koja koristi prosjek središta.

Metoda ponderiranog težišta (medijan). Ova metoda je identična prethodnoj, osim što se u izračunima koriste težine kako bi se uzela u obzir razlika između veličina klastera (tj. broja objekata u njima).

Stoga, ako postoje (ili se sumnja) značajne razlike u veličinama klastera, ova je metoda poželjnija od prethodne.

Sneath i Sokal (1973.) upotrijebili su kraticu WPGMC da bi je označili kao metodu ponderirane grupe parova koristeći prosjek središta.

Wardova metoda. Ova se metoda razlikuje od svih ostalih jer koristi tehnike analize varijance za procjenu udaljenosti između klastera.

Metoda minimizira zbroj kvadrata (SS) za bilo koja dva (hipotetska) klastera koja se mogu formirati u svakom koraku.

Pojedinosti se mogu naći u Ward (1963). Općenito, metoda se čini vrlo učinkovitom, ali ima tendenciju stvaranja malih klastera.

O ovoj se metodi ranije raspravljalo u smislu "objekata" koje je potrebno grupirati. U svim drugim vrstama analiza, pitanje od interesa za istraživača obično se izražava u terminima opažanja ili varijabli.

Ispostavilo se da grupiranje, kako prema opažanjima tako i prema varijablama, može dovesti do vrlo zanimljivih rezultata.

Na primjer, zamislite da medicinski istraživač prikuplja podatke o različitim karakteristikama (varijablama) stanja (slučajeva) pacijenata koji pate od bolesti srca.

Istraživač može htjeti grupirati opažanja (pacijente) kako bi identificirao skupine pacijenata sa sličnim simptomima.

U isto vrijeme, istraživač može htjeti klasterirati varijable kako bi identificirao klastere varijabli koje su povezane sa sličnim fizičkim uvjetima.e

Nakon ove rasprave o tome treba li grupirati opažanja ili varijable, netko bi se mogao zapitati zašto ne grupirati u oba smjera?

Modul Cluster Analysis sadrži učinkovitu dvosmjernu rutinu spajanja koja vam omogućuje upravo to.

Međutim, dvosmjerno udruživanje koristi se (relativno rijetko) u okolnostima u kojima se očekuje da će i opažanja i varijable istovremeno pridonijeti otkrivanju smislenih klastera.

Stoga, vraćajući se na prethodni primjer, možemo pretpostaviti da medicinski istraživač treba identificirati klastere pacijenata koji su slični u odnosu na određene klastere karakteristika fizičkog stanja.

Poteškoće u tumačenju dobivenih rezultata proizlaze iz činjenice da sličnosti između različitih klastera mogu proizaći iz (ili biti uzrok) nekih razlika u podskupovima varijabli.

Stoga su dobiveni klasteri heterogene prirode. Ovo se u početku može činiti malo nejasnim; zapravo, u usporedbi s drugim opisanim metodama analize klastera, dvosmjerno spajanje je vjerojatno metoda koja se rjeđe koristi.

Međutim, neki istraživači vjeruju da ona nudi moćno sredstvo istraživačke analize podataka (za više informacija pogledajte Hartiganov (1975) opis ove metode).

K znači metoda

Ova metoda klasteriranja značajno se razlikuje od takvih aglomerativnih metoda kao što su Union (stablo klasteriranja) i dvosmjerna unija. Pretpostavimo da već imate hipoteze o broju klastera (na temelju opažanja ili varijabli).

Možete reći sustavu da formira točno tri klastera tako da budu što je moguće više različiti.

To je upravo tip problema koji algoritam K-means rješava. Općenito, metoda K-means gradi točno K različitih klastera smještenih na najvećim mogućim udaljenostima jedan od drugog.

U primjeru fizičkog stanja, medicinski istraživač može imati "predosjećaj" iz svog kliničkog iskustva da njegovi pacijenti općenito spadaju u tri različite kategorije.

Pažnja!

Ako je to slučaj, tada će prosjeci različitih mjera fizičkih parametara za svaki klaster pružiti kvantitativni način predstavljanja istraživačevih hipoteza (npr. pacijenti u klasteru 1 imaju visok parametar 1, nizak parametar 2, itd.) .

S računalne točke gledišta, ovu metodu možete zamisliti kao obrnutu analizu varijance. Program počinje s K nasumično odabranih klastera i zatim mijenja članstvo objekata u njima tako da:

  1. minimizirati varijabilnost unutar klastera,
  2. maksimizirati varijabilnost između klastera.

Ova je metoda slična obrnutoj ANOVA-i po tome što test značajnosti u ANOVA-i uspoređuje varijabilnost između grupa i unutar grupa u testiranju hipoteze da se srednje vrijednosti grupe razlikuju jedna od druge.

U klasteriranju K-srednjih vrijednosti, program premješta objekte (tj. opažanja) iz jedne grupe (klastera) u drugu kako bi se dobio najznačajniji rezultat prilikom provođenja analize varijance (ANOVA).

Tipično, kada se dobiju rezultati analize klastera K-srednjih vrijednosti, srednje vrijednosti za svaki klaster duž svake dimenzije mogu se izračunati kako bi se procijenilo koliko se klasteri međusobno razlikuju.

U idealnom slučaju, trebali biste dobiti vrlo različite srednje vrijednosti za većinu, ako ne i sva, mjerenja korištena u analizi.

Izvor: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Klasifikacija objekata prema njihovim karakteristikama

Klaster analiza je skup višedimenzionalnih statističkih metoda za klasificiranje objekata prema karakteristikama koje ih karakteriziraju, dijeljenje skupa objekata u homogene skupine koje su slične po definiranju kriterija te identificiranje objekata određene skupine.

Klaster je skupina objekata identificiranih kao rezultat analize klastera na temelju zadane mjere sličnosti ili razlika između objekata.

Objekt – to su specifični objekti istraživanja koje je potrebno klasificirati. Objekti klasifikacije su u pravilu opažanja. Na primjer, potrošači proizvoda, zemlje ili regije, proizvodi itd.

Iako je moguće provesti klaster analizu po varijablama. Klasifikacija objekata u višedimenzionalnoj klaster analizi odvija se prema nekoliko kriterija istovremeno.

To mogu biti kvantitativne ili kategoričke varijable, ovisno o metodi klaster analize. Dakle, glavni cilj klaster analize je pronaći grupe sličnih objekata u uzorku.

Skup multivarijatnih statističkih metoda klaster analize može se podijeliti na hijerarhijske (aglomerativne i divizijske) i nehijerarhijske (k-means metoda, dvostupanjska klaster analiza).

Međutim, ne postoji općeprihvaćena klasifikacija metoda, a metode klaster analize ponekad uključuju i metode za konstrukciju stabala odlučivanja, neuronske mreže, diskriminantnu analizu i logističku regresiju.

Područje primjene klaster analize je, zbog svoje svestranosti, vrlo široko. Klaster analiza se koristi u ekonomiji, marketingu, arheologiji, medicini, psihologiji, kemiji, biologiji, javnoj upravi, filologiji, antropologiji, sociologiji i drugim područjima.

Evo nekoliko primjera korištenja klaster analize:

  • medicina – klasifikacija bolesti, njihovi simptomi, metode liječenja, klasifikacija skupina bolesnika;
  • marketing - zadaci optimizacije linije proizvoda tvrtke, segmentiranje tržišta prema grupama roba ili potrošača, identificiranje potencijalnih potrošača;
  • sociologija – podjela ispitanika na homogene skupine;
  • psihijatrija – pravilna dijagnoza skupine simptoma odlučujuća je za uspješnu terapiju;
  • biologija - klasifikacija organizama po skupinama;
  • ekonomija – klasifikacija subjekata Ruske Federacije prema atraktivnosti ulaganja.

Izvor: http://www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

Razumijevanje klaster analize

Klaster analiza uključuje skup različitih algoritama klasifikacije. Uobičajeno pitanje koje postavljaju istraživači u mnogim područjima je kako organizirati promatrane podatke u vizualne strukture.

Na primjer, biolozi imaju za cilj klasificirati životinje u različite vrste kako bi smisleno opisali razlike među njima.

Zadatak klaster analize je podijeliti početni skup objekata u grupe sličnih objekata koji su blizu jedni drugima. Te se skupine nazivaju klasteri.

Drugim riječima, klaster analiza je jedan od načina klasifikacije objekata prema njihovim karakteristikama. Poželjno je da rezultati klasifikacije imaju smislenu interpretaciju.

Rezultati dobiveni metodama klaster analize koriste se u raznim područjima. U marketingu je to segmentacija konkurenata i potrošača.

U psihijatriji je za uspješnu terapiju odlučujuća ispravna dijagnoza simptoma poput paranoje, shizofrenije itd.

U menadžmentu je važno klasificirati dobavljače i identificirati slične proizvodne situacije u kojima se pojavljuju nedostaci. U sociologiji, podjela ispitanika na homogene skupine. U portfeljnom ulaganju važno je grupirati vrijednosne papire prema sličnosti u trendovima profitabilnosti kako bi se, na temelju informacija dobivenih o tržištu dionica, stvorio optimalan investicijski portfelj koji vam omogućuje maksimiziranje povrata ulaganja uz određeni stupanj rizika.

Općenito, kad god je potrebno klasificirati veliku količinu informacija ove vrste i prikazati ih u obliku pogodnom za daljnju obradu, klaster analiza se pokazuje vrlo korisnom i učinkovitom.

Klasterska analiza omogućuje vam da razmotrite prilično veliku količinu informacija i uvelike komprimirate velike količine socioekonomskih informacija, čineći ih kompaktnima i vizualnima.

Pažnja!

Klaster analiza je od velike važnosti u odnosu na skupove vremenskih serija koje karakteriziraju ekonomski razvoj (na primjer, opći ekonomski i robni uvjeti).

Ovdje možete istaknuti razdoblja kada su vrijednosti odgovarajućih pokazatelja bile prilično blizu, a također možete odrediti skupine vremenskih serija čija je dinamika najsličnija.

U zadacima socio-ekonomskog predviđanja kombinacija klaster analize s drugim kvantitativnim metodama (na primjer, regresijska analiza) vrlo je obećavajuća.

Prednosti i nedostatci

Klaster analiza omogućuje objektivnu klasifikaciju bilo kojih objekata koji se odlikuju nizom karakteristika. Brojne su koristi koje se mogu izvući iz ovoga:

  1. Dobiveni klasteri mogu se interpretirati, odnosno mogu opisati koje grupe zapravo postoje.
  2. Pojedinačni klasteri se mogu odbaciti. Ovo je korisno u slučajevima kada su prilikom prikupljanja podataka napravljene određene pogreške, zbog čega vrijednosti pokazatelja za pojedine objekte naglo odstupaju. Primjenom klaster analize takvi objekti spadaju u zaseban klaster.
  3. Samo oni klasteri koji imaju karakteristike od interesa mogu se odabrati za daljnju analizu.

Kao i svaka druga metoda, klaster analiza ima određene nedostatke i ograničenja. Konkretno, sastav i broj klastera ovisi o odabranim kriterijima dijeljenja.

Prilikom smanjenja izvornog niza podataka u kompaktniji oblik, mogu se pojaviti određena izobličenja, a pojedinačne značajke pojedinačnih objekata mogu se izgubiti zbog njihove zamjene karakteristikama generaliziranih vrijednosti parametara klastera.

Metode

Trenutno je poznato više od stotinu različitih algoritama klasteriranja. Njihova se raznolikost objašnjava ne samo različitim računalnim metodama, već i različitim konceptima na kojima se temelji klasteriranje.

Sljedeće metode klasteriranja implementirane su u paketu Statistica.

  • Hijerarhijski algoritmi - grupiranje stabala. Hijerarhijski algoritmi temelje se na ideji sekvencijalnog grupiranja. U početnom koraku svaki objekt se smatra zasebnim klasterom. U sljedećem koraku, neki od klastera koji su najbliži jedan drugome spojit će se u zaseban klaster.
  • Metoda K-značenja. Ova metoda se najčešće koristi. Spada u skupinu tzv. referentnih metoda klaster analize. Broj klastera K određuje korisnik.
  • Kombiniranje s dva ulaza. Pri korištenju ove metode klasteriranje se provodi istovremeno i po varijablama (stupci) i po opažanjima (retci).

Dvosmjerni postupak udruživanja koristi se u slučajevima kada se može očekivati ​​da će istovremeno grupiranje varijabli i opažanja proizvesti značajne rezultate.

Rezultati postupka su deskriptivna statistika za varijable i opažanja, kao i dvodimenzionalni grafikon u boji u kojem su vrijednosti podataka označene bojama.

Na temelju distribucije boja možete dobiti ideju o homogenim skupinama.

Normalizacija varijabli

Podjela početnog skupa objekata u klastere uključuje izračunavanje udaljenosti između objekata i odabir objekata čija je udaljenost najmanja od svih mogućih.

Najčešće se koristi euklidska (geometrijska) udaljenost koja nam je svima poznata. Ova metrika odgovara intuitivnim idejama o blizini objekata u prostoru (kao da se udaljenosti između objekata mjere metrom).

Ali za danu metriku, na udaljenost između objekata mogu uvelike utjecati promjene u mjerilima (mjerne jedinice). Na primjer, ako se jedna od značajki mjeri u milimetrima, a zatim se njezina vrijednost pretvori u centimetre, euklidska udaljenost između objekata uvelike će se promijeniti. To će dovesti do činjenice da se rezultati klaster analize mogu značajno razlikovati od prethodnih.

Ako se varijable mjere u različitim mjernim jedinicama, tada je potrebna njihova prethodna normalizacija, odnosno transformacija izvornih podataka koja ih pretvara u bezdimenzionalne veličine.

Normalizacija uvelike iskrivljuje geometriju izvornog prostora, što može promijeniti rezultate klasteriranja

U paketu Statistica normalizacija bilo koje varijable x izvodi se pomoću formule:

Da biste to učinili, kliknite desnom tipkom miša na naziv varijable i odaberite niz naredbi u izborniku koji se otvori: Ispuni/ Standardiziraj blok/ Standardiziraj stupce. Vrijednosti normalizirane varijable postat će jednake nuli, a varijanca će postati jednaka jedinici.

Metoda K-means u programu Statistica

Metoda K-means dijeli skup objekata u zadani broj K različitih klastera smještenih na najvećim mogućim udaljenostima jedan od drugog.

Tipično, kada se dobiju rezultati analize klastera K-srednjih vrijednosti, srednje vrijednosti za svaki klaster duž svake dimenzije mogu se izračunati kako bi se procijenilo koliko se klasteri međusobno razlikuju.

U idealnom slučaju, trebali biste dobiti široko različite srednje vrijednosti za većinu mjerenja korištenih u analizi.

Vrijednosti F-statistike dobivene za svaku dimenziju još su jedan pokazatelj koliko dobro odgovarajuća dimenzija razlikuje klastere.

Kao primjer, razmotrite rezultate ankete 17 zaposlenika poduzeća o zadovoljstvu pokazateljima kvalitete njihove karijere. U tablici su dati odgovori na anketna pitanja na skali od deset stupnjeva (1 je minimalna ocjena, 10 je maksimalna).

Nazivi varijabli odgovaraju odgovorima na sljedeća pitanja:

  1. SLC – kombinacija osobnih ciljeva i organizacijskih ciljeva;
  2. OSO – osjećaj pravednosti u nagrađivanju;
  3. TBD - teritorijalna blizina doma;
  4. OEB – osjećaj ekonomskog blagostanja;
  5. KR – rast karijere;
  6. JSR – želja za promjenom posla;
  7. RSD – osjećaj društvenog blagostanja.

Koristeći te podatke, potrebno je podijeliti zaposlenike u skupine i identificirati najučinkovitije upravljačke poluge za svaku od njih.

Pritom, razlike između skupina trebaju biti očite, a unutar skupine ispitanici trebaju biti što sličniji.

Danas većina socioloških istraživanja daje samo postotak glasova: uzima se u obzir glavnina onih koji su pozitivno odgovorili ili postotak onih koji su bili nezadovoljni, ali se to pitanje ne razmatra sustavno.

Najčešće anketa ne pokazuje trend stanja. U nekim slučajevima potrebno je ne računati broj ljudi koji su “za” ili “protiv”, već distancu, odnosno mjeru sličnosti, odnosno odrediti skupine ljudi koji misle približno isto.

Postupci klaster analize mogu se koristiti za identifikaciju, na temelju anketnih podataka, nekih stvarno postojećih odnosa karakteristika i generiranje njihove tipologije na temelju toga.

Pažnja!

Prisutnost bilo kakvih apriornih hipoteza sociologa pri radu s postupcima klaster analize nije nužan uvjet.

U Statistici se analiza klastera provodi na sljedeći način.

Prilikom odabira broja klastera vodite se sljedećim: broj klastera, ako je moguće, ne smije biti prevelik.

Udaljenost na kojoj su objekti danog klastera ujedinjeni trebala bi, ako je moguće, biti puno manja od udaljenosti na kojoj se nešto drugo pridružuje ovom klasteru.

Kod odabira broja klastera najčešće postoji nekoliko točnih rješenja u isto vrijeme.

Zanima nas, primjerice, kakva je usporedba odgovora na anketna pitanja između običnih zaposlenika i menadžmenta poduzeća. Stoga biramo K=2. Za daljnju segmentaciju možete povećati broj klastera.

  1. odaberite opažanja s maksimalnom udaljenošću između središta klastera;
  2. sortiranje udaljenosti i odabir opažanja u pravilnim intervalima (zadana postavka);
  3. uzmite prva zapažanja kao središta i na njih pričvrstite preostale objekte.

Za naše potrebe prikladna je opcija 1).

Mnogi algoritmi klasteriranja često "nameću" neprirodnu strukturu podataka i dezorijentiraju istraživača. Stoga je iznimno potrebno primijeniti nekoliko algoritama klaster analize i donijeti zaključke na temelju ukupne procjene rezultata algoritama.

Rezultati analize mogu se vidjeti u dijaloškom okviru koji se pojavi:

Ako odaberete karticu Graf srednjih vrijednosti, izgradit će se grafikon koordinata središta klastera:


Svaka isprekidana linija u ovom grafikonu odgovara jednom od klastera. Svaka podjela na vodoravnoj osi grafikona odgovara jednoj od varijabli uključenih u analizu.

Okomita os odgovara prosječnim vrijednostima varijabli za objekte uključene u svaki od klastera.

Može se primijetiti da postoje značajne razlike u stavu dviju skupina ljudi prema njihovoj karijeri po gotovo svim pitanjima. O samo jednom pitanju – osjećaju društvenog blagostanja (SSW), odnosno njegovom nedostatku (2,5 boda od 10) postoji potpuno jedinstvo.

Možemo pretpostaviti da klaster 1 predstavlja radnike, a klaster 2 predstavlja menadžment. Menadžeri su zadovoljniji razvojem karijere (CG), kombinacijom osobnih ciljeva i organizacijskih ciljeva (CLO).

Imaju više razine percipiranog ekonomskog blagostanja (SEW) i percipirane pravednosti plaća (SPE).

Manje su zabrinuti zbog teritorijalne blizine doma (TPH) od radnika, vjerojatno zbog manje problema s prijevozom. Također, menadžeri imaju manju želju za promjenom posla (JSR).

Unatoč činjenici da su radnici podijeljeni u dvije kategorije, na većinu pitanja odgovaraju relativno jednako. Drugim riječima, ako nešto ne odgovara općoj skupini zaposlenika, isto ne odgovara višem menadžmentu i obrnuto.

Koordinacija rasporeda omogućuje nam izvlačenje zaključaka da se dobrobit jedne grupe odražava na dobrobit druge.

Klaster 1 nije zadovoljan teritorijalnom blizinom doma. Ova grupa je većina radnika koji uglavnom dolaze u poduzeće iz različitih dijelova grada.

Stoga je moguće glavnoj upravi predložiti da dio dobiti namijeni izgradnji stanova za zaposlenike tvrtke.

Postoje značajne razlike u odnosu dviju skupina ljudi prema svojim karijerama. Oni zaposlenici koji su zadovoljni razvojem svoje karijere, koji imaju visoku razinu slaganja osobnih ciljeva s ciljevima organizacije, nemaju želju mijenjati posao i osjećaju se zadovoljni rezultatima svog rada.

Nasuprot tome, navedenim pokazateljima nisu zadovoljni zaposlenici koji žele promijeniti posao, a nezadovoljni su rezultatima svoga rada. Više rukovodstvo treba posvetiti posebnu pozornost trenutnoj situaciji.

Rezultati analize varijance za svako obilježje prikazuju se klikom na gumb Analiza varijance.

Prikazuju se zbroj kvadrata odstupanja objekata od centara klastera (SS Within) i zbroj kvadrata odstupanja između centara klastera (SS Between), F-statističke vrijednosti i p razine značajnosti.

Pažnja!

Za naš primjer, razine značajnosti za dvije varijable su prilično velike, što se objašnjava malim brojem promatranja. U punoj verziji studije, koja se nalazi u radu, hipoteza o jednakosti sredina za centre klastera odbacuje se na razinama značajnosti manjim od 0,01.

Gumb Spremi klasifikacije i udaljenosti prikazuje broj objekata uključenih u svaki klaster i udaljenosti objekata do središta svakog klastera.

Tablica prikazuje brojeve promatranja (CASE_NO), sastavne klastere s brojevima CLUSTER i udaljenost od središta svakog klastera (DISTANCE).

Informacije o objektima koji pripadaju klasterima mogu se zapisati u datoteku i koristiti u daljnjoj analizi. U ovom primjeru, usporedba rezultata dobivenih upitnicima pokazala je da se klaster 1 sastoji uglavnom od običnih radnika, a klaster 2 od menadžera.

Stoga se može primijetiti da se pri obradi rezultata ankete klaster analiza pokazala moćnom metodom koja nam omogućuje izvlačenje zaključaka do kojih se ne može doći konstruiranjem histograma prosjeka ili izračunavanjem postotka ljudi zadovoljnih različitim pokazateljima kvaliteta radnog života.

Grupiranje u stablo je primjer hijerarhijskog algoritma, čiji je princip sekvencijalno spajanje u klaster, najprije najbližih, a zatim sve udaljenijih elemenata međusobno.

Većina ovih algoritama polazi od matrice sličnosti (udaljenosti), a svaki pojedini element se najprije smatra zasebnim klasterom.

Nakon učitavanja modula za analizu klastera i odabira Spajanje (klasterizacija stabla), u prozoru za unos parametara klasteriranja možete promijeniti sljedeće parametre:

  • Početni podaci (Ulaz). Mogu biti u obliku matrice podataka koji se proučavaju (Raw data) i u obliku matrice udaljenosti (Distance matrix).
  • Grupiranje opažanja (slučajevi (neobrađeno)) ili varijabli (varijable (stupci)) koje opisuju stanje objekta.
  • Mjera udaljenosti. Ovdje možete odabrati sljedeće mjere: euklidske udaljenosti, euklidske udaljenosti na kvadrat, udaljenost gradskih blokova (Manhattan), metrička udaljenost Chebycheva, udaljenost snage ...), postotak neslaganja.
  • Metoda klasteriranja (pravilo amalgamacije (veze)). Ovdje su moguće sljedeće opcije: Pojedinačno povezivanje, Potpuno povezivanje, Neponderirani prosjek para-grupe, Ponderirani prosjek para-grupe), neponderirani centroid para-grupe, ponderirani centroid para-grupe (medijan), Wardova metoda.

Kao rezultat grupiranja konstruira se horizontalni ili vertikalni dendrogram - grafikon na kojem se udaljenosti između objekata i klastera određuju kada se sekvencijalno kombiniraju.

Struktura stabla grafa omogućuje vam definiranje klastera ovisno o odabranom pragu - određenoj udaljenosti između klastera.

Osim toga, prikazuje se matrica udaljenosti između originalnih objekata (Distance matrix); prosječne i standardne devijacije za svaki izvorni objekt (distiptivna statistika).

Za razmatrani primjer provest ćemo klastersku analizu varijabli sa zadanim postavkama. Dobiveni dendrogram prikazan je na slici.


Vertikalna os dendrograma prikazuje udaljenosti između objekata i između objekata i klastera. Dakle, udaljenost između varijabli OEB i OSD je pet. U prvom koraku ove se varijable spajaju u jedan klaster.

Horizontalni segmenti dendrograma nacrtani su na razinama koje odgovaraju vrijednostima udaljenosti praga odabranim za određeni korak grupiranja.

Grafikon pokazuje da pitanje „želja za promjenom posla“ (WSW) čini poseban klaster. Općenito, želja za odlaskom bilo gdje posjećuje sve podjednako. Sljedeći, zaseban klaster je pitanje teritorijalne blizine doma (TDP).

Po važnosti je na drugom mjestu, što potvrđuje zaključak o potrebi stambene izgradnje donesen na temelju rezultata istraživanja metodom K-means.

Kombiniraju se percepcija ekonomskog blagostanja (SEW) i jednakost plaća (WFE) - ovo je blok ekonomskih pitanja. Također se kombiniraju razvoj karijere (CR) i kombinacija osobnih i organizacijskih ciljeva (LOG).

Ostale metode grupiranja, kao i izbor drugih vrsta udaljenosti, ne dovode do značajne promjene u dendrogramu.

Rezultati:

  1. Klaster analiza moćan je alat za istraživačku analizu podataka i statističko istraživanje u bilo kojem predmetnom području.
  2. Program Statistica implementira i hijerarhijske i strukturne metode klaster analize. Prednosti ovog statističkog paketa proizlaze iz njihovih grafičkih mogućnosti. Daju se dvodimenzionalni i trodimenzionalni grafički prikazi rezultirajućih klastera u prostoru proučavanih varijabli, kao i rezultati hijerarhijskog postupka grupiranja objekata.
  3. Potrebno je primijeniti nekoliko algoritama klaster analize i donijeti zaključke na temelju ukupne ocjene rezultata algoritama.
  4. Analiza klastera može se smatrati uspješnom ako se provodi na različite načine, rezultati se uspoređuju i pronalaze opći obrasci te se pronalaze stabilni klasteri bez obzira na metodu klasteriranja.
  5. Klaster analiza vam omogućuje da identificirate problematične situacije i ocrtate načine za njihovo rješavanje. Stoga se ova metoda neparametarske statistike može smatrati sastavnim dijelom analize sustava.

10.1.1 Osnovni pojmovi.

Neka se skup prouči objekata, od kojih je svaki karakteriziran izmjereni znakovi. Potrebno je ovu populaciju podijeliti u grupe koje su u određenom smislu homogene. Istodobno, praktički nema apriornih informacija o prirodi distribucije -dimenzionalni vektor
unutar razreda.
Dobivene grupe obično se nazivaju klasteri (svojte, slike), metode za njihovo pronalaženje - analiza klastera(numerička taksonomija ili samoučeće prepoznavanje uzoraka).

Rješenje problema je odrediti prirodnu stratifikaciju rezultata opažanja u jasno definirane klastere koji leže na određenoj udaljenosti jedan od drugog. (Može se ispostaviti da mnoga opažanja ne pokazuju prirodnu stratifikaciju u klastere, tj. da tvore jedan klaster).

Uobičajeni oblik predstavljanja početnih podataka u problemima klaster analize je matrica

,

od kojih svaka linija predstavlja rezultate mjerenja karakteristike koje se razmatraju u jednom od objekata.

Grupiranje namijenjen je dijeljenju skupa objekata u homogene skupine ( klasteri odnosno klase). Ako su uzorci podataka predstavljeni kao točke u prostoru značajki, onda je problem grupiranje svodi se na definiciju "koncentracije točaka".

Koncept klastera prevodi se kao "grozd", "hrpa". Sinonimi za pojam "grupiranje" su "automatsko razvrstavanje", "učenje bez nadzora" i "taksonomija".

Svrha klasteriranja je traženje postojećih struktura. Grupiranje je opisni postupak, ne donosi nikakve statističke zaključke, ali pruža priliku za provođenje eksplorativne analize i proučavanje "strukture podataka". Klase nisu unaprijed definirane, traže se najsličnije, homogene skupine. Klaster se može okarakterizirati kao grupa objekata koji imaju zajednička svojstva.

Karakteristike klastera mogu se opisati kao dvije:

    unutarnja homogenost;

    vanjska izolacija.

Klasteri mogu biti disjunktni, ili isključivi (nepreklapajući, isključivi), i preklapajući. Shematski prikaz klastera koji se ne preklapaju i koji se sijeku dan je na slici. 10.1.

Riža. 10.1 Razdvojeni i preklapajući klasteri

Pojam "analiza klastera", koji je prvi uveo Tryon 1939., kombinira više od 100 različitih algoritama.

Za razliku od problema klasifikacije, analiza klastera ne zahtijeva apriorne pretpostavke o skupu podataka, ne nameće ograničenja na reprezentaciju objekata koji se proučavaju i omogućuje analizu pokazatelja različitih vrsta podataka (intervalni podaci, frekvencije, binarni podaci) . Mora se imati na umu da se varijable moraju mjeriti na usporedivim ljestvicama.

10.1.2 Karakteristike klastera

Klaster ima sljedeće matematičke karakteristike: centar, radijus, standardnu ​​devijaciju, veličinu klastera.

Svaki populacijski objekt u analizi klastera smatra se točkom u danom prostoru obilježja. Vrijednost svakog od atributa dane jedinice služi kao njezina koordinata u tom prostoru.

Središte klastera je geometrijska sredina točaka u prostoru varijabli.

Radijus klastera - najveća udaljenost točaka od središta klastera.

Ako je matematičkim postupcima nemoguće jednoznačno dodijeliti objekt jednom od dva klastera, tada se takvi objekti nazivaju kontroverznim, a detektira se preklapanje klastera. Sporan objekt je objekt koji se na temelju sličnosti može svrstati u nekoliko klastera.

Veličina klastera može se odrediti polumjerom klastera ili standardnom devijacijom objekata za taj klaster. Objekt pripada klasteru ako je udaljenost od objekta do centra klastera manja od polumjera klastera. Ako je ovaj uvjet ispunjen za dva ili više klastera, objekt je sporan. Dvosmislenost ovog problema može riješiti stručnjak ili analitičar.

Svaka skupina uključuje mnogo pristupa i algoritama.

Koristeći različite tehnike klaster analize, analitičar može dobiti različita rješenja za iste podatke. To se smatra normalnim. Razmotrimo detaljnije hijerarhijske i nehijerarhijske metode.

Bit hijerarhijskog klasteriranja je sekvencijalno spajanje manjih klastera u veće ili dijeljenje velikih klastera na manje.

Hijerarhijske aglomerativne metode (Agglomerative Nesting, AGNES) Ovu skupinu metoda karakterizira sekvencijalna kombinacija početnih elemenata i odgovarajuće smanjenje broja klastera.

Na početku algoritma, svi objekti su zasebni klasteri. U prvom koraku najsličniji objekti se spajaju u klaster. U sljedećim koracima, spajanje se nastavlja sve dok svi objekti ne formiraju jedan klaster. Hijerarhijske djeljive (djeljive) metode (DIvisive ANAlysis, DIANA) Ove metode su logična suprotnost aglomerativnim metodama. Na početku algoritma svi objekti pripadaju jednom klasteru, koji se u narednim koracima dijeli na manje klastere, što rezultira slijedom grupa za dijeljenje.

Nehijerarhijske metode otkrivaju veću stabilnost s obzirom na šum i outliere, netočan izbor metrike i uključivanje beznačajnih varijabli u skup koji sudjeluje u grupiranju. Cijena koja se mora platiti za ove prednosti metode je riječ "a priori". Analitičar mora unaprijed odrediti broj klastera, broj ponavljanja ili pravilo zaustavljanja i neke druge parametre klasteriranja. Ovo je posebno teško za početnike.

Ako nema pretpostavki o broju klastera, preporučuje se korištenje hijerarhijskih algoritama. Međutim, ako veličina uzorka to ne dopušta, mogući način je provesti niz eksperimenata s različitim brojem klastera, na primjer, početi dijeliti skup podataka s dvije skupine i, postupno povećavajući njihov broj, usporediti rezultate. Zbog ove "varijacije" rezultata postiže se prilično velika fleksibilnost klasteriranja.

Hijerarhijske metode, za razliku od nehijerarhijskih, odbijaju odrediti broj klastera, već grade potpuno stablo ugniježđenih klastera.

Poteškoće hijerarhijskih metoda klasteriranja: ograničenje veličine skupa podataka; izbor mjere blizine; nefleksibilnost rezultirajućih klasifikacija.

Prednost ove skupine metoda u usporedbi s nehijerarhijskim metodama je njihova preglednost i mogućnost dobivanja detaljnog razumijevanja strukture podataka.

Pri korištenju hijerarhijskih metoda moguće je vrlo jednostavno identificirati odstupanja u skupu podataka i, kao rezultat toga, poboljšati kvalitetu podataka. Ovaj postupak je temelj algoritma klasteriranja u dva koraka. Takav skup podataka kasnije se može koristiti za provođenje nehijerarhijskog klasteriranja.

Postoji još jedan aspekt koji je već spomenut u ovom predavanju. Ovdje se radi o klasteriranju cijelog skupa podataka ili njegovog uzorka. Ovaj aspekt je bitan za obje skupine metoda koje se razmatraju, ali je kritičniji za hijerarhijske metode. Hijerarhijske metode ne mogu raditi s velikim skupovima podataka, a korištenje nekog uzorkovanja, npr. dijelovi podataka mogli bi omogućiti primjenu ovih metoda.

Rezultati klasteriranja možda nemaju dovoljno statističko opravdanje. S druge strane, pri rješavanju problema klasteriranja prihvatljiva je nestatistička interpretacija dobivenih rezultata, kao i prilično velika raznolikost varijanti koncepta klastera. Ovo nestatističko tumačenje omogućuje analitičaru dobivanje rezultata klasteriranja koji ga zadovoljavaju, što je često teško kada se koriste druge metode.

1) Metoda potpunih veza.

Bit ove metode je da dva objekta koji pripadaju istoj skupini (klasteru) imaju koeficijent sličnosti koji je manji od određene granične vrijednosti S. U smislu euklidske udaljenosti d, to znači da je udaljenost između dviju točaka (objekata) klastera ne smije premašiti određenu graničnu vrijednost h. Dakle, h definira najveći dopušteni promjer podskupa koji tvori klaster.

2) Metoda najveće lokalne udaljenosti.

Svaki objekt se tretira kao klaster jedne točke. Objekti se grupiraju prema sljedećem pravilu: dva klastera se kombiniraju ako je najveća udaljenost između točaka jednog klastera i točaka drugog minimalna. Postupak se sastoji od n - 1 koraka, a rezultat su particije koje se podudaraju sa svim mogućim particijama u prethodnoj metodi za bilo koju vrijednost praga.

3) Wordova metoda.

U ovoj metodi, unutargrupni zbroj kvadratnih odstupanja koristi se kao funkcija cilja, što nije ništa drugo nego zbroj kvadrata udaljenosti između svake točke (objekta) i prosjeka klastera koji sadrži taj objekt. U svakom koraku kombiniraju se dva klastera koji dovode do minimalnog povećanja funkcije cilja, tj. zbroj kvadrata unutar grupe. Ova metoda ima za cilj kombinirati blisko smještene klastere.

4) Metoda centroida.

Udaljenost između dva klastera definirana je kao euklidska udaljenost između središta (prosjeka) ovih klastera:

d2 ij = (`X -`Y)T(`X -`Y) Grupiranje se događa u fazama: u svakom od n-1 koraka, dva klastera G i p se kombiniraju, imajući minimalnu vrijednost d2ij Ako je n1 mnogo veći nego n2, tada su središta unije dvaju klastera blizu jedno drugome i karakteristike drugog klastera se praktički zanemaruju pri kombiniranju klastera. Ova metoda se ponekad naziva i metoda ponderirane grupe.

Znamo da je Zemlja jedan od 8 planeta koji kruže oko Sunca. Sunce je samo jedna zvijezda među oko 200 milijardi zvijezda u galaksiji Mliječni put. Vrlo je teško shvatiti ovu brojku. Znajući to, možemo napraviti pretpostavku o broju zvijezda u svemiru - otprilike 4X10^22. Na nebu možemo vidjeti oko milijun zvijezda, iako je to samo mali dio stvarnog broja zvijezda. Dakle, imamo dva pitanja:

  1. Što je galaksija?
  2. A kakva je veza između galaksija i teme članka (analiza klastera)


Galaksija je skup zvijezda, plina, prašine, planeta i međuzvjezdanih oblaka. Tipično, galaksije nalikuju spiralnoj ili edeptičkoj figuri. U svemiru su galaksije odvojene jedna od druge. Ogromne crne rupe često su središta većine galaksija.

Kao što ćemo raspravljati u sljedećem odjeljku, postoje mnoge sličnosti između galaksija i analize jata. Galaksije postoje u trodimenzionalnom prostoru, analiza klastera je višedimenzionalna analiza koja se provodi u n-dimenzionalnom prostoru.

Napomena: Crna rupa je središte galaksije. Koristit ćemo sličnu ideju u vezi s težištima za analizu klastera.

Klaster analiza

Recimo da ste voditelj marketinga i odnosa s potrošačima u telekomunikacijskoj tvrtki. Shvaćate da je svaki potrošač drugačiji i da su vam potrebne različite strategije za privlačenje različitih potrošača. Cijenit ćete moć takvog alata kao što je segmentacija kupaca za optimizaciju troškova. Kako biste osvježili svoje znanje o analizi klastera, razmotrite sljedeći primjer koji ilustrira 8 korisnika i prosječnu duljinu njihovih poziva (lokalnih i međunarodnih). Podaci ispod:

Radi boljeg razumijevanja nacrtajmo graf gdje će x-os prikazivati ​​prosječno trajanje međunarodnih poziva, a y-os prosječno trajanje lokalnih poziva. Ispod je grafikon:

Napomena: To je slično analizi rasporeda zvijezda na noćnom nebu (ovdje su zvijezde zamijenjene potrošačima). Osim toga, umjesto trodimenzionalnog prostora imamo dvodimenzionalni, definiran trajanjem lokalnih i međunarodnih poziva kao x i y osi.
Sada, govoreći u smislu galaksija, zadatak je formuliran na sljedeći način - pronaći položaj crnih rupa; u analizi klastera oni se nazivaju centroidi. Da bismo otkrili težišnice, počet ćemo uzimajući proizvoljne točke kao težišne položaje.

Euklidska udaljenost za pronalaženje centroida za klastere

U našem slučaju proizvoljno ćemo postaviti dvije težišnice (C1 i C2) u točke s koordinatama (1, 1) i (3, 4). Zašto smo odabrali ova dva težišta? Vizualni prikaz točaka na grafu nam pokazuje da postoje dva klastera koja ćemo analizirati. Međutim, kasnije ćemo vidjeti da odgovor na ovo pitanje nije tako jednostavan za veliki skup podataka.
Zatim ćemo izmjeriti udaljenost između težišta (C1 i C2) i svih točaka na grafikonu pomoću Euklidove formule kako bismo pronašli udaljenost između dvije točke.

Napomena: Udaljenost se može izračunati pomoću drugih formula, na primjer,

  1. kvadrat euklidske udaljenosti – dati težinu objektima koji su međusobno udaljeniji
  2. Manhattanska udaljenost – za smanjenje utjecaja emisija
  3. udaljenost snage – povećati/smanjiti utjecaj duž određenih koordinata
  4. postotak neslaganja – ​​za kategoričke podatke
  5. i tako dalje.
Stupaci 3 i 4 (Udaljenost od C1 i C2) udaljenost je izračunata pomoću ove formule. Na primjer, za prvog potrošača

Članstvo u centroidu (zadnji stupac) izračunava se na temelju blizine centroida (C1 i C2). Prvi potrošač je bliže težištu #1 (1,41 u usporedbi s 2,24) i stoga pripada klasteru s težištem C1.

Ispod je grafikon koji prikazuje težišne točke C1 i C2 (prikazane kao plavi i narančasti dijamant). Potrošači su prikazani bojom odgovarajućeg centroida kojem su klasteru pridruženi.

Budući da smo nasumično odabrali centroide, drugi korak je učiniti ovaj odabir iterativnim. Nova težišna pozicija odabire se kao prosjek za točke u odgovarajućem klasteru. Tako npr. za prvo težište (to su potrošači 1, 2 i 3). Stoga je nova x-koordinata za težište C1 prosječna x-koordinata ovih potrošača (2+1+1)/3 = 1,33. Dobit ćemo nove koordinate za C1 (1.33, 2.33) i C2 (4.4, 4.2). Novi graf je ispod:

Na kraju, postavit ćemo centroide u središte odgovarajućeg klastera. Grafikon ispod:

Položaji naših crnih rupa (centra klastera) u našem primjeru su C1 (1,75, 2,25) i C2 (4,75, 4,75). Dva gornja jata su kao dvije galaksije odvojene u svemiru jedna od druge.

Dakle, pogledajmo dalje primjere. Suočimo se sa zadatkom segmentiranja potrošača prema dva parametra: dobi i prihodima. Recimo da imamo 2 potrošača, starosti 37 i 44 godine, s prihodima od 90.000 USD, odnosno 62.000 USD. Ako želimo izmjeriti euklidsku udaljenost između točaka (37, 90000) i (44, 62000), vidjet ćemo da u tom slučaju varijabla dohotka “dominira” nad varijablom starosti i njezina promjena uvelike utječe na udaljenost. Potrebna nam je strategija za rješavanje ovog problema, inače će naša analiza dati netočan rezultat. Rješenje ovog problema je dovođenje naših vrijednosti na usporedive ljestvice. Normalizacija je rješenje našeg problema.

Normalizacija podataka

Postoji mnogo pristupa za normalizaciju podataka. Na primjer, minimalno-maksimalna normalizacija. Za ovu normalizaciju koristi se sljedeća formula

u ovom slučaju X* je normalizirana vrijednost, min i max su minimalne i maksimalne koordinate u cijelom skupu X
(Napomena, ova formula postavlja sve koordinate na segment)
Pogledajmo naš primjer, recimo da je maksimalni prihod 130.000 USD, a minimalni 45.000 USD. Normalizirana vrijednost dohotka za potrošača A je

Ovu vježbu ćemo napraviti za sve točke za svaku varijablu (koordinate). Prihod za drugog potrošača (62000) postat će 0,2 nakon postupka normalizacije. Nadalje, neka minimalna i maksimalna dob budu 23 odnosno 58 godina. Nakon normalizacije, starost naša dva potrošača bit će 0,4 i 0,6.

Lako je vidjeti da su svi naši podaci sada između vrijednosti 0 i 1. Stoga sada imamo normalizirane skupove podataka na usporedivim ljestvicama.

Zapamtite, prije postupka analize klastera, mora se izvršiti normalizacija.

Zadaci klasteriranja u Data Miningu

Uvod u klaster analizu

Iz čitavog širokog spektra primjena klaster analize, npr. problemi socio-ekonomskog predviđanja.

Pri analizi i prognoziranju društveno-ekonomskih pojava istraživač se nerijetko susreće s višedimenzionalnošću njihovog opisa. To se događa pri rješavanju problema segmentacije tržišta, konstruiranju tipologije zemalja na temelju prilično velikog broja pokazatelja, predviđanju tržišnih uvjeta za pojedina dobra, proučavanju i predviđanju ekonomske depresije i mnogim drugim problemima.

Metode multivarijatne analize najučinkovitiji su kvantitativni alat za proučavanje društveno-ekonomskih procesa opisanih velikim brojem karakteristika. To uključuje analizu klastera, taksonomiju, prepoznavanje uzoraka i faktorsku analizu.

Klaster analiza najjasnije odražava značajke multivarijatne analize u klasifikaciji, faktorske analize - u proučavanju odnosa.

Ponekad se pristup klaster analizi u literaturi naziva numeričkom taksonomijom, numeričkom klasifikacijom, samoučećim prepoznavanjem itd.

Klaster analiza našla je svoju prvu primjenu u sociologiji. Naziv klaster analiza dolazi od engleske riječi cluster – hrpa, nakupina. Prvi put 1939. godine predmet klaster analize definirao je i opisao istraživač Trion. Glavna svrha klaster analize je podijeliti skup objekata i karakteristika koje se proučavaju u grupe ili klastere koji su homogeni u odgovarajućem smislu. To znači da se rješava problem klasifikacije podataka i identificiranja odgovarajuće strukture u njima. Metode klasterske analize mogu se koristiti u najrazličitijim slučajevima, čak iu slučajevima kada je riječ o jednostavnom grupiranju, u kojem se sve svodi na formiranje grupa na temelju kvantitativne sličnosti.

Velika prednost klaster analize je da vam omogućuje da podijelite objekte ne prema jednom parametru, već prema cijelom nizu karakteristika. Osim toga, analiza klastera, za razliku od većine matematičkih i statističkih metoda, ne nameće nikakva ograničenja na vrstu objekata koji se razmatraju i omogućuje razmatranje različitih početnih podataka gotovo proizvoljne prirode. To je od velike važnosti, primjerice, za predviđanje tržišne situacije, kada pokazatelji imaju raznolik oblik, što otežava korištenje tradicionalnih ekonometrijskih pristupa.

Klasterska analiza omogućuje vam da razmotrite prilično veliku količinu informacija i dramatično smanjite i komprimirate velike količine socio-ekonomskih informacija, čineći ih kompaktnima i vizualnima.

Klaster analiza je važna u odnosu na skupove vremenskih serija koje karakteriziraju ekonomski razvoj (na primjer, opći ekonomski i robni uvjeti). Ovdje možete istaknuti razdoblja kada su vrijednosti odgovarajućih pokazatelja bile prilično blizu, a također možete odrediti skupine vremenskih serija čija je dinamika najsličnija.

Klaster analiza se može koristiti iterativno. U tom slučaju istraživanje se provodi sve dok se ne postignu potrebni rezultati. Štoviše, svaki ciklus ovdje može dati informacije koje mogu uvelike promijeniti smjer i pristupe daljnjoj primjeni klaster analize. Ovaj proces se može predstaviti kao sustav povratne sprege.

U zadacima socio-ekonomskog predviđanja kombinacija klaster analize s drugim kvantitativnim metodama (na primjer, regresijska analiza) vrlo je obećavajuća.

Baš kao i svaka druga metoda , klaster analiza ima određene nedostatke i ograničenja: Konkretno, broj klastera ovisi o odabranim kriterijima dijeljenja. Prilikom smanjenja izvornog niza podataka u kompaktniji oblik, mogu se pojaviti određena izobličenja, a pojedinačne značajke pojedinačnih objekata mogu se izgubiti zbog zamjene njihovih karakteristika generaliziranim vrijednostima parametara klastera. Prilikom klasifikacije objekata često se zanemaruje mogućnost nepostojanja bilo kakvih vrijednosti klastera u razmatranom skupu.

U klaster analizi smatra se da:

a) odabrane karakteristike omogućuju, u načelu, željenu podjelu na klastere;

b) mjerne jedinice (ljestvica) su pravilno odabrane.

Odabir mjerila igra veliku ulogu. Obično se podaci normaliziraju oduzimanjem srednje vrijednosti i dijeljenjem sa standardnom devijacijom tako da je varijanca jednaka jedan.

1. Problem klasteriranja

Zadatak klasteriranja je da na temelju podataka sadržanih u skupu x, podijeliti mnogo objekata G na m (m– cijeli) klasteri (podskupovi) P 1Q 2 , …,Q m, tako da svaki objekt G j pripadao jednom i samo jednom podskupu particije i da su objekti koji pripadaju istom klasteru slični, dok su objekti koji pripadaju različitim klasterima bili različiti.

Na primjer, neka G uključuje n zemalja, od kojih je svaka obilježena BNP-om po stanovniku ( F 1), broj M automobila na 1 tisuću ljudi ( F 2), potrošnja električne energije po glavi stanovnika ( F 3), potrošnja čelika po glavi stanovnika ( F 4) itd. Zatim X 1(mjerni vektor) je skup specificiranih karakteristika za prvu zemlju, X 2- za drugu, X 3 za treću itd. Cilj je kategorizirati zemlje prema stupnju razvijenosti.

Rješenje problema analize klastera su particije koje zadovoljavaju neki kriterij optimalnosti. Ovaj kriterij može biti neka vrsta funkcionala koji izražava razine poželjnosti različitih podjela i grupiranja, a koji se naziva funkcija cilja. Na primjer, zbroj kvadrata odstupanja unutar grupe može se uzeti kao funkcija cilja:

Gdje x j- predstavlja mjerenja j-ti objekt.

Za rješavanje problema klaster analize potrebno je definirati pojam sličnosti i heterogenosti.

Jasno je da objekti ja -th i j-th bi pao u jedan klaster kada je udaljenost (udaljenost) između točaka x ja I X j bili bi dovoljno mali i padali bi u različite klastere kada bi ta udaljenost bila dovoljno velika. Dakle, upadanje u jednu ili različite skupine objekata određeno je konceptom udaljenosti između x ja I X j iz ovaj, Gdje ovaj - R-dimenzionalni euklidski prostor. Nenegativna funkcija d(X ja, X j) naziva se funkcija udaljenosti (metrika) ako:

A) d(Xi, X j)³ 0 , za sve x ja I X j iz ovaj

b) d(Xi, X j) = 0, ako i samo ako x ja= X j

V) d(Xi, X j) = d(X j, X ja)

G) d(Xi, X j)£ d(Xi, X k) + d(X k, X j), gdje je X j; xi i X k- bilo koja tri vektora iz ovaj.

Značenje d(Xi, X j) Za xja I x j naziva se udaljenost između xja I X j i ekvivalentan je udaljenosti između Gja I G j prema odabranim karakteristikama (F 1, F 2, F 3, ..., F p).

Najčešće korištene funkcije udaljenosti su:

1. Euklidska udaljenost d 2 (Xi , X j) =

2. l 1- norma d 1 (Xi , X j) =

3. Supremum je norma d ¥ (Xi , X j) = sup

k = 1, 2, ..., str

4. l str- norma d p ​​​​(Xi , X j) =

Euklidska metrika je najpopularnija. Metriku l 1 je najlakše izračunati. Najviša norma se lako izračunava i uključuje postupak naručivanja, a l str- norma pokriva funkcije udaljenosti 1, 2, 3,.

Neka je n dimenzija X 1, X 2,..., Xn predstavljen kao podatkovna matrica veličine str´ n:

Zatim udaljenost između parova vektora d(X ja, X j) može se prikazati kao simetrična matrica udaljenosti:

Koncept suprotan udaljenosti je koncept sličnosti između objekata G ja . I G j. Nenegativna realna funkcija S(X ja; X j) = S ja j naziva se mjera sličnosti ako:

1) 0 £ S(X i, X j)< 1 za X ja ¹ X j

2) S( xja, Xja) = 1

3) S( xja, Xj) = S(Xj, X ja )

Parovi vrijednosti mjerenja sličnosti mogu se kombinirati u matricu sličnosti:

Veličina Si J naziva se koeficijent sličnosti.

2. Metode klasteriranja

Danas postoji dosta metoda klaster analize. Pogledajmo neke od njih (metode navedene u nastavku obično se nazivaju metode minimalne varijance).

Neka x- matrica promatranja: X = (X 1, X 2,..., X u) i kvadrat euklidske udaljenosti između x ja I X j određuje se formulom:

1) Potpuna metoda povezivanja.

Suština ove metode je da dva objekta koji pripadaju istoj grupi (klasteru) imaju koeficijent sličnosti manji od određene granične vrijednosti. S. U smislu euklidske udaljenosti d to znači da udaljenost između dviju točaka (objekata) klastera ne smije prijeći određenu graničnu vrijednosth. Tako, hdefinira najveći dopušteni promjer podskupa koji tvori klaster.

2) Metoda najveće lokalne udaljenosti.

Svaki objekt se tretira kao klaster jedne točke. Objekti se grupiraju prema sljedećem pravilu: dva klastera se kombiniraju ako je najveća udaljenost između točaka jednog klastera i točaka drugog minimalna. Postupak se sastoji od n - 1 koraka i rezultat su particije koje se podudaraju sa svim mogućim particijama u prethodnoj metodi za bilo koje vrijednosti praga.

3) Wordova metoda.

U ovoj metodi, unutargrupni zbroj kvadratnih odstupanja koristi se kao funkcija cilja, što nije ništa drugo nego zbroj kvadrata udaljenosti između svake točke (objekta) i prosjeka klastera koji sadrži taj objekt. U svakom koraku kombiniraju se dva klastera koji dovode do minimalnog povećanja funkcije cilja, tj. zbroj kvadrata unutar grupe. Ova metoda ima za cilj kombinirati blisko smještene klastere.

4) Centroidna metoda.

Udaljenost između dva klastera definirana je kao euklidska udaljenost između središta (prosjeka) ovih klastera:

d 2ij =(` X -` Y) T (` X -` Y) Grupiranje se događa u fazama u svakoj od n–1 koraci kombiniraju dva klastera G I str , koja ima minimalnu vrijednost d 2 ij Ako n 1 mnogo više n 2, tada su središta spajanja dvaju klastera blizu jedno drugome i karakteristike drugog klastera se praktički zanemaruju pri spajanju klastera. Ova metoda se ponekad naziva i metoda ponderirane grupe.

3. Sekvencijalni algoritam klasteriranja

Razmotrimo Ι = (Ι 1, Ι 2, … Ιn) poput mnogih grozdova (I 1), (Ι 2 ),…(Ιn). Izaberimo dva od njih, npr. Ι ja I Ι j, koji su u nekom smislu bliži jedni drugima i spojit ćemo ih u jedan klaster. Novi skup klastera, koji se već sastoji od n -1 klastera, bit će:

(I 1), (I 2)…, ja, Ι j ), …, (Ιn).

Ponavljajući proces, dobivamo uzastopne skupove klastera koji se sastoje od (n -2), (n -3), (n –4) itd. klasteri. Na kraju postupka možete dobiti klaster koji se sastoji od n objekata i podudara se s izvornim skupom Ι = (Ι 1, Ι 2, … Ιn).

Kao mjeru udaljenosti uzimamo kvadrat euklidske metrike d ja j 2. i izračunajte matricu D = (di j 2 ), gdje je dja j 2- kvadrat udaljenosti između

Ι ja i j:

….

Ι n

d 12 2

d 13 2

….

d 1n 2

d 23 2

….

d2n2

….

d 3n 2

….

….

….

Ι n

Neka udaljenost između Ι ja I Ι j će biti minimalan:

d ja j 2 = min (d i j 2, tj¹ j). Oblikujemo uz pomoć Ι ja I Ι j novi klaster

ja, j j). Sagradimo novu ((n-1), (n-1)) matrica udaljenosti

(I i, I j)

….

Ι n

(I i; I j)

d i j 2 1

d i j 2 2

….

d i j 2 n

d 12 2

d 1 3

….

d 1 2 n

….

d 2 n

….

d 3n

(n -2) Redovi za posljednju matricu uzimaju se iz prethodne, a prvi red se izračunava iznova. Kalkulacije se mogu svesti na minimum ako se možemo izraziti d i j 2 k ,k = 1, 2,…,n; (k¹ ja¹ j) kroz elemente izvorne matrice.

U početku se udaljenost određuje samo između jednoelementnih klastera, ali je potrebno odrediti udaljenosti između klastera koji sadrže više od jednog elementa. To se može učiniti na različite načine, a ovisno o odabranoj metodi dobivamo algoritme klaster analize s različitim svojstvima. Možete, na primjer, staviti udaljenost između klastera i+j i neki drugi klaster k, jednaka aritmetičkoj sredini udaljenosti između klastera ja I k i klastera j I k:

d i+j,k = ½ (d i k + d j k).

Ali može se i definirati d i+j,k kao najmanja od ove dvije udaljenosti:

d i+j,k = min (d i k + d j k).

Tako je opisan prvi korak aglomerativnog hijerarhijskog algoritma. Sljedeći koraci su slični.

Može se dobiti prilično široka klasa algoritama ako se za ponovno izračunavanje udaljenosti koristi sljedeća opća formula:

d i+j,k = A(w) min(d ik d jk) + B(w) max(d ik d jk), Gdje

A(w) = , akod ik£ djk

A(w) = , akod ik> djk

B(w) = , akod ja k £ djk

B (w) =, Akod ik> djk

Gdje n i I n j- broj elemenata u klasterima ja I j, A w– slobodni parametar, čiji izbor određuje određeni algoritam. Na primjer, kada w = 1 dobivamo takozvani algoritam “prosječne veze” za koji formula za ponovni izračun udaljenosti ima oblik:

d i+j,k =

U ovom slučaju, udaljenost između dva klastera u svakom koraku algoritma ispada da je jednaka aritmetičkoj sredini udaljenosti između svih parova elemenata tako da jedan element para pripada jednom klasteru, drugi drugom.

Vizualno značenje parametra w postaje jasno ako stavimo w® ¥ . Formula za ponovno izračunavanje udaljenosti ima oblik:

d i+j,k =min (d ja,kdjk)

To će biti takozvani algoritam "najbližeg susjeda", koji vam omogućuje identificiranje klastera bilo kojeg složenog oblika, pod uvjetom da su različiti dijelovi takvih klastera povezani lancima elemenata blizu jedan drugome. U ovom slučaju, udaljenost između dva klastera u svakom koraku algoritma ispada da je jednaka udaljenosti između dva najbliža elementa koji pripadaju tim dvama klasterima.

Često se pretpostavlja da su zadane početne udaljenosti (razlike) između elemenata koji se grupiraju. U nekim problemima to je doista točno. Međutim, navedeni su samo objekti i njihove karakteristike, a matrica udaljenosti se gradi na temelju tih podataka. Ovisno o tome računaju li se udaljenosti između objekata ili između karakteristika objekata, koriste se različite metode.

U slučaju klaster analize objekata, najčešća mjera razlike je ili kvadrat euklidske udaljenosti

(Gdje x ih , x jh- vrijednosti h-ti znak za ja th i j-th objekti, i m- broj karakteristika), odnosno sama euklidska udaljenost. Ako su značajkama dodijeljene različite težine, te se težine mogu uzeti u obzir prilikom izračuna udaljenosti

Ponekad se udaljenost koristi kao mjera razlike, izračunata po formuli:

koje se nazivaju: "Hamming", "Manhattan" ili "city block" udaljenost.

Prirodna mjera sličnosti karakteristika objekata u mnogim zadacima je koeficijent korelacije među njima

Gdje m i , m j ,d ja,d j- prosječne i standardne devijacije za karakteristike ja I j. Mjera razlike između karakteristika može biti vrijednost 1 - r. U nekim zadacima predznak koeficijenta korelacije je beznačajan i ovisi samo o izboru mjerne jedinice. U ovom slučaju koristi se mjera razlike između karakteristika ô 1 - r i j ô

4. Broj klastera

Vrlo važno pitanje je problem odabira potrebnog broja klastera. Ponekad možete a priori odabrati m broj klastera. Međutim, u općem slučaju taj se broj određuje u procesu dijeljenja skupa u klastere.

Istraživanje su proveli Fortier i Solomon i pokazalo se da se mora uzeti broj klastera da bi se postigla vjerojatnost a da je pronađena najbolja pregrada. Dakle, optimalan broj podjela je funkcija danog razlomka b najbolje ili u nekom smislu dopuštene particije u skupu svih mogućih. Što je udio veći, to je veća ukupna disperzija b dopuštene pregrade. Fortier i Solomon razvili su tablicu koja se može koristiti za pronalaženje potrebnog broja podjela. S(a , b ) ovisno o a I b (Gdje a je vjerojatnost da se pronađe najbolja particija, b - udio najboljih particija u ukupnom broju particija) Štoviše, kao mjera heterogenosti ne koristi se mjera disperzije, već mjera pripadnosti koju su uveli Holzenger i Harman. Tablica vrijednosti S(a , b ) dano je u nastavku.

Tablica vrijednostiS(a , b )

b \ a

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

Često je kriterij za kombiniranje (broj klastera) promjena odgovarajuće funkcije. Na primjer, zbroj kvadrata odstupanja:

Proces grupiranja ovdje mora odgovarati uzastopnom minimalnom povećanju vrijednosti kriterija E. Prisutnost oštrog skoka vrijednosti E može se tumačiti kao karakteristika broja klastera koji objektivno postoje u populaciji koja se proučava.

Dakle, drugi način određivanja najboljeg broja klastera svodi se na identificiranje skokova određenih faznim prijelazom iz jako vezanog u slabo vezano stanje objekata.

5. Dendogrami

Najpoznatija metoda za predstavljanje matrice udaljenosti ili sličnosti temelji se na ideji dendograma ili dijagrama stabla. Dendogram se može definirati kao grafički prikaz rezultata sekvencijalnog procesa klasteriranja, koji se provodi u smislu matrice udaljenosti. Pomoću dendograma možete grafički ili geometrijski prikazati postupak klasteriranja, pod uvjetom da taj postupak radi samo s elementima matrice udaljenosti ili sličnosti.

Postoji mnogo načina za konstruiranje dendograma. U dendogramu, objekti su smješteni okomito s lijeve strane, rezultati grupiranja nalaze se s desne strane. Vrijednosti udaljenosti ili sličnosti koje odgovaraju strukturi novih klastera prikazane su duž vodoravne crte na vrhu dendograma.

Sl. 1

Slika 1 prikazuje jedan primjer dendograma. Slika 1 odgovara slučaju šest objekata ( n=6) I kkarakteristike (znakovi). Predmeti A I S su najbliži i stoga su kombinirani u jedan klaster na razini blizine od 0,9. PredmetiDI E spajanje na razini 0.8. Sada imamo 4 klastera:

(A, C), (F), ( D, E), ( B) .

Tada se formiraju grozdovi (A, C, F) I ( E, D, B) , što odgovara razinama blizine od 0,7 i 0,6. Konačno, svi objekti su grupirani u jedan klaster na razini 0,5.

Vrsta dendograma ovisi o izboru mjere sličnosti ili udaljenosti između objekata i klastera te metodi klasteriranja. Najvažnija točka je izbor mjere sličnosti ili mjere udaljenosti između objekta i klastera.

Broj algoritama analize klastera je prevelik. Svi se mogu podijeliti na hijerarhijske i nehijerarhijske.

Hijerarhijski algoritmi povezani su s konstrukcijom dendograma i dijele se na:

a) aglomerativni, karakteriziran sekvencijalnom kombinacijom početnih elemenata i odgovarajućim smanjenjem broja klastera;

b) djeljiv (divisible), u kojem se broj klastera povećava, počevši od jednog, što rezultira stvaranjem niza skupina koje se cijepaju.

Algoritmi klaster analize danas imaju dobru softversku implementaciju, koja omogućuje rješavanje problema najvećih dimenzija.

6. Podaci

Analiza klastera može se primijeniti na intervalne podatke, frekvencije i binarne podatke. Važno je da varijable variraju na usporedivim ljestvicama.

Heterogenost mjernih jedinica i posljedična nemogućnost valjanog izražavanja vrijednosti različitih pokazatelja na istoj ljestvici dovodi do činjenice da se udaljenosti između točaka koje odražavaju položaj objekata u prostoru njihovih svojstava pokazuju ovise o proizvoljno odabrano mjerilo. Kako bi se eliminirala heterogenost u mjerenju izvornih podataka, sve njihove vrijednosti su unaprijed normalizirane, tj. izražavaju se kroz omjer tih vrijednosti prema određenoj vrijednosti koja odražava određena svojstva danog pokazatelja. Normalizacija početnih podataka za analizu klastera ponekad se provodi dijeljenjem početnih vrijednosti sa standardnom devijacijom odgovarajućih pokazatelja. Drugi način je izračunavanje tzv. standardiziranog doprinosa. Također se zove Z-doprinos.

Z -doprinos pokazuje koliko standardnih devijacija odvaja određeno opažanje od srednje vrijednosti:

Gdje x i– značenje ovog opažanja,- prosječno, S- standardna devijacija.

Prosjek za Z -doprinosi su nula, a standardna devijacija je 1.

Standardizacija omogućuje usporedbu opažanja iz različitih distribucija. Ako je distribucija varijable normalna (ili blizu normale), a srednja vrijednost i varijanca su poznati ili procijenjeni iz velikih uzoraka, tada Z - Ulaz za promatranje pruža preciznije informacije o svojoj lokaciji.

Imajte na umu da metode standardizacije znače prepoznavanje svih značajki kao ekvivalentnih sa stajališta određivanja sličnosti predmeta koji se razmatraju. Već je napomenuto da se u odnosu na ekonomiju priznavanje istovjetnosti različitih pokazatelja ne čini uvijek opravdanim. Bilo bi poželjno, uz standardizaciju, svakom od pokazatelja dati težinu koja odražava njegovu važnost u utvrđivanju sličnosti i razlika objekata.

U ovoj situaciji potrebno je pribjeći metodi određivanja težine pojedinih pokazatelja – anketi stručnjaka. Na primjer, pri rješavanju problema razvrstavanja zemalja prema stupnju gospodarskog razvoja korišteni su rezultati ankete 40 vodećih moskovskih stručnjaka o problemima razvijenih zemalja na skali od deset stupnjeva:

generalizirani pokazatelji društveno-ekonomskog razvoja – 9 bodova;

pokazatelji sektorskog rasporeda zaposlenog stanovništva – 7 bodova;

pokazatelji zastupljenosti najamnog rada – 6 bodova;

pokazatelji koji karakteriziraju ljudski element proizvodnih snaga – 6 bodova;

pokazatelji razvoja materijalnih proizvodnih snaga – 8 bodova;

pokazatelj državnih rashoda – 4 boda;

“vojno-ekonomski” pokazatelji – 3 boda;

sociodemografski pokazatelji – 4 boda.

Procjene stručnjaka bile su relativno stabilne.

Stručne ocjene daju određenu osnovu za utvrđivanje važnosti pokazatelja koji se nalaze u pojedinoj skupini pokazatelja. Množenje normaliziranih vrijednosti pokazatelja s koeficijentom koji odgovara prosječnoj ocjeni omogućuje izračunavanje udaljenosti između točaka koje odražavaju položaj zemalja u višedimenzionalnom prostoru, uzimajući u obzir nejednaku težinu njihovih karakteristika.

Često se pri rješavanju takvih problema koriste ne jedan, već dva izračuna: prvi, u kojem se sve karakteristike smatraju ekvivalentnima, drugi, gdje im se daju različite težine u skladu s prosječnim vrijednostima stručnih procjena.

7. Primjena klaster analize

Pogledajmo neke primjene klaster analize.

1. Podjela zemalja u skupine prema stupnju razvoja.

Proučavano je 65 zemalja prema 31 pokazatelju (nacionalni dohodak po glavi stanovnika, udio stanovništva zaposlenog u industriji u %, štednja po stanovniku, udio stanovništva zaposlenog u poljoprivredi u %, prosječni životni vijek, broj automobila na 1 tisuća stanovnika, broj oružanih snaga na 1 milijun stanovnika, udio industrije u BDP-u u %, udio poljoprivrede u BDP-u u %, itd.)

Svaka zemlja u ovom pogledu djeluje kao objekt karakteriziran određenim vrijednostima 31 pokazatelja. Prema tome, mogu se prikazati kao točke u 31-dimenzionalnom prostoru. Takav se prostor obično naziva prostor svojstava predmeta koji se proučavaju. Usporedba udaljenosti između tih točaka odražavat će stupanj blizine zemalja o kojima je riječ, njihovu sličnost jedna s drugom. Socioekonomsko značenje ovakvog shvaćanja sličnosti znači da se zemlje smatraju to sličnijima što su manje razlike između istih pokazatelja kojima se opisuju.

Prvi korak takve analize je identificirati par nacionalnih ekonomija uzetih u obzir u matrici sličnosti, čija je udaljenost najmanja. To će očito biti najsličnije, slične ekonomije. U sljedećoj raspravi obje se zemlje smatraju jednom grupom, jednim klasterom. U skladu s tim, izvorna matrica se transformira tako da njezini elementi postaju udaljenosti između svih mogućih parova ne 65, već 64 objekta - 63 gospodarstva i novo transformiranog klastera - uvjetne unije dviju najsličnijih zemalja. Iz izvorne matrice sličnosti uklanjaju se retci i stupci koji odgovaraju udaljenostima od para zemalja uključenih u spajanje do svih ostalih, ali se dodaju redak i stupac koji sadrže udaljenost između klastera dobivenog tijekom spajanja i ostalih zemalja.

Pretpostavlja se da je udaljenost između novodobivenog klastera i zemalja jednaka prosjeku udaljenosti između potonjih i dviju zemalja koje čine novi klaster. Drugim riječima, kombinirana skupina zemalja promatra se kao cjelina s karakteristikama približno jednakim prosjeku karakteristika zemalja koje su u nju uključene.

Drugi korak analize je razmatranje tako transformirane matrice sa 64 retka i stupca. Opet se identificira par ekonomija čija je udaljenost najmanje značajna i one se, kao iu prvom slučaju, spajaju. U ovom slučaju, najmanja udaljenost može biti između para zemalja ili između bilo koje zemlje i unije zemalja dobivene u prethodnoj fazi.

Daljnji postupci slični su gore opisanim: u svakoj fazi matrica se transformira tako da se iz nje isključe dva stupca i dva retka koji sadrže udaljenost do objekata (parova zemalja ili asocijacija - klastera) okupljenih u prethodnoj fazi ; isključeni redovi i stupci zamjenjuju se stupcem i redom koji sadrže udaljenosti od novih spojeva do preostalih objekata; tada se u modificiranoj matrici identificira par najbližih objekata. Analiza se nastavlja sve dok se matrica u potpunosti ne iscrpi (odnosno dok se sve zemlje ne spoje u jednu cjelinu). Generalizirani rezultati matrične analize mogu se prikazati u obliku stabla sličnosti (dendograma), sličnog gore opisanom, s jedinom razlikom što je stablo sličnosti, koje odražava relativnu blizinu svih 65 zemalja koje razmatramo, mnogo složeniji od dijagrama u kojem se pojavljuje samo pet nacionalnih ekonomija. Ovo stablo, prema broju objekata koji se uspoređuju, uključuje 65 razina. Prva (niža) razina sadrži bodove koji odgovaraju svakoj zemlji zasebno. Povezivanje ove dvije točke na drugoj razini pokazuje par zemalja koje su najbliže po općem tipu nacionalnog gospodarstva. Na trećoj razini bilježi se sljedeći sličan omjer parova zemalja (kao što je već spomenuto, ovaj omjer može sadržavati ili novi par zemalja ili novu zemlju i već identificirani par sličnih zemalja). I tako dalje do posljednje razine, na kojoj sve proučavane zemlje djeluju kao jedan skup.

Kao rezultat primjene klaster analize dobiveno je sljedećih pet skupina zemalja:

· Afroazijska skupina;

· latinsko-azijska skupina;

· latinsko-mediteranska skupina;

· skupina razvijenih kapitalističkih zemalja (bez SAD-a)

· SAD

Uvođenjem novih pokazatelja izvan ovdje korištenih 31 pokazatelja ili njihovom zamjenom drugima prirodno dolazi do promjena u rezultatima klasifikacije zemalja.

2. Podjela zemalja prema kriteriju sličnosti kulture.

Kao što znate, marketing mora uzeti u obzir kulturu zemalja (običaje, tradiciju itd.).

Klasteriranjem su dobivene sljedeće grupe zemalja:

· arapski;

· Srednji istok;

· skandinavski;

· Njemački govorni jezik;

· engleski jezik;

· romanički europski;

· Latino Amerikanac;

· Daleki istok.

3. Izrada prognoze tržišnih uvjeta cinka.

Klaster analiza igra važnu ulogu u fazi smanjenja ekonomskog i matematičkog modela robnog tržišta, pomaže u olakšavanju i pojednostavljenju računskih postupaka, osiguravajući veću kompaktnost dobivenih rezultata uz zadržavanje potrebne točnosti. Korištenje klaster analize omogućuje raspodjelu cjelokupnog početnog skupa tržišnih pokazatelja u skupine (klastere) prema odgovarajućim kriterijima, čime se olakšava izbor najreprezentativnijih pokazatelja.

Klaster analiza naširoko se koristi za modeliranje tržišnih uvjeta. U praksi se većina problema predviđanja oslanja na korištenje klaster analize.

Na primjer, zadatak izrade prognoze za tržište cinka.

U početku je odabrano 30 ključnih pokazatelja globalnog tržišta cinka:

X 1 - vrijeme

Podaci o proizvodnji:

X 2 - u svijetu

X 4 - Europa

X 5 - Kanada

X 6 - Japan

X 7 - Australija

Pokazatelji potrošnje:

X 8 - u svijetu

X 10 - Europa

X 11 - Kanada

X 12 - Japan

X 13 - Australija

Rezerve proizvođača cinka:

X 14 - u svijetu

X 16 - Europa

X 17 - ostale zemlje

Potrošačke rezerve cinka:

X 18 - u SAD-u

X 19 - u Engleskoj

X 10 - u Japanu

Uvoz ruda i koncentrata cinka (tisuća tona)

X 21 - u SAD-u

X 22 - u Japanu

X 23 - u Njemačkoj

Izvoz ruda i koncentrata cinka (tisuća tona)

X 24 - iz Kanade

X 25 - iz Australije

Uvoz cinka (tisuću tona)

X 26 - u SAD-u

X 27 - u Englesku

X 28 - u Njemačkoj

Izvoz cinka (tisuće tona)

X 29 - iz Kanade

X 30 - iz Australije

Za utvrđivanje pojedinih ovisnosti korištena je aparatura korelacijske i regresijske analize. Analiza odnosa provedena je na temelju matrice uparenih koeficijenata korelacije. Ovdje je prihvaćena hipoteza o normalnoj distribuciji analiziranih tržišnih pokazatelja, pri čemu je jasno da r ij nisu jedini mogući pokazatelj odnosa korištenih pokazatelja. Potreba za korištenjem klaster analize u ovom problemu je zbog činjenice da je broj pokazatelja koji utječu na cijenu cinka vrlo velik. Postoji potreba za njihovim smanjenjem iz nekoliko sljedećih razloga:

a) nedostatak potpunih statističkih podataka o svim varijablama;

b) naglo kompliciranje računalnih postupaka kada se u model uvodi veliki broj varijabli;

c) optimalna uporaba metoda regresijske analize zahtijeva da broj promatranih vrijednosti premaši broj varijabli za najmanje 6-8 puta;

d) želja da se u modelu koriste statistički neovisne varijable itd.

Vrlo je teško provesti takvu analizu izravno na relativno glomaznoj matrici koeficijenata korelacije. Koristeći klastersku analizu, cjelokupni skup tržišnih varijabli može se podijeliti u skupine na način da su elementi svakog klastera međusobno snažno povezani, a predstavnike različitih grupa karakterizira slaba korelacija.

Za rješavanje ovog problema korišten je jedan od algoritama aglomerativne hijerarhijske analize klastera. U svakom koraku, broj klastera se smanjuje za jedan zbog optimalne, u određenom smislu, kombinacije dviju grupa. Kriterij za spajanje je promjena pripadajuće funkcije. Kao takvu funkciju koristili smo vrijednosti zbroja kvadrata odstupanja izračunatih pomoću sljedećih formula:

(j = 1, 2, …,m),

Gdje j- broj klastera, n- broj elemenata u klasteru.

r ij-koeficijent korelacije para.

Dakle, proces grupiranja mora odgovarati uzastopnom minimalnom povećanju vrijednosti kriterija E.

U prvoj fazi, početni niz podataka predstavlja se kao skup koji se sastoji od klastera, od kojih svaki uključuje jedan element. Proces grupiranja započinje kombinacijom takvog para klastera, što dovodi do minimalnog povećanja zbroja kvadrata odstupanja. To zahtijeva procjenu vrijednosti zbroja kvadrata odstupanja za svako od mogućih asocijacije klastera. U sljedećoj fazi razmatraju se vrijednosti zbroja kvadratnih odstupanja klasteri, itd. Ovaj proces će se zaustaviti u nekom koraku. Da biste to učinili, morate pratiti vrijednost zbroja kvadratnih odstupanja. Promatrajući slijed rastućih vrijednosti, uočava se skok (jedan ili više) u njegovoj dinamici, što se može tumačiti kao karakteristika broja grupa koje “objektivno” postoje u populaciji koja se proučava. U navedenom primjeru do skokova je došlo kada je broj klastera bio 7 i 5. Broj grupa ne treba dalje smanjivati ​​jer to dovodi do pada kvalitete modela. Nakon dobivanja klastera odabiru se varijable koje su u ekonomskom smislu najvažnije i najuže povezane s odabranim kriterijem tržišne situacije – u ovom slučaju s kotacijama cinka na Londonskoj burzi metala. Ovaj nam pristup omogućuje očuvanje značajnog dijela informacija sadržanih u izvornom skupu početnih tržišnih pokazatelja.

Izbor urednika
Pozdrav dragi čitatelji mog bloga! Nakon prošlog praznika pomislio sam: zašto je izmišljena votka i tko je izmislio alkohol? Pokazalo se,...

Prema svetom Vasiliju Velikom, riječ "Prispodoba" dolazi od riječi "tok" - "doći" i označava kratku poučnu priču...

Meso na kraljevski način I opet nastavljam dodavati novogodišnje recepte za ukusnu hranu za vas. Ovaj put ćemo meso skuhati kao kralj...

Tradicionalni recept za bijeli okroshka kvas uključuje jednostavan skup sastojaka, uključujući raženo brašno, vodu i šećer. Za prvi...
Test br. 1 “Građa atoma. Periodni sustav. Kemijske formule” Zakirova Olisya Telmanovna – učiteljica kemije. MBOU "...
Tradicije i praznici Britanski kalendar obiluje svim vrstama praznika: nacionalnim, tradicionalnim, državnim ili državnim praznicima. The...
Razmnožavanje je sposobnost živih organizama da reproduciraju vlastitu vrstu. Dva su glavna načina razmnožavanja - nespolni i...
Svaki narod i svaka država ima svoje običaje i tradiciju. U Britaniji tradicije igraju važniju ulogu u životu...
Pojedinosti o osobnom životu zvijezda uvijek su javno dostupne, ljudi znaju ne samo njihovu kreativnu karijeru, već i njihovu biografiju....