Hierarhiskā un sadalītā klasterizācija

Klasterēšana ir mašīnmācīšanās tehnika datu analīzei un dalīšanai līdzīgu datu grupās. Šīs grupas vai līdzīgu datu kopas sauc par klasteriem. Klasteru analīzē tiek apskatīti klasterizācijas algoritmi, kas klasterus var identificēt automātiski. Hierarhiskā un dalītā ir divas šādas klasterizācijas algoritmu klases. Hierarhiski klasterizācijas algoritmi sadala datus klasteru hierarhijā. Paritional algoritmi sadala datu kopu savstarpēji nesadalītos nodalījumos.

Kas ir hierarhiskā klasterizācija?

Hierarhiski klasterizācijas algoritmi atkārto ciklu, vai nu apvienojot mazākus klasterus lielākiem, vai arī sadalot lielākus klasterus mazākos. Jebkurā gadījumā tas rada klasteru hierarhiju, ko sauc par dendogrammu. Aglomerējošā klasterizācijas stratēģijā tiek izmantota augšupēja pieeja, apvienojot klasterus lielākiem, savukārt dalītā klasterizācijas stratēģija izmanto augšupēju pieeju, sadalot mazākos. Parasti mantkārīgo pieeju izmanto, lai izlemtu, kuras lielākās / mazākās kopas tiek izmantotas apvienošanai / sadalīšanai. Eiklīda attālums, Manhetenas attālums un kosinusa līdzība ir daži no skaitlisko datu visbiežāk izmantotajiem līdzības rādītājiem. Ne skaitliskiem datiem tiek izmantota tāda metrika kā Hamminga attālums. Ir svarīgi atzīmēt, ka faktiskie novērojumi (gadījumi) nav nepieciešami hierarhiskai grupēšanai, jo pietiek tikai ar attālumu matricu. Dendogramma ir klasteru vizuāls attēlojums, kas ļoti skaidri parāda hierarhiju. Lietotājs var iegūt dažādas kopas atkarībā no dendogrammas izgriešanas līmeņa.

Kas ir dalītā klasterizācija?

Sadalītie klasterizācijas algoritmi ģenerē dažādus nodalījumus un pēc tam tos novērtē pēc kāda kritērija. Tos sauc arī par nehierarhiskiem, jo ​​katrs gadījums ir ievietots tieši vienā no k savstarpēji izslēdzošiem klasteriem. Tā kā tipiska nodalījuma klasterizācijas algoritma izvade ir tikai viena klasteru kopa, lietotājam ir jāievada vēlamais klasteru skaits (parasti to sauc par k). Viens no visbiežāk izmantotajiem sadalīto klasterizācijas algoritmu ir k-nozīmē klasterizācijas algoritms. Lietotājam pirms palaišanas ir jānorāda klasteru skaits (k), un algoritms vispirms iniciē k nodalījumu centrus (vai centraīdus). Īsumā k-nozīmē klasterizācijas algoritms piešķir dalībniekus, pamatojoties uz pašreizējiem centriem, un pārvērtē centrus, pamatojoties uz pašreizējiem dalībniekiem. Šīs divas darbības tiek atkārtotas, līdz tiek optimizēta noteikta klasteru līdzības mērķa funkcija un klasteru atšķirības mērķa funkcija. Tāpēc saprātīga centru inicializēšana ir ļoti svarīgs faktors, lai iegūtu partitūru klasterizācijas algoritmu kvalitātes rezultātus.

Kāda ir atšķirība starp hierarhisko un dalīto klasteru?

Hierarhiskajai un dalītajai klasterēšanai ir galvenās atšķirības darbības laikā, pieņēmumos, ievades parametros un no tām izrietošajās kopās. Parasti sadalījumu grupēšana notiek ātrāk nekā hierarhiska klasterēšana. Hierarhiskai klasterēšanai ir nepieciešams tikai līdzības mērījums, savukārt sadalīšanai klasterī ir vajadzīgi spēcīgāki pieņēmumi, piemēram, klasteru skaits un sākotnējie centri. Hierarhiskai grupēšanai nav nepieciešami nekādi ievades parametri, savukārt sadalīšanas klasterizācijas algoritmiem ir nepieciešams klasteru skaits, lai sāktu darboties. Hierarhiskā klasterizācija atdod daudz jēgpilnāku un subjektīvāku klasteru sadalījumu, bet sadalīta klasterizācija rada tieši k klasterus. Hierarhiski klasterizācijas algoritmi ir piemērotāki kategoriskiem datiem, ja vien var attiecīgi noteikt līdzības pakāpi.