Analiza skupień polega na podzieleniu wielu obiektów na jednorodne grupy. Metody analizy skupień

Analiza skupień łączy skupienia i zmienne (obiekty), które są do siebie podobne. Oznacza to, że klasyfikuje obiekty. Często przy rozwiązywaniu problemów ekonomicznych, które mają dość dużą liczbę danych, potrzebny jest opis wielowymiarowy. Jeden z proste metody analiza wielowymiarowa – analiza skupień.

Analiza skupień jest ilościowym narzędziem badania procesów społeczno-gospodarczych, których opis wymaga wielu cech. Umożliwia podzielenie próby na kilka grup w zależności od badanej cechy, analizę grup (sposób grupowania zmiennych) oraz grupowania obiektów (sposób grupowania obiektów). Metodą tą rozwiązuje się problemy segmentacji rynku, rolnictwo w celu porównania wyników, np. prognozuje się warunki rynkowe dla poszczególnych produktów itp.

Wielowymiarowa analiza skupień

Zasadniczo analiza skupień to zestaw narzędzi do klasyfikacji obiektów wielowymiarowych. Metoda polega na określeniu odległości pomiędzy zmiennymi (deltami), a następnie identyfikacji grup obserwacji (klastrów).

Techniki grupowania są stosowane w wielu różnych dziedzinach. Głównym zadaniem jest podzielenie wielowymiarowego szeregu badanych wartości (obiektów, zmiennych, cech) na jednorodne grupy, skupienia. Oznacza to, że dane są klasyfikowane i uporządkowane.

Pytanie, które badacz zadaje podczas stosowania analizy skupień, brzmi: jak zorganizować wielowymiarową próbkę w struktury wizualne.

Przykłady wykorzystania analizy skupień:

  1. W biologii - w celu określenia gatunku zwierząt na Ziemi.
  2. W medycynie – klasyfikacja chorób ze względu na grupy objawów i metody leczenia.
  3. W psychologii - w celu określenia rodzajów zachowań jednostki w określonych sytuacjach.
  4. W analiza ekonomiczna– w badaniu i prognozowaniu depresji gospodarczej, badaniach rynku.
  5. W różnych badaniach marketingowych.

W przypadku konieczności przekształcenia „gór” informacji w grupy nadające się do dalszego badania stosuje się analizę skupień.

Zalety metody:

  • pozwala na podział szeregu wielowymiarowego według całego zestawu parametrów jednocześnie;
  • możesz brać pod uwagę dane niemal dowolnego rodzaju (nie ma ograniczeń co do rodzaju badanych obiektów);
  • możesz przetworzyć znaczne ilości informacji, radykalnie je skompresować, uczynić zwięzłymi i wizualnymi;
  • można stosować cyklicznie (prowadzić aż do uzyskania pożądanego rezultatu, a po każdym cyklu możliwa jest znacząca zmiana kierunku dalszych badań).

Analiza skupień delta ma również swoje wady:

  • skład i liczba klastrów zależy od określonego kryterium podziału;
  • podczas przekształcania pierwotnego zbioru danych w zwarte grupy pierwotne informacje mogą zostać zniekształcone, a poszczególne obiekty mogą utracić swoją indywidualność;
  • Często ignorowany jest brak niektórych wartości skupień w analizowanej populacji.


Jak przeprowadzić analizę skupień w programie Excel

Weźmy na przykład sześć obiektów obserwacyjnych. Każdy ma dwa parametry, które go charakteryzują.

Przyjmijmy odległość euklidesową jako odległość między obiektami. Wzór obliczeniowy:


Obliczone dane umieszczane są w macierzy odległości.

Obiektami najbliżej siebie są obiekty 4 i 5. Można je zatem połączyć w jedną grupę - tworząc nową macierz pozostawiamy najmniejszą wartość.

Z nowej macierzy jasno wynika, że ​​możliwe jest łączenie obiektów i 6 w jedno skupienie (jako te najbliżej siebie wartościowo). Zostawiamy najmniejszą wartość i tworzymy nową macierz:

Obiekty 1 i 2 można połączyć w jeden klaster (jako najbliższe dostępne). Wybieramy najmniejszą wartość i tworzymy nową macierz odległości. W rezultacie otrzymujemy trzy klastry:

Najbliższe obiekty to 1, 2 i 3. Połączmy je.

Analizę skupień przeprowadziliśmy metodą najbliższego sąsiada. W rezultacie otrzymano dwa skupienia, odległość między nimi wynosiła 7,07.

Analiza skupień ma ogromne znaczenie w analizie ekonomicznej. Narzędzie pozwala wyizolować z ogromnego zbioru okresów, w których wartości odpowiednich parametrów są jak najbardziej zbliżone i gdzie dynamika jest najbardziej zbliżona. Metoda ta jest doskonała do badania na przykład towarów i ogólnych warunków ekonomicznych.

ANALIZA SKUTKÓW W ZADANIACH PROGNOZOWANIA SPOŁECZNO-EKONOMICZNEGO

Wprowadzenie do analizy skupień.

Analizując i prognozując zjawiska społeczno-gospodarcze, badacz dość często spotyka się z wielowymiarowością ich opisu. Dzieje się tak przy rozwiązywaniu problemu segmentacji rynku, konstruowaniu typologii krajów w oparciu o dość dużą liczbę wskaźników, prognozowaniu warunków rynkowych dla poszczególnych towarów, badaniu i prognozowaniu kryzysu gospodarczego i wielu innych problemów.

Metody analizy wielowymiarowej są najskuteczniejszym narzędziem ilościowym do badania opisywanych procesów społeczno-gospodarczych duża liczba cechy. Należą do nich analiza skupień, taksonomia, rozpoznawanie wzorców i analiza czynnikowa.

Analiza skupień najwyraźniej odzwierciedla cechy analizy wielowymiarowej w klasyfikacji, analizy czynnikowej - w badaniu zależności.

Czasami podejście oparte na analizie skupień nazywane jest w literaturze taksonomią numeryczną, klasyfikacją numeryczną, rozpoznawaniem samouczącym się itp.

Analiza skupień znalazła swoje pierwsze zastosowanie w socjologii. Od czego pochodzi nazwa analiza skupień Angielskie słowo klaster – wiązka, nagromadzenie. Po raz pierwszy w 1939 roku przedmiot analizy skupień zdefiniował i opisał badacz Trion. Głównym celem analizy skupień jest podzielenie badanego zbioru obiektów i cech na grupy lub skupienia, które są jednorodne w odpowiednim sensie. Oznacza to, że rozwiązywany jest problem klasyfikacji danych i identyfikacji odpowiadającej im struktury. Najczęściej można zastosować metody analizy skupień różne przypadki, nawet w przypadkach, gdy mówimy o grupowaniu prostym, w którym wszystko sprowadza się do tworzenia grup w oparciu o podobieństwo ilościowe.

Wielką zaletą analizy skupień jest to, że pozwala ona na dzielenie obiektów nie według jednego parametru, ale według całego zestawu cech. Ponadto analiza skupień, w przeciwieństwie do większości metod matematycznych i statystycznych, nie nakłada żadnych ograniczeń co do rodzaju rozpatrywanych obiektów i pozwala na uwzględnienie różnorodnych danych wyjściowych o niemal dowolnym charakterze. Ma wielka wartość na przykład do prognozowania sytuacji rynkowej, gdy wskaźniki mają zróżnicowany wygląd, co utrudnia stosowanie tradycyjnych podejść ekonometrycznych.

Analiza skupień pozwala uwzględnić dość dużą ilość informacji oraz radykalnie zredukować i skompresować duże ilości informacji społeczno-ekonomicznych, czyniąc je zwięzłymi i wizualnymi.

Analiza skupień jest istotna w odniesieniu do zbiorów charakteryzujących szeregi czasowe rozwój gospodarczy(na przykład ogólne warunki gospodarcze i towarowe). Tutaj możesz wyróżnić okresy, w których wartości odpowiednich wskaźników były dość zbliżone, a także określić grupy szeregów czasowych, których dynamika jest najbardziej podobna.

Analizę skupień można stosować iteracyjnie. W takim przypadku badania prowadzi się do czasu uzyskania wymaganych wyników. Co więcej, każdy cykl tutaj może dostarczyć informacji, które mogą znacznie zmienić kierunek i podejście do dalszego stosowania analizy skupień. Proces ten można przedstawić jako system sprzężenia zwrotnego.

W zadaniach prognozowania społeczno-ekonomicznego bardzo obiecujące jest połączenie analizy skupień z innymi metodami ilościowymi (np. analizą regresji).

Jak każda inna metoda, analiza skupień ma pewne wady i ograniczenia: W szczególności skład i liczba skupień zależy od wybranych kryteriów podziału. Podczas zmniejszania oryginalnej tablicy danych do większej kompaktowy wygląd Mogą wystąpić pewne zniekształcenia, które mogą również zostać utracone cechy osobowości poszczególnych obiektów poprzez zastąpienie ich charakterystyką uogólnionych wartości parametrów klastra. Przy klasyfikacji obiektów bardzo często ignoruje się możliwość braku jakichkolwiek wartości skupień w rozpatrywanej populacji.

W analizie skupień uważa się, że:

a) wybrane cechy pozwalają w zasadzie na pożądany podział na klastry;

b) jednostki miary (skala) zostały wybrane prawidłowo.

Wybór skali odgrywa dużą rolę. Zazwyczaj dane normalizuje się poprzez odjęcie średniej i podzielenie przez odchylenie standardowe, tak aby wariancja była równa jeden.

Problem analizy skupień.

Zadaniem analizy skupień jest podzielenie zbioru obiektów G na podstawie danych zawartych w zbiorze X na m (m jest liczbą całkowitą) skupień (podzbiorów) Q1, Q2, ..., Qm, tak aby każdy obiekt Gj należy do jednego i tylko jednego podzbioru podziału, dzięki czemu obiekty należące do tego samego skupienia są podobne, natomiast obiekty należące do różnych skupień są heterogeniczne.

Przykładowo, niech G obejmuje n krajów, z których każdy charakteryzuje się PNB na mieszkańca (F1), liczbą M samochodów na 1 tysiąc mieszkańców (F2), zużyciem energii elektrycznej na mieszkańca (F3), zużyciem stali na mieszkańca (F4) itp. Wówczas X1 (wektor pomiarowy) jest zbiorem określonych cech dla pierwszego kraju, X2 dla drugiego, X3 dla trzeciego itd. Celem jest kategoryzowanie krajów według poziomu rozwoju.

Rozwiązaniem problemu analizy skupień są partycje spełniające pewne kryterium optymalności. Kryterium to może być pewnego rodzaju funkcjonałem wyrażającym poziomy celowości różnych podziałów i grup, co nazywa się funkcją celu. Na przykład za funkcję celu można przyjąć wewnątrzgrupową sumę kwadratów odchyleń:

gdzie xj oznacza wymiary j-tego obiektu.

Aby rozwiązać problem analizy skupień, konieczne jest zdefiniowanie pojęcia podobieństwa i heterogeniczności.

Jest oczywiste, że obiekty i-te i j-te wpadałyby do jednego skupienia, gdy odległość (odległość) pomiędzy punktami Xi i Xj byłaby wystarczająco mała, a wpadałyby do różnych skupień, gdy odległość ta byłaby wystarczająco duża. Zatem o przynależności do jednego lub różnych skupisk obiektów decyduje koncepcja odległości Xi i Xj od Ep, gdzie Ep jest p-wymiarową przestrzenią euklidesową. Nieujemną funkcję d(Xi, Xj) nazywamy funkcją odległości (metryczną), jeśli:

a) d(Хi, Хj) ³ 0, dla wszystkich Хi i Хj z Ep

b) d(Хi, Хj) = 0, wtedy i tylko wtedy, gdy Хi = Хj

c) d(Хi, Хj) = d(Хj, Хi)

d) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj), gdzie Xj; Xi i Xk to dowolne trzy wektory z Ep.

Wartość d(Хi, Хj) dla Хi i Хj nazywana jest odległością między Хi i Хj i jest równoważna odległości między Gi i Gj zgodnie z wybranymi charakterystykami (F1, F2, F3, ..., Fр).

Najczęściej używane funkcje odległości to:

1. Odległość euklidesowa d2(Хi, Хj) =

2. l1 - norma d1(Хi, Хj) =

3. Supremum - norma d¥ (Хi, Хj) = sup

k = 1, 2, ..., p

4. lp - norma dр(Хi, Хj) =

Najbardziej popularna jest metryka euklidesowa. Metryka l1 jest najłatwiejsza do obliczenia. Norma supremum jest łatwa do obliczenia i zawiera procedurę porządkowania, a norma lp obejmuje funkcje odległości 1, 2, 3,.

Niech n wymiarów X1, X2,..., Xn będzie przedstawionych jako macierz danych o rozmiarze p `n:

Wówczas odległość pomiędzy parami wektorów d(Хi, Хj) można przedstawić w postaci symetrycznej macierzy odległości:

Pojęciem przeciwstawnym do odległości jest pojęcie podobieństwa obiektów Gi. i Gj. Nieujemną funkcję rzeczywistą S(Хi ; Хj) = Sij nazywamy miarą podobieństwa, jeżeli:

1) 0 £ S(Хi, Хj)<1 для Хi¹ Хj

2) S(Хi, Хi) = 1

3) S(Хi, Хj) = S(Хj, Хi)

Pary wartości miar podobieństwa można połączyć w macierz podobieństwa:

Wartość Sij nazywana jest współczynnikiem podobieństwa.

1.3. Metody analizy skupień.

Obecnie istnieje wiele metod analizy skupień. Przyjrzyjmy się niektórym z nich (podane poniżej metody nazywane są zwykle metodami minimalnej wariancji).

Niech X będzie macierzą obserwacji: X = (X1, X2,..., Xu) a kwadrat odległości euklidesowej pomiędzy Xi i Xj wyznaczamy ze wzoru:

1) Sposób kompletnych połączeń.

Istota tej metody polega na tym, że dwa obiekty należące do tej samej grupy (skupienia) mają współczynnik podobieństwa mniejszy od pewnej wartości progowej S. W rozumieniu odległości euklidesowej d oznacza to, że odległość pomiędzy dwoma punktami (obiektami) klastra nie powinna przekraczać określonej wartości progowej h. Zatem h określa maksymalną dopuszczalną średnicę podzbioru tworzącego klaster.

2) Metoda maksymalnej odległości lokalnej.

Każdy obiekt jest traktowany jako skupienie jednopunktowe. Obiekty grupuje się według następującej zasady: dwa skupienia łączy się, jeśli maksymalna odległość między punktami jednego skupienia a punktami drugiego jest minimalna. Procedura składa się z n - 1 kroków, w wyniku czego powstają podziały pokrywające się ze wszystkimi możliwymi podziałami w poprzedniej metodzie dla dowolnych wartości progowych.

3) Metoda słowna.

W metodzie tej jako funkcję celu wykorzystuje się wewnątrzgrupową sumę kwadratów odchyleń, która jest niczym innym jak sumą kwadratów odległości pomiędzy każdym punktem (obiektem) a średnią klastra zawierającego ten obiekt. Na każdym etapie łączone są dwa skupienia, co prowadzi do minimalnego wzrostu funkcji celu, tj. wewnątrzgrupowa suma kwadratów. Metoda ta ma na celu łączenie blisko położonych klastrów.

Analiza skupień jest metodą analizy klasyfikacyjnej; jego głównym celem jest podzielenie zbioru badanych obiektów i cech na grupy lub skupienia, które są w pewnym sensie jednorodne. Jest to wieloczynnikowa metoda statystyczna, dlatego zakłada się, że dane pierwotne mogą mieć znaczną objętość, tj. Zarówno liczba obiektów badawczych (obserwacji), jak i cechy charakteryzujące te obiekty mogą być znacznie duże.

W statystyce stosowanej przez długi czas nie można było stosować wieloczynnikowych metod statystycznych ze względu na brak technologii komputerowej umożliwiającej przetwarzanie dużych ilości danych. Metody te zaczęły się aktywnie rozwijać w drugiej połowie XX wieku. wraz z pojawieniem się szybkich komputerów, które wykonują niezbędne obliczenia w ułamku sekundy, co wcześniej zajmowało dni, tygodnie, miesiące. Obecnie przeszkodą w powszechnym stosowaniu wielowymiarowych metod statystycznych, w tym analizy skupień, jest brak umiejętności i możliwości wśród badaczy pracy z pakietami oprogramowania statystycznego.

Technikę grupowania można stosować w wielu różnych obszarach zastosowań, w tym w medycynie. Na przykład grupowanie chorób, objawów, oznak chorób i metod leczenia może prowadzić do pełniejszego i głębszego zrozumienia problemów medycznych związanych z leczeniem pacjentów.

Wielką zaletą analizy skupień jest to, że umożliwia ona podział obiektów nie według jednego kryterium, ale według szeregu cech. Ponadto analiza skupień, w przeciwieństwie do większości metod matematycznych i statystycznych, nie nakłada żadnych ograniczeń co do rodzaju rozpatrywanych obiektów i pozwala na badanie różnorodnych danych wyjściowych o niemal dowolnym charakterze.

Ponieważ skupienia są grupami jednorodności, zadaniem analizy skupień jest, na podstawie charakterystyki obiektów, podzielenie ich zbioru na m (m jest liczbą całkowitą) skupień tak, aby każdy obiekt należał tylko do jednej grupy podziału. W tym przypadku obiekty należące do jednego skupienia muszą być jednorodne (podobne), a obiekty należące do różnych skupień muszą być heterogeniczne.

Jeżeli obiekty skupiające przedstawiamy jako punkty w n-wymiarowej przestrzeni cech (n-liczba cech charakteryzujących obiekty), to podobieństwo obiektów określa się poprzez koncepcję odległości między punktami, gdyż intuicyjnie jest jasne, że im mniejsza odległość między obiekty, tym bardziej są do siebie podobne.

Istnieje całkiem sporo algorytmów analizy skupień. Wszystkie można podzielić na hierarchiczne i niehierarchiczne.

Procedury hierarchiczne (drzewa) są najczęstszymi algorytmami analizy skupień do ich implementacji na komputerze. Istnieją procedury aglomeracyjne (od słowa aglomerat - zbierać) i iteracyjne procedury dywizji (od słowa dzielenie - dzielić).

Zasada działania hierarchicznych procedur aglomeracyjnych polega na sekwencyjnym łączeniu grup elementów, najpierw najbliższych, a następnie coraz bardziej od siebie oddalonych. Zasada działania hierarchicznych procedur podziału polega natomiast na sekwencyjnym podziale grup elementów, najpierw tych najbardziej odległych, a następnie coraz bardziej sobie bliskich. Większość tych algorytmów zaczyna od macierzy odległości (podobieństwa). Do wad procedur hierarchicznych należy uciążliwość ich realizacji obliczeniowej. Algorytmy na każdym kroku wymagają obliczenia macierzy odległości, a co za tym idzie dużej ilości pamięci komputera i dużej ilości czasu. Pod tym względem implementacja takich algorytmów przy liczbie obserwacji większej niż kilkaset jest niepraktyczna, a w niektórych przypadkach niemożliwa.

Ogólna zasada działania algorytmu aglomeracyjnego jest następująca. W pierwszym kroku każdą obserwację traktuje się jako osobne skupienie. Następnie na każdym etapie algorytmu łączone są dwa najbliższe skupienia i po uwzględnieniu przyjętej odległości przeliczana jest macierz odległości ze wzoru, którego wymiar jest oczywiście zmniejszany o jeden. Algorytm kończy się, gdy wszystkie obserwacje zostaną połączone w jedną klasę. Większość programów implementujących algorytm klasyfikacji hierarchicznej zapewnia graficzną reprezentację klasyfikacji w postaci dendrogramu.

W programie STATISTICA implementowane są aglomeracyjne metody minimalnej wariancji – grupowanie drzew i grupowanie dwuwejściowe, a także metoda k-średnich dzielonych.

Metoda grupowania drzew ma różne zasady

grupowanie hierarchiczne:

  • 1. Zasada pojedynczego połączenia. W pierwszym kroku łączone są dwa najbliższe obiekty, tj. charakteryzujący się maksymalnym stopniem podobieństwa. W kolejnym kroku łączy je obiekt o maksymalnej mierze podobieństwa do jednego z obiektów skupienia, tj. aby zostać włączonym do klastra, wymagane jest maksymalne podobieństwo tylko do jednego członka klastra. Metodę tę nazywa się także metodą najbliższego sąsiada, gdyż odległość pomiędzy dwoma skupieniami definiuje się jako odległość pomiędzy dwoma najbliższymi obiektami w różnych skupieniach. Ta reguła „ciągnie” obiekty w klastry. Wadą tej metody jest powstawanie zbyt dużych, wydłużonych skupisk.
  • 2. Zasada pełnych połączeń. Metoda eliminuje wadę związaną ze sposobem pojedynczego połączenia. Istota reguły jest taka, że ​​dwa obiekty należące do tej samej grupy (skupienia) mają współczynnik podobieństwa większy od pewnej wartości progowej S. W rozumieniu odległości euklidesowej oznacza to, że odległość pomiędzy dwoma punktami (obiektami) klaster nie powinien przekraczać określonej wartości progowej d. Zatem d określa maksymalną dopuszczalną średnicę podzbioru tworzącego klaster. Metoda ta nazywana jest również metodą najdalszych sąsiadów, ponieważ przy wystarczająco dużej wartości progowej d odległość między skupieniami jest określana przez największą odległość między dowolnymi dwoma obiektami w różnych skupieniach.
  • 3. Reguła średniej nieważonej parami. Odległość pomiędzy dwoma skupiskami definiuje się jako średnią odległość pomiędzy wszystkimi parami obiektów w nich znajdujących się. Metoda jest skuteczna, gdy obiekty faktycznie tworzą różne grupy, ale równie dobrze sprawdza się w przypadku skupień rozszerzonych (typu łańcuchowego).
  • 4. Reguła średniej ważonej parami. Metoda jest identyczna jak poprzednia, z tą różnicą, że jako czynnik ważący w obliczeniach stosowana jest wielkość odpowiednich klastrów. Zaleca się stosowanie tej metody, gdy spodziewane są nierówne rozmiary klastrów.
  • 5. Metoda nieważonych centroidów. Odległość pomiędzy dwoma klastrami definiuje się jako odległość pomiędzy ich środkami ciężkości.
  • 6. Metoda ważonych centroidów. Identyczny jak poprzedni, z tą różnicą, że w obliczeniach odległości wykorzystywane są wagi w celu uwzględnienia różnicy pomiędzy rozmiarami klastrów. Dlatego też, jeśli istnieją (lub podejrzewa się) istotne różnice w wielkości klastrów, ta metoda jest lepsza od poprzedniej.
  • 7. Zasada Warda (Ward). W metodzie tej jako funkcję celu wykorzystuje się wewnątrzgrupową sumę kwadratów odchyleń, która jest niczym innym jak sumą kwadratów odległości pomiędzy każdym punktem (obiektem) a średnią klastra zawierającego ten obiekt. Na każdym etapie łączone są dwa skupienia, co prowadzi do minimalnego wzrostu funkcji celu, tj. wewnątrzgrupowa suma kwadratów odchyleń. Metoda ta ma na celu łączenie blisko położonych klastrów. Należy zauważyć, że metoda Warda prowadzi do powstania skupień o w przybliżeniu równych rozmiarach i kształcie hipersfer.

Wcześniej przyglądaliśmy się metodom grupowania obiektów (obserwacji), ale czasami grupowanie według zmiennych może prowadzić do całkiem interesujących wyników. Moduł Analiza skupień udostępnia również efektywną procedurę dwóch wejść, która pozwala na grupowanie w dwóch kierunkach jednocześnie – poprzez obserwacje i zmienne.

metoda k-średnich

Załóżmy, że istnieją hipotezy dotyczące liczby m skupień (w oparciu o zmienne lub obserwacje). Następnie możesz powiedzieć programowi, aby utworzył dokładnie m klastrów, tak aby były jak najbardziej różne. Metoda k-średnich została zaprojektowana specjalnie do rozwiązywania tego typu problemów. Hipoteza może opierać się na rozważaniach teoretycznych, wynikach wcześniejszych badań lub domysłach. Dokonując sekwencyjnego podziału na różną liczbę skupień, można porównać jakość otrzymanych rozwiązań.

Program rozpoczyna się od m losowo wybranych skupień, a następnie zmienia przynależność obiektów, aby zminimalizować zmienność wewnątrz skupień i zmaksymalizować zmienność pomiędzy skupieniami. Algorytm losowo przydziela centra przyszłych gromad w przestrzeni. Następnie oblicza odległość pomiędzy środkami skupień a każdym obiektem, po czym obiekt przypisuje do skupienia, do którego jest najbliżej. Po zakończeniu przypisania algorytm oblicza średnie wartości dla każdego klastra. Tych średnich będzie tyle, ile zmiennych użytych do analizy – k sztuk. Zbiór średnich reprezentuje współrzędne nowej lokalizacji centrum klastra. Algorytm ponownie oblicza odległość każdego obiektu od środków skupień i przypisuje obiekty do najbliższego skupienia. Ponownie obliczane są środki ciężkości gromad i proces ten jest powtarzany, aż środki ciężkości przestaną „migrować” w przestrzeni. Jeżeli w grupowaniu drzew można zastosować zmienne kategoryczne, to ponieważ metoda k-średnich wykorzystuje metrykę euklidesową jako metrykę, konieczna jest standaryzacja zmiennych przed grupowaniem. Z tego samego powodu w metodzie zakłada się, że zmienne mają charakter ciągły i są mierzone co najmniej w skali przedziałowej.

, administracja publiczna, filologia, antropologia, marketing, socjologia, geologia i inne dyscypliny. Jednak powszechność zastosowań doprowadziła do pojawienia się dużej liczby niekompatybilnych terminów, metod i podejść, co utrudnia jednoznaczne stosowanie i spójną interpretację analizy skupień.

Encyklopedyczny YouTube

  • 1 / 5

    Analiza skupień spełnia następujące główne zadania:

    • Opracowanie typologii lub klasyfikacji.
    • Eksploracja przydatnych schematów pojęciowych do grupowania obiektów.
    • Generowanie hipotez w oparciu o eksplorację danych.
    • Testowanie hipotez lub badanie mające na celu ustalenie, czy zidentyfikowane w taki czy inny sposób typy (grupy) są rzeczywiście obecne w dostępnych danych.

    Niezależnie od przedmiotu badań zastosowanie analizy skupień obejmuje następujące etapy:

    • Wybór próby do grupowania. Konsekwencją tego jest to, że sensowne jest grupowanie wyłącznie danych ilościowych.
    • Określenie zbioru zmiennych, według których będą oceniane obiekty w próbie, czyli przestrzeni cech.
    • Obliczanie wartości określonej miary podobieństwa (lub różnicy) między obiektami.
    • Wykorzystanie metody analizy skupień do tworzenia grup podobnych obiektów.
    • Sprawdzenie wiarygodności wyników rozwiązania klastrowego.

    Można znaleźć opis dwóch podstawowych wymagań stawianych danym – jednorodność i kompletność. Homogeniczność wymaga, aby wszystkie skupione podmioty miały ten sam charakter i były opisane podobnym zestawem cech. Jeżeli analizę skupień poprzedzi analiza czynnikowa, to próbki nie trzeba „naprawiać” – postawione wymagania są wypełniane automatycznie przez samą procedurę modelowania czynnikowego (jest jeszcze jedna zaleta – standaryzacja z bez negatywnych konsekwencji dla próbki; jeśli przeprowadza się ją bezpośrednio na potrzeby analizy skupień, może to prowadzić do pogorszenia przejrzystości podziału na grupy). W przeciwnym razie próbkę należy dostosować.

    Typologia problemów grupowania

    Typy wejść

    We współczesnej nauce stosuje się kilka algorytmów przetwarzania danych wejściowych. Nazywa się analizą polegającą na porównywaniu obiektów na podstawie cech (najczęściej spotykanych w naukach biologicznych). Q-rodzaj analizy, a w przypadku porównywania cech na podstawie obiektów - R-rodzaj analizy. Podejmowane są próby stosowania analiz hybrydowych (np. pytanie-analiza), ale metodologia ta nie została jeszcze odpowiednio opracowana.

    Cele klastrowania

    • Zrozumienie danych poprzez identyfikację struktury klastrowej. Podział próby na grupy podobnych obiektów pozwala uprościć dalsze przetwarzanie danych i podejmowanie decyzji poprzez zastosowanie do każdego skupienia innej metody analizy (strategia „dziel i zwyciężaj”).
    • Kompresja danych. Jeśli pierwotna próba jest zbyt duża, można ją zmniejszyć, pozostawiając jednego najbardziej typowego przedstawiciela z każdego skupienia.
    • Wykrywanie nowości. Identyfikowane są obiekty nietypowe, których nie można przypisać do żadnego ze skupień.

    W pierwszym przypadku starają się zmniejszyć liczbę skupień. W drugim przypadku ważniejsze jest zapewnienie wysokiego stopnia podobieństwa obiektów w obrębie każdego skupienia, a skupień może być dowolna liczba. W trzecim przypadku najciekawsze są pojedyncze obiekty, które nie pasują do żadnego ze skupień.

    We wszystkich tych przypadkach można zastosować grupowanie hierarchiczne, gdy duże skupienia dzieli się na mniejsze, które z kolei dzielą się na jeszcze mniejsze itp. Takie problemy nazywane są problemami taksonomii. Taksonomia skutkuje drzewiastą strukturą hierarchiczną. Ponadto każdy obiekt charakteryzuje się wyszczególnieniem wszystkich klastrów, do których należy, zazwyczaj od dużych do małych.

    Metody grupowania

    Nie ma ogólnie przyjętej klasyfikacji metod grupowania, można jednak wyróżnić szereg grup podejść (niektóre metody można zaliczyć do kilku grup na raz i dlatego proponuje się traktować tę typizację jako pewne przybliżenie do rzeczywistej klasyfikacji metod grupowania ):

    1. Podejście probabilistyczne. Zakłada się, że każdy rozpatrywany obiekt należy do jednej z k klas. Niektórzy autorzy (np. A.I. Orłow) uważają, że grupa ta w ogóle nie ma związku z klasteringiem i sprzeciwiają się temu pod nazwą „dyskryminacja”, czyli wybór przyporządkowania obiektów do jednej ze znanych grup (próbek szkoleniowych).
    2. Podejścia oparte na systemach sztucznej inteligencji: grupa bardzo warunkowa, gdyż metod jest wiele i różnią się one metodologicznie.
    3. Logiczne podejście. Dendrogram jest konstruowany przy użyciu drzewa decyzyjnego.
    4. Podejście oparte na teorii grafów.
    5. Podejście hierarchiczne. Zakłada się obecność grup zagnieżdżonych (skupisków różnych rzędów). Algorytmy z kolei dzielą się na aglomeracyjne (ujednolicające) i dywizjonalne (rozdzielające). Na podstawie liczby cech czasami wyróżnia się monotetyczne i politetyczne metody klasyfikacji.
      • Hierarchiczne grupowanie podziałów lub taksonomia. Problemy grupowania są rozwiązywane w taksonomii ilościowej.
    6. Inne metody. Nieuwzględnione w poprzednich grupach.
      • Algorytmy grupowania statystycznego
      • Zespół klasteryzatorów
      • Algorytmy rodziny KRAB
      • Algorytm oparty na metodzie przesiewania

    Podejścia 4 i 5 są czasami łączone pod nazwą podejścia strukturalnego lub geometrycznego, które ma bardziej sformalizowaną koncepcję bliskości. Pomimo znacznych różnic między wymienionymi metodami, wszystkie opierają się na oryginalnym „ hipoteza zwartości„: w przestrzeni obiektów wszystkie bliskie obiekty muszą należeć do tego samego klastra, a zatem wszystkie różne obiekty muszą znajdować się w różnych klastrach.

    Formalne sformułowanie problemu grupowania

    Pozwalać X (\ displaystyle X)- wiele obiektów, Y (\ displaystyle Y)- zbiór numerów (nazw, etykiet) klastrów. Określona jest funkcja odległości pomiędzy obiektami ρ (x, x ′) (\ displaystyle \ rho (x, x)). Istnieje skończona próbka ucząca obiektów X m = ( x 1 , … , x m ) ⊂ X (\ Displaystyle X ^ (m) = \ (x_ (1), \ kropki, x_ (m) \) \ podzbiór X). Wymagane jest podzielenie próbki na rozłączne podzbiory tzw klastry, tak że każdy klaster składa się z obiektów o podobnej metryce ρ (\ displaystyle \ rho), a obiekty poszczególnych skupień znacznie się od siebie różniły. Jednocześnie każdy przedmiot x ja ∈ X m (\ Displaystyle x_ (i) \ w X ^ (m)) przypisany jest numer klastra y ja (\ displaystyle y_ (i)).

    Algorytm grupowania jest funkcją za: X → Y (\ displaystyle a \ dwukropek X \ do Y), który do dowolnego obiektu x ∈ X (\ displaystyle x \ w X) odpowiada numerowi klastra y ∈ Y (\ displaystyle y \ w Y). Wiele Y (\ displaystyle Y) w niektórych przypadkach jest to znane z góry, ale częściej zadaniem jest określenie optymalnej liczby klastrów, z punktu widzenia tego czy innego kryteria jakości grupowanie.

    Ogólnie rzecz biorąc, warto zauważyć, że historycznie rzecz biorąc, w biologii często używano miar podobieństwa, a nie miar różnicy (odległości).

    W socjologii

    Analizując wyniki badań socjologicznych, zaleca się przeprowadzenie analizy z wykorzystaniem metod hierarchicznej rodziny aglomeracyjnej, czyli metody Warda, w której optymalizuje się minimalne rozproszenie wewnątrz klastrów, tworząc ostatecznie klastry o w przybliżeniu równej wielkości. Do analizy danych socjologicznych najlepiej nadaje się metoda Warda. Lepszą miarą różnicy jest kwadratowa odległość euklidesowa, która pomaga zwiększyć kontrast klastrów. Głównym wynikiem hierarchicznej analizy skupień jest dendrogram, czyli „schemat sopla”. Interpretując ją, badacze stają przed tym samym problemem, co przy interpretacji wyników analizy czynnikowej – brakiem jednoznacznych kryteriów identyfikacji skupień. Zaleca się stosowanie dwóch głównych metod – analizy wizualnej dendrogramu i porównania wyników grupowania wykonanych różnymi metodami.

    Analiza wizualna dendrogramu polega na „przycięciu” drzewa do optymalnego poziomu podobieństwa elementów próbki. Wskazane jest „odcięcie gałązki winogronowej” (terminologia M. S. Oldenderfera i R. K. Blashfielda) na poziomie 5 skali Rescaled Distance Cluster Combine, dzięki czemu uzyskany zostanie poziom podobieństwa na poziomie 80%. Jeśli identyfikacja skupień przy użyciu tej etykiety jest trudna (kilka małych skupień łączy się w jeden duży), możesz wybrać inną etykietę. Technikę tę proponują Oldenderfer i Blashfield.

    Teraz pojawia się pytanie o trwałość przyjętego rozwiązania klastrowego. W istocie sprawdzenie stabilności klastrowania sprowadza się do sprawdzenia jego niezawodności. Obowiązuje tu praktyczna zasada – stabilna typologia zostaje zachowana, gdy zmieniają się metody grupowania. Wyniki hierarchicznej analizy skupień można zweryfikować poprzez iteracyjną analizę skupień z wykorzystaniem metody k-średnich. Jeżeli porównywane klasyfikacje grup respondentów mają współczynnik zbieżności większy niż 70% (więcej niż 2/3 dopasowań), wówczas podejmowana jest decyzja skupieniowa.

    Nie da się sprawdzić adekwatności rozwiązania bez skorzystania z innego rodzaju analizy. Przynajmniej w ujęciu teoretycznym problem ten nie został rozwiązany. Klasyczny artykuł Oldenderfera i Blashfielda, Cluster Analysis, szczegółowo omawia i ostatecznie odrzuca dodatkowe pięć metod testowania odporności:

    1. korelacja kofenetyczna – niezalecana i ograniczona w zastosowaniu;
    2. testy istotności (analiza wariancji) – zawsze dają wynik znaczący;
    3. technika ponownego (losowego) pobierania próbek, która jednak nie dowodzi słuszności decyzji;
    4. testy istotności dla atrybutów zewnętrznych nadają się tylko do powtarzanych pomiarów;
    5. Metody Monte Carlo są bardzo złożone i dostępne tylko dla doświadczonych matematyków [ (eng. wykrywanie krawędzi) lub rozpoznawanie obiektów.
    6. Inteligentna analiza danych (ang. data mining) – klastering w Data Mining nabiera wartości wtedy, gdy pełni funkcję jednego z etapów analizy danych i budowy kompletnego rozwiązania analitycznego. Analitykowi często łatwiej jest zidentyfikować grupy podobnych obiektów, zbadać ich cechy i zbudować osobny model dla każdej grupy, niż stworzyć jeden ogólny model dla wszystkich danych. Technika ta jest stale wykorzystywana w marketingu, identyfikując grupy klientów, nabywców, produkty i opracowując dla każdej z nich odrębną strategię.

    Klasyfikacja jest jednym z podstawowych procesów w nauce. Zanim będziemy w stanie zrozumieć pewien zakres zjawisk i opracować zasady je wyjaśniające, często konieczne jest ich uporządkowanie. Klasyfikację można zatem uznać za czynność intelektualną wysokiego poziomu, niezbędną do zrozumienia natury. Klasyfikacja to porządkowanie obiektów według podobieństwa. A samo pojęcie podobieństwa jest niejednoznaczne. Zasady klasyfikacji mogą być również inne. Dlatego często procedury stosowane w analizie skupień do tworzenia klas opierają się na podstawowych procesach klasyfikacyjnych właściwych ludziom i być może innym żywym istotom (Classification and Cluster, 1980). Dość często w psychologii istnieje potrzeba klasyfikowania wielu obiektów według wielu zmiennych. Do przeprowadzenia takiej wielowymiarowej klasyfikacji wykorzystuje się metody analizy skupień. Grupy obiektów, które są blisko siebie według jakiegoś kryterium, nazywane są zwykle klastrami. Klastrowanie można uznać za procedurę, która rozpoczynając pracę z takim czy innym rodzajem danych, przekształca je w dane o klastrach. Wiele metod analizy skupień różni się od innych metod analizy wielowymiarowej brakiem próbek uczących, tj. informacja aprioryczna o rozkładzie odpowiednich zmiennych populacji. Metod analizy skupień jest całkiem sporo, a ich klasyfikacja zostanie opisana poniżej.

    Najszerzej stosowane w psychologii są hierarchiczne metody aglomeracyjne i iteracyjne metody grupowania. W przypadku stosowania metod analizy skupień dość trudno jest podać jednoznaczne zalecenia dotyczące preferencji stosowania określonych metod. Należy zrozumieć, że uzyskane wyniki klasyfikacji nie są jedyne. Należy uzasadnić preferowaną metodę i uzyskane wyniki.

    Analiza skupień (CA) buduje system klasyfikacji badanych obiektów i zmiennych w postaci drzewa (dendrogramu) lub dzieli obiekty na zadaną liczbę klas odległych od siebie.

    Metody analizy skupień można podzielić na:

    • wewnętrzne (kryteria klasyfikacji są równoważne);
    • zewnętrzny (istnieje jedna główna cecha, inne ją określają).

    Metody wewnętrzne z kolei można podzielić na:

    • hierarchiczny (procedura klasyfikacyjna ma strukturę drzewiastą);
    • niehierarchiczne.
    • aglomeracyjny (jednoczący);
    • dywizjonujący (oddzielający).

    Konieczność stosowania metod analizy skupień pojawia się w przypadku określenia wielu cech, pod kątem których bada się wiele podmiotów; zadaniem jest zidentyfikowanie klas (grup) przedmiotów, które są podobne w całym zestawie cech (profilu). W pierwszym etapie macierz zamieszania (oceny różnych cech przez ludzi) jest przekształcana w macierz odległości. Aby obliczyć macierz odległości, wybiera się metrykę lub metodę obliczania odległości między obiektami w przestrzeni wielowymiarowej. Jeśli obiekt jest opisany k znaków, wówczas można go przedstawić jako punkt w k-przestrzeń wymiarowa. Możliwość pomiaru odległości pomiędzy obiektami w k Przestrzeń -wymiarowa jest wprowadzana poprzez koncepcję metryk.

    Niech obiekty I I J należą do zbioru M i każdy obiekt jest opisany k znaków, to powiemy, że metryka jest dana na zbiorze M, jeśli dla dowolnej pary obiektów należących do zbioru M zdefiniowana jest liczba nieujemna d ij, spełniający następujące warunki (aksjomaty metryczne):

    1. Aksjomat tożsamości: d ij = 0 ⇔ IJ.
    2. Aksjomat symetrii: d ij = djiI, J.
    3. Nierówność trójkąta: ∀ I, J, z∈M, nierówność jest spełniona reżd ij + d zj .

    Przestrzeń, w której wprowadza się metrykę, nazywa się metryką. Najczęściej używane metryki to:

    1. Metryka euklidesowa:

    Ta metryka jest najczęściej używana i odzwierciedla średnią różnicę między obiektami.

    2. Metryka znormalizowanego euklidesa. Znormalizowane odległości euklidesowe są bardziej odpowiednie dla zmiennych mierzonych w różnych jednostkach lub znacznie różniących się wielkością.

    Jeżeli wariancje cech różnią się od siebie, to:

    Jeżeli skala danych jest inna, np. jedna zmienna jest mierzona w stanach, a druga w punktach, wówczas aby wszystkie cechy miały taki sam wpływ na bliskość obiektów, stosuje się następujący wzór obliczania odległości:

    3. Metryka blokowa (metryka Manhattanu, nazwana na cześć dzielnicy Manhattan, którą tworzą ulice ułożone w formie przecięcia równoległych linii pod kątem prostym; zwykle stosowana dla zmiennych nominalnych lub jakościowych):

    4. Metryka oparta na korelacji: re ij =1- |r ij |.

    5. Metryka Braya-Cartisa, stosowana również w skalach mianownikowych i rankingowych, zwykle dane są wstępnie standaryzowane:

    Odległości obliczone na podstawie współczynnika korelacji odzwierciedlają spójność wahań wyniku, w przeciwieństwie do metryki euklidesowej, która mierzy średnio podobieństwo. O wyborze metryki decyduje problem badawczy oraz rodzaj danych. Oprócz powyższych metod opracowano metryki dla zmiennych rangowych, dychotomicznych itp. (we wszystkich powyższych wzorach ja, j– numery kolumn; k– numer linii; d ij– element macierzy odległości; x ik, x jk– elementy macierzy oryginalnej; N– liczba obiektów).

    Najczęściej stosowaną metodą analizy skupień w psychologii jest hierarchiczna metoda aglomeracyjna, co pozwala na zbudowanie drzewa klasyfikacyjnego N obiekty poprzez hierarchiczne łączenie ich w grupy lub skupienia o coraz większej ogólności w oparciu o dane kryterium, np. minimalną odległość w przestrzeni M zmienne opisujące obiekty. W rezultacie pewien zbiór obiektów zostaje podzielony na naturalną liczbę skupień. Początkowo każdy element jest klasą, następnie na każdym etapie łączone są najbliższe obiekty, w wyniku czego wszystkie obiekty tworzą jedną klasę.

    Algorytm metody aglomeracyjnej można przedstawić w postaci: na wejściu znajduje się macierz zamieszania, z której konstruowana jest macierz odległości, lub macierz odległości uzyskana bezpośrednio w wyniku badań.

    1. W pierwszym kroku obiekty, między którymi odległość jest minimalna, są łączone w jedną klasę.
    2. W drugim kroku przeliczana jest macierz odległości z uwzględnieniem nowo utworzonej klasy.

    Ponadto naprzemienność punktów 1 i 2 jest przeprowadzana do momentu połączenia wszystkich obiektów w jedną klasę. Graficzna reprezentacja wyników jest zwykle przeprowadzana w formie hierarchicznego drzewa grupującego. Oś X obiekty sklasyfikowane znajdują się (w tej samej odległości od siebie); wzdłuż osi Y– odległości, na podstawie których obiekty są łączone w skupienia. Do określenia „naturalnej” liczby skupień stosuje się kryterium podziału na klasy w postaci stosunku średnich odległości wewnątrz skupień do odległości między skupieniami. Minimum globalne odpowiada „naturalnej” liczbie klas, a minima lokalne odpowiadają pod- I nad- konstrukcje (granice dolna i górna).

    Metody hierarchicznej analizy skupień różnią się także strategią łączenia (strategia przeliczania odległości). Jednak w standardowych pakietach statystycznych nie ocenia się niestety podziału na klasy, dlatego metodę tę stosuje się jako metodę wstępną do określenia liczby klas (najczęściej w oparciu o stosunek odległości międzygromadowych i wewnątrzklastrowych). Następnie użyj dowolnej metody k-średnie, czyli analiza dyskryminacyjna, lub autorzy samodzielnie, stosując różne metody, dowodzą rozdzielności klas.

    Podczas łączenia I i J- klasy do klasy k, odległość pomiędzy nową klasą k i każda inna klasa H przeliczone przy użyciu jednej z poniższych metod (strategii łączenia). Odległości pomiędzy pozostałymi klasami są utrzymywane na stałym poziomie. Najczęściej spotykane są następujące strategie łączenia (nazwa nie do końca odpowiada treści; zgodnie z wybranymi wzorami przeliczana jest odległość obiektów do nowo powstałej klasy):

    1. Strategia „najbliższego sąsiada” – zawęża przestrzeń (klasy łączone są wzdłuż najbliższej granicy)

    2. Strategia „dalekiego sąsiada” – rozciąga przestrzeń (klasy łączone są wzdłuż dalszej granicy):

    3. Strategia „Średnia grupa” – nie zmienia przestrzeni (obiekty są łączone zgodnie z odległością do środka zajęć):

    Gdzie n ja , n j , n k– liczba obiektów odpowiednio w klasach I, J, k.

    Dwie pierwsze strategie zmieniają przestrzeń (wąska i rozciągająca), ale ostatnia jej nie zmienia. Jeśli zatem nie da się uzyskać wystarczająco dobrego podziału na klasy przy pomocy trzeciej strategii, ale nadal trzeba je zidentyfikować, wówczas stosuje się dwie pierwsze, a pierwsza strategia łączy klasy wzdłuż najbliższych granic, a druga – wzdłuż tych odległych.

    Dlatego w standardowych sytuacjach zwykle stosuje się strategię średniej grupowej. Jeżeli grupa badana jest wystarczająco heterogeniczna, tj. Podmioty w nim zawarte znacznie różnią się od siebie wieloma cechami, jednak wśród nich należy wyodrębnić grupy bardziej podobne w całym profilu cech, wówczas stosuje się strategię „dalekiego sąsiada” (zawężania przestrzeni). Jeżeli grupa jest wystarczająco jednorodna, wówczas należy zastosować strategię „dalekiego sąsiada” w celu wyodrębnienia podgrup wśród podmiotów o bardzo podobnych cechach.

    Przyjrzyjmy się fragmentowi wyników badania sukcesu zespołu – małej grupy skupionej na rozwiązaniu problemu biznesowego i składającej się z młodych specjalistów (inżynierów oprogramowania), którzy wspólnie podejmują decyzje i wykonują złożoną pracę w różnych składach. Zadanie polega na zbadaniu struktury tego zespołu i jakościowym opisaniu cech każdej podgrupy. Brano pod uwagę następujące cechy: zależność od standardów grupowych, odpowiedzialność, efektywność, aktywność w pracy, zrozumienie celu, organizacja, motywacja. Poniżej przedstawiono macierz zamieszania dla 9 pracowników.

    Tabela 1. Matryca miksująca dla 9-osobowego zespołu

    Wykorzystując metrykę euklidesową otrzymujemy symetryczną macierz odległości, która jest podstawą analizy skupień.

    Tabela 2. Macierz odległości uzyskana przy użyciu metryki euklidesowej

    Wynik zastosowania metody aglomeracyjnej hierarchicznej CA do otrzymanej macierzy z wykorzystaniem pakietu STATISTICA – drzewa klasyfikacyjnego – przedstawiono na rys. 1: numery obiektów (członków zespołu) naniesione są w tej samej odległości wzdłuż osi poziomej, a odległość, na jaką te obiekty są połączone, jest wykreślona wzdłuż osi pionowej.

    Widać, że wyłoniły się dwie klasy: jedna obejmuje obiekty 5, 8, 9, 7, 6, 4, a druga - 3, 2, 1. Rozdzielność klas ocenia się poprzez porównanie odległości wewnątrzklastrowych i międzygromadowych na poziomie jakościowym.

    Zastosowana do wyników badań empirycznych metoda aglomeracyjnej hierarchicznej CA pozwala na identyfikację „naturalnej” liczby klas, a także pod- I nad- struktury. Bardziej efektywne będzie użycie szacunków podziału klas.

    Ryż. 1. Drzewo klasyfikacyjne

    Aby określić „naturalną” liczbę skupień, na jakie można podzielić zbiór obiektów i ewentualnie uwypuklić bardziej „drobną” strukturę, zastosowano następujące kryterium: na każdym poziomie skupienia hierarchicznego zbiór był dzielony na zadany liczba zajęć. Stosowana do tego formuła opierała się na idei gęstości fizycznej, a dokładniej objętości przestrzeni zajmowanej przez dany zbiór obiektów (Savchenko, Rasskazova, 1989). Dla każdej pary klastrów oceniano stopień ich wewnętrznego powiązania ze sobą. W tym celu obliczono średnią odległość wewnątrzklasterową dla każdego klastra z danej pary; jeżeli klasa zawiera tylko jeden element, wówczas odległość odpowiada minimalnej odległości od któregokolwiek z elementów. Jeśli w klasie jest więcej niż jeden element, ale wszystkie różnice między nimi są równe 0, to wzór odzwierciedla analogię z ilością miejsca zajmowanego przez jeden obiekt. Wzór uwzględnia, że ​​w tym przypadku w jednym punkcie przestrzeni znajduje się tylko jeden obiekt o większej „gęstości właściwej”.

    Jako oszacowanie łączności przyjmuje się stosunek średniej odległości wewnątrz gromady do odległości między gromadami:

    Gdzie i ja I j– średnie odległości klas wewnątrz gromady I I J; b ij– średnia odległość międzygromadowa pomiędzy tymi samymi klasami.

    Przedział „naturalny” ocenia się za pomocą następującego wzoru:

    Zwróćmy uwagę na pewne właściwości takiego podziału: jeżeli wszystkie różnice pomiędzy obiektami są sobie równe, to S dla tego przypadku jest równe 1; Podziały otrzymane za pomocą opisanego powyżej algorytmu mają wynik nie większy niż 1. Zatem wartość kryterium takiego podziału, gdy wszystkie obiekty zostaną połączone w jedno skupienie, przyjmiemy jako równą 1.

    Minimalna wartość funkcji S określa najlepszy podział zbioru obiektów na skupienia. Obraz drzewa grupującego i wartości funkcji S na jednym wykresie pozwala zidentyfikować nie tylko optymalny podział, ale także pod- I nad- struktury odpowiadające minimom lokalnym funkcji S i umożliwiające wykrycie różnych poziomów unifikacji w zbiorze. Zatem opisana metoda analizy skupień pozwala zidentyfikować hierarchiczną organizację wielu obiektów, wykorzystując jedynie macierz różnic między nimi.

    Jednak w standardowych pakietach, jak wspomniano powyżej, niestety taka ocena nie jest zapewniona. Aby uzyskać bardziej szczegółowe informacje o powstałych klasach, stosuje się inne metody grupowania: na przykład analiza dendrytyczna umożliwia prześledzenie bliskości obiektów w klasach i bardziej szczegółowe badanie ich struktury; metoda k-średnie pozwala na jakościowy opis każdej klasy obiektów i przeprowadzenie analizy porównawczej stopnia ekspresji badanych cech u przedstawicieli obu klas.

    Analizując dane z badań społeczno-psychologicznych relacji w zespołach, oprócz podziału ich na klasy, konieczne jest rozstrzygnięcie pytania, jakie dokładnie obiekty (cechy, atrybuty) łączą klasy ze sobą. W takim przypadku wskazane jest użycie metoda analizy skupień dendrytycznych, które jest często używane w połączeniu z określeniem hierarchiczny. Dendryt w tym przypadku jest linią łamaną, która nie zawiera zamkniętych linii łamanych i jednocześnie łączy dowolne dwa elementy. Nie wyznacza się tego w jeden sposób, dlatego proponuje się konstrukcję dendrytu, w którym suma długości wiązań jest minimalna.

    Zatem obiekty są wierzchołkami dendrytu, a odległości między nimi to łuki. W pierwszym etapie dla każdego obiektu znajduje się najbliższy obiekt (znajdujący się w minimalnej odległości od niego) i tworzone są pary. Liczba par jest równa liczbie obiektów. Ponadto, jeśli istnieją pary symetryczne (na przykład: i______j, j_____i), wówczas jedna z nich jest usuwana; jeśli dwie pary mają ten sam element, wówczas pary są łączone poprzez ten element. Na przykład dwie pary:

    i__________j,

    j______k

    połączyć się I ___________J ________k .

    Na tym kończy się budowa gromad (plejad) pierwszego rzędu. Następnie wyznaczane są minimalne odległości pomiędzy obiektami klastrów pierwszego rzędu i klastry te są łączone aż do skonstruowania dendrytu. Grupy obiektów uważa się za całkowicie rozłączne, jeśli długość łuku między nimi d lk > C str, Gdzie C str = Od śr + S, Od śr– średnia długość łuku, S– odchylenie standardowe.

    Dendryty mogą mieć postać rozety, szlaku w kształcie ameby lub łańcucha. W przypadku jednoczesnego stosowania hierarchicznego CA i metody dendrytowej rozkład elementów na klasy uzyskuje się za pomocą CA, a relacje między elementami analizuje się za pomocą dendrytu.

    Zastosowanie analizy dendrytycznej do rozważanych danych pozwoliło uzyskać następujący dendryt (patrz rys. 2).

    Zatem w powyższym przypadku C str= 4,8. Oznacza to, że wyróżnia się trzy klasy, co nieco różni się od wyniku uzyskanego metodą aglomeracyjną. Z pierwszych zajęć, które obejmowały przedmioty 1, 3, 2, wyodrębniła się pierwsza osoba z zespołu. Do drugiej klasy zaliczały się obiekty 8, 4, 9, 7, 6, 5 (podobne do wyników uzyskanych metodą aglomeracyjną).

    Ryż. 2. Dendryt (prosty kształt drzewa): odległości między obiektami są wskazane nad łukami dendrytu

    Zastosowanie tej metody pozwala uzyskać dodatkową informację o tym, które obiekty łączą ze sobą klasy. W naszym przypadku są to obiekty 2 i 6 (członkowie kolektywu). Struktura ta jest zbliżona do socjometrycznej, jednak została uzyskana na podstawie wyników badań. Dalsza analiza dendrytu umożliwi identyfikację grup zgodnych osób (które najskuteczniej rozwiązują przydzielone zadania podczas wspólnych działań) lub identyfikację tych, które lepiej radzą sobie samodzielnie, np. Obiekt 1; 8, obiekt znajduje się na granicy rozdzielności, więc może lepiej przypisać mu indywidualne zadania.

    Oprócz aglomeracyjnych metod hierarchicznych istnieje również duża liczba iteracyjne metody analizy skupień. Główną różnicą jest to, że proces klasyfikacji rozpoczyna się od ustalenia warunków początkowych: może to być liczba klas, kryterium zakończenia klasyfikacji itp. Do metod takich zalicza się np. metody dywizjonalne, metody k-średnich i inne, które wymagają od badacza intuicji i twórczego podejścia. Jeszcze przed klasyfikacją konieczne jest zrozumienie, ile klas należy utworzyć, kiedy zakończyć proces klasyfikacji itp. Wynik klasyfikacji będzie zależał od prawidłowo dobranych warunków początkowych, gdyż źle dobrane warunki mogą prowadzić do „rozmycia” klas. Metody te stosuje się zatem wówczas, gdy istnieje teoretyczne uzasadnienie np. liczby oczekiwanych klas, a także po przeprowadzeniu metod klasyfikacji hierarchicznej, które pozwalają na opracowanie najbardziej optymalnej strategii badawczej.

    metoda k-średnich można zaliczyć do metod iteracyjnych typu referencyjnego. Nazwę nadał mu J. McQueen. Istnieje wiele różnych modyfikacji tej metody. Rozważmy jeden z nich.

    Załóżmy, że w wyniku badania uzyskana zostanie matryca pomiarów N obiekty wg M cechy. Wiele obiektów należy podzielić na k klasy dla wszystkich badanych cech.

    W pierwszym kroku N obiekty są wybrane k punkty albo losowo, albo w oparciu o przesłanki teoretyczne. Takie są standardy. Każdemu z nich przypisany jest numer seryjny (numer klasy) i waga równa jeden.

    W drugim kroku pozostałe nie wiem wyodrębnia się jeden obiekt i sprawdza, do której z klas jest on bliższy, dla której stosowana jest jedna z miar (niestety w głównych pakietach statystycznych stosowana jest tylko metryka euklidesowa). Przedmiot, o którym mowa, należy do klasy, do której standardu jest najbliższy. Jeżeli występują dwie identyczne odległości minimalne, to obiekt zostaje dodany do klasy z liczbą minimalną.

    Standard, do którego dołączony jest nowy obiekt, zostaje przeliczony, a jego waga wzrasta o jeden.

    Niech standardy zostaną przedstawione w następujący sposób:

    Następnie, jeśli przedmiot, o którym mowa J odnosi się do normy k, wówczas ten standard (tj. środek powstałej klasy) jest przeliczany w następujący sposób:

    Tutaj vjo– waga standardowa J w iteracji zerowej.

    Pozostałe standardy pozostają bez zmian.

    Aby uzyskać stabilny podział, nowe standardy po rozdzieleniu wszystkich obiektów przyjmuje się jako początkowe, a następnie procedurę powtarza się od pierwszego kroku. Wagi klas nadal się kumulują. Nowy rozkład klas porównuje się z poprzednim, jeśli różnica nie przekracza określonego poziomu, tj. rozkłady można uznać za niezmienione, wówczas procedura klasyfikacji zostaje zakończona.

    Istnieją dwie modyfikacje tej metody. W pierwszym środek skupienia jest przeliczany po każdym łączeniu, w drugim po zakończeniu przypisywania wszystkich obiektów do klas; minimalizacja wariancji wewnątrzklastrowej przeprowadzana jest w większości iteracyjnych metod analizy skupień.

    Zazwyczaj metoda k-średnich implementuje procedurę konstruowania uśrednionych profili każdej klasy (patrz ryc. 3), co pozwala na jakościową analizę ekspresji cech u przedstawicieli każdej klasy. Do porównywania klas ze względu na nasilenie pewnych cech stosuje się procedurę podobną do ANOVA, która porównuje wariancje wewnątrz skupień i między skupieniami dla każdej cechy i dzięki temu umożliwia sprawdzenie istotności różnic klas w badanych cechach.

    Ryż. 3. Uśrednione profile klas

    Tabela 3. Numery obiektów i odległości od środków zajęć

    Z analizy profili wynika, że ​​do pierwszej klasy (tab. 3) zaliczali się członkowie zespołu charakteryzujący się niewielką zależnością od grupy, średnim poziomem odpowiedzialności oraz dużą aktywnością w pracy, efektywnością i zrozumieniem celu. Do drugiej (liczniejszej) grupy zaliczali się pracownicy, których cechowała znaczna zależność od standardów grupowych, niski poziom odpowiedzialności, aktywność w pracy, efektywność i zrozumienie wspólnego celu. Tym, którzy należą do pierwszej grupy, można przypisać odpowiedzialność, mogą oni samodzielnie podejmować decyzje itp.; drugą grupę stanowią wykonawcy, których realizacja powierzonych zadań wymaga stałego monitorowania. Zauważamy jedynie, że motywacja jest niska w obu grupach, co prawdopodobnie wynika z niskich wynagrodzeń. W tabeli Rycina 4 przedstawia wyniki analizy porównawczej, ukazującej istotne różnice pomiędzy klasami ze względu na trzy cechy: aktywność w pracy, wydajność i zrozumienie celu.

    Tabela 4. Analiza rozdzielności klas (pogrubioną czcionką zaznaczono te cechy, dla których istnieje istotna różnica pomiędzy klasami).

    Do oryginalnych metod opartych na teorii psychologicznej zalicza się: analiza skupień w oparciu o teorię Wygotskiego. W swojej pracy „Myślenie i mowa” Wygotski opisuje różne genetyczne etapy rozwoju koncepcji. W szczególności jako jeden z najważniejszych wymienia etap powstawania kompleksów, będących prototypami koncepcji naukowych. Pisze, że kompleks opiera się na rzeczywistych powiązaniach między obiektami, ustalonych w bezpośrednim doświadczeniu. Dlatego taki zespół to przede wszystkim swoiste skojarzenie obiektów oparte na ich rzeczywistej odległości od siebie. Następnie wyróżnia pięć form kompleksów, a mianowicie: kompleks asocjacyjny, kompleks zbiorczy, kompleks łańcuchowy, kompleks rozproszony, pseudopojęcia. Należy od razu zauważyć, że we wszystkich typach kompleksów możliwe są dowolne połączenia asocjacyjne, a ich charakter może być zupełnie inny pomiędzy różnymi parami elementów uczestniczących w tworzeniu tego samego kompleksu. Zatem najważniejszą cechą powstawania kompleksów jest mnogość rodzajów połączeń asocjacyjnych pomiędzy elementami połączonymi w kompleks. Należy zauważyć, że szczególny przypadek różnic między elementami może stanowić różnicę według jakiegoś kryterium. W analizie skupień takim kryterium jest (modelowana) odległość. Ponieważ charakter połączeń w kompleksie asocjacyjnym może być różny, formalizacja odbywa się poprzez określenie kilku różnych typów odległości parami (lub różnic) między nimi na tym samym zbiorze elementów.

    Załóżmy, że w opisanym przez nas przykładzie przedmiotem badań są relacje między członkami pewnej małej grupy, na przykład przemysłowej, naukowej lub edukacyjnej. Dla tej samej grupy można wyróżnić kilka rodzajów relacji: przemysłowe, osobiste, wspólnota zainteresowań itp. Następnie dla dowolnej z grup wyznacza się eksperymentalnie strukturę relacji każdego typu i konstruuje macierz odległości (lub bliskości) parami pomiędzy członkami grupy dla każdego typu relacji.

    Formalny opis sytuacji jest następujący. Zestaw dany M elementy 1 , 2 ,…, Jakiś oraz wiele rodzajów bliskości parami tych elementów. Niech liczba tych typów będzie wynosić m. Różne rodzaje bliskości różnią się od siebie tym, że każdy reprezentuje bliskość w jakiejś jakości właściwej wszystkim elementom zbioru. Tym samym wyróżnij się M cechy każdego elementu i dokonuje się porównania (obliczenia odległości lub różnic) dla każdej z tych cech, co daje M rodzaje bliskości elementów. Dla każdego rodzaju bliskości określona jest macierz odległości (lub różnic) parami, odzwierciedlająca strukturę zbioru elementów m w odniesieniu do tego rodzaju bliskości. Należy określić sumę M takie macierze.

    Pokażmy teraz, jak w ramach tego formalnego schematu można opisać algorytmy tworzenia kompleksów różnego typu.

    1. Klaster skojarzeniowy. Według Wygotskiego w kompleksie asocjacyjnym najpierw izolowany jest element, który będzie tworzył jego rdzeń, a następnie pozostałe elementy łączy się z rdzeniem. I tutaj Wygotski zauważa następującą charakterystyczną cechę tego kompleksu: „Elementy mogą w ogóle nie być ze sobą zjednoczone. Jedyną zasadą ich uogólnienia jest ich rzeczywisty związek z głównym rdzeniem kompleksu. Połączeniem łączącym je z tym ostatnim może być dowolne połączenie skojarzeniowe” (Wygotski, 1982, s. 142).

    Opiszmy najprostszą wersję algorytmu tworzenia skupienia asocjacyjnego w ujęciu powyższego schematu formalnego. Pierwszy z danego zestawu M elementów, wybiera się jeden, który pełni rolę rdzenia klastra asocjacyjnego. Oczywiste jest, że można zbudować tyle skupień asocjacyjnych, ile jest elementów w zestawie M, wybierając po kolei wszystkie elementy zestawu jako rdzeń. Wybierzmy więc jeden element K. Następnie dla każdej jakości (czyli dla każdej macierzy odległości) wybierany jest element najbliższy elementowi K. W ten sposób otrzymujemy m lub więcej elementów, jeśli na podstawie pewnych kryteriów wyróżnimy dwa lub więcej elementów oddalonych od siebie K na tę samą minimalną odległość dla tej cechy. Zestaw elementów K jako rdzeń i wszystkie w ten sposób wybrane elementy najbliższe mu dla każdej cechy i stanowi klaster asocjacyjny.

    Możliwe są również bardziej złożone algorytmy, jeśli na przykład od samego początku wybierzesz nie jeden element, ale kilka, jako rdzeń klastra asocjacyjnego. Tę wersję analizy skupień nazwiemy uogólnionym skupieniem asocjacyjnym. Opiszmy bardziej szczegółowo algorytm jego tworzenia.

    Najpierw wybierany jest zestaw elementów, które razem utworzą rdzeń uogólnionego klastra asocjacyjnego. Następnie dla każdej cechy, dla każdego z elementów jądra wybierane są elementy najbliższe wybranej charakterystyce i ustalane są wartości tych minimalnych odległości. Następnie wybierana jest najmniejsza ze wszystkich odległości i wybierane są tylko te elementy, które znajdują się w minimalnej odległości od któregokolwiek z elementów rdzenia. Procedurę tę powtarza się dla wszystkich jakości. W tym przypadku w poszukiwaniu elementów nie uczestniczą oczywiście te, które tworzą rdzeń klastra. Zbiór elementów rdzeniowych oraz wszystkich elementów wybranych zgodnie z opisaną procedurą stanowi uogólniony klaster asocjacyjny. Elementy kompleksu asocjacyjnego (według Wygotskiego) mogą w ogóle nie być ze sobą połączone, ale pozostawać w asocjacyjnym połączeniu tylko z rdzeniem kompleksu. Oznacza to, że nie wszystkie odległości można określić a priori, tj. zestaw elementów zostanie zamówiony tylko częściowo.

    Rozważmy konkretny przykład zastosowania najprostszego algorytmu tworzenia klastra asocjacyjnego do analizy relacji w małej grupie.

    Liczba członków małej grupy, tj. elementy rozważanego zestawu, N=9. Został wybrany M=3 różne typy relacji pomiędzy członkami małej grupy: 1) relacje związane z pracą główną, 2) relacje związane z pozabiznesowymi formami komunikacji, 3) relacje związane z udziałem w pracy dodatkowej. Dla każdego typu relacji uzyskano macierze różnic (odległości) parami pomiędzy wszystkimi członkami grupy, stosując metody oceny eksperckiej.

    Zgodnie z opisanym powyżej najprostszym algorytmem tworzenia klastra asocjacyjnego zbudowano wszystkie 9 klastrów i po kolei wybrano wszystkich członków małej grupy jako rdzeń. Na ryc. Rysunek 4 pokazuje przykład powstałego klastra asocjacyjnego, w którym element jest traktowany jako rdzeń 1.

    Ryż. 4. Klaster asocjacyjny z rdzeniem 1

    2. Klaster łańcuchowy.„Kompleks łańcuchowy zbudowany jest na zasadzie dynamicznego, tymczasowego zjednoczenia poszczególnych ogniw w jeden łańcuch i przeniesienia znaczenia poprzez poszczególne ogniwa tego łańcucha. Każde ogniwo łączy się... z poprzednim... (i)... kolejnym, a najważniejszą różnicą pomiędzy tego typu kompleksami jest to, że charakter połączenia, czyli sposób połączenia tego samego ogniwa z poprzednim a kolejne mogą być zupełnie inne” (Wygotski, 1982, s. 144).

    Teraz podamy opis algorytmu tworzenia skupienia łańcuchowego w aspekcie przyjętego przez nas modelu formalnego. Najpierw z danego zbioru m elementów wybiera się jeden, który stanie się pierwszym elementem tworzącym klaster łańcucha. Następnie dla każdej jakości (tj. dla każdej macierzy odległości od M danych macierzy), wybierany jest element najbliższy pierwszemu. Z otrzymanego M Dla odległości minimalnych wybiera się najmniejszą i ustala numer odpowiedniej macierzy oraz numer elementu - element ten będzie drugi w skupieniu łańcuchowym. Następnie procedurę powtarza się dla drugiego elementu, przy czym pierwszy zostaje wykluczony z procesu selekcji. Proces powtarza się tyle razy, ile jest elementów w zestawie M.

    Należy zauważyć, że jeśli na którymkolwiek etapie konstruowania klastra łańcuchowego minimalna wartość nie dotyczy jednej, ale dwóch lub więcej par elementów, wówczas w tym przypadku można zbudować kilka równoważnych klastrów łańcuchowych. Graficzne przedstawienie zbudowanego przez nas klastra łańcucha, zaczynając od elementu 1, pokazany na ryc. 5, gdzie widać sposób grupowania elementów 1 , 3 , 4 pozostałe elementy dodawane są sekwencyjnie. Należy jednak podkreślić, że w tym badaniu skupienie łańcuchowe ma mniej informacji niż skupienie asocjacyjne, niemniej jednak dostarcza dodatkowych informacji klasterowi asocjacyjnemu.

    Ryż. 5. Grono łańcuchowe z rdzeniem 1 .

    3. Klaster łańcucha asocjacyjnego. Jak już wspomniano, procedury konstruowania skupień asocjacyjnych i łańcuchowych rozwiązują różne problemy merytoryczne: asocjacyjny identyfikuje wszystkie elementy najbliższe rdzeniowi pod względem różnych właściwości, a łańcuchowy pokazuje powiązanie danego elementu początkowego sekwencyjnie z wszystkie pozostałe elementy zestawu. Wydaje się wskazane opracowanie algorytmu, który miałby zalety zarówno klastrów asocjacyjnych, jak i łańcuchowych. Następnie podajemy opis jednej z możliwych opcji konstruowania klastra łańcucha asocjacyjnego.

    Wybierzmy najpierw jeden element, który będzie rdzeniem klastra łańcucha asocjacyjnego; dowolny element zbioru może pełnić tę funkcję. Następnie zastosujemy algorytm tworzenia najprostszego skupienia asocjacyjnego. Rozważmy następnie zbiór elementów tworzących najprostszy klaster. Zastosujmy algorytm konstrukcji uogólnionego skupienia asocjacyjnego do tego zbioru elementów. Następnie ponownie stosujemy algorytm tworzenia do powstałego zbioru elementów tworzących uogólniony klaster. Będziemy powtarzać tę procedurę, aż wszystkie elementy pierwotnego zestawu zostaną połączone w budowany klaster. Strukturę otrzymaną w wyniku opisanego procesu nazwiemy klastrem łańcucha asocjacyjnego. Nazwę tę uzasadnia fakt, że strukturą takiego klastra jest centralny najprostszy klaster asocjacyjny oraz łańcuchy elementów tworzących najprostsze skupienie. Na ryc. Rysunek 6 przedstawia przykład konstrukcji klastra łańcuchów asocjacyjnych dla danych eksperymentalnych, które rozważamy. Element jest traktowany jako element początkowy 1 .

    Ryż. 6. Klaster łańcucha asocjacyjnego z rdzeniem 1

    Widzimy, że powstał najprostszy klaster asocjacyjny z rdzeniem 1 elementy są dołączone 2 , 6 , 7 i wreszcie elementy 8 I 9 w różnych iteracjach. Jeśli scharakteryzujemy pokrótce znaczenie skupienia łańcucha asocjacyjnego, można powiedzieć, że opisuje ono strukturę danego zbioru elementów w stosunku do jednego wybranego (na rys. 6 jest to element 1).

    4. Kolekcja klastrów. Rozważmy na koniec typ klastra odpowiadający kompleksowi zbiorów Wygotskiego. Charakteryzując to, naukowiec pisze, że tego typu kompleksy „najbardziej przypominają to, co potocznie nazywa się zbiorami. Tutaj różne niespecyficzne przedmioty łączą się na zasadzie wzajemnego uzupełniania się według jednej cechy i tworzą jedną całość, składającą się z heterogenicznych, uzupełniających się części. I dalej: „Ten sposób myślenia często łączy się z opisaną powyżej formą skojarzeniową. Otrzymuje się wówczas zbiór, zestawiany na podstawie różnych cech” (Wygotski, 1982, s. 142–143).

    Rozważmy teraz opis najprostszej wersji algorytmu tworzenia zbioru skupień w ujęciu powyższego modelu formalnego. Należy zauważyć, że w wyniku zastosowania algorytmu konstruowania zbioru klastrów powinniśmy otrzymać zbiór elementów różniących się od siebie co najmniej jednym atrybutem. Do takiego wyniku prowadzi na przykład następujący algorytm: najpierw ustala się pewien próg różnicy (lub odległości), przy którym dwa elementy o różnicy większej niż wybrany próg uważa się za różne. Oczywiście wynik (zbieranie klastrów) będzie zależał od wartości progowej.

    Następnie stosuje się zwykłą metodę analizy skupień oddzielnie dla każdej cechy (tj. dla każdej macierzy odległości). Dla każdej cechy na podstawie wyników analizy konwencjonalnej wybierany jest podział na skupienia, w których odległości między nimi przekraczają zadany próg.

    Następnie jednocześnie uwzględniane są wszystkie przegrody utworzone według różnych właściwości i rejestrowane są wszystkie przecięcia i różnice zbiorów elementów tworzących te skupienia. Jest oczywiste, że otrzymane w ten sposób zbiory elementów mają następującą właściwość: elementy dwóch różnych zbiorów znajdują się, według co najmniej jednej cechy, w odległości przekraczającej wybrany próg. Jeśli teraz weźmiemy jeden (dowolny) element ze wszystkich wynikowych zestawów, otrzymamy kolekcję klastrów.

    Rozważmy przykład konstruowania kolekcji klastrów dla naszych danych eksperymentalnych. Przypomnijmy, że zbiór składa się z 9 elementów i istnieją między nimi trzy macierze odległości parami. Niech wartość progowa będzie H=7. Przeprowadzając zwykłą analizę skupień dla każdej z trzech macierzy odległości i stosując procedurę opisaną powyżej dla wartości progowej H=7, otrzymujemy następujące partycje.

    Dla pierwszej macierzy istnieją trzy skupienia:

    W przypadku drugiego istnieją cztery klastry:

    W przypadku trzeciego istnieją cztery klastry:

    Wybierając zgodnie z opisaną powyżej procedurą przecięcia i różnice wszystkich powstałych skupień, otrzymujemy w rezultacie następujący zbiór zbiorów:

    Zatem kolekcja klastrów zawiera elementy 2 , 7 , 8, 9 i jeszcze jeden (dowolny) element pierwszego zestawu, np. 1. Oczywiście elementy klastra kolekcji 1, A 2 , 7 , 8, 9 różnią się od siebie co najmniej jedną cechą o większą wartość H=7. A więc na przykład elementy 1 I 2 różnią się tylko jedną trzecią cechą, czyli elementami 1 I 7 według drugiego i trzeciego oraz, powiedzmy, elementów 8 I 9- dla całej trójki.

    Metoda klasy ukrytej

    Celem tworzenia modeli zmiennych ukrytych jest wyjaśnienie obserwowanych zmiennych i zależności między nimi: mając wartość obserwowanych zmiennych, skonstruować zbiór zmiennych ukrytych i odpowiednią funkcję, która w miarę dobrze przybliża obserwowane zmienne, a ostatecznie gęstość prawdopodobieństwa obserwowana zmienna.

    W analizie czynnikowej główny nacisk kładziony jest na modelowanie wartości obserwowanych zmiennych na podstawie korelacji i kowariancji, a w metodach ukrytej analizy strukturalnej na modelowanie rozkładu prawdopodobieństwa obserwowanych zmiennych.

    Metodę klas ukrytych można zastosować w przypadku zmiennych dychotomicznych i skal porządkowych. Obserwowane zmienne można mierzyć w dychotomicznej skali nazw, tj. są zmiennymi (0,1) (xi =1 – obecność znaku i xi =0 – brak znaku). Następnie zaobserwowane prawdopodobieństwa można wyjaśnić za pomocą zmiennych ukrytych, tj. przy użyciu rozkładów ukrytych i odpowiadających im rozkładów warunkowych (Lazarfeld, 1996).

    Równanie wyjaśniające pierwszego rodzaju ma postać:

    gdzie znajdują się obserwowane zmienne x ja; gęstość prawdopodobieństwa obserwowanych zmiennych – ρ ja; zbiór ukrytych zmiennych – φ , gęstość prawdopodobieństwa zmiennych ukrytych – g(φ). Równanie wyjaśniające n-tego rzędu ma postać:

    Podstawowym założeniem wszystkich modeli konstrukcji ukrytych jest lokalna niezależność. Należy to rozumieć następująco: dla danej cechy ukrytej obserwowane zmienne są niezależne w sensie teorii prawdopodobieństwa. Lokalny aksjomat niezależności ma postać:

    Prawdopodobieństwo warunkowe nazywa się operacyjną charakterystyką pytania, tj. jest prawdopodobieństwem uzyskania prawidłowego oszacowania obserwowanej cechy J ma miejsce, jeśli znana jest jego ukryta charakterystyka. Jeśli φ jest ciągła, wówczas charakterystyka operacyjna nazywana jest charakterystyką krzywej lub śladem.

    Ze względu na dyskretność lub ciągłość oraz rodzaj krzywej charakterystycznej wyróżnia się następujące modele: modele grup ukrytych (ukryte prawdopodobieństwo P grupy mogą być wyznaczane przez G, a charakterystyka eksploatacyjna – poprzez ); model profilu ukrytego (uogólnienie modelu grupy ukrytej, gdy obserwowane zmienne są uważane za ciągłe); model odległości ukrytej, który ma funkcję skoku jako krzywą charakterystyczną.

    Rozważmy jeden z modeli grup ukrytych (dyskretna charakterystyka ukryta). W oparciu o model Growth zaimplementowaliśmy metodę analizy strukturalnej ukrytej, czyli model klas ukrytych dla rozkładu normalnego danych. W ten sposób rozwiązano następujący problem: wykorzystując macierz odpowiedzi zdających na pytania dowolnego testu, sam zbiór zdających jest strukturyzowany według bliskości (podobieństwa) profili odpowiedzi.

    W tym celu najpierw losowo ustawia się dwa parametry, które są ukryte – ukryte, gdyż w trakcie działania metody trzeba ustalić ich prawdziwą wartość. Ten:

    1. Względna liczba przedmiotów w klasie (ustalaliśmy ją początkowo P(k) = 1/k).
    2. Parametr charakterystyczny klasy r(i, k)– macierz prawdopodobieństwa wystąpienia określonej odpowiedzi I-te pytanie, jeśli temat należy do k- klasa. Powinno być inaczej dla różnych klas. Ustalamy je zarówno tak samo dla przedmiotów należących do tej samej klasy, jak i inaczej dla każdej klasy. Zakłada się, że prawdopodobieństwo warunkowe takiego zdarzenia jest reakcją podmiotu na kategorię Q NA J pytanie, stałe dla wszystkich przedmiotów należących do danej klasy k. Prawdopodobieństwo odpowiedzi kategorii q(1,2,...,Q) równe prawdopodobieństwu Q, czyli suma realizacji dychotomicznej zmiennej losowej.

    Na koniec, dla zadanej a priori liczby zajęć, należy podać rzeczywistą względną liczbę przedmiotów w klasach oraz prawdziwy parametr określający prawdopodobieństwo wystąpienia określonej odpowiedzi na pytanie. I-te pytanie, jeśli temat należy do k-klasa, co znajduje odzwierciedlenie w profilach charakteryzujących tę konkretną grupę przedmiotów.

    Obliczyliśmy także najbardziej prawdopodobny profil odpowiedzi osób należących do danej klasy. Struktura danych obejmuje:

    1. Macierz profilu odpowiedzi.
    2. Macierz prawdopodobieństw apriorycznych: prawdopodobieństwa pewnej odpowiedzi na i-te pytanie, pod warunkiem, że podmiot należy do k-tej klasy.
    3. Względna liczba przedmiotów w klasie.

    Model opiera się na wzorze Bayesa, który łączy prawdopodobieństwo wcześniejsze z prawdopodobieństwem późniejszym. Ogólna metodologia sprowadza się do wprowadzenia apriorycznej gęstości rozkładu parametrów, a następnie wyznaczenia ich późniejszej gęstości rozkładu za pomocą wzoru Bayesa (z uwzględnieniem danych eksperymentalnych).

    Rozkłady a priori można określić (1) w sposób standardowy (prawdopodobieństwo a priori jest proporcjonalne do liczby klas); (2) ze względów zawodowych, tj. dwie ukryte cechy są określone a priori:

    1. Liczba ukrytych klas ( k) i odpowiednią względną liczbę przedmiotów w klasie P(k);
    2. Parametr określający prawdopodobieństwo konkretnej odpowiedzi na pierwsze pytanie, pod warunkiem, że podmiot należy do k klasa R(k).

    Prawdopodobieństwo wystąpienia pierwszego wzoru profilu:

    Algorytm metody grupy ukrytej.

    a) liczba klas ukrytych DO,

    b) liczba pytań M,

    c) liczbę możliwych kategorii odpowiedzi Q,

    d) liczba przedmiotów N,

    e) początkowa dystrybucja.

    P(k) – np. względna liczba przedmiotów wchodzących w skład danej klasy Р(k) = 1/k.

    Ustaw początkowe wartości charakterystyk parametrów klasy r(i, k) ; k = 1,..., k; I=1,…, M; r(i, k) – parametr określający prawdopodobieństwo określonej reakcji I- pytanie, jeśli temat należy do k- moja klasa.

    Wchodzić Xij- odpowiedź I- temat dla J- pytanie: I=1,…,N; J=1,...,M.

    Definiujemy wiele różnych wzorców odpowiedzi: , gdzie x ij = ij ,ij– odpowiedź na J- pytanie. Liczymy liczbę takich wzorców: n(i), i=1,…,L; n(ja). Obliczamy prawdopodobieństwo wystąpienia wzorca i a pod warunkiem, że jest on generowany przez podmiot należący do k-tej klasy:

    Obliczamy prawdopodobieństwo pojawienia się takiego wzoru:

    Obliczamy prawdopodobieństwo późniejsze, że badany należy do klasy k, jeśli odpowiedział i a:

    Obliczamy matematyczne oczekiwanie liczby wzorców u przedmiotów klasy k:

    Obliczamy szacunkową względną liczbę przedmiotów należących do klasy k:

    Obliczamy matematyczne oczekiwanie liczby wzorców, w których odpowiedź na j-te pytanie wynosi x∈( 0,...,1,Q), pod warunkiem, że respondenci należą do klasy k:

    Obliczamy szacunki parametrów:

    Jeżeli wówczas otrzymamy interesujące nas parametry klasy, tj.

    W przeciwnym razie procedura jest powtarzana. Opracowaliśmy także cztery opcje szacowania partycji klastra. Istnieje zbiór podmiotów X. ||X||=N – liczność zbioru X jest równa N, tj. N – tematy. W wyniku LSA uzyskujemy dla każdej z klas K i N przedmiotów:

    – prawdopodobieństwo, że i-ty przedmiot należy do k-tej klasy. Wyznaczając max Pi, z największym prawdopodobieństwem przypisujemy podmiot i do klasy, do której należy.

    Dzieląc zbiór X na klasy w sposób wskazany powyżej, otrzymujemy: k X – zbiór przedmiotów mieszczących się w k-tej klasie; – liczba przedmiotów, które znalazły się w k-tej klasie. Wówczas możemy zaproponować następujące oszacowania przekrojów: średnią „przejrzystość” skupień, najmniejszą „przejrzystość” skupień, integralną „przejrzystość” skupień, łączność klastrów. Podobnie jak w przypadku opisanej powyżej metody grupowania hierarchicznego, oszacowanie, które nazwaliśmy łącznością klastrów, okazało się najdokładniej odzwierciedlać rzeczywistą strukturę.

    Następnie weźmy dwie klasy; ich parametrami są względna liczba przedmiotów w klasie, prawdopodobieństwo, że i-ty przedmiot będzie należał do k-tej klasy. Z dwóch prawdopodobieństw wybiera się większe, co określa, do której klasy podmiot „należy” (w rzeczywistości podmiot może nie należeć do żadnej z klas). Jeśli jednocześnie w żadnej z analizowanych klas nie ma ani jednego podmiotu, to całkowite prawdopodobieństwo dla tej klasy wynosi 0. Niewątpliwym interesującym faktem jest fakt, że to „łączność” sprawdza się w obu metodach opracowanych w laboratorium psychologia matematyczna – metoda klas ukrytych i metoda grupowania hierarchicznego. W analizie skupień można to również ocenić wizualnie, analizując zdjęcie drzewa. W LSA widać to następująco: do określonej liczby skupień (wyznaczonej przez to oszacowanie) profile klas różnią się od siebie istotnie i wtedy zauważalna jest już tylko niewielka różnica. Metoda ta pozwala na identyfikację najbardziej typowych wzorców percepcji bodźców i analizę ich profili. Metoda opiera się na podejściu probabilistycznym, dlatego jest bardziej uniwersalna w porównaniu do innych metod analizy skupień. Najczęściej metodę LSA stosuje się przy adaptacji technik, ponieważ pozwala ona zidentyfikować typowe wzorce reakcji i zgodnie z nimi ustrukturyzować zbiór podmiotów oraz oszacować prawdopodobieństwo późniejsze dla każdego typu. W artykule opisano różne metody analizy skupień oraz wskazano, w jakich przypadkach można je zastosować z największą efektywnością indywidualnie, a także w połączeniu ze sobą. Zatem w artykule przedstawiono metody standardowe realizowane w najczęściej stosowanych pakietach statystycznych, ich rozwój i udoskonalanie, które na tym etapie jest wdrażane jedynie w pakietach oryginalnych, a także metody autorskie, których nie ma w pakietach statystycznych.

Załadunek...
Szczyt