Кластерный анализ — это исследование путем разбиения множества объектов на однородные группы. Методы кластерного анализа

Кластерный анализ объединяет кластеры и переменные (объекты), похожие друг на друга. То есть классифицирует объекты. Часто при решении экономических задач, имеющих достаточно большое число данных, нужна многомерность описания. Один из простых методов многомерного анализа – кластерный анализ.

Кластерный анализ является количественным инструментом исследования социально-экономических процессов, для описания которых необходимо много характеристик. Он позволяет разбить выборку на несколько групп по исследуемому признаку, проанализировать группы (как группируются переменные), группировку объектов (как группируются объекты). С помощью метода решаются задачи сегментирования рынка, анализируются сельские хозяйства для сравнения производительности, например, прогнозируется конъюнктура рынка отдельных продуктов и т.д.

Многомерный кластерный анализ

По сути, кластерный анализ – это совокупность инструментов для классификации многомерных объектов. Метод подразумевает определение расстояния между переменными (дельты) и последующее выделение групп наблюдений (кластеров).

Техника кластеризации применяется в самых разнообразных областях. Главное задача – разбить многомерный ряд исследуемых значений (объектов, переменных, признаков) на однородные группы, кластеры. То есть данные классифицируются и структурируются.

Вопрос, который задает исследователь при использовании кластерного анализа, – как организовать многомерную выборку в наглядные структуры.

Примеры использования кластерного анализа:

  1. В биологии – для определения видов животных на Земле.
  2. В медицине – для классификации заболеваний по группам симптомов и способам терапии.
  3. В психологии – для определения типов поведения личности в определенных ситуациях.
  4. В экономическом анализе – при изучении и прогнозировании экономической депрессии, исследовании конъюнктуры.
  5. В разнообразных маркетинговых исследованиях.

Когда нужно преобразовать «горы» информации в пригодные для дальнейшего изучения группы, используют кластерный анализ.

Преимущества метода:

  • позволяет разбивать многомерный ряд сразу по целому набору параметров;
  • можно рассматривать данные практически любой природы (нет ограничений на вид исследуемых объектов);
  • можно обрабатывать значительные объемы информации, резко сжимать их, делать компактными и наглядными;
  • может применяться циклически (проводится до тех пор, пока не будет достигнут нужный результат; а после каждого цикла возможно значительное изменение направленности дальнейшего исследования).

Дельта-кластерный анализ имеет и свои недостатки:

  • состав и количество кластеров зависит от заданного критерия разбиения;
  • при преобразовании исходного набора данных в компактные группы исходная информация может искажаться, отдельные объекты могут терять свою индивидуальность;
  • часто игнорируется отсутствие в анализируемой совокупности некоторых значений кластеров.


Как сделать кластерный анализ в Excel

Для примера возьмем шесть объектов наблюдения. Каждый имеет два характеризующих его параметра.

В качестве расстояния между объектами возьмем евклидовое расстояние. Формула расчета:


Рассчитанные данные размещаем в матрице расстояний.

Самыми близкими друг к другу объектами являются объекты 4 и 5. Следовательно, их можно объединить в одну группу – при формировании новой матрицы оставляем наименьшее значение.

Из новой матрицы видно, что можно объединить в один кластер объекты и 6 (как наиболее близкие друг к другу по значениям). Оставляем наименьшее значение и формируем новую матрицу:

Объекты 1 и 2 можно объединить в один кластер (как наиболее близкие из имеющихся). Выбираем наименьшее значение и формируем новую матрицу расстояний. В результате получаем три кластера:

Самые близкие объекты – 1, 2 и 3. Объединим их.

Мы провели кластерный анализ по методу «ближайшего соседа». В результате получено два кластера, расстояние между которыми – 7,07.

Огромное значение имеет кластерный анализ в экономическом анализе. Инструмент позволяет вычленять из громадной совокупности периоды, где значения соответствующих параметров максимально близки и где динамика наиболее схожа. Для исследования, к примеру, товарной и общехозяйственной конъюнктуры этот метод отлично подходит.

КЛАСТЕРНЫЙ АНАЛИЗ В ЗАДАЧАХ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО ПРОГНОЗИРОВАНИЯ

Введение в кластерный анализ.

При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания. Это происходит при решении задачи сегментирования рынка, построении типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка отдельных товаров, изучении и прогнозировании экономической депрессии и многих других проблем.

Методы многомерного анализа - наиболее действенный количественный инструмент исследования социально-экономических процессов, описываемых большим числом характеристик. К ним относятся кластерный анализ, таксономия, распознавание образов, факторный анализ.

Кластерный анализ наиболее ярко отражает черты многомерного анализа в классификации, факторный анализ – в исследовании связи.

Иногда подход кластерного анализа называют в литературе численной таксономией, численной классификацией, распознаванием с самообучением и т.д.

Первое применение кластерный анализ нашел в социологии. Название кластерный анализ происходит от английского слова cluster – гроздь, скопление. Впервые в 1939 был определен предмет кластерного анализа и сделано его описание исследователем Трионом. Главное назначение кластерного анализа – разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.

Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, когда показатели имеют разнообразный вид, затрудняющий применение традиционных эконометрических подходов.

Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.

Важное значение кластерный анализ имеет применительно к совокупностям временных рядов, характеризующих экономическое развитие (например, общехозяйственной и товарной конъюнктуры). Здесь можно выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее схожа.

Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной связью.

В задачах социально-экономического прогнозирования весьма перспективно сочетание кластерного анализа с другими количественными методами (например, с регрессионным анализом).

Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения: В частности, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений кластеров.

В кластерном анализе считается, что:

а) выбранные характеристики допускают в принципе желательное разбиение на кластеры;

б) единицы измерения (масштаб) выбраны правильно.

Выбор масштаба играет большую роль. Как правило, данные нормализуют вычитанием среднего и делением на стандартное отклоненение, так что дисперсия оказывается равной единице.

Задача кластерного анализа.

Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве Х, разбить множество объектов G на m (m – целое) кластеров (подмножеств) Q1, Q2, …, Qm, так, чтобы каждый объект Gj принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время, как объекты, принадлежащие разным кластерам были разнородными.

Например, пусть G включает n стран, любая из которых характеризуется ВНП на душу населения (F1), числом М автомашин на 1 тысячу человек (F2), душевым потреблением электроэнергии (F3), душевым потреблением стали (F4) и т.д. Тогда Х1 (вектор измерений) представляет собой набор указанных характеристик для первой страны, Х2 - для второй, Х3 для третьей, и т.д. Задача заключается в том, чтобы разбить страны по уровню развития.

Решением задачи кластерного анализа являются разбиения, удовлетворяющие некоторому критерию оптимальности. Этот критерий может представлять собой некоторый функционал, выражающий уровни желательности различных разбиений и группировок, который называют целевой функцией. Например, в качестве целевой функции может быть взята внутригрупповая сумма квадратов отклонения:

где xj - представляет собой измерения j-го объекта.

Для решения задачи кластерного анализа необходимо определить понятие сходства и разнородности.

Понятно то, что объекты i-ый и j-ый попадали бы в один кластер, когда расстояние (отдаленность) между точками Хi и Хj было бы достаточно маленьким и попадали бы в разные кластеры, когда это расстояние было бы достаточно большим. Таким образом, попадание в один или разные кластеры объектов определяется понятием расстояния между Хi и Хj из Ер, где Ер - р-мерное евклидово пространство. Неотрицательная функция d(Хi , Хj) называется функцией расстояния (метрикой), если:

а) d(Хi , Хj) ³ 0, для всех Хi и Хj из Ер

б) d(Хi, Хj) = 0, тогда и только тогда, когда Хi = Хj

в) d(Хi, Хj) = d(Хj, Хi)

г) d(Хi, Хj) £ d(Хi, Хk) + d(Хk, Хj), где Хj; Хi и Хk - любые три вектора из Ер.

Значение d(Хi, Хj) для Хi и Хj называется расстоянием между Хi и Хj и эквивалентно расстоянию между Gi и Gj соответственно выбранным характеристикам (F1, F2, F3, ..., Fр).

Наиболее часто употребляются следующие функции расстояний:

1. Евклидово расстояние d2(Хi , Хj) =

2. l1 - норма d1(Хi , Хj) =

3. Сюпремум - норма d¥ (Хi , Хj) = sup

k = 1, 2, ..., р

4. lp - норма dр(Хi , Хj) =

Евклидова метрика является наиболее популярной. Метрика l1 наиболее легкая для вычислений. Сюпремум-норма легко считается и включает в себя процедуру упорядочения, а lp - норма охватывает функции расстояний 1, 2, 3,.

Пусть n измерений Х1, Х2,..., Хn представлены в виде матрицы данных размером p ´n:

Тогда расстояние между парами векторов d(Хi , Хj) могут быть представлены в виде симметричной матрицы расстояний:

Понятием, противоположным расстоянию, является понятие сходства между объектами Gi. и Gj. Неотрицательная вещественная функция S(Хi ; Хj) = Sij называется мерой сходства, если:

1) 0£ S(Хi , Хj)<1 для Хi¹ Хj

2) S(Хi , Хi) = 1

3) S(Хi , Хj) = S(Хj , Хi)

Пары значений мер сходства можно объединить в матрицу сходства:

Величину Sij называют коэффициентом сходства.

1.3. Методы кластерного анализа.

Сегодня существует достаточно много методов кластерного анализа. Остановимся на некоторых из них (ниже приводимые методы принято называть методами минимальной дисперсии).

Пусть Х - матрица наблюдений: Х = (Х1, Х2,..., Хu) и квадрат евклидова расстояния между Хi и Хj определяется по формуле:

1) Метод полных связей.

Суть данного метода в том, что два объекта, принадлежащих одной и той же группе (кластеру), имеют коэффициент сходства, который меньше некоторого порогового значения S. В терминах евклидова расстояния d это означает, что расстояние между двумя точками (объектами) кластера не должно превышать некоторого порогового значения h. Таким образом, h определяет максимально допустимый диаметр подмножества, образующего кластер.

2) Метод максимального локального расстояния.

Каждый объект рассматривается как одноточечный кластер. Объекты группируются по следующему правилу: два кластера объединяются, если максимальное расстояние между точками одного кластера и точками другого минимально. Процедура состоит из n - 1 шагов и результатом являются разбиения, которые совпадают со всевозможными разбиениями в предыдущем методе для любых пороговых значений.

3) Метод Ворда.

В этом методе в качестве целевой функции применяют внутригрупповую сумму квадратов отклонений, которая есть ни что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, содержащему этот объект. На каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов. Этот метод направлен на объединение близко расположенных кластеров.

Кластерный анализ - это метод классификационного анализа; его основное назначение - разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. Это многомерный статистический метод, поэтому предполагается, что исходные данные могут быть значительного объема, т.е. существенно большим может быть как количество объектов исследования (наблюдений), так и признаков, характеризующих эти объекты.

В прикладной статистике многомерными статистическими методами долго не могли пользоваться из-за отсутствия вычислительной техники для обработки больших массивов данных. Активно эти методы стали развиваться со второй половины ХХ в. при появлении быстродействующих компьютеров, выполняющих за доли секунды необходимые вычисления, на которые до этого уходили дни, недели, месяцы . В настоящее время препятствием к широкому использованию многомерных статистических методов, в том числе и кластерного анализа, является отсутствие у исследователей навыков и умения работать со статистическими пакетами прикладных программ.

Техника кластеризации может применяться в самых различных прикладных областях, в том числе и в медицине. Например, кластеризация заболеваний, симптомов, признаков заболеваний, методов лечения может привести к более полному и глубокому пониманию медицинских проблем, связанных с лечением больных.

Большое достоинство кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному признаку, а по ряду признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет исследовать множество исходных данных практически произвольной природы.

Так как кластеры - это группы однородности, то задача кластерного анализа заключается в том, чтобы на основании признаков объектов разбить их множество на m (m - целое) кластеров так, чтобы каждый объект принадлежал только одной группе разбиения. При этом объекты, принадлежащие одному кластеру, должны быть однородными (сходными), а объекты, принадлежащие разным кластерам, - разнородными.

Если объекты кластеризации представить как точки в n-мерном пространстве признаков (n-количество признаков, характеризующих объекты), то сходство между объектами определяется через понятие расстояния между точками, так как интуитивно понятно, что чем меньше расстояние между объектами, тем они более схожи.

Алгоритмов кластерного анализа достаточно много. Все их можно подразделить на иерархические и неиерархические.

Иерархические (древовидные) процедуры - наиболее распространённые алгоритмы кластерного анализа по их реализации на ЭВМ. Различают агломеративные (от слова agglomerate - собирать) и итеративные дивизивные (от слова division - разделять) процедуры.

Принцип работы иерархических агломеративных процедур состоит в последовательном объединении групп элементов сначала самых близких, а затем всё более отдалённых друг от друга. Принцип работы иерархических дивизивных процедур, наоборот, состоит в последовательном разделении групп элементов сначала самых далёких, а затем всё более близких друг от друга. Большинство этих алгоритмов исходит из матрицы расстояний (сходства). К недостаткам иерархических процедур следует отнести громоздкость их вычислительной реализации. На каждом шаге алгоритмы требуют вычисления матрицы расстояний, а следовательно, ёмкой машинной памяти и большого количества времени. В этой связи реализация таких алгоритмов при числе наблюдений, большем нескольких сотен, нецелесообразна, a в ряде случаев и невозможна.

Общий принцип работы агломеративного алгоритма следующий. На первом шаге каждое наблюдение рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и с учётом принятого расстояния по формуле пересчитывается матрица расстояний, размерность которой, очевидно, снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс. Большинство программ, реализующих алгоритм иерархической классификации, предусматривает графическое представление классификации в виде дендрограммы.

В программе STATISTICA реализованы агломеративные методы минимальной дисперсии - древовидная кластеризация и двухвходовая кластеризация, а также дивизивный метод k-средних.

В методе древовидной кластеризации предусмотрены различные правила

иерархического объединения в кластеры:

  • 1. Правило одиночной связи. На первом шаге объединяются два наиболее близких объекта, т.е. имеющие максимальную меру сходства. На следующем шаге к ним присоединяется объект с максимальной мерой сходства с одним из объектов кластера, т.е. для его включения в кластер требуется максимальное сходство лишь с одним членом кластера. Метод называют еще методом ближайшего соседа, так как расстояние между двумя кластерами определяется как расстояние между двумя наиболее близкими объектами в различных кластерах. Это правило "нанизывает" объекты для формирования кластеров. Недостаток данного метода - образование слишком больших продолговатых кластеров.
  • 2. Правило полных связей. Метод позволяет устранить недостаток, присущий методу одиночной связи. Суть правила в том, что два объекта, принадлежащих одной и той же группе (кластеру), имеют коэффициент сходства, который больше некоторого порогового значения S. В терминах евклидова расстояния это означает, что расстояние между двумя точками (объектами) кластера не должно превышать некоторого порогового значения d. Таким образом, d определяет максимально допустимый диаметр подмножества, образующего кластер. Этот метод называют еще методом наиболее удаленных соседей, так как при достаточно большом пороговом значении d расстояние между кластерами определяется наибольшим расстоянием между любыми двумя объектами в различных кластерах.
  • 3. Правило невзвешенного попарного среднего. Расстояние между двумя кластерами определяется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные группы, однако он работает одинаково хорошо и в случаях протяженных (цепочного типа) кластеров.
  • 4. Правило взвешенное попарное среднее. Метод идентичен предыдущему, за исключением того, что при вычислении размер соответствующих кластеров используется в качестве весового коэффициента. Желательно этот метод использовать, когда предполагаются неравные размеры кластеров.
  • 5. Невзвешенный центроидный метод. Расстояние между двумя кластерами определяется как расстояние между их центрами тяжести.
  • 6. Взвешенный центроидный метод. Идентичен предыдущему, за исключением того, что при вычислениях расстояния используют веса для учета разности между размерами кластеров. Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего.
  • 7. Правило Уорда (Варда). В этом методе в качестве целевой функции применяют внутригрупповую сумму квадратов отклонений, которая есть не что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, содержащему этот объект. На каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов отклонений. Этот метод направлен на объединение близко расположенных кластеров. Замечено, что метод Уорда приводит к образованию кластеров примерно равных размеров и имеющих форму гиперсфер.

Ранее мы рассмотрели методы кластеризации объектов (наблюдений), однако иногда кластеризация по переменным может привести к достаточно интересным результатам. В модуле Кластерный анализ также предусмотрена эффективная двухвходовая процедура, которая позволит кластеризовать сразу в двух направлениях - по наблюдениям и переменным.

Метод k-средних

Предположим, есть гипотезы относительно числа m кластеров (по переменным или наблюдениям). Тогда можно задать программе создать ровно m кластеров так, чтобы они были настолько различны, насколько это возможно. Именно для решения задач этого типа предназначен метод k-means (k-средних). Гипотеза может основываться на теоретических соображениях, результатах предшествующих исследований или догадке. Выполняя последовательное разбиение на различное число кластеров, можно сравнивать качество получаемых решений.

Программа начинает с m случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы минимизировать изменчивость внутри кластеров и максимизировать изменчивость между кластерами. Алгоритм случайным образом в пространстве назначает центры будущих кластеров. Затем вычисляет расстояние между центрами кластеров и каждым объектом, и объект приписывается к тому кластеру, к которому он ближе всего. Завершив приписывание, алгоритм вычисляет средние значения для каждого кластера. Этих средних будет столько, сколько используется переменных для проведения анализа, - k штук. Набор средних представляет собой координаты нового положения центра кластера. Алгоритм вновь вычисляет расстояние от каждого объекта до центров кластеров и приписывает объекты к ближайшему кластеру. Вновь вычисляются центры тяжести кластеров, и этот процесс повторяется до тех пор, пока центры тяжести не перестанут "мигрировать" в пространстве. Если в древовидной кластеризации можно использовать категориальные переменные, то так как в методе k-средних в качестве метрики используют евклидову метрику, то перед проведением кластеризации необходимо стандартизовать переменные. По этой же причине в методе предполагается, что переменные непрерывные и измерены как минимум в интервальной шкале.

, государственном управлении , филологии , антропологии , маркетинге , социологии , геологии и других дисциплинах. Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа.

Энциклопедичный YouTube

  • 1 / 5

    Кластерный анализ выполняет следующие основные задачи:

    • Разработка типологии или классификации.
    • Исследование полезных концептуальных схем группирования объектов.
    • Порождение гипотез на основе исследования данных.
    • Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

    Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:

    • Отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные.
    • Определение множества переменных, по которым будут оцениваться объекты в выборке, то есть признакового пространства.
    • Вычисление значений той или иной меры сходства (или различия) между объектами.
    • Применение метода кластерного анализа для создания групп сходных объектов.
    • Проверка достоверности результатов кластерного решения.

    Можно встретить описание двух фундаментальных требований предъявляемых к данным - однородность и полнота. Однородность требует, чтобы все кластеризуемые сущности были одной природы, описывались сходным набором характеристик . Если кластерному анализу предшествует факторный анализ , то выборка не нуждается в «ремонте» - изложенные требования выполняются автоматически самой процедурой факторного моделирования (есть ещё одно достоинство - z-стандартизация без негативных последствий для выборки; если её проводить непосредственно для кластерного анализа, она может повлечь за собой уменьшение чёткости разделения групп). В противном случае выборку нужно корректировать.

    Типология задач кластеризации

    Типы входных данных

    В современной науке применяется несколько алгоритмов обработки входных данных. Анализ путём сравнения объектов, исходя из признаков, (наиболее распространённый в биологических науках) называется Q -типом анализа, а в случае сравнения признаков, на основе объектов - R -типом анализа. Существуют попытки использования гибридных типов анализа (например, RQ -анализ), но данная методология ещё должным образом не разработана.

    Цели кластеризации

    • Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй »).
    • Сжатие данных . Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
    • Обнаружение новизны (англ. novelty detection ). Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

    В первом случае число кластеров стараются сделать поменьше. Во втором случае важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

    Во всех этих случаях может применяться иерархическая кластеризация , когда крупные кластеры дробятся на более мелкие, те в свою очередь дробятся ещё мельче, и т. д. Такие задачи называются задачами таксономии . Результатом таксономии является древообразная иерархическая структура. При этом каждый объект характеризуется перечислением всех кластеров, которым он принадлежит, обычно от крупного к мелкому.

    Методы кластеризации

    Общепринятой классификации методов кластеризации не существует, но можно выделить ряд групп подходов (некоторые методы можно отнести сразу к нескольким группам и потому предлагается рассматривать данную типизацию как некоторое приближение к реальной классификации методов кластеризации) :

    1. Вероятностный подход . Предполагается, что каждый рассматриваемый объект относится к одному из k классов. Некоторые авторы (например, А. И. Орлов) считают, что данная группа вовсе не относится к кластеризации и противопоставляют её под названием «дискриминация», то есть выбор отнесения объектов к одной из известных групп (обучающих выборок).
    2. Подходы на основе систем искусственного интеллекта: весьма условная группа, так как методов очень много и методически они весьма различны.
    3. Логический подход. Построение дендрограммы осуществляется с помощью дерева решений.
    4. Теоретико-графовый подход.
    5. Иерархический подход. Предполагается наличие вложенных групп (кластеров различного порядка). Алгоритмы в свою очередь подразделяются на агломеративные (объединительные) и дивизивные (разделяющие). По количеству признаков иногда выделяют монотетические и политетические методы классификации.
      • Иерархическая дивизивная кластеризация или таксономия. Задачи кластеризации рассматриваются в количественной таксономии .
    6. Другие методы. Не вошедшие в предыдущие группы.
      • Статистические алгоритмы кластеризации
      • Ансамбль кластеризаторов
      • Алгоритмы семейства KRAB
      • Алгоритм, основанный на методе просеивания

    Подходы 4 и 5 иногда объединяют под названием структурного или геометрического подхода, обладающего большей формализованностью понятия близости . Несмотря на значительные различия между перечисленными методами все они опираются на исходную «гипотезу компактности »: в пространстве объектов все близкие объекты должны относиться к одному кластеру, а все различные объекты соответственно должны находиться в различных кластерах.

    Формальная постановка задачи кластеризации

    Пусть X {\displaystyle X} - множество объектов, Y {\displaystyle Y} - множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами ρ (x , x ′) {\displaystyle \rho (x,x")} . Имеется конечная обучающая выборка объектов X m = { x 1 , … , x m } ⊂ X {\displaystyle X^{m}=\{x_{1},\dots ,x_{m}\}\subset X} . Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами , так, чтобы каждый кластер состоял из объектов, близких по метрике ρ {\displaystyle \rho } , а объекты разных кластеров существенно отличались. При этом каждому объекту x i ∈ X m {\displaystyle x_{i}\in X^{m}} приписывается номер кластера y i {\displaystyle y_{i}} .

    Алгоритм кластеризации - это функция a: X → Y {\displaystyle a\colon X\to Y} , которая любому объекту x ∈ X {\displaystyle x\in X} ставит в соответствие номер кластера y ∈ Y {\displaystyle y\in Y} . Множество Y {\displaystyle Y} в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.

    В общем стоит отметить, что исторически сложилось так, что в качестве мер близости в биологии чаще используются меры сходства , а не меры различия (расстояния).

    В социологии

    При анализе результатов социологических исследований рекомендуется осуществлять анализ методами иерархического агломеративного семейства, а именно методом Уорда, при котором внутри кластеров оптимизируется минимальная дисперсия, в итоге создаются кластеры приблизительно равных размеров. Метод Уорда наиболее удачен для анализа социологических данных. В качестве меры различия лучше квадратичное евклидово расстояние, которое способствует увеличению контрастности кластеров. Главным итогом иерархического кластерного анализа является дендрограмма или «сосульчатая диаграмма». При её интерпретации исследователи сталкиваются с проблемой того же рода, что и толкование результатов факторного анализа - отсутствием однозначных критериев выделения кластеров. В качестве главных рекомендуется использовать два способа - визуальный анализ дендрограммы и сравнение результатов кластеризации, выполненной различными методами.

    Визуальный анализ дендрограммы предполагает «обрезание» дерева на оптимальном уровне сходства элементов выборки. «Виноградную ветвь» (терминология Олдендерфера М. С. и Блэшфилда Р. К. ) целесообразно «обрезать» на отметке 5 шкалы Rescaled Distance Cluster Combine, таким образом будет достигнут 80 % уровень сходства. Если выделение кластеров по этой метке затруднено (на ней происходит слияние нескольких мелких кластеров в один крупный), то можно выбрать другую метку. Такая методика предлагается Олдендерфером и Блэшфилдом.

    Теперь возникает вопрос устойчивости принятого кластерного решения. По сути, проверка устойчивости кластеризации сводится к проверке её достоверности. Здесь существует эмпирическое правило - устойчивая типология сохраняется при изменении методов кластеризации. Результаты иерархического кластерного анализа можно проверять итеративным кластерным анализом по методу k-средних. Если сравниваемые классификации групп респондентов имеют долю совпадений более 70 % (более 2/3 совпадений), то кластерное решение принимается.

    Проверить адекватность решения, не прибегая к помощи другого вида анализа, нельзя. По крайней мере, в теоретическом плане эта проблема не решена. В классической работе Олдендерфера и Блэшфилда «Кластерный анализ» подробно рассматриваются и в итоге отвергаются дополнительные пять методов проверки устойчивости:

    1. кофенетическая корреляция - не рекомендуется и ограниченна в использовании;
    2. тесты значимости (дисперсионный анализ) - всегда дают значимый результат;
    3. методика повторных (случайных) выборок, что, тем не менее, не доказывает обоснованность решения;
    4. тесты значимости для внешних признаков пригодны только для повторных измерений;
    5. методы Монте-Карло очень сложны и доступны только опытным математикам [ (англ. edge detection ) или распознавания объектов .
    6. Интеллектуальный анализ данных (англ. data mining) - кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель для всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой из них отдельную стратегию.

    Классификация является одним из фундаментальных процессов в науке. Прежде чем мы сможем понять определенный круг явлений и разработать принципы, их объясняющие, часто необходимо их предварительно упорядочить. Таким образом классификацию можно считать интеллектуальной деятельностью высокого уровня, которая необходима нам для понимания природы. Классификация – это упорядочение объектов по схожести. А само понятие схожести является неоднозначным. Принципы классификации также могут быть различными. Поэтому часто процедуры, используемые в кластерном анализе для формирования классов, основываются на фундаментальных процессах классификации, присущих людям и, возможно, другим живым существам (Классификация и кластер, 1980). Достаточно часто в психологии возникает необходимость проведения классификации множества объектов по множеству переменных. Для проведения такой многомерной классификации используются методы кластерного анализа. Группы близких по какому-либо критерию объектов обычно называются кластерами. Кластеризацию можно считать процедурой, которая, начиная работать с тем или иным типом данных, преобразует их в данные о кластерах. Многие методы кластерного анализа отличаются от других методов многомерного анализа отсутствием обучающих выборок, т.е. априорной информации о распределении соответствующих переменных генеральной совокупности. Методов кластерного анализа достаточно много, и далее будет описана их классификация.

    Наибольшее распространение в психологии получили иерархические агломеративные методы и итерационные методы группировки. При использовании методов кластерного анализа достаточно сложно дать однозначные рекомендации по предпочтению применения тех или иных методов. Необходимо понимать, что получаемые результаты классификации не являются единственными. Предпочтительность выбранного метода и полученных результатов следует обосновать.

    Кластерный анализ (КА) строит систему классификации исследуемых объектов и переменных в виде дерева (дендрограммы) или осуществляет разбиение объектов на заданное число удаленных друг от друга классов.

    Методы кластерного анализа можно расклассифицировать на:

    • внутренние (признаки классификации равнозначны);
    • внешние (существует один главный признак, остальные определяют его).

    Внутренние методы в свою очередь можно разделить на:

    • иерархические (процедура классификация имеет древовидную структуру);
    • неиерархические.
    • агломеративные (объединяющие);
    • дивизивные (разъединяющие).

    Необходимость в использовании методов кластерного анализа возникает в том случае, когда задано множество характеристик, по которым тестируется множество испытуемых; задача состоит в выделении классов (групп) испытуемых, близких по всему множеству характеристик (профилю). На первом этапе матрица смешения (оценки людей по различным характеристикам) преобразуется в матрицу расстояний. Для подсчета матрицы расстояния осуществляется подбор метрики, или метода вычисления расстояния между объектами в многомерном пространстве. Если объект описывается k признаками, то он может быть представлен как точка в k -мерном пространстве. Возможность измерения расстояний между объектами в k -мерном пространстве вводится через понятие метрики.

    Пусть объекты i и j принадлежат множеству M и каждый объект описывается k признаками, тогда будем говорить, что на множестве M задана метрика, если для любой пары объектов, принадлежащих множеству M, определено неотрицательное число d ij , удовлетворяющее следующим условиям (аксиомам метрики):

    1. Аксиома тождества: d ij = 0 ⇔ i j .
    2. Аксиома симметричности: d ij = d ji i , j .
    3. Неравенство треугольника: ∀ i , j , z ∈M, выполняется неравенство d iz d ij + d zj .

    Пространство, на котором введена метрика, называется метрическим. Наиболее используемыми являются следующие метрики:

    1. Метрика Евклида:

    Эта метрика является наиболее используемой и отражает среднее различие между объектами.

    2. Метрика нормированного Евклида. Нормализованные евклидовы расстояния более подходят для переменных, измеряемых в различных единицах или значительно различающихся по величине.

    Если дисперсии по характеристикам отличаются друг от друга, то:

    Если масштаб данных различен, например, одна переменная измерена в стэнах, а другая в баллах, то для обеспечения одинакового влияния всех характеристик на близость объектов используется следующая формула подсчета расстояния:

    3. Метрика city-block (манхэттенская метрика, получившая свое название в честь района Манхэттен, который образуют улицы, расположенные в виде пересечения параллельных прямых под прямым углом; как правило, применяется для номинальных или качественных переменных):

    4. Метрика на основе корреляции: d ij =1- |r ij |.

    5. Метрика Брея-Картиса, которая также используется для номинативных и ранговых шкал, обычно данные предварительно стандартизируются:

    Расстояния, вычисляемые на основе коэффициента корреляции, отражают согласованность колебаний оценок, в отличие от метрики Евклида, которая определяет схожесть в среднем. Выбор метрики определяется задачей исследования и типом данных. Помимо приведенных выше методов, разработаны метрики для ранговых и дихотомических переменных и т.д. (во всех выше приведенных формулах i,j – номера столбцов; k – номер строки; d ij – элемент матрицы расстояний; x ik , x jk – элементы исходной матрицы; n – количество объектов).

    Наиболее используемый в психологии метод кластерного анализа – это иерархический агломеративный метод , который позволяет строить дерево классификации n объектов посредством иерархического объединения их в группы, или кластеры, все более высокой общности на основе заданного критерия, например, минимума расстояния в пространстве m переменных, описывающих объекты. В результате производится разбиение некоторого множества объектов на естественное число кластеров. Первоначально каждый элемент является классом, далее на каждом шаге происходит объединение ближайших объектов, и в результате все объекты образуют один класс.

    Алгоритм агломеративного метода можно представить в следующем виде: на входе имеется матрица смешения, из которой строится матрица расстояния, либо матрица расстояния, полученная непосредственно в результате исследований.

    1. На первом шаге в один класс объединяются те объекты, между которыми расстояние является минимальным.
    2. На втором шаге производится пересчет матрицы расстояний с учетом вновь образованного класса.

    Далее чередование пунктов 1 и 2 производится до тех пор, пока все объекты не будут объединены в один класс. Графическое представление результатов обычно осуществляется в виде дерева иерарахической кластеризации. По оси X располагаются классифицируемые объекты (на одинаковом расстоянии друг от друга); по оси Y – расстояния, на основании которых происходит объединение объектов в кластеры. Для определения «естественного» числа кластеров применяется критерий разбиения на классы в виде отношения средних внутрикластерных расстояний к межкластерным расстояниям. Глобальный минимум соответствует «естественному» числу классов, а локальные минимумы – под- и над- структурам (нижним и верхним границам).

    Методы иерархического кластерного анализа различаются также по стратегии объединения (стратегии пересчета расстояний). Однако в стандартных статистических пакетах, к сожалению, не проводится оценка разбиения на классы, поэтому данный метод используется как предварительный с целью определения числа классов (обычно по соотношению межкластерных и внутрикластерных расстояний). Далее используется либо метод k -means, либо дискриминантный анализ, либо авторы, самостоятельно используя различные методы, доказывают отделимость классов.

    При объединении i -го и j- го классов в класс k , расстояние между новым классом k и любым другим классом h пересчитывается одним из приведенных ниже способов (стратегии объединения). Расстояния между другими классами сохраняются неизменными. Наиболее распространенными являются следующие стратегии объединения (название несколько не соответствует содержанию; в соответствии с выбранными формулами производится пересчет расстояния от объектов до вновь образованного класса):

    1. Стратегия «ближайшего соседа» – сужает пространство (классы объединяются по ближайшей границе)

    2. Стратегия «дальнего соседа» – растягивает пространство (классы объединяются по дальней границе):

    3. Стратегия «группового среднего» – не изменяет пространство (объекты объединяются в соответствии с расстоянием до центра класса) :

    где n i , n j , n k – число объектов соответственно в классах i , j , k .

    Первые две стратегии изменяют пространство (сужают и растягивают), а последняя его не изменяет. Поэтому, если не удается получить достаточно хорошего разбиения на классы с помощью третьей стратегии, а их все же необходимо выделить, то используются первые две, причем первая стратегия объединяет классы по ближайшим границам, а вторая – по дальним.

    Таким образом, обычно в стандартных ситуациях используется стратегия «группового среднего». Если исследуемая группа достаточна разнородна, т.е. испытуемые, входящие в нее, значимо отличаются друг от друга по множеству характеристик, однако среди них необходимо выделить группы более сходные по всему профилю характеристик, то используется стратегия «дальнего соседа» (сужающая пространство). Если же группа достаточно гомогенна, тогда для выделения подгрупп среди очень схожих по характеристикам испытуемых следует использовать стратегию «дальнего соседа».

    Рассмотрим фрагмент результатов исследования успешности деятельности команды – малой группы, ориентированной на решение деловой задачи и состоящей из молодых специалистов (инженеров-программистов), коллективно принимающих решение, выполняющих сложные работы в различном составе. Задача состоит в исследовании структуры данной команды и качественном описании характеристик каждой подгруппы. В качестве характеристик были рассмотрены: зависимость от групповых стандартов, ответственность, работоспособность, трудовая активность, понимание цели, организованность, мотивация. Матрица смешения для 9 сотрудников приведена ниже.

    Таблица 1. Матрица смешения для коллектива из 9 человек

    Используя метрику Евклида, получаем симметричную матрицу расстояний, которая является основой для кластерного анализа.

    Таблица 2. Матрица расстояний, полученная с использованием метрики Евклида

    Результат применения агломеративного иерархического метода КА к полученной матрице при использовании пакета STATISTICA – дерево классификации – представлен на рис.1.: по горизонтальной оси откладываются на одинаковом расстоянии номера объектов (членов команды), по вертикальной оси – расстояние, на котором объединяются эти объекты.

    Можно заметить, что выделилось два класса: в один вошли объекты 5, 8, 9, 7, 6, 4, а в другой – 3, 2, 1. Отделимость классов оценивается сравнением внутрикластерных и межкластерных расстояний на качественном уровне.

    Примененный к результатам эмпирических исследований агломеративный иерархический метод КА позволяет выделить «естественное» число классов, а также под- и над- структуры. Он будет более эффективным при использовании оценок разбиения на классы.

    Рис. 1. Дерево классификации

    Для определения «естественного» числа кластеров, на которые может быть разбита совокупность объектов, а возможно, и для выделения более «тонкой» структуры применялся следующий критерий: на каждом уровне иерархической кластеризации выполнялось разбиение множества на данное число классов. В основу примененной для этого формулы была заложена идея физической плотности или, точнее, объема пространства, занимаемого данным множеством объектов (Савченко, Рассказова, 1989). Для каждой пары кластеров оценивалась степень их внутренней связанности друг с другом. Для этого вычислялось среднее внутрикластерное расстояние для каждого кластера из заданной пары; если при этом в класс входит всего один элемент, то расстояние соответствует минимальному расстоянию до какого-либо из элементов. Если в классе более одного элемента, но все различия между ними равны 0, то в формуле отражается аналогия с объемом пространства, занимаемого одним объектом. Формула учитывает, что в данном случае в одной точке пространства находится лишь один объект с большей «удельной плотностью».

    В качестве оценки связанности берется отношение среднего внутрикластерного расстояния к межкластерному:

    где а i и а j – средние внутрикластерные расстояния классов i и j ; b ij – среднее межкластерное расстояние между этими же классами.

    Оценка «естественного» разбиения производится по следующей формуле:

    Отметим некоторые свойства такого разбиения: если все различия между объектами равны между собой, то S для такого случая равна 1; разбиения, получаемые с помощью вышеописанного алгоритма, имеют оценку не более 1. Итак, будем считать значение критерия такого разбиения, когда все объекты объединены в один кластер, равным 1.

    Минимум значения функции S определяет наилучшее разбиение множества объектов на кластеры. Изображение на одном графике дерева кластеризации и значений функции S позволяет выявлять не только оптимальное разбиение, но и под - и над - структуры, которые соответствуют локальным минимумам функции S и позволяют обнаружить в множестве разные уровни объединения. Таким образом, описанный метод кластерного анализа позволяет выявлять иерархическую организацию множества объектов, используя только матрицу различий между ними.

    Однако в стандартных пакетах, как отмечалось выше, такая оценка, к сожалению, не предусмотрена. Для получения более детальной информации о полученных классах используются другие методы кластеризации: например, дендритный анализ дает возможность проследить близость объектов в классах и более подробно изучить их структуру; метод k -means позволяет качественно описать каждый класс объектов и провести сравнительный анализ степени выраженности исследуемых характеристик у представителей обоих классов.

    При анализе данных социально-психологических исследований взаимоотношений в коллективах помимо разбиения на классы необходимо решить вопрос о том, какие именно объекты (характеристики, признаки) связывают классы друг с другом. В этом случае целесообразным является использование дендритного метода кластерного анализа , который часто применяется совместно с иерархическим. Дендрит в данном случае – это ломаная линия, которая не содержит замкнутых ломаных и в то же время соединяет любые два элемента. Он определяется не единственным способом, поэтому предлагается построение дендрита, у которого сумма длин связей минимальна.

    Итак, объекты – это вершины дендрита, а расстояния между ними – дуги. На первом этапе к каждому объекту находится ближайший (находящийся к нему на минимальном расстоянии) объект и составляются пары. Число пар равно числу объектов. Далее, если есть симметричные пары (например: i______j, j_____i), то одна из них убирается; если в двух парах присутствует один и тот же элемент, то пары объединяются через этот элемент. Например, две пары:

    i__________j ,

    j______k

    объединяются в связку i ___________j ________k .

    На этом заканчивается построение скоплений (плеяд) первого порядка. Затем определяются минимальные расстояния между объектами скоплений первого порядка, и эти скопления объединяются до тех пор, пока не будет построен дендрит. Группы объектов считаются вполне отделимыми, если длина дуги между ними d lk > C p , где C p = С ср + S , С ср – средняя длина дуги, S – стандартное отклонение.

    Дендриты могут принимать форму розетки, амебообразного следа, цепочки. При совместном использовании иерархического КА и метода дендрита распределение элементов по классам получают, применив КА, а взаимосвязи между элементами анализируются с помощью дендрита.

    Применение дендритного анализа к рассматриваемым данным позволило получить следующий дендрит (см. рис. 2).

    Итак, в описанном выше случае C p = 4.8. Это означает, что выделяются три класса, что несколько отличается от результата, полученного с помощью агломеративного метода. Из первого класса, в который входили объекты 1, 3, 2, отделился первый член коллектива. Во второй класс вошли объекты 8, 4, 9, 7, 6, 5 (аналогично результатам, полученным с помощью агломеративного метода).

    Рис. 2. Дендрит (форма простого дерева): над дугами дендрита указаны расстояния между объектами

    Применение такого метода позволяет получить дополнительную информацию о том, какие объекты связывают классы друг с другом. В нашем случае это 2 и 6 объекты (члены коллектива). Данная структура аналогична социометрической, однако получена она на основе результатов тестирования. Дальнейший анализ дендрита позволит выделить группы совместимых людей (которые наиболее эффективно решают поставленные задачи в ходе совместной деятельности) либо выявить тех, кто лучше работает в одиночку, например, объект 1; 8 объект находится на границе отделимости, поэтому, возможно, ему лучше давать индивидуальные задания.

    Помимо агломеративных иерархических методов существует также большое количество итеративных методов кластерного анализа . Основное отличие их состоит в том, что процесс классификации начинается с задания начальных условий: это может быть число классов, критерий завершения классификации и т.д. К таким методам относятся, например, дивизивные методы, методы k-means и другие, требующие от исследователя интуиции и творческого подхода. Еще до проведения классификации необходимо представлять, какое количество классов должно быть образовано, когда закончить процесс классификации и т.д. От верно выбранных начальных условий будет зависеть результат классификации, поскольку некорректно выбранные условия могут приводить к «размытости» классов. Таким образом, эти методы используются, если есть теоретическое обоснование, например, количества ожидаемых классов, а также после проведения иерархических методов классификации, которые позволяют выработать наиболее оптимальную стратегию исследования.

    Метод k-means можно отнести к итеративным методам эталонного типа. Название ему было дано Дж. Мак-Куином. Существует много различных модификаций данного метода. Рассмотрим одну из них.

    Пусть в результате проведенного исследования получена матрица измерений n объектов по m характеристикам. Множество объектов необходимо разбить на k классов по всем исследуемым характеристикам.

    На первом шаге из n объектов выбираются k точек либо случайным образом, либо исходя из теоретических предпосылок. Это и есть эталоны. Каждому из них присваивается порядковый номер (номер класса) и вес, равный единице.

    На втором шаге из оставшихся n-k объектов извлекается один и проверяется, к какому из классов он ближе, для чего используется одна из метрик (к сожалению, в основных статистических пакетах используется только метрика Евклида). Рассматриваемый объект относится к тому классу, к эталону которого он наиболее близок. Если есть два одинаковых минимальных расстояния, то объект присоединяется к классу с минимальным номером.

    Производится перерасчет эталона, к которому присоединен новый объект, и его вес возрастает на единицу.

    Пусть эталоны представлены таким образом:

    Тогда если рассматриваемый объект j относится к эталону k , то данный эталон (т.е. центр образовавшегося класса) пересчитывается следующим образом:

    здесь v jo – вес эталона j в нулевой итерации.

    Остальные эталоны остаются неизменными.

    Чтобы получить устойчивое разбиение, новые эталоны после разнесения всех объектов принимаются за начальные, и далее процедура повторяется с первого шага. Веса классов продолжают накапливаться. Новое распределение по классам сравнивается с предыдущим, если различие не превышает заданного уровня, т.е. распределения можно считать не изменившимися, то процедура классификации заканчивается.

    Существует две модификации данного метода. В первой пересчет центра кластера происходит после каждого присоединения, во второй – в конце отнесения всех объектов к классам; минимизация внутрикластерной дисперсии осуществляется в большинстве итерационных методов кластерного анализа.

    Обычно в методе k-means реализуется процедура построения усредненных профилей каждого класса (см. рис. 3), что дает возможность проводить качественный анализ выраженности признаков у представителей каждого класса. Для сравнения классов по выраженности тех или иных характеристик используется процедура, подобная ANOVA, сравнивающая внутрикластерные и межкластерные дисперсии по каждой характеристике и тем самым позволяющая осуществить проверку значимости различия классов по исследуемым характеристикам.

    Рис. 3. Усредненные профили классов

    Таблица 3. Номера объектов и расстояния от центра классов

    Анализ профилей показывает, что в первый класс (табл. 3) попали члены коллектива, характеризующиеся незначительной зависимостью от группы, средним уровнем ответственности и высокой трудовой активностью, работоспособностью, пониманием цели. Во вторую группу (более многочисленную) вошли сотрудники, характеризующиеся значительной зависимостью от групповых стандартов, низким уровнем ответственности, трудовой активности, работоспособности и понимания общей цели. На тех, кто вошел в состав первой группы, может быть возложена ответственность, они могут самостоятельно принимать решения и т.д.; вторая группа – это исполнители, за выполнением порученных заданий которыми необходим постоянный контроль. Заметим лишь, что мотивация низкая у обеих групп, что связано, возможно, с невысокой оплатой труда. В табл. 4 представлены результаты сравнительного анализа, демонстрирующие значимые отличия классов по трем характеристикам: трудовая активность, работоспособность и понимание цели.

    Таблица 4. Анализ отделимости классов (жирным шрифтом выделены те характеристики, по которым наблюдается значимое различие между классами).

    К оригинальным методам, в основе которых лежит психологическая теория, можно отнести кластерный анализ на основе теории Выготского . В работе «Мышление и речь» Выготский описывает различные генетические ступени развития понятий. В частности, он выделяет в качестве одного из важнейших этап образования комплексов, являющихся прообразами научных понятий. Он пишет, что в основе комплекса лежат фактические связи между объектами, устанавливаемые в непосредственном опыте. Поэтому такой комплекс представляет собой прежде всего конкретное объединение предметов на основании их фактической близости друг с другом. Далее он выделяет пять форм комплексов, а именно: ассоциативный комплекс, комплекс-коллекция, цепной комплекс, диффузный комплекс, псевдопонятия. Важно сразу же отметить, что во всех типах комплексов возможны любые ассоциативные связи, причем их характер может быть совершенно различным между различными парами элементов, участвующих в образовании одного и того же комплекса. Так что важнейшей особенностью образования комплексов является множественность типов ассоциативных связей между элементами, объединяемыми в комплекс. Заметим, что в качестве частного случая различий между элементами может выступать различие по какому-либо критерию. В кластерном анализе таким критерием является (моделируется) расстояние. Поскольку характер связей в ассоциативном комплексе может быть различным, то формализация осуществляется через задание на одном и том же множестве элементов нескольких различных типов попарных расстояний (или различий) между ними.

    Допустим, что в описанном нами примере предметом изучения являются отношения между членами некоей малой группы, например, производственной, научной или учебной. Для одной и той же группы может быть выделено несколько типов отношений: производственные, личные, общность увлечений и т.д. Тогда для какой-либо из групп экспериментально определяется структура отношений каждого типа и строится матрица попарных расстояний (или близости) между членами группы по каждому типу отношений.

    Формальное описание ситуации сводится к следующему. Задано множество M элементов А 1 , А 2 ,…, А n и множество типов попарной близости этих элементов. Пусть количество этих типов m. Различные типы близости отличаются друг от друга тем, что каждый представляет собой близость по какому-либо качеству, присущему всем элементам множества. Таким образом, выделяются m качеств каждого элемента и производится сравнение (вычисление расстояний или различий) по каждому из этих качеств, что и дает m типов близости элементов. Для каждого типа близости задается матрица попарных расстояний (или различий), отражающая структуру множества элементов m по отношению к данному типу близости. Всего должно быть задано m таких матриц.

    Покажем теперь, как в рамках данной формальной схемы могут быть описаны алгоритмы образования комплексов различных типов.

    1. Ассоциативный кластер. Согласно Выготскому, в ассоциативном комплексе прежде всего выделяется элемент, который будет образовывать его ядро, затем остальные элементы объединяются с ядром. И здесь Выготский отмечает следующую характерную особенность данного комплекса: «Элементы могут быть вовсе не объединены между собой. Единственным принципом их обобщения является их фактическое родство с основным ядром комплекса. Связь, объединяющая их с этим последним, может быть любой ассоциативной связью» (Выготский, 1982, с. 142).

    Дадим описание простейшего варианта алгоритма образования ассоциативного кластера в терминах приведенной выше формальной схемы. Сначала из заданного множества M элементов выбирается один, который будет играть роль ядра ассоциативного кластера. Ясно, что можно построить столько ассоциативных кластеров, сколько элементов в множестве M , выбирая поочередно в качестве ядра все элементы множества. Итак, выберем один элемент A k . Далее, по каждому качеству (т.е. для каждой матрицы расстояний) выбирается элемент, ближайший к элементу A k . Таким образом, мы получаем m или более элементов, если по каким-либо признакам выделяются два или более элементов, отстоящих от A k на одно и то же минимальное по этому признаку расстояние. Совокупность элемента A k как ядра и всех таким образом выбранных ближайших к нему элементов по каждому признаку и составляет ассоциативный кластер.

    Возможны и более сложные алгоритмы, например, если с самого начала в качестве ядра ассоциативного кластера выбирать не один элемент, а несколько. Такой вариант кластерного анализа мы будем называть обобщенным ассоциативным кластером. Опишем алгоритм его образования более подробно.

    Сначала выбирается множество элементов, которые в совокупности будут составлять ядро обобщенного ассоциативного кластера. Далее по каждому признаку для каждого из элементов ядра отбираются ближайшие по выбранному признаку элементы, а величины этих минимальных расстояний фиксируются. Затем из всех расстояний выбирается наименьшее, и происходит отбор только тех элементов, которые находятся на минимальном расстоянии от какого-либо из элементов ядра. Эта процедура повторяется для всех качеств. При этом в переборе элементов, естественно, не участвуют те, что составляют ядро кластера. Совокупность элементов ядра и всех элементов, выбранных в соответствии с описанной процедурой, и является обобщенным ассоциативным кластером. Элементы ассоциативного комплекса (по Выготскому) могут вовсе не быть объединены между собой, а находиться в ассоциативной связи лишь с ядром комплекса. Это означает, что a priori могут быть заданы не все расстояния, т.е. множество элементов упорядочится лишь частично.

    Рассмотрим конкретный пример применения простейшего алгоритма образования ассоциативного кластера для анализа отношений в малой группе.

    Количество членов малой группы, т.е. элементов рассматриваемого множества, n =9. Было выбрано m =3 различных типов отношений между членами малой группы: 1) взаимоотношения, связанные с основной работой, 2) взаимоотношения, связанные с неделовыми формами общения, 3) взаимоотношения, связанные с участием в дополнительной работе. По каждому типу отношений методами экспертных оценок были получены матрицы попарных различий (расстояний) между всеми членами группы.

    В соответствии с описанным выше простейшим алгоритмом образования ассоциативного кластера были построены все 9 кластеров, причем в качестве ядра были выбраны поочередно все члены малой группы. На рис. 4 представлен пример полученного ассоциативного кластера, в котором в качестве ядра взят элемент А 1.

    Рис. 4. Ассоциативный кластер с ядром А 1

    2. Цепной кластер. «Цепной комплекс строится по принципу динамического временного объединения отдельных звеньев в единую цепь и переноса значения через отдельные звенья этой цепи. Каждое звено соединено... с предшествующим... (и)... последующим, причем самое важное отличие этого типа комплекса в том, что характер связи или способ соединения одного и того же звена с предшествующим и последующим может быть совершенно различным» (Выготский, 1982, с. 144).

    Теперь приведем описание алгоритма образования цепного кластера в принятых нами терминах формальной модели. Сначала из заданного множества m элементов выбирается один, который станет первым элементом, составляющим цепной кластер. Затем для каждого качества (т.е. для каждой матрицы расстояний из m заданных матриц) выбирается элемент, ближайший к первому. Из полученных M минимальных расстояний выбирается наименьшее и фиксируется номер соответствующей матрицы и номер элемента – этот элемент и будет вторым в цепном кластере. Далее процедура повторяется для второго элемента, причем первый из процесса отбора исключается. Процесс повторяется столько раз, сколько элементов в множестве M .

    Заметим, что если на каком-либо шаге построения цепного кластера минимальная величина будет не у одной, а у двух или более пар элементов, то в этом случае может быть построено несколько эквивалентных цепных кластеров. Графическое изображение построенного нами цепного кластера, начинающегося с элемента А 1 , представлено на рис. 5, где видно, как к группе из элементов А 1 , А 3 , А 4 присоединяются последовательно остальные элементы. Однако необходимо подчеркнуть, что в данном исследовании цепной кластер менее информативен, чем ассоциативный, тем не менее он предоставляет дополнительные к ассоциативному кластеру сведения.

    Рис. 5. Цепной кластер с ядром А 1 .

    3. Ассоциативно-цепной кластер . Как уже отмечалось, процедуры построения ассоциативного и цепного кластеров решают различные содержательные задачи: ассоциативный выявляет все эле менты, ближайшие к ядру по различным свойствам, а цепной показывает связь данного начального элемента последовательно со всеми остальными элементами множества. Представляется целесообразным разработать такой алгоритм, который обладал бы преимуществами как ассоциативного, так и цепного кластера. Далее приведем описание одного из возможных вариантов построения ассоциативно-цепного кластера.

    Выберем сначала один элемент, который будет ядром ассоциативно-цепного кластера, в этом качестве может выступать любой элемент множества. Затем применим алгоритм образования простейшего ассоциативного кластера. Рассмотрим далее множество элементов, составивших простейший кластер. Применим к этому множеству элементов алгоритм построения обобщенного ассоциативного кластера. Далее к получившемуся множеству элементов, которые составляют обобщенный кластер, снова применим алгоритм образования. Будем повторять эту процедуру до тех пор, пока в строящийся кластер не объединятся все элементы исходного множества. Полученную в результате описанного процесса структуру и будем называть ассоциативно-цепным кластером. Это название оправданно тем, что структура подобного кластера представляет собой центральный простейший ассоциативный кластер и цепочки из элементов, составляющих простейший кластер. На рис. 6 представлен пример построения ассоциативно-цепного кластера для рассматриваемых нами экспериментальных данных. В качестве исходного элемента взят элемент А 1 .

    Рис. 6. Ассоциативно-цепной кластер с ядром А 1

    Мы видим, что к образовавшемуся простейшему ассоциативному кластеру с ядром А 1 присоединяются элементы А 2 , А 6 , А 7 и, наконец, элементы А 8 и А 9 на различных итерациях. Если коротко охарактеризовать смысл ассоциативно-цепного кластера, то можно сказать, что он описывает структуру заданного множества элементов по отношению к одному выделенному (на рис. 6 это элемент А 1 ).

    4. Кластер-коллекция . Рассмотрим, наконец, тип кластера, соответствующий комплексу-коллекции Выготского. Характеризуя его, ученый пишет, что комплексы этого типа «больше всего напоминают то, что принято называть коллекциями. Здесь различные неконкретные предметы объединяются на основе взаимного дополнения по какому-либо одному признаку и образуют единое целое, состоящее из разнородных, взаимно дополняющих друг друга частей». И далее: «Эта форма мышления часто соединяется с описанной выше ассоциативной формой. Тогда получается коллекция, составленная на основе различных признаков» (Выготский, 1982, с. 142–143).

    Рассмотрим теперь описание простейшего варианта алгоритма образования кластера-коллекции в терминах приведенной выше формальной модели. Заметим, что в результате применения алгоритма построения кластера-коллекции мы должны получить набор элементов, отличающихся друг от друга хотя бы по одному признаку. К такому результату приводит, например, следующий алгоритм: сначала задается некоторый порог различия (или расстояния), при котором два элемента с разницей больше выбранного порога считаются различными. Очевидно, что результат (кластер-коллекция) будет зависеть от величины порога.

    Далее раздельно для каждого признака (т.е. для каждой матрицы расстояний) применяется обычный метод кластерного анализа. По каждому признаку на основе результатов обычного анализа выбирается такое деление на кластеры, при котором расстояния между ними превышают заданный порог.

    Затем рассматриваются одновременно все разбиения, выполненные по различным свойствам, и фиксируются все пересечения и разности множеств элементов, составляющих эти кластеры. Очевидно, что множества элементов, полученные таким способом, обладают следующим свойством: элементы двух различных множеств находятся хотя бы по одному признаку на расстоянии, превышающем выбранный порог. Если теперь возьмем по одному (любому) элементу из всех полученных множеств, то получим кластер-коллекцию.

    Рассмотрим пример построения кластера-коллекции для наших экспериментальных данных. Напомним, что множество состоит из 9 элементов и имеются три матрицы попарных расстояний между ними. Пусть величина порога будет h =7. Проведя обычный кластерный анализ для каждой из трех матриц расстояний и применив описанную выше процедуру при величине порога h =7, получим следующие разбиения.

    Для первой матрицы – три кластера:

    Для второй – четыре кластера:

    Для третьей – четыре кластера:

    Выбирая в соответствии с описанной выше процедурой пересечения и разности всех полученных кластеров, получим в результате следующий набор множеств:

    Таким образом, в кластер-коллекцию входят элементы А 2 , А 7 , А 8 , А 9 и еще один (любой) элемент первого множества, например, А 1 . Очевидно, что элементы кластера-коллекции А 1 , А 2 , А 7 , А 8 , А 9 отличаются друг от друга хотя бы по одному признаку на величину, большую h =7. Так, например, элементы А 1 и А 2 отличаются лишь по одному третьему признаку, элементы А 1 и А 7 по второму и третьему, а, скажем, элементы А 8 и А 9 – по всем трем.

    Метод латентных классов

    Цель создания моделей с латентными переменными состоит в объяснении наблюдаемых переменных и взаимосвязей между ними: при заданном значении наблюдаемых переменных конструируется множество латентных переменных и подходящая функция, которая достаточно хорошо аппроксимировала бы наблюдаемые переменные, а в конечном счете плотность вероятности наблюдаемой переменной.

    В факторном анализе основной акцент делается на моделирование значений наблюдаемых переменных из корреляций и ковариаций, а в методах латентно-структурного анализа – на моделирование распределения вероятности наблюдаемых переменных.

    Метод латентных классов можно использовать для дихотомических переменных и порядковых шкал. Наблюдаемые переменные могут быть измерены в дихотомической шкале наименований, т.е. являются переменными (0,1) (xi =1 – наличие признака и xi =0 – отсутствие признака). Тогда наблюдаемые вероятности могут быть объяснены с помощью латентных переменных, т.е. с помощью латентных распределений и соответствующих условных распределений (Лазарфельд, 1996).

    Объясняющее уравнение первого рода имеет вид:

    где наблюдаемые переменные – х i ; плотность вероятности наблюдаемых переменных – ρ i ; множество латентных переменных – φ , плотность вероятности латентных переменных – g(φ). Объясняющее уравнение n-го порядка имеет вид:

    Основным предположением всех моделей латентных структур является локальная независимость. Это следует понимать так: для данной латентной характеристики наблюдаемые переменные независимы в смысле теории вероятностей. Аксиома локальной независимости имеет вид:

    Условная вероятность называется операционной характеристикой вопроса, т.е. это вероятность получения правильной оценки того, что наблюдаемый признак j имеет место, если его латентная характеристика известна. Если φ непрерывна, то операционная характеристика называется характеристикой кривой, или следом.

    По дискретности или непрерывности и по виду характеристической кривой различают следующие модели: модели латентных групп (латентную вероятность p группы можно обозначить через g , а операционную характеристику – через ); модель латентных профилей (обобщение модели латентных групп, когда наблюдаемые переменные считаются непрерывными); модель латентных расстояний, которая имеет в качестве характерной кривой функцию скачка.

    Рассмотрим одну из моделей латентных групп (дискретная латентная характеристика). На основе модели Роста нами был реализован метод латентно-структурного анализа, или модель латентных классов для нормального распределения данных. Таким образом, решается следующая задача: по матрице ответов испытуемых на вопросы какого-либо теста структурируется само множество испытуемых по близости (похожести) профилей ответов.

    Для этой цели сначала произвольно задаются два параметра, которые являются скрытыми – латентными, так как истинное их значение предстоит определить в процессе работы метода. Это:

    1. Относительное число испытуемых в классе (мы задавали его первоначально P(k) = 1/k ).
    2. Характеристический параметр класса r(i, k) – матрица вероятности появления определенного ответа на i -й вопрос, если испытуемый относится к k -му классу. Он должен быть различным для разных классов. Мы задавали его и одинаковым для испытуемых, принадлежащих к одному классу, и различным для каждого класса. Предполагается, что условная вероятность такого события, как ответ испытуемого категории q на j вопрос, постоянна для всех испытуемых, принадлежащих к классу k . Вероятность появления ответа категории q(1,2,...,Q) равна вероятности q , являющейся суммой реализаций дихотомической случайной переменной.

    В конце определяются для априорно заданного числа классов истинное относительное число испытуемых в классах и истинный параметр, определяющий вероятность появления определенного ответа на i -й вопрос, если испытуемый относится к k -му классу, что отражается в профилях, характеризующих именно данную группу испытуемых.

    Мы вычисляли также наиболее вероятный профиль ответов испытуемых, принадлежащих к данному классу. Структура данных включает:

    1. Матрицу профилей ответов.
    2. Матрицу априорных вероятностей: вероятности определенного ответа на i-й вопрос при условии, что испытуемый относится к k-му классу.
    3. Относительное число испытуемых в классе.

    В основе модели лежит формула Байеса, которая связывает априорную вероятность с апостериорной. Общая методология сводится к введению априорной плотности распределения параметров и последующему нахождению по формуле Байеса их апостериорной плотности распределения (с учетом экспериментальных данных).

    Априорные распределения могут задаваться (1) стандартным способом (априорная вероятность пропорциональна числу классов); (2) исходя из профессиональных соображений, т.е. априорно задаются две латентные характеристики:

    1. Количество латентных классов (k ) и соответствующее им относительное число испытуемых в классе Р(k);
    2. Параметр, определяющий вероятность определенного ответа на 1-й вопрос при условии, что испытуемый относится к k -му классу r (k ).

    Вероятность появления 1-го паттерна профиля:

    Алгоритм метода латентных групп.

    а) количество латентных классов К ,

    б) количество вопросов М,

    в) количество возможных категорий ответов Q ,

    г) количество испытуемых N ,

    д) начальное распределение.

    Р(k ) – относительное число испытуемых, которые входят в класс, например Р(k) = 1/k.

    Задаем начальные значения характеристик параметров классов r(i,k ) ; k = 1,..., k ; i =1,…, M ; r(i,k ) – параметр, определяющий вероятность появления определенного ответа на i- й вопрос, если испытуемый относится к k- му классу.

    Вводим Xij – ответ i- го испытуемого на j- й вопрос: i =1,…,N ; j =1,...,M .

    Определяем множество различных паттернов ответов: , где х ij = a ij ,a ij – ответ на j- й вопрос. Считаем количество таких паттернов: n(i), i=1,…,L; n(i a). Вычисляем вероятность появления паттерна i a при условии, что он генерируется испытуемым, относящимся к k-му классу:

    Вычисляем вероятность появления такого паттерна:

    Вычисляем апостериорную вероятность того, что испытуемый относится к классу k, если он ответил i a:

    Вычисляем математическое ожидание количества паттернов у испытуемых класса k:

    Считаем оценку относительного числа испытуемых, относящихся к классу k:

    Вычисляем математическое ожидание количества паттернов, в которых ответ на j-й вопрос есть x∈{ 0,...,1,Q), при условии, что отвечающие относятся к классу k:

    Вычисляем оценку параметров:

    Если, то мы получаем интересующие нас параметры классов, т.е

    В противном случае процедура повторяется. Также нами были разработаны четыре варианта оценки кластерных разбиений. Есть множество испытуемых Х. ||X||=N – мощность множества Х равна N, т.е. N – испытуемых. В результате LSA мы получаем для каждого из К классов и N испытуемых:

    – вероятность для i-го испытуемого принадлежать к k-му классу. Определяя max Pi, мы относим испытуемого i к классу, к которому он принадлежит, с максимальной вероятностью.

    Разбивая множество Х на классы указанным выше образом, получаем: k X – множество испытуемых, попавших в k-й класс; – количество испытуемых, попавших в k-й класс. Тогда можно предложить следующие оценки разбиений: средняя «четкость» кластеров, наименьшая «четкость» кластеров, интегральная «четкость» кластеров, связность кластеров. Аналогично методу иерархической кластеризации, описанному выше, наиболее верно отражающей реальную структуру оказалась оценка, названная нами – связность кластеров.

    Тогда возьмем два класса; их параметры – относительное число испытуемых в классе, вероятность для i-го испытуемого принадлежать к k-му классу. Из двух вероятностей выбирается большая, что и определяет класс, к которому «принадлежит» испытуемый (реально испытуемый может не принадлежать ни к одному из классов). Если при этом в одном из анализируемых классов не оказалось ни одного испытуемого, то суммарная вероятность по этому классу равна 0. Вызывает несомненный интерес тот факт, что именно «связность» работает в обоих методах, разработанных в лаборатории математической психологии, – методе латентных классов и методе иерархической кластеризации. При кластерном анализе это можно было оценить и визуально, изучая картинку дерева. В ЛСА это можно заметить следующим образом: до данного количества кластеров (определяемых этой оценкой) профили классов существенно отличаются друг от друга, а далее заметно лишь незначительное отличие. Данный метод позволяет выделить наиболее типичные паттерны восприятия стимулов и проанализировать их профили. Метод основан на вероятностном подходе, поэтому является более универсальным по сравнению с другими методами кластерного анализа. Наиболее часто метод ЛСА используется при адаптации методик, так как позволяет выделить типичные паттерны ответов и в соответствии с ними структурировать множество испытуемых, а для каждого типа оценить апостерионую вероятность. В представленной статье описаны различные методы кластерного анализа и показано, в каких случаях их можно применять с наибольшей эффективностью по отдельности, а также совместно друг с другом. Итак, в статье представлены стандартные методы, реализованные в наиболее часто используемых статистических пакетах, их развитие и усовершенствование, которое реализовано на данном этапе только в оригинальных пакетах, а также оригинальные методы, отсутствующие в статистических пакетах.

Загрузка...
Top