Марийский государственный технический университет
кафедра РТиМБС
Кластерный анализ
Методические указания к лабораторной работе
Йошкар-Ола
200 8
Введение
Задача кластерного анализа
Методы кластерного анализа
Алгоритмы кластеризации
Число кластеров
Дендограммы
Пример
Пример решения в программе SPSS 11.0
Пример решения в программе STATISTICA
Задание к лабораторной работе
Теоретическая часть
Практическая часть
Заключение
Список литературы
Приложение
Введение
Обширную группу задач анализа данных, основывающихся на применении статистических методов, составляют так называемые задачи классификации. Выделяются три подобласти теории классификации: дискриминация (дискриминантный анализ), кластеризация (кластерный анализ) и группировка.
Главное назначение кластерного анализа – разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.
Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы.
Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы информации, делать их компактными и наглядными.
Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной связью.
Различные приложения кластерного анализа можно свести к четырем основным задачам:
разработка типологии или классификации;
исследование полезных концептуальных схем группирования объектов;
порождение гипотез на основе исследования данных;
проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Техника кластеризации применяется в самых разнообразных областях. Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии.
Недостатки кластерного анализа:
Многие методы кластерного анализа - довольно простые процедуры, которые, как правило, не имеют достаточного статистического обоснования
Методы кластерного анализа разрабатывались для многих научных дисциплин, а потому несут на себе отпечатки специфики этих дисциплин.
Разные кластерные методы могут порождать и порождают различные решения для одних и тех же данных.
Цель кластерного анализа заключается в поиске существующих структур. В то же время его действие состоит в привнесении структуры в анализируемые данные, т. е. методы кластеризации необходимы для обнаружения структуры в данных, которую нелегко найти при визуальном обследовании или с помощью экспертов.
Представляет своевременное и важное введение в нечеткий кластерный анализ, его методы и области использования. Систематически описывает различные техники нечеткой кластеризации так что читатель может выбарть метод, наиболее подходящий для решения его задачи. Присутствует хороший и очень полный обзор литературы по предмету исследования, распознаванию изображений, классификации покрытий, анализу данных и выводу правил. Примеры достаточно иллюстративны и доставляют. результаты апробированы.
Это наиболее подробная книга по нечеткой кластеризации, вследствие чего рекомендуется ученым-компьютерщикам, математикам, инженерам — всем, кто связан с анализом данных, обработкой изображений. Будет также полезна студентам, которые подвизаются в области вычислительных наук.
Работа посвящена одному из методов теории распознавания образов — кластерному анализу.
В сжатом виде представлены основные идеи кластерного анализа и показаны некоторые сферы его приложения в горных исследованиях. Описанные методы кластеризации могут быть использованы в реальных задачах. В алгоритмах достаточно подробно рассмотрена вычислительная часть.
Несмотря на то что кластерный анализ является эффективным и удобным инструментом классификации, а также весьма распространен в практических исследованиях, публикаций на эту тему на русском языке очень мало, а существующие малоинформативны. Предлагаемая вашему вниманию брошюра освещает некоторые основополагающие вопросы кластерного анализа.
Для научных сотрудников, диссертантов и специалистов, работающих в области многомерного статистического анализа.
Метки ,Тема книги - обзор состояния теории и практики применения «кластерного анализа». Этот метод имеет все преимущества метода комбинационной группировки, несвободен от его главного недостатка - распыления материала, что открывает широкие перспективы применения рассматриваемого метода в статистическом анализе, в классификации объектов, в исследовании связей, типизации выборки и др. Книга отличается полнотой, доступностью и вместе с тем краткостью изложения. Книга рассчитана на статистиков, экономистов, а также социологов, демографов, биологов и других специалистов. Воспроизведено в оригинальной авторской орфографии издания 1977 года (издательство «Статистика»).
Метки ,Тематика исследований варьирует от анализа морфологии мумифицированных грызунов в Новой Гвинее до изучения результатов голосования сенаторов США, от анализа поведенческих функций замороженных тараканов при их размораживании до исследования географического распределения некоторых видов лишая в Саскачеване.
Такой взрыв публикаций оказал огромное влияние на развитие и применение кластерного анализа. Но, к сожалению, имеются и негативные стороны. Быстрый рост публикаций по кластерному анализу повлек за собой образование группировок пользователей и как следствие - создание жаргона, используемого лишь группировками, его создавшими (Blashfield and Aldenderfer, 1978; Blashfield, 1980).
О формировании жаргона специалистами в области социальных наук свидетельствует, например, разнообразная терминология, относящаяся к методу Уорда. «Метод Уорда» в литературе называется по-разному. Известны по крайней мере еще четыре его названия: «метод минимальной дисперсии», «метод суммы квадратов ошибок», «иерархическая группировка, минимизирующая и «HGROUP». Первые два названия указывают просто на критерий, оптимум которого определяется в методе Уорда, тогда как третье связано с суммой квадратов ошибок, являющейся монотонным преобразованием следа матрицы W, внутригрупповой ковариационной матрицы. Наконец, широко применяемое название «HGROUP» - это название популярной компьютерной программы, которая реализует метод Уорда (Veldman, 1967).
Образование жаргона мешает развитию междисциплинарных связей, препятствует эффективному сравнению методологии и результатов применения кластерного анализа в различных областях науки, ведет к ненужным затратам усилий (повторное изобретение одних и тех же алгоритмов) и, наконец, не дает новым пользователям глубоко понять выбранные ими методы (Blashfield and aldenderfer, 1978). Например, авторы одного исследования в области социальных наук (Rogers and Linden, 1973) сравнили три различных метода кластеризации, применяя одни и те же данные. Они называли эти методы следующим образом: «иерархическая группировка», «иерархическая кластеризация или HCG» и «кластерный анализ». И ни одно из этих названий не было привычным для методов кластеризации. Начинающий пользователь программ кластерного анализа будет сбит с толку всеми существующими названиями и не сможет связать их с другими описаниями методов кластеризации. Опытные пользователи окажутся в трудном положении при сравнении своих исследований с аналогичными работами. Возможно, мы впадаем в крайность, но жаргон представляет собой серьезную проблему.
В последние годы развитие кластерного анализа несколько замедлилось, судя и по числу публикаций, и по числу дисциплин, где этот метод применяется. Можно сказать, что в настоящее время психология, социология, биология, статистика и некоторые технические дисциплины выходят на стадию консолидации в отношении кластерного анализа.
Количество статей, воспевающих достоинства кластерного анализа, постепенно уменьшается. При этом все чаще появляются работы, в которых на контрольных данных проводится сравнение применимости различных методов кластеризации. В литературе стало уделяться больше внимания и приложениям. Многие исследования направлены на разработку практических мер для проверки обоснованности результатов, полученных с помощью кластерного анализа. Все это свидетельствует о серьезных попытках создать разумную статистическую теорию методов кластеризации.
Термин "кластерный анализ" впервые был использован американским психологом Робертом Трионом в одноименной работе еще в 1930 году. Несмотря на это, термины "кластер" и "кластерный анализ" воспринимаются носителями языка как новые, что отмечает Александр Хроленко, который провел корпусный анализ употребления лексемы "кластер": "большинство авторов, использующих этот термин, обращает внимание на его новизну" (Хроленко, 2016, с. 106)
Кластерный анализ включает в себя множество различных алгоритмов классификаций, цель которых, организовать информацию в кластеры. Важно помнить, что кластерный анализ не является сам по себе определенным алгоритмом, а есть задача, которую нужно решить. В своей работе "Скудность линейной иерархии" Марк Эрешефски отмечает, что кластерный анализ есть один из трех видов классификации объектов окружающего мира, наряду с эссенциализмом и исторической классификацией.
В лингвистике кластерный принцип описания подразумевает помимо анализа входящих в этот кластер единиц, еще и анализ отношений внутри них. Это могут быть связи разных уровней: от логического (парадигматического и синтагматического, например) до словообразовательных и фонетических связей.
Ф. Браун выделяет следующие шаги кластерного анализа(Браун):
- 1. Выбор меры и произведение необходимых измерений, критериев или сущностей, подлежащих классификации
- 2. Задание меры сходства
- 3. Формулирование правил для определения порядка формирования кластеров
- 4. Применение правил для формирования кластеров
Следует отметить, что третий пункт вызывает вопросы, так как отличительной чертой кластеризации как метода классификации является отсутствие заданных классов. Кластеризация документов - это задача информационного поиска. В отличие от категоризации текстов, он не включает в себя заранее определённых категорий или обучающей выборки. Кластеры и отношения между ними "автоматически извлекаются из документов, и документы последовательно прикрепляются к этим кластерам" (Голуб, с. 52-53) Марк Эрешефски представляет кластерный анализ как метод классификации. Он считает, что "все формы кластерного анализа строятся на двух допущениях: члены таксономической группы должны иметь кластер общих черт, и эти черты не могут появляться во всех или только в одном члене этой группы". (Ereshefsky, с. 15)
В своей работе "Кластерный подход в лингвистическом анализе" (Нургалиева, 2013) Н.Х. Нургалиева выделяет четыре основные задачи кластерного анализа:
- 1. Разработка типологии или классификации
- 2. Исследование полезных концептуальных схем группирования объектов
- 3. Представление гипотез на основе исследованных данных
- 4. Проверка гипотез или исследований для определения того, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных
Все методы кластерного анализа можно разделить на "жесткий", четкий кластерный анализ, когда каждый объект либо принадлежит кластеру, либо нет, и на "мягкий", нечеткий кластерный анализ, когда каждый объект принадлежит какой-то группе с определенной степенью вероятности.
Методы кластерного анализа также делятся на иерархические и неиерархические. Иерархические методы подразумевают наличие вложенных групп, в отличие от методов неиерархических. Нургалиева отмечает, что иерархический метод "представляется наиболее подходящим для решения лингвистических задач"(Нургалиева, с.1), так как он позволяет увидеть и проанализировать структуру изучаемого явления.
Кластерный анализ
Выполнить кластерный анализ методом к - средних для к = 2,3, используя 2 показателя из исходных данных. Выберем в меню Анализ - Классификация кластеризация k-средними. Переменные Х1 и Y помещаем в поле тестируемых переменных. Указываем количество кластеров. Через выключатель Итерации… укажем число итераций, равное 99. Для начала расчетов нажимаем ОК. В отчете представлены первичные кластерные центры, история итераций, окончательные центры кластеров, расстояние между конечными центрами, информация о принадлежности к кластерам, расстояние объектов до кластерных центров, числе наблюдений в каждом кластере и т. п.
В отчете кроме кластерной принадлежности выводится расстояние объектов до кластерных центров.
матрица корреляция компьютерный
Заключение
При выполнении работы были сформированы навыки самостоятельного решения прикладных задач в сфере экономики, а так же работы с профессиональными пакетами программ анализа данных (SPSS).
Список использованной литературы
- 1. Многомерный статистический анализ в экономических задачах: компьютерное моделирование в SPSS: Учеб. пособие / Под ред. И.В. Орловой. - М.: Вузовский учебник, 2011. - 310 с.
- 2. Орлова И.В., Половников В.А. Экономико-математические методы и модели: компьютерное моделирование: Учеб. пособие. - М.: Вузовский учебник, 2007. - 365 с.
- 3. Курс лекций по эконометрике проф. Сахабетдинова М.А.