Кластерный анализ литература. Книга: «Кластерный анализ. Список использованной литературы

Марийский государственный технический университет

кафедра РТиМБС

Кластерный анализ

Методические указания к лабораторной работе

Йошкар-Ола

200 8

Введение

    Теоретическая часть

    1. Задача кластерного анализа

      Методы кластерного анализа

      Алгоритмы кластеризации

      Число кластеров

      Дендограммы

    Практическая часть

    1. Пример

      Пример решения в программе SPSS 11.0

      Пример решения в программе STATISTICA

      Задание к лабораторной работе

Заключение

Список литературы

Приложение

Введение

Обширную группу задач анализа данных, основывающихся на применении статистических методов, составляют так называемые задачи классификации. Выделяются три подобласти теории классификации: дискриминация (дискриминантный анализ), кластеризация (кластерный анализ) и группировка.

Главное назначение кластерного анализа – разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.

Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы.

Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы информации, делать их компактными и наглядными.

Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной связью.

Различные приложения кластерного анализа можно свести к четырем основным задачам:

    разработка типологии или классификации;

    исследование полезных концептуальных схем группирования объектов;

    порождение гипотез на основе исследования данных;

    проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Техника кластеризации применяется в самых разнообразных областях. Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии.

Недостатки кластерного анализа:

    Многие методы кластерного анализа - довольно простые процедуры, которые, как правило, не имеют достаточного статис­тического обоснования

    Методы кластерного анализа разрабатывались для многих научных дисциплин, а потому несут на себе отпечатки специфики этих дисциплин.

    Разные кластерные методы могут порождать и порождают различные решения для одних и тех же данных.

Цель кластерного анализа заключается в поиске существую­щих структур. В то же время его действие состоит в привнесении структуры в анализируемые данные, т. е. методы кластеризации необходимы для обнаружения структуры в данных, которую нелег­ко найти при визуальном обследовании или с помощью экспертов.

Представляет своевременное и важное введение в нечеткий кластерный анализ, его методы и области использования. Систематически описывает различные техники нечеткой кластеризации так что читатель может выбарть метод, наиболее подходящий для решения его задачи. Присутствует хороший и очень полный обзор литературы по предмету исследования, распознаванию изображений, классификации покрытий, анализу данных и выводу правил. Примеры достаточно иллюстративны и доставляют. результаты апробированы.
Это наиболее подробная книга по нечеткой кластеризации, вследствие чего рекомендуется ученым-компьютерщикам, математикам, инженерам — всем, кто связан с анализом данных, обработкой изображений. Будет также полезна студентам, которые подвизаются в области вычислительных наук.

Метки ,

Работа посвящена одному из методов теории распознавания образов — кластерному анализу.

В сжатом виде представлены основные идеи кластерного анализа и показаны некоторые сферы его приложения в горных исследованиях. Описанные методы кластеризации могут быть использованы в реальных задачах. В алгоритмах достаточно подробно рассмотрена вычислительная часть.

Несмотря на то что кластерный анализ является эффективным и удобным инструментом классификации, а также весьма распространен в практических исследованиях, публикаций на эту тему на русском языке очень мало, а существующие малоинформативны. Предлагаемая вашему вниманию брошюра освещает некоторые основополагающие вопросы кластерного анализа.

Для научных сотрудников, диссертантов и специалистов, работающих в области многомерного статистического анализа.

Метки ,

Тема книги - обзор состояния теории и практики применения «кластерного анализа». Этот метод имеет все преимущества метода комбинационной группировки, несвободен от его главного недостатка - распыления материала, что открывает широкие перспективы применения рассматриваемого метода в статистическом анализе, в классификации объектов, в исследовании связей, типизации выборки и др. Книга отличается полнотой, доступностью и вместе с тем краткостью изложения. Книга рассчитана на статистиков, экономистов, а также социологов, демографов, биологов и других специалистов. Воспроизведено в оригинальной авторской орфографии издания 1977 года (издательство «Статистика»).

Метки ,

Тематика исследований варьирует от анализа морфологии мумифицированных грызунов в Новой Гвинее до изучения результатов голосования сенаторов США, от анализа поведенческих функций замороженных тараканов при их размораживании до исследования географического распределения некоторых видов лишая в Саскачеване.

Такой взрыв публикаций оказал огромное влияние на развитие и применение кластерного анализа. Но, к сожалению, имеются и негативные стороны. Быстрый рост публикаций по кластерному анализу повлек за собой образование группировок пользователей и как следствие - создание жаргона, используемого лишь группировками, его создавшими (Blashfield and Aldenderfer, 1978; Blashfield, 1980).

О формировании жаргона специалистами в области социальных наук свидетельствует, например, разнообразная терминология, относящаяся к методу Уорда. «Метод Уорда» в литературе называется по-разному. Известны по крайней мере еще четыре его названия: «метод минимальной дисперсии», «метод суммы квадратов ошибок», «иерархическая группировка, минимизирующая и «HGROUP». Первые два названия указывают просто на критерий, оптимум которого определяется в методе Уорда, тогда как третье связано с суммой квадратов ошибок, являющейся монотонным преобразованием следа матрицы W, внутригрупповой ковариационной матрицы. Наконец, широко применяемое название «HGROUP» - это название популярной компьютерной программы, которая реализует метод Уорда (Veldman, 1967).

Образование жаргона мешает развитию междисциплинарных связей, препятствует эффективному сравнению методологии и результатов применения кластерного анализа в различных областях науки, ведет к ненужным затратам усилий (повторное изобретение одних и тех же алгоритмов) и, наконец, не дает новым пользователям глубоко понять выбранные ими методы (Blashfield and aldenderfer, 1978). Например, авторы одного исследования в области социальных наук (Rogers and Linden, 1973) сравнили три различных метода кластеризации, применяя одни и те же данные. Они называли эти методы следующим образом: «иерархическая группировка», «иерархическая кластеризация или HCG» и «кластерный анализ». И ни одно из этих названий не было привычным для методов кластеризации. Начинающий пользователь программ кластерного анализа будет сбит с толку всеми существующими названиями и не сможет связать их с другими описаниями методов кластеризации. Опытные пользователи окажутся в трудном положении при сравнении своих исследований с аналогичными работами. Возможно, мы впадаем в крайность, но жаргон представляет собой серьезную проблему.

В последние годы развитие кластерного анализа несколько замедлилось, судя и по числу публикаций, и по числу дисциплин, где этот метод применяется. Можно сказать, что в настоящее время психология, социология, биология, статистика и некоторые технические дисциплины выходят на стадию консолидации в отношении кластерного анализа.

Количество статей, воспевающих достоинства кластерного анализа, постепенно уменьшается. При этом все чаще появляются работы, в которых на контрольных данных проводится сравнение применимости различных методов кластеризации. В литературе стало уделяться больше внимания и приложениям. Многие исследования направлены на разработку практических мер для проверки обоснованности результатов, полученных с помощью кластерного анализа. Все это свидетельствует о серьезных попытках создать разумную статистическую теорию методов кластеризации.


Термин "кластерный анализ" впервые был использован американским психологом Робертом Трионом в одноименной работе еще в 1930 году. Несмотря на это, термины "кластер" и "кластерный анализ" воспринимаются носителями языка как новые, что отмечает Александр Хроленко, который провел корпусный анализ употребления лексемы "кластер": "большинство авторов, использующих этот термин, обращает внимание на его новизну" (Хроленко, 2016, с. 106)

Кластерный анализ включает в себя множество различных алгоритмов классификаций, цель которых, организовать информацию в кластеры. Важно помнить, что кластерный анализ не является сам по себе определенным алгоритмом, а есть задача, которую нужно решить. В своей работе "Скудность линейной иерархии" Марк Эрешефски отмечает, что кластерный анализ есть один из трех видов классификации объектов окружающего мира, наряду с эссенциализмом и исторической классификацией.

В лингвистике кластерный принцип описания подразумевает помимо анализа входящих в этот кластер единиц, еще и анализ отношений внутри них. Это могут быть связи разных уровней: от логического (парадигматического и синтагматического, например) до словообразовательных и фонетических связей.

Ф. Браун выделяет следующие шаги кластерного анализа(Браун):

  • 1. Выбор меры и произведение необходимых измерений, критериев или сущностей, подлежащих классификации
  • 2. Задание меры сходства
  • 3. Формулирование правил для определения порядка формирования кластеров
  • 4. Применение правил для формирования кластеров

Следует отметить, что третий пункт вызывает вопросы, так как отличительной чертой кластеризации как метода классификации является отсутствие заданных классов. Кластеризация документов - это задача информационного поиска. В отличие от категоризации текстов, он не включает в себя заранее определённых категорий или обучающей выборки. Кластеры и отношения между ними "автоматически извлекаются из документов, и документы последовательно прикрепляются к этим кластерам" (Голуб, с. 52-53) Марк Эрешефски представляет кластерный анализ как метод классификации. Он считает, что "все формы кластерного анализа строятся на двух допущениях: члены таксономической группы должны иметь кластер общих черт, и эти черты не могут появляться во всех или только в одном члене этой группы". (Ereshefsky, с. 15)

В своей работе "Кластерный подход в лингвистическом анализе" (Нургалиева, 2013) Н.Х. Нургалиева выделяет четыре основные задачи кластерного анализа:

  • 1. Разработка типологии или классификации
  • 2. Исследование полезных концептуальных схем группирования объектов
  • 3. Представление гипотез на основе исследованных данных
  • 4. Проверка гипотез или исследований для определения того, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных

Все методы кластерного анализа можно разделить на "жесткий", четкий кластерный анализ, когда каждый объект либо принадлежит кластеру, либо нет, и на "мягкий", нечеткий кластерный анализ, когда каждый объект принадлежит какой-то группе с определенной степенью вероятности.

Методы кластерного анализа также делятся на иерархические и неиерархические. Иерархические методы подразумевают наличие вложенных групп, в отличие от методов неиерархических. Нургалиева отмечает, что иерархический метод "представляется наиболее подходящим для решения лингвистических задач"(Нургалиева, с.1), так как он позволяет увидеть и проанализировать структуру изучаемого явления.

Кластерный анализ

Выполнить кластерный анализ методом к - средних для к = 2,3, используя 2 показателя из исходных данных. Выберем в меню Анализ - Классификация кластеризация k-средними. Переменные Х1 и Y помещаем в поле тестируемых переменных. Указываем количество кластеров. Через выключатель Итерации… укажем число итераций, равное 99. Для начала расчетов нажимаем ОК. В отчете представлены первичные кластерные центры, история итераций, окончательные центры кластеров, расстояние между конечными центрами, информация о принадлежности к кластерам, расстояние объектов до кластерных центров, числе наблюдений в каждом кластере и т. п.

В отчете кроме кластерной принадлежности выводится расстояние объектов до кластерных центров.


матрица корреляция компьютерный

Заключение

При выполнении работы были сформированы навыки самостоятельного решения прикладных задач в сфере экономики, а так же работы с профессиональными пакетами программ анализа данных (SPSS).

Список использованной литературы

  • 1. Многомерный статистический анализ в экономических задачах: компьютерное моделирование в SPSS: Учеб. пособие / Под ред. И.В. Орловой. - М.: Вузовский учебник, 2011. - 310 с.
  • 2. Орлова И.В., Половников В.А. Экономико-математические методы и модели: компьютерное моделирование: Учеб. пособие. - М.: Вузовский учебник, 2007. - 365 с.
  • 3. Курс лекций по эконометрике проф. Сахабетдинова М.А.