Собирая данные, исследователь руководствуется определенными гипотезами. Полученная в ходе исследования информация относится к избранным предмету и теме исследования, но нередко она представляет собой сырой материал, в котором нужно изучить структуру показателей, характеризующих объекты, а также выявить однородные группы объектов. Информацию лучше представить в геометрическом пространстве, лаконично отразить ее особенности в классификации объектов и переменных. Такая работа создает предпосылки к выявлению типологий объектов и формулированию «социального пространства», в котором обозначены расстояния между объектами наблюдения, позволяет наглядно представить свойства объектов.
Факторный анализ
Социологический смысл модели факторного анализа состоит в том, что измеряемые эмпирические показатели, переменные считаются следствием других, глубинных, скрытых от непосредственного измерения характеристик — латентных переменных. Например, если мы фиксируем степень доверия респондента к различным государствен ным институтам, то вполне логично предположить, что нет отдельных «доверий» к Государственной Думе, Совету Федерации, Счетной палате и т.п. Скорее у респондента есть общее отношение к институтам центральной власти, которое и определяет, как респондент отвечает на отдельные вопросы по доверию к каждому отдельному институту.
При этом важно, что это общее, единое отношение к государственным институтам, формируя отношение к каждому из них, не определяет отношения к отдельному институту на 100%. Таким образом, ответ респондента на вопрос о том, насколько он доверяет какому-то конкретному государственному институту, находится под влиянием двух составляющих: общего фактора отношения к государственным институтам и отдельного отношения именно к данному конкретному институту.
Метод главных компонент. Один из наиболее распространенных методов поиска факторов, метод главных компонент, заключается в последовательном поиске факторов. Вначале определяется первый фактор, который объясняет наибольшую часть дисперсии, затем независимый от него второй фактор, объясняющий наибольшую часть оставшейся дисперсии, и т.д.
Для построения первого фактора берется прямая, проходящая через начало координат и облако рассеяния данных. Объектам можно сопоставить расстояния от их проекций на эту прямую до центра координат, причем для одной из половин прямой (по отношению к нулевой точке) можно взять эти расстояния с отрицательным знаком. Такое построение представляет собой новую переменную, которую назовем осью. При построении фактора находится такая ось, чтобы дисперсия переменных вокруг оси была минимальна. (Заметим, что в определенном смысле эта первая ось строится по той же модели, что регрессионная прямая в регрессионном анализе.) Это означает, что эта ось объясняет максимум дисперсии переменных. Найденная ось после нормировки используется в качестве первого фактора. Если облако данных вытянуто в виде эллипсоида, фактор совпадет с направлением, в котором вытянуты объекты, и по нему (по проекциям) с наибольшей точностью можно предсказать значения исходных переменных.
Для поиска второго фактора строится ось, перпендикулярная первому фактору, также объясняющая наибольшую часть дисперсии, не объясненной первой осью. После нормировки ось становится вторым фактором. Если данные представляют собой плоский эллипсоид и трехмерном пространстве, два фактора позволяют точно описать эти данные.
Максимально возможное число главных компонент равно количеству переменных.
Интерпретация факторов. Как же можно понять смысл того, что скрыто в найденных факторах? Основной информацией, которую использует для этого исследователь, являются факторные нагрузки. Для интерпретации необходимо приписать каждому фактору какой-то термин, понятие. Этот термин появляется на основе анализа корреляций фактора с исходными переменными. Например, если при анализе успеваемости школьников фактор имеет высокую положительную корреляцию с оценкой по алгебре, геометрии и большую отрицательную корреляцию с оценками по рисованию, можно предположить, что этот фактор характеризует точное мышление.
Не всегда такая интерпретация возможна. Для повышения интерпретируемости факторов добиваются большей контрастности матрицы факторных нагрузок. Такое улучшение результата называется методом вращения факторов. Его суть состоит в следующем. Если вращать координатные оси, образуемые факторами, мы не потеряем в точности представления данных через новые оси, и при этом факторы не будут упорядочены по величине объясненной ими дисперсии, зато появляется возможность получить более контрастные факторные нагрузки.
Индивидуальные значения факторов. Математический аппарат, используемый в факторном анализе, в действительности позволяет не вычислять непосредственно главные оси. И факторные нагрузки до и после вращения факторов, и общности вычисляются за счет операций с корреляционной матрицей. Поэтому оценка значений факторов для объектов является одной из проблем факторного анализа. Факторы, имеющие свойства полученных с помощью метода главных компонент, определяются на основе регрессионного уравнения. Известно, что для оценки регрессионных коэффициентов для стандартизованных переменных достаточно знать корреляционную матрицу переменных. Корреляционная матрица по переменным X. и Fk определяется по модели и матрице корреляций X.
Статистические гипотезы в факторном анализе. В SPSS предусмотрена проверка теста Барлетта о сферичности распределения данных. В предположении многомерной нормальности распределения проверяется, не диагональна ли матрица корреляций. Если гипотеза не отвергается (наблюдаемый уровень значимости велик, скажем, больше 0,05)—нет смысла в факторном анализе, поскольку направления главных осей случайны. Тест Барлетта предусмотрен в диалоговом окне факторного анализа, вместе с возможностью получения описательных статистик переменных и матрицы корреляций. На практике предположение о многомерной нормальности проверить трудно, поэтому факторный анализ чаще применяется без использования теста Барлетта.
Выполнение факторного анализа. Метод факторного анализа находится в разделе Data Reduction
Проблема определения числа факторов. Как уже отмечалось, полное описание дисперсии исходных признаков возможно только в ситуации, когда число факторов равно числу исходных признаков. Основная направленность факторного анализа — это именно сокращение числа показателей, и, следовательно, мы идем на то, что полученные факторы не будут на 100% объяснять исходную информацию, и то, сколько же именно лроцентов будет объяснено, зависит от того, какое число факторов будет получено.
Первый подход — формально-статистический. Есть определенные математические основания, говорящие, что целесообразно отбирать столько факторов, сколько существует собственных чисел корреляционной матрицы, больше единицы. Данный критерий называется критерием Кайзера. Отметим, что критерий Кайзера по отбору числа факторов в команде факторного анализа SPSS используется по умолчанию.
Второй подход базируется на самостоятельном отборе числа факторов, ориентируясь на то, чтобы это число факторов объясняло требуемый процент общей исходной дисперсии. Например, если исследователь решает, что факторная модель должна объяснять не менее 75% общей дисперсии исходных переменных, таблица общей дисперсии показывает, что необходимо взять 10 факторов.
На какой процент объясненной дисперсии необходимо ориентироваться? Четких рекомендаций по определению этого процента не существует, кроме одной, вполне очевидной: «Чем больше, тем лучше». В этой ситуации, видимо, следует ориентироваться на примеры предыдущих исследователей. В социологии, как правило, встречаются факторные модели, в которых объясняется 60—75% дисперсии, хотя можно привести примеры и с большими, и с меньшими процентами.
Есть еще один подход, который базируется на методе так называемой каменной осыпи. Суть метода в следующем. Строится график, в котором по оси абсцисс откладываются номера факторов, а по оси ординат — значения собственных чисел для каждого из факторов. Как говорилось вначале, все собственные числа в методе главных компонент вычисляются в порядке убывания, поэтому график будет представлять собой понижающуюся кривую. Далее на этом графике определяют точки, в которых происходит более или менее резкое понижение.
Важно понимать, что ни один из изложенных подходов к определению числа факторов не дает нам доказательных оснований по отбору числа факторов. У исследователя остается большая свобода в решении этого вопроса. Основным критерием является максимальное удобство в построении наиболее правдоподобной модели, что, естественно, ни в каком смысле не может считаться строгим основанием.
Определение числа факторов происходит в меню Extraction, вызов которого осуществляется нажатием соответствующей клавиши в главном меню команды факторного анализа.
Уровень измерения переменных, используемых в факторном анализе. Поскольку исходной информацией для метода факторного анализа является матрица коэффициентов корреляции Пирсона, это автоматически диктует нам возможность использования в данном методе переменных, измеренных только по количественным (интервальным либо абсолютным) шкалам, либо дихотомических переменных.
Кластерный анализ
Если процедура факторного анализа сжимает матрицу признаков в матрицу с меньшим числом переменных, кластерный анализ дает нам группы единиц анализа, иначе — выполняет классификацию объектов. Иными словами, если в факторном анализе мы группируем столбцы матрицы данных, в кластерном анализе группируются строки. Синонимами термина «кластерный анализ» являются «автоматическим классификация объектов без учителя» и «таксономия».
Если данные понимать как точки в признаковом пространств, задача кластерного анализа формулируется как выделение «сгущений точек», разбиение совокупности на однородные подмножества объектов.
При проведении кластерного анализа обычно определяют pin личные типы расстояний на множестве объектов; алгоритмы кластерного анализа формулируют в терминах этих расстояний. Мер близости и способов вычисления расстояний между объектами существует великое множество, их выбирают в зависимости от цели исследования. В частности, евклидово расстояние лучше использовать для количественных переменных, расстояние 2 — для исследования частотных таблиц, имеются также меры для бинарных переменных.
Иерархический кластерный анализ
Процедура иерархического кластерного анализа в SPSS предусма ривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Можно считать, что в последнем случае роль объектов играют переменные.
Этот метод реализует иерархический агломеративный алгоритм, Его смысл заключается в следующем. Перед началом кластеризации все объекты считаются отдельными кластерами, которые в ходе алгоритма объединяются. Вначале берется N объектов и между ними по парно вычисляются расстояния. Далее выбирается пара объектов, ко шрые расположены наиболее близко друг от друга, и эти объекты объединяются в один кластер. В результате количество кластеров становится равным N - 1. Процедура повторяется, пока все классы не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров. Таким образом, результат работы алгоритма агрегирования определяют способы вычисления расстояния между объектами и определения близости между кластерами.
Для определения расстояния между парой кластеров могут использоваться разные подходы. В SPSS предусмотрены следующие методы, определяемые на основе расстояний между объектами.
• Среднее расстояние между кластерами (Between-groups linkage).
• Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров (Within-groups linkage).
• Расстояние между ближайшими соседями — ближайшими объектами кластеров (Nearest neighbor).
• Расстояние между самыми далекими соседями (Furthest neighbor).
• Расстояние между центрами кластеров (Centroid clustering), или цеитроидный метод. Недостатком этого метода является то, что центр ofi ьединенного кластера вычисляется как среднее центров объединяемых кластеров, без учета их объема.
• Метод медиан — тот же центроидный метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering).
• Метод Варда (Ward's method). В качестве расстояния между мистерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения.
Стандартизация. Непосредственное использование переменных в анализе может привести к тому, что классификацию будут определять переменные, имеющие наибольший разброс значений. Поэтому применяются следующие виды стандартизации.
• Z-стандартизация (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение.
• Разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от—1 до 1.
• Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.
• Максимум 1. Значения переменных делятся на их максимум.
• Среднее 1. Значения переменных делятся на их среднее.
• Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение. ,
• Возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.
Кластерный анализ методом k-средних
Процедура иерархического кластерного анализа эффективна для малого числа объектов. Ее преимущество в том, что каждый объект можно, образно говоря, пощупать руками. Но эта процедура не годится для массивов большого объема из-за трудоемкости агломеративного алгоритма и слишком большого размера и практической бессмысленности дендрограмм.
В такой ситуации наиболее приемлем алгоритм, носящий название метода «k-средних». Он реализуется в пакете командой меню k-means.
Алгоритм заключается в следующем: выбирается заданное число к точек и на первом шаге эти точки рассматриваются как «центры» кластеров. Каждому кластеру соответствует один центр. Объекты распределяются по кластерам по принципу: каждый объект относится к кластеру с ближайшим к этому объекту центром. Таким образом, все объекты распределились по k кластерам.
Затем заново вычисляют центры этих кластеров, которыми после этого момента считаются покоординатные средние кластеров. После этого опять перераспределяют объекты. Вычисление центров и перераспределение объектов происходит до тех пор, пока центры не стабилизируются.
Часто переменные, используемые в кластеризации, имеют разный диапазон изменений, например рост и вес, килограммы и граммы. В этих условиях основное влияние на кластеризацию окажут переменные, имеющие большую дисперсию. Поэтому перед кластеризацией полезно стандартизовать переменные. К сожалению, в данной команде кластерного анализа средства стандартизации не предусмотрены, в отличие от процедуры иерархического кластерного анализа.
Часть переменных может иметь неопределенные значения, расстояния до центров рассчитывают по определенным значениям. Для использования такой возможности в меню Options следует выбрать параметр обработки пропущенных данных Pairwise.
Говоря о допустимом уровне измерения для переменных при кластеризации, необходимо помнить, что команда использует только евклидово расстояние. Следовательно, корректные результаты при применении данного метода можно ожидать только на основе метрических переменных.
Ключевым вопросом, который необходимо решить при подготовке к кластерному анализу, является вопрос о количестве получаемых кластеров. В силу специфики алгоритма метода k-means, в отличие от иерархического кластерного анализа, в данном случае в обязательном порядке требуется изначально задать количество получаемых кластеров. (По умолчанию алгоритм предлагает делить на два кластера).
В выдаче распечатываются центры кластеров (средние значения переменных кластеризации для каждого кластера), получаемые на каждой итерации алгоритма. Однако для нас полезна лишь часть выдачи, помеченная текстом «Final centres». Интерпретация кластеров осуществляется на основе сравнения средних значений, выдаваемых процедурой, а также исследования сохраненной переменной средствами статистического пакета.
Многомерное шкалирование
Многомерное шкалирование заключается в построении переменных на основе имеющихся расстояний между объектами. В частности, если даны расстояния между городами, программа многомерного шкалирования должна восстановить систему координат (с точностью до поворота и единицы длины) и приписать координаты каждому городу, так чтобы карта и изображение городов в этой системе координат зрительно совпали. Близость может определяться не только расстоянием в километрах, но и другими показателями, такими, как размеры миграционных потоков между городами, интенсивность телефонных звонков, а также расстояниями в многомерном признаковом пространстве. В последнем случае задача построения искомой системы координат близка к задаче, решаемой факторным анализом, — сжатию данных, описанию их небольшим числом переменных. Нередко важно наглядное представление свойств объектов: полезно придать координаты переменным, расположить в геометрическом пространстве переменные. С технической точки зрения это всего лишь транспонирование матрицы данных. Для определенности мы будем говорить о создании геометрического пространства для объектов, специально оговаривая случаи анализа множества их свойств. В социальных исследованиях методом многомерного шкалирования создают зрительный образ «социального пространства» объектов наблюдения или свойств. Для такого образа наиболее приемлемо создание двумерного пространства.
Основная идея метода состоит в приписывании каждому объекту значений координат, так чтобы матрица евклидовых расстояний между объектами в этих координатах оказалась близка к матрице расстояний между объектами, определенной из каких-либо соображений ранее.
Метод весьма трудоемок и рассчитан на анализ данных, имеющих небольшое число объектов.
Поможем написать любую работу на аналогичную тему