Анализ взаимосвязей качественных и количественных переменных

Рассмотренные ранее методы анализа одномерных распределений и таблиц сопряженности были направлены на построение описательных, а не объяснительных моделей изучаемых явлений. Действительно, даже анализ таблиц сопряженности, вычисление коэффициентов связи в этих таблицах подразумевают фиксацию статистических взаимосвязей переменных, а на основе этих выявленных взаимосвязей социолог начинает конструировать объяснительные модели, привлекая социологические теории, свое знание социальной реальности, т.е. ту информацию, которая в анализе данных отсутствует. Как уже отмечалось, ни один математико-статистический метод не может построить объяснительной модели, однако существует достаточно много методов проверки тех моделей, которые конструирует социолог.

Прежде всего, при анализе социологических данных нас интересуют причинные модели, в которых некий показатель выступает как следствие каких-то причин. При таком анализе интересует то, насколько, в какой степени эти причины определяют данное следствие. Целый ряд технических проблем, и прежде всего различия в уровне измерения переменных-причин и переменных-следствий, приводит к тому, что для проверки корректности выдвигаемых социологами однотипных причинных моделей используются различные математико-статистические методы. В данной главе мы рассмотрим методы, позволяющие строить причинные модели в ситуации, когда переменная-следствие измерена по метрической шкале, а переменные-причины — по неметрическим шкалам (порядковым или номинальным).

Визуализация различий средних значений

Достаточно распространенная задача, с которой сталкивается социолог еще на этапе описания собранных данных, это демонстрация средних значений каких-то количественных показателей в социальных, демографических или каких-то иных группах. Например, необходимо сопоставить величину средней заработной платы в группах респондентов, опрошенных в разных типах населенных пунктов, либо сравнить средний возраст людей, проголосовавших за разных кандидатов на выборах, и т.п.

Данный тип задач напоминает задачи описательного анализа с помощью одномерных частотных распределений, однако в рассматриваемом случае нам требуется получить средние значения количественного показателя не во всей выборке, а отдельно по нескольким группам. Так же как и при анализе одномерных распределений, результатом решения означенной задачи являются либо статистические характеристики, либо графические формы представления данных.

Построение статистических таблиц в рамках пакета программ SPSS выполняется с помощью специальной команды Means в рамках блока команд Compare Means.

Приме сравнения уровней заработной платы в населенных пунктах разного типа показывает, что средняя заработная плата различается весьма и весьма существенно, что, вроде бы, избавляет нас от необходимости проведения дальнейшего статистического анализа. Визуальная убедительность (особенно рис. 3.6) полученных различий сама подталкивает нас к мысли, что мы доказали, нашли достаточно веское объяснение различий в уровне заработной платы в нашей стране — это то, что респонденты проживают в населенных пунктах разного типа.

Однако важно понимать, что, двигаясь по такому пути работы с данными, мы, на самом деле, ничего не доказали. На этом пути мы и не могли ничего доказать, поскольку этот путь — не путь доказательства.

Рассмотрим пример, который не имеет столь очевидного решения. В табл. 4.1 представлены результаты команды Means при оценке различий среднего возраста респондентов, проживающих в населенных пунктах разного типа.

Таблица 4.1.

Средние значения возраста респондентов в населенных пунктах разного типа

Тип населенного пункта	Mean	N	Std. Deviation Внимание! Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы. Расчет стоимости Гарантии Отзывы
Москва, Санкт-Петербург	45,13	229	17,906
Большие города	42,23	663	17,077
Малые города	43,83	887	18,279
Села	45,65	628	18,356
Total	43,99	2407	17,977

Данные табл. 4.1 показывают, что средний возраст респондентов, проживающих в населенных пунктах разного типа, различается, хотя различия и не очень велики. Можем ли мы на основании данных табл. утверждать, что средний возраст жителей населенных пунктов разного типа действительно различается, или эти различия носят случайный, статистически незначимый характер? Средства команды Means (равно как и команды графического представления данных) не позволяют нам ответить на этот вопрос.

В блоке команд Compare means представлены две команды, которые решают задачу математического доказательства наличия либо отсутствия различий средних значений. Это команды T-Test и Оnе-Way ANOVA.

Команда T-Test

Команда T-Test (или тест Стьюдента) решает задачу доказательства наличия различий средних значений количественной переменной в усеченном виде, а именно в случае, когда имеются лишь две сравниваемые группы. Таким образом, если мы хотим ответить на вопрос о том, различается ли средний возраст у жителей населенных пунктов разного типа, мы должны будем выполнить эту команду несколько раз, попарно сравнивая разные типы населенных пунктов.

Есть три разновидности команды T-Test, каждая из которых соответствует разным исследовательским задачам.

Команда T-Test для сравнения двух независимых выборок

Пусть мы имеем две группы респондентов, для каждой из которых измерены средние значения некоторой количественной переменной. Для социологических исследований важное допущение о том, что эти две группы (две выборки) являются независимыми, почти всегда выполняется. Действительно, если мы сравниваем выборки в двух типах населенных пунктов либо выборки мужчин и женщин и т.п., мы знаем, что сбор данных в этих группах выполняется независимо. Другими словами то, как отвечали женщины, никак не влияло на ответы мужчин и т.п.

Команда T-Test для одной выборки

В ходе анализа социологических данных нередко возникает ситуация, когда необходимо сравнить среднее значение какой-то количественной переменной с некоторым фиксированным значением. Например, в ходе исследования образа жизни было выяснено, что в среднем респонденты тратят на просмотр телепередач около двух часов. Из материалов предыдущих исследований известно, что год назад респонденты тратили на этот вид деятельности приблизительно 1,8 часа. Можем ли мы, опираясь на эту информацию, утверждать, что за прошедший год люди стали больше времени проводить у телевизора, или обнаруженная разница носит случайный, статистически не значимый характер? Другая исследовательская ситуация определяется необходимостью оценки репрезентативности проведенного опроса по количественным показателям. Если, скажем, мы провели всероссийский опрос, для оценки репрезентативности по параметру «возраст» требуется сопоставить данные опроса с материалами, представляемыми органами государственной статистики.

Команда T-Test для парных данных

Еще одна исследовательская задача, которая достаточно часто возникает при анализе социологических данных, это ситуация сравнения средних значений двух отдельных переменных на предмет выяснения вопроса о том, среднее значение какой из них больше, а какой — меньше. Например, в ходе панельного социологического исследований «Российский мониторинг экономики и здоровья» (RLMS) одним из направлений изучения является анализ экономических источников жизни россиян. В рамках этого направления в ходе опроса у респондентов спрашивали, какое количество овощей, выращенных на собственных приусадебных или дачных участках, они употребили в течение последнего года, а какую часть овощей продали. В этой связи интересно выяснить, есть ли разница между размерами доходов семей от продажи овощей.

Однофакторный дисперсионный анализ

Рассмотренные возможности применения разных модификаций T-Test (теста Стьюдента) показывали и существенные ограничения этого метода. Например, приведенные в табл. 4.1 результаты работы команды Means свидетельствуют о том, что в данном случае число градаций в качественной переменной больше двух. Т-тест позволяет сопоставить только две градации. Как быть в данной ситуации?

С точки зрения построения социологической модели вопрос можно сформулировать следующим образом: оказывает ли значимое влияние на значение некоторой количественной переменной интересующая нас переменная, которая измерена на номинальном или порядковом уровне? В терминах метода дисперсионного анализа та переменная, которая, как мы считаем, должна оказывать влияние на конечный результат, называется фактором. Например, если для данных табл. 3.1 мы начнем строить модель объяснения различий в заработных платах респондентов тем, что респонденты проживают в населенных пунктах разного типа, переменная «Тип населенного пункта» будет выступать фактором.

Конкретную реализацию, значение фактора (например, определенный тип населенного пункта) называют уровнем фактора. Значение измеряемого признака (в нашем примере—величину заработной платы) называют откликом.

Само название дисперсионного анализа происходит из того, что метод проверки статистической гипотезы Н о равенстве средних значений в нескольких непересекающихся группах респондентов основан на сопоставлении двух оценок дисперсии анализируемой количественной переменной (о чем речь пойдет ниже).

В рамках пакета SPSS программа, реализующая метод однофак-торного дисперсионного анализа, называется One-Way ANOVA и расположена в блоке команд Compare means. Название Опе-Way отражает тот факт, что эта программа выполняет метод однофак-торного дисперсионного анализа, т.е. анализируется влияние только одной качественной переменной (фактора) на количественную переменную. Слово «ANOVA» — аббревиатура и расшифровывается как ANAIisys Of Variance, или дисперсионный анализ.

Методы множественных сравнений

Полученный результат, указывающий, что средние зарплаты у респондентов, принадлежащих к разным образовательным группам, различаются, не выглядит окончательным результатом социологического анализа данной проблемы. Это скорее промежуточный, или даже предварительный результат, который подразумевает дальнейшее раскрытие того, в какой из образовательных групп зарплаты больше, в какой меньше, а в каких, быть может, зарплаты одинаковы. Основная процедура дисперсионного анализа не дает возможности ответить на эти вопросы, однако в команде One-Way ANOVA есть дополнительные возможности, которые направлены на решение этих задач с помощью методов множественных сравнений.

Суть методов множественных сравнений состоит в определении различий — совпадений средних значений количественной переменной во всех возможных парах групп, определяемых градациями переменной — фактора. Иными словами, если мы проводим множественные сравнения различий в уровнях заработной платы в образовательных группах, метод множественных сравнений построит все возможные пары уровней образования и сравнит среднюю зарплату в этих мирах. Вызов данного метода выполняется нажатием клавиши Post Нос..., расположенной в нижней части главного меню команды One-Way ANOVA.

Дисперсионный анализ Краскэла — Уоллиса

До сих пор мы рассматривали ситуацию, в которой сравнивались (и анализировались результаты сравнения) средние значения переменной, измеренной по метрической шкале либо в двух группах (T-Test), либо в п группах, задаваемых уровнями фактора (ANOVA).

Однако эти подходы имеют два существенных недостатка. Во-первых, в основе используемых статистических моделей лежит допущение о том, что в анализируемых выборках (одной или нескольких) рассматриваемые параметры имеют нормальное распределение. Например, T-Test для оценки различия средних значений какого-то показателя в двух независимых выборках основан на предположении, что значения этого показателя в данных выборках имеют нормальное распределение. В определенных случаях такое допущение кажется вполне естественным. Скажем, если мы пытаемся сравнить средний рост мужчин и женщин, предположение о том, что данный показатель в этих группах распределен нормально, не выглядит странным. Вместе с тем во многих случаях предположение о нормальности обосновать довольно трудно, а подчас можно точно сказать, что распределение резко отличается от нормального.

Вторым недостатком является то, что данные методы предназначены для фиксации различий в значениях переменных, измеренных по количественным (интервальным либо абсолютным) шкалам, а переменные этого типа в данных социологических исследований встречаются достаточно редко. Материалы анкетных опросов преимущественно состоят из переменных, измеренных по порядковым или номинальным шкалам. Существует подход, позволяющий применять метод дисперсионного анализа для ситуации, когда переменная измерена по порядковой (ранговой) шкале, который называется дисперсионным анализом Краскэла — Уоллиса.

При работе с ранговыми переменными учитывается лишь упорядоченность значений. Суть ранговых (порядковых) шкал состоит в том, что в данных кодируется некоторая числовая информация, но используются только ранги. В ряде методов при вычислении критериев по имеющимся числовым значениям исследуемой переменной объектам приписываются ранги. Для вычисления рангов объекты упорядочиваются от минимального значения переменной к максимальному, и порядковые номера объектов считаются рангами. Если для некоторой последовательности объектов числовые значения переменной повторяются, этим объектам приписывается средний ранг по этой последовательности. Об объектах, ранги которых совпадают, говорят, что они имеют связанные ранги. Наличие связанных рангов в выдаче по ранговым тестам обозначается словом «ties» (связи). Обычно выводится число связей и статистика критерия, скорректированная для связей.

В качестве примера рассмотрим упорядоченную информацию об успеваемости семи студентов.

Среднийбалл 3,0 3,1 4,0 4,2 4,2 4,5 5,0

Ранг 1 2 3 4,5 4,5 6 7

Первые три объекта имеют ранги 1, 2, 3; следующая пара — А,5 - (4 + 5) / 2, последняя пара — 6 и 7. Если предположить, что первые три студента в этой последовательности — юноши, а остальные — девушки, можно ввести понятие среднего ранга у студентов разного пола. Это будут просто средние суммы рангов у студентов разного пола. Соответственно у юношей-студентов средний ранг будет равен 2, у девушек — 4,5.

В основе метода дисперсионного анализа Краскэла — Уоллиса лежит однофакторный дисперсионный анализ, в котором вместо знамений переменных используется ранг объекта по исследуемой переменной, проводится сравнение средних произвольного числа групп. Нормированный межгрупповой разброс в условиях гипотезы равенства средних рангов в группах имеет распределение, близкое к распределению 2.

Метод дисперсионного анализа Краскэла — Уоллиса в пакете программ SPSS выполняется через блок команд Nonparametric Tests, в котором выбирается команда К Independent Samples.

Необходимо отметить, что дисперсионный анализ Краскэ-ла — Уоллиса, равно как и в целом методы дисперсионного анализа, решает только задачу фиксации наличия связи (точнее — отсутствия независимости) между количественной и неколичественной переменными. Мы не получаем информации о форме этой связи, однако, в некоторых случаях, имеем информацию о ее направлении.

Поможем написать любую работу на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту

Узнать стоимость

Анализ взаимосвязей качественных и количественных переменных

Социальное исследование и анализ данных: основные понятия

Описательная статистика

Взаимосвязь переменных

Анализ взаимосвязей качественных и количественных переменных

Модели регрессионного анализа

Исследование структуры данных

Материалы по теме: