Сильная

Статистические последствия: зачастую представляет собой проблему, если требуется оценить влияние отдельных Х- переменных (т.е. коэффициенты регрессии); может не представлять проблемы, если цель заключается в предсказании или прогнозировании У

Чрезвычайно сильная

Численные последствия: всегда представляет собой проблему; компьютерные вычисления могут даже оказаться неправильными из-за неустойчивости вычислений

Как выяснить, действительно ли существует проблема мультиколлинеарности? Один из простейших способов ответить на этот вопрос заключается в анализе обычных двумерных корреляций для каждой пары переменных. Корреляционная матрица представляет собой таблицу, которая содержит коэффициенты корреляции для каждой пары переменных из вашей многомерной совокупности данных. Чем выше коэффициент корреляции между двумя Х- переменными, тем больше мультиколлинеарность. Это объясняется тем, что высокая корреляция (близкая к 1 или -1) указывает на сильную связь и свидетельствует о том, что эти две Х- переменные измеряют очень схожие характеристики, привнося тем самым в анализ "пересекающуюся" информацию.

Основной статистический результат мультиколлинеарности заключается в росте стандартных ошибок некоторых или всех коэффициентов регрессии (). Это вполне естественно: если две Х- переменные содержат "пересекающуюся" информацию, трудно определить влияние каждой из них в отдельности. Высокое значение стандартной ошибки приводит к тому, что компьютер сообщает вам приблизительно следующее: "Я вычислил для вас коэффициент регрессии, но результат неточный, поскольку трудно сказать, эта или какая другая переменная является определяющей". В результате доверительные интервалы для соответствующих коэффициентов регрессии значительно расширяются, а t-тесты вряд ли будут значимыми.

В случае сильной мультиколлинеарности может оказаться, что регрессия очень высоко значима (исходя из результатов F-теста), однако ни один из t-тестов для отдельных Х- переменных значимым не является. Компьютер сообщает вам о том, что Х- переменные, рассматриваемые как единая группа, весьма сильно влияют на У, но практически невозможно определить важность какой-то конкретной переменной. Следует помнить, что t-тест для конкретной X- переменной измеряет ее влияние на У при условии, что значения других переменных остаются неизменными. Таким образом, t-тест для переменной Xi выявляет только дополнительную информацию, привнесенную переменной Xi помимо той информации, которую несут другие Х- переменные. Если какая-то другая переменная очень близка к Xi, тогда переменная Xi не привносит в регрессию значимо новую информацию.

Одно из решений заключается в том, чтобы проигнорировать те X- переменные, которые дублируют информацию, уже присутствующую в других Х- переменных. Если, например, ваши Х- переменные включают три различные измерения размера, попробуйте либо избавиться от двух из них, либо объединить все три переменные в единую меру размера (например, воспользовавшись их средним значением).

Другое решение заключается в том, чтобы переопределить некоторые из переменных с тем, чтобы каждая из Х- переменных выполняла четкую, присущую только ей одной роль в определении У. Распространенный способ применения этой идеи к группе близких друг к другу Х- переменных заключается в том, чтобы взять для представления этой группы одну Х- переменную (можно либо выбрать одну из этих Х- переменных, либо сформировать из них индекс) и представить остальные переменные как относительные показатели (например, величина на единицу другого показателя), построенные из этой представляющей X- переменной. Например, можно представлять зависимость размера объема продаж (У) с помощью численности населения (X1) и общего дохода (Х2) для каждого региона. Однако эти переменные являются мультиколлинеарными (т.е. численность населения и общий доход — высоко коррелированные величины). Эту проблему можно решить, объясняя объем продаж (Y) с помощью численности населения (X1) и размера дохода на одного человека (новая переменная Х2). В результате численность населения будет выполнять роль представляющей переменной, отражая общую величину территории, а доход, вместо того чтобы повторять уже известную нам информацию (о величине соответствующей территории), переопределяется и несет новую информацию (о благосостоянии людей).

Поможем написать любую работу на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту

Узнать стоимость

Сильная

Предмет, метод и задача дисциплины

Метод наименьших квадратов

Как будут выглядеть результаты множественной регрессии?

Что такое множественная регрессия?

Прогнозирование.

Проверка надежности регрессионной модели.

Регрессионный анализ.

Диаграмма рассеяния.

Коэффициент корреляции.