К сожалению, на практике множественная регрессия не всегда позволяет получить результаты, о которых пишут в учебниках. В этой лекции приведен перечень потенциальных проблем и некоторые соображения по поводу того, как с ними справиться (в тех случаях, когда это возможно).
Существуют три основные разновидности проблем. Ниже приведен краткий обзор каждой из этих разновидностей, а затем следует более подробное их описание.
1. Проблема мультиколлинеарности возникает в тех случаях, когда некоторые из ваших объясняющих переменных (X) оказываются слишком схожими. Несмотря на то что эти переменные могут хорошо пояснять и прогнозировать У (на что указывают высокое значение R2 и значимый F-тест), отдельные коэффициенты регрессии плохо поддаются оценке. Это связано с тем, что мы не располагаем достаточной информацией, чтобы решить, какая (или какие) из переменных обеспечивает это объяснение. Одно из возможных решений состоит в том, чтобы удалить из уравнения некоторые из переменных с целью избавиться от сомнений. Другое решение заключается в том, чтобы переопределить какие-то из переменных (возможно, путем деления), чтобы отличать одну переменную от другой.
2. Проблема выбора переменных возникает в тех случаях, когда приходится иметь дело с пространным перечнем потенциально полезных объясняющих (независимых) Х- переменных и необходимо решить, какие из этих переменных следует включать в уравнение регрессии. С одной стороны, если у вас слишком много Х- переменных, лишние из них будут снижать качество результатов (возможно, по причине все той же мультиколлинеарности). Часть информации, содержащейся в данных, понапрасну расходуется на оценивание ненужных параметров. С другой стороны, если отбросить нужную Х- переменную, снизится качество прогнозов, поскольку вы проигнорируете полезную информацию. Одно из возможных решений состоит в том, чтобы хорошенько подумать, почему важна та или иная X- переменная, чтобы быть уверенным в том, что каждая включаемая в рассмотрение переменная действительно выполняет важную функцию. Другой подход заключается в том, чтобы воспользоваться автоматической процедурой, которая старается отобрать наиболее важные переменные.
3. Проблема неправильного выбора модели связана с множеством различных потенциальных несоответствий между вашей конкретной задачей и моделью множественной линейной регрессии, которая является фундаментом и каркасом множественного линейного регрессионного анализа. Может получиться так, что ваша конкретная задача не соответствует условиям и допущениям модели линейной множественной регрессии. Анализируя данные, вы можете выявить некоторые потенциальные проблемы, связанные с нелинейностью, неравной изменчивостью и наличием резко отклоняющихся значений. Однако даже наличие подобных проблем еще ни о чем не говорит. Несмотря на то, что гистограммы некоторых переменных могут быть сильно скошенными (несимметричными), а некоторые диаграммы рассеяния могут быть нелинейными, модель множественной линейной регрессии и в таких случаях вполне может быть применима. Существует так называемая диагностическая диаграмма, которая помогает понять, действительно ли обнаруженная проблема является настолько серьезной, что ее необходимо как-то решать. Один из возможных вариантов решений заключается в создании новых Х- переменных, которые формируются на основе существующих переменных, и/или преобразовании некоторых или всех этих переменных. Еще одна серьезная проблема возникает в случае, когда приходится иметь дело с временным рядом, применительно к которому допущение модели линейной множественной регрессии о независимости отдельных наблюдений не соблюдается. Проблема временных рядов не имеет простого решения, однако множественную регрессию можно выполнить, используя вместо исходных данных процентные изменения между различными временными периодами.
Поможем написать любую работу на аналогичную тему