Нужна помощь в написании работы?

К сожалению, на практике множественная регрессия не всегда позволяет получить результаты, о которых пишут в учебниках. В этой лекции приведен перечень потенциальных проблем и некоторые соображения по поводу того, как с ними справиться (в тех случаях, когда это возможно).

Существуют три основные разновидности проблем. Ниже приведен краткий обзор каждой из этих разновидностей, а затем следует более подробное их описание.

1. Проблема мультиколлинеарности возникает в тех случаях, когда некоторые из ваших объясняющих переменных (X) оказываются слишком схожими. Несмотря на то что эти переменные могут хорошо пояснять и прогнозировать У (на что указывают высокое значение R2 и значимый F-тест), отдельные коэффициенты регрессии плохо поддаются оценке. Это связано с тем, что мы не располагаем достаточной информацией, чтобы решить, какая (или какие) из переменных обеспечивает это объяснение. Одно из возможных решений состоит в том, чтобы удалить из уравнения некоторые из переменных с целью избавиться от сомнений. Другое решение заключается в том, чтобы переопределить какие-то из переменных (возможно, путем деления), чтобы отличать одну переменную от другой.

2.   Проблема выбора переменных возникает в тех случаях, когда приходится иметь дело с пространным перечнем потенциально полезных объясняющих (независимых) Х- переменных и необходимо решить, какие из этих переменных следует включать в уравнение регрессии. С одной стороны, если у вас слишком много Х- переменных, лишние из них будут снижать качество результатов (возможно,  по причине все той же мультиколлинеарности). Часть информации, содержащейся в данных, понапрасну расходуется на оценивание ненужных параметров. С другой стороны, если отбросить нужную Х- переменную, снизится качество прогнозов, поскольку вы проигнорируете полезную информацию. Одно из возможных решений состоит в том,   чтобы   хорошенько   подумать,    почему   важна   та   или   иная   X- переменная, чтобы быть уверенным в том, что каждая включаемая в рассмотрение переменная действительно выполняет важную функцию. Другой подход заключается в том, чтобы воспользоваться автоматической процедурой, которая старается отобрать наиболее важные переменные.

3.   Проблема неправильного выбора модели связана с множеством различных потенциальных несоответствий между вашей конкретной задачей и моделью множественной линейной регрессии, которая является фундаментом и каркасом множественного линейного регрессионного анализа. Может получиться так, что ваша конкретная задача не соответствует условиям и допущениям модели линейной множественной регрессии. Анализируя данные, вы можете выявить некоторые потенциальные проблемы, связанные с нелинейностью, неравной изменчивостью и наличием резко отклоняющихся значений. Однако даже наличие подобных проблем еще ни о чем не говорит.  Несмотря  на то, что  гистограммы  некоторых  переменных  могут быть сильно скошенными (несимметричными), а некоторые диаграммы рассеяния могут быть нелинейными, модель множественной линейной регрессии и в таких случаях вполне может быть применима. Существует так называемая диагностическая диаграмма, которая помогает понять, действительно ли обнаруженная проблема является настолько серьезной, что ее необходимо как-то решать. Один из возможных вариантов решений заключается в создании новых Х- переменных, которые формируются на основе существующих переменных, и/или преобразовании некоторых или всех этих переменных. Еще одна серьезная проблема возникает в случае, когда приходится иметь дело с временным рядом, применительно к которому допущение модели линейной множественной регрессии о независимости отдельных наблюдений не соблюдается. Проблема временных рядов не имеет простого решения, однако множественную регрессию можно выполнить, используя вместо исходных данных процентные изменения между различными временными периодами.

Поделись с друзьями