Нужна помощь в написании работы?

Результаты статистического анализа в значительной мере зависят от имеющейся информации, т.е. от использованных для анализа данных. В частности, особое внимание следует обратить на выбор независимых ("объясняющих") X- переменных для множественного регрессионного анализа. Включение как можно большего числа Х- переменных "просто так, на всякий случай" или потому, что "создается впечатление, будто каждая из них как-то влияет на У" — далеко не лучшее решение. Поступая таким образом, вы обрекаете себя на возможные трудности при определении значимости для регрессии (F-тест), или – вследствие мультиколлинеарности, вызванной наличием избыточных переменных, — у вас могут возникнуть трудности при решении вопроса о значимости для некоторых отдельных коэффициентов регрессии.

Что происходит, когда вы включаете одну лишнюю, неуместную X-переменную? Значение R2 в этом случае окажется несколько большим, так как несколько большую долю У можно объяснить за счет случайности этой новой переменной. Однако F-тест значимости регрессии учитывает это увеличение, поэтому такое увеличение R2 нельзя считать преимуществом.

На самом деле включение дополнительной Х- переменной может принести небольшой или даже умеренный вред. Оценка того или иного неуместного параметра (в данном случае неуместного коэффициента регрессии) оставляет меньше информации для стандартной ошибки оценки, Se. По техническим причинам следствием этого является менее мощный F-тест, который может не обнаружить значимость даже в том случае, когда Х- переменные в генеральной совокупности на самом деле объясняют У.

А что произойдет в случае, когда вы проигнорируете необходимую Х- переменную? В результате из совокупности данных выпадет важная и полезная информация и ваше прогнозирование У будет менее точным, чем в случае использования этой Х- переменной. Стандартная ошибка оценки, Se,, в этом случае, как правило, оказывается больше (что указывает на большие ошибки прогнозирования), а R2, как правило, оказывается меньшим (что указывает на объяснение меньшей доли вариации У). Естественно, если вы проигнорируете критически важную X- переменную, то, возможно, F-тест для этой регрессии просто будет незначим.

Ваша задача в данном случае – включить ровно столько Х- переменных, сколько нужно (т.е. не слишком много и не слишком мало), причем включить именно те Х- переменные, которые необходимы. Если у вас есть сомнения, можно включить некоторые из Х- переменных, относительно которых вы не уверены. В таком случае полезен субъективный метод (основанный на приоритетном перечне X- переменных). Существует также множество различных автоматических методов.

Поделись с друзьями