Часто случается так, что отдельные факторы, которые хотелось бы ввести в регрессионную модель, являются качественными по своей природе и, следовательно, не измеряются в числовой шкале. Например, исследуется зависимость между продолжительностью полученного образования и доходом, и в выборке представлены лица как мужского, так и женского пола. Нужно выяснить, обусловливает ли пол различие в результатах.
Возможных решений было бы оценивание отдельных регрессий для каждого случая с последующим выяснением, различаются ли полученные коэффициенты. Другой возможный подход к решению состоит в оценивании единой регрессии с использованием всей совокупности наблюдений измерением степени влияния качественного фактора посредством введения так называемой фиктивной переменной — переменной, принимающей в каждом наблюдении только два значения: да или нет.
Математически влияние данного дискретного фактора на значение переменной y может заключаться в введении в уравнение фиктивной переменной D, принимая ее значения равными нулю для одного случая и единице — для другого.
Тогда общая модель регрессии может иметь вид:
Следует отметить, дисперсия фиктивной переменной очень мала и это сказывается на достоверности оценок. В модели с фиктивными переменными коэффициент R2 часто бывает очень малым, а значения t-статистики незначимо отличаются от 0 для фиктивных переменных. Это не является поводом для выбрасывания фиктивных переменных из модели, ибо чаще всего они описывают небольшие, но важные поправки к главной (нефиктивной) объясняющей переменной.
Фиктивные переменные для коэффициентов наклона
— произведение фиктивной переменной, на нефиктивную переменную (регрессор). Для объяснения использования фиктивной переменной рассматривалась модель:
В этой формулировке модели мы предполагаем, что воздействие не меняет наклон линии регрессии. Рассмотрим теперь модель вида:
где b2 — коэффициент стоящей перед произведением фиктивной переменной D на нефиктивную переменную x.
Можно модифицировать данную модель, с тем, чтобы фиктивная переменная влияла бы на угол наклона и на значение свободного члена регрессии, в этом случае модель будет иметь вид:
.
Еще раз подчеркнем, что фиктивная переменная для коэффициента наклона предназначена для установления влияния категории не на свободный член регрессии, а на коэффициент регрессии при нефиктивной переменной.
Может случиться так, что переменная, которую требуется исследовать, является качественной по своему характеру, и принимающей значения 0 или 1, в зависимости произошло какое-либо событие или нет. В этом случае зависимой переменной y является фиктивной, переменной и можно оценить регрессию обычным способом. Тогда спрогнозированное значение y можно интерпретировать как вероятность наступления некоторого события.
Поможем написать любую работу на аналогичную тему