Нужна помощь в написании работы?

С помощью вторичных методов статистической обработки экспериментальных данных непосредственно проверяются, доказываются или опровергаются гипотезы, связанные с экспериментом.

Эти методы, как правило, сложнее, чем методы первичной статистической обработки, и требуют от исследователя хорошей подготовки в области элементарной математики и статистики.

Обсуждаемую группу методов можно разделить на несколько подгрупп:

  1. Регрессионное исчисление.
  2. Методы сравнения между собой двух или нескольких элементарных статистик (средних, дисперсий и т.п.), относящихся к разным выборкам.
  3. Методы установления статистических взаимосвязей между переменными, например их корреляции друг с другом.
  4. Методы выявления внутренней статистической структуры эмпирических данных (например, факторный анализ).

Рассмотрим каждую из выделенных подгрупп методов вторичной статистической обработки на примерах.

1. Регрессионное исчисление — это метод математической статистики, позволяющий свести частные, разрозненные данные к некоторому линейному графику, приблизительно отражающему их внутреннюю взаимосвязь, и получить возможность по значению одной из переменных приблизительно оценивать вероятное значение другой переменной.

Воспользуемся для графического представления взаимосвязанных значений двух переменных х и у точками на графике (рис, 73). Поставим перед собой задачу: заменить точки на графике линией прямой регрессии, наилучшим образом представляющей взаимосвязь, существующую между данными переменными. Иными словами, задача заключается в том, чтобы через скопление точек, имеющихся на этом графике, провести прямую линию,

Рис. 73. Прямая регрессии Y no X.  хср и уср — средние значения переменных. Отклонения отдельных значений от линии регрессии обозначены вертикальными пунктирными линиями. Величина у,-у является отклонением измеренного значения переменной yj от оценки, а величина у - у является отклонением оценки от среднего значения (Цит. по: Шерла К. Факторный анализ. М., 1980. С. 23).

пользуясь которой по значению одной из переменных, х или у, можно приблизительно судить о значении другой переменной. Для того чтобы решить эту задачу, необходимо правильно найти коэффициенты а и Ь в уравнении искомой прямой:

 

у = ах + b.

Это уравнение представляет прямую на графике и называется уравнением прямой регрессии.

Формулы для подсчета коэффициентов а и Ь являются следующими:

Внимание!
Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы.

где хi уi - частные значения переменных X и Y, которым соответствуют точки на графике;

 — средние значения тех же самых переменных;

п — число первичных значений или точек на графике.

Для сравнения выборочных средних величин, принадлежащих к двум совокупностям данных, и для решения вопроса о том, отличаются ли средние значения статистически достоверно друг от друга, нередко используют t-критерий Стъюдента. Его основная формула выглядит следующим образом:

где

    х1 — среднее значение переменной по одной выборке данных;

х2 — среднее значение переменной по другой выборке данных;

т1 и т2 — интегрированные показатели отклонений частных значений из двух сравниваемых выборок от соответствующих им средних величин.

т1 и т2 в свою очередь вычисляются по следующим формулам:

где  — выборочная дисперсия первой переменной (по первой выборке);

 

 — выборочная дисперсия второй переменной (по второй выборке);

п] — число частных значений переменной в первой выборке;

п2 — число частных значений переменной по второй выборке.

После того как при помощи приведенной выше формулы вычислен показатель t, по таблице 32 для заданного числа степеней свободы, равного n1 + п2 - 2, и избранной вероятности допустимой ошибки1 находят нужное табличное значение t и сравнива-

1 Степени свободы и вероятность допустимой ошибки — специальные математико-статистические термины, содержание которых мы здесь не будем рассматривать.

Таблица 32

Критические значения t-критерия Стъюдента

для заданного числа степеней свободы и вероятностей допустимых ошибок, равных 0,05; 0,01 и 0,001

Число

степеней

свободы

(n1+ n2 -2)

Вероятность допустимой ошибки

0,05

0,01

0,001

Критические значения показателя t

4

2,78

5,60

8,61

5

2,58

4,03

6,87

6

2,45

3,71

5,96

7

2,37

3,50

5,41

8

2,31

3,36

5,04

9

2,26

3,25

4,78

10

2,23

3,17

4,59

11

2,20

3,11

4,44

12

2,18

3,05

4,32

13

2,16

3,01

4,22

14

2,14

2,98

4,14

15

2,13

2,96

4,07

16

2,12

2,92

4,02

17

2,11

2,90

3,97

18

2,10

2,88

3,92

19

2,09

2,86

3,88

20

2,09

2,85

3,85

21

2,08

2,83

3,82

22

2,07

2,82

3,79

23

2,07

2,81

3,77

24

2,06

2,80

3,75

25

2,06

2,79

3,73

26

2,06

2,78

3,71

27

2,05

2,77

3,69

28

2,05

2,76

3,67

29

2,05

2,76

3,66

30

2,04

2,75

3,65

40

2,02

2,70

3,55

50

2,01

2,68

3,50

60

2,00

2,66

3,46

80

1,99

2,64

3,42

100

1,98

2,63

3,39

ют с ними вычисленное значение t.  Если вычисленное значение t больше или равно табличному, то делают вывод о том, что сравниваемые средние значения из двух выборок действительно статистически достоверно различаются с вероятностью допустимой ошибки, меньшей иди равной избранной. Рассмотрим процедуру вычисления t-критерия Стъюдента и определения на его основе разницы в средних величинах на конкретном примере.

Допустим, что имеются следующие две выборки экспериментальных данных: 2, 4, 5, 3, 2, 1, 3, 2, 6, 4 и 4, 5, 6, 4, 4, 3, 5, 2, 2, 7.

Средние значения по этим двум выборкам соответственно равны 3,2 и 4,2. Кажется, что они существенно друг от друга отличаются. Но так ли это и насколько статистически достоверны эти различия? На данный вопрос может точно ответить только статистический анализ с использованием описанного статистического критерия. Воспользуемся этим критерием.

Определим сначала выборочные дисперсии для двух сравниваемых выборок значений:

Поставим найденные значения дисперсий в формулу для под-

счета т и t и вычислим показатель t

Сравним его значение с табличным для числа степеней свободы 10+10-2 = 18. Зададим вероятность допустимой ошибки, равной 0,05, и убедимся в том, что для данного числа степеней свободы и заданной вероятности допустимой ошибки значение t должно быть не меньше чем 2,10. У нас же этот показатель оказался равным 1,47, т.е. меньше табличного. Следовательно, гипотеза о том, что выборочные средние, равные в нашем случае 3,2 и 4,2, статистически достоверно отличаются друг от друга, не подтвердилась, хотя на первый взгляд казалось, что такие различия существуют.

Вероятность допустимой ошибки, равная и меньшая чем 0,05, считается достаточной для научно убедительных выводов. Чем меньше эта вероятность, тем точнее и убедительнее делаемые выводы. Например, избрав вероятность допустимой ошибки, равную 0,05, мы обеспечиваем точность расчетов 95% и допускаем ошибку, не превышающую 5%, а выбор вероятности допустимой ошибки 0,001 гарантирует точность расчетов, превышающую 99,99%, или ошибку, меньшую чем 0,01%.

Описанная методика сравнения средних величин по критерию Стъюдента в практике применяется тогда, когда необходимо, например, установить, удался или не удался эксперимент, оказал или не оказал он влияние на уровень развития того психологического качества, для изменения которого предназначался. Допустим, что в некотором учебном заведении вводится новая экспериментальная программа или методика обучения, рассчитанная на то, чтобы улучшить знания учащихся, повысить уровень их интеллектуального развития. В этом случае выясняется причинно-следственная связь между независимой переменной — программой или методикой и зависимой переменной — знаниями или уровнем интеллектуального развития. Соответствующая гипотеза гласит: «Введение новой учебной программы или методики обучения должно будет существенно улучшить знания или повысить уровень интеллектуального развития учащихся».

Предположим, что данный эксперимент проводится по схеме, предполагающей оценки зависимой переменной в начале и в конце эксперимента. Получив такие оценки и вычислив средние по всей изученной выборке испытуемых, мы можем воспользоваться критерием Стъюдента для точного установления наличия или отсутствия статистически достоверных различий между средними до и после эксперимента. Если окажется, что они действительно достоверно различаются, то можно будет сделать определенный вывод о том, что эксперимент удался. В противном случае нет убедительных оснований для такого вывода даже в том случае, если сами средние величины в начале и в конце эксперимента по своим абсолютным значениям различны.

Иногда в процессе проведения эксперимента возникает специальная задача сравнения не абсолютных средних значений некоторых величин до и после эксперимента, а частотных, например процентных, распределений данных. Допустим, что для экспериментального исследования была взята выборка из 100 учащихся и с ними проведен формирующий эксперимент. Предположим также, что до эксперимента 30 человек успевали на «удовлетворительно», 30 — на «хорошо», а остальные 40 — на «отлично». После эксперимента ситуация изменилась. Теперь на «удовлетворительно» успевают только 10 учащихся, на «хорошо» — 45 учащихся и на «отлично» — остальные 45 учащихся. Можно ли, опираясь на эти данные, утверждать, что формирующий эксперимент, направленный на улучшение успеваемости, удался?

Для ответа на данный вопрос можно воспользоваться статистикой, называемой χ2-критерий («хи-квадрат критерий»). Его формула выглядит следующим образом:

где Pk —. частоты результатов наблюдений до эксперимента;

Vk — частоты результатов наблюдений, сделанных после эксперимента;

т — общее число групп, на которые разделились результаты наблюдений.

Воспользуемся приведенным выше примером для того, чтобы показать, как работает хи-квадрат критерий. В данном примере переменная Рк принимает следующие значения: 30%, 30%, 40%, а переменная Vk — такие значения: 10%, 45%, 45%.

Подставим все эти значения в формулу для %2 и определим его величину:

Воспользуемся теперь таблицей 33, где для заданного числа степеней свободы можно выяснить степень значимости образовавшихся различий до и после эксперимента в распределении оценок. Полученное нами значение χ2 — 21,5 больше соответствующего табличного значения т - 1 = 2 степеней свободы, составляющего 13,82 при вероятности допустимой ошибки меньше чем 0,001. Следовательно, гипотеза о значимых изменениях, которые произошли в оценках учащихся в результате введения новой программы или новой методики обучения,

Таблица 33

Граничные (критические) значения c2-критерия,

соответствующие разным вероятностям допустимой ошибки

и разным степеням свободы

Число степеней свободы (m-1)

Вероятность допустимой ошибки

0,05

0,01

0,001

    1

          2

3

4

5

6

7

8

9

10

11

12

13

14

15

3,84

5,99

7,81

9,49 11,07

12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,68 25,00

6,64

9,21 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24.72 26,05 27,69 29,14 30,58

10,83 13,82 16,27 18,46 20,52 22,46 24,32 26,12 27.88 29,59 31,26 32,91 34,53 36,12 37,70

экспериментально подтвердилась: успеваемость значительно улучшилась, и это мы можем утверждать, допуская ошибку, не превышающую 0,001%.

Иногда в психолого-педагогическом эксперименте возникает необходимость сравнить дисперсии двух выборок для того, чтобы решить, различаются ли эти дисперсии между собой. Допустим, что проводится эксперимент, в котором проверяется гипотеза о том, что одна из двух предлагаемых программ или методик обучения обеспечивает одинаково успешное усвоение знаний учащимися с разными способностями, а другая программа или методика этим свойством не обладает. Демонстрацией справедливости такой гипотезы было бы доказательство того, что индивидуальный разброс оценок учащихся по одной программе или методике больше (или меньше), чем индивидуальный разброс оценок по другой программе или методике.

Критерий Фишера

Подобного рода задачи решаются, в частности, при помощи критерия Фишера. Его формула выглядит следующим образом:

где n1 — количество значения признака в первой из сравниваемых выборок;

п2 — количество значений признака во второй из сравниваемых выборок;

(п11, п2 — 1) — число степеней свободы;

 — дисперсия по первой выборке;

 — дисперсия по второй выборке.

Вычисленное с помощью этой формулы значение F-критерия сравнивается с табличным (табл. 34), и если оно превосходит табличное для избранной вероятности допустимой ошибки и заданного числа степеней свободы, то делается вывод о том, что гипотеза о различиях в дисперсиях подтверждается. В противоположном случае такая гипотеза отвергается и дисперсии считаются одинаковыми1.

Таблица 34

Граничные значения F-критерия для вероятности допустимой ошибки 0,05 и числа степеней свободы n1 и n2

n2  n1

3

4

5

6

8

12

16

24

50

3

9,28

9,91

9,01

8,94

8,84

8,74

8,69

8,64

8,58

4

6,59

6,39

6,26

6,16

6,04

5,91

5,84

5,77

5,70

5

5,41

5,19

5,05

4,95

4,82

4,68

4,60

4,58

4,44

6

4,76

4,53

4,39

4,28

4,15

4,00

3,92

3,84

3,75

8

4,07

3,84

3,69

3,58

3,44

3,28

3,20

3,12

3,03

12

3,49

3,26

3,11

3,00

2,85

2,69

2,60

2,50

2,40

16

3,24

3,0

2,85

2,74

2,59

2,42

2,33

2,24

2,13

24

3,01

2,78

2,62

2,51

2,36

2,18

2,09

1,98

1,86

50

2,79

2,56

2,40

2,29

2,13

1,95

1,85

1,74

1,60

1. Если отношение выборочных дисперсий в формуле F-критерия оказывается меньше единицы, то числитель и знаменатель в этой формуле меняют местами и вновь определяют значения критерия.

Примечание. Таблица для граничных значений F-распределения приведена в сокращенном виде. Полностью ее можно найти в справочниках по математической статистике, в частности в тех, которые даны в списке дополнительной литературы представленной в Теме №  1..

Пример.

Сравним дисперсии следующих двух рядов цифр с целью определения статистически достоверных различий между ними.

Первый ряд: 4,6,5,7,3,4,5,6.

Второй ряд: 2,7,3,6,1,8,4,5.

Средние значения для двух этих рядов соответственно равны: 5,0 и 4,5. Их дисперсии составляют: 1,5 и 5,25. Частное от деления большей дисперсии на меньшую равно 3,5. Это и есть искомый показатель F. Сравнивая его с табличным граничным значением 3,44, приходим к выводу о том, что дисперсии двух сопоставляемых выборок действительно отличаются друг от друга на уровне значимости более 95% или с вероятностью допустимой ошибки не более 0,05%.

МЕТОД КОРЕЛЛЯЦИЙ

Следующий метод вторичной статистической обработки, посредством которого выясняется связь или прямая зависимость между двумя рядами экспериментальных данных, носит название метод корреляций. Он показывает, каким образом одно явление влияет на другое или связано с ним в своей динамике. Подобного рода зависимости существуют, к примеру, между величинами, находящимися в причинно-следственных связях друг с другом. Если выясняется, что два явления статистически достоверно коррелируют друг с другом и если при этом есть уверенность в том, что одно из них может выступать в качестве причины другого явления, то отсюда определенно следует вывод о наличии между ними причинно-следственной зависимости.

Имеется несколько разновидностей данного метода:

*линейный,

*ранговый,

*парный и

*множественный.

Линейный корреляционный анализ позволяет устанавливать прямые связи между переменными величинами по их абсолютным значениям. Эти связи графически выражаются прямой линией, отсюда название «линейный».

Ранговая корреляция определяет зависимость не между абсолютными значениями переменных, а между порядковыми местами, или рангами, занимаемыми ими в упорядоченном по величине ряду.

Парный корреляционный анализ включает изучение корреляционных зависимостей только между парами переменных, а множественный, или многомерный, — между многими переменными одновременно.

Распространенной в прикладной статистике формой многомерного корреляционного анализа является факторный анализ.

На рис. 74 в виде множества точек представлены различные виды зависимостей между двумя переменными X и У (различные поля корреляций между ними).

На фрагменте рис. 74, отмеченном буквой А, точки случайным образом разбросаны по координатной плоскости. Здесь по величине X нельзя делать какие-либо определенные выводы о величине Y. Если в данном случае подсчитать коэффициент корреляции, то он будет равен 0, что свидетельствует о том, что достоверная связь между X и У отсутствует (она может отсутствовать и тогда, когда коэффициент корреляции не равен 0, но близок к нему по величине).

На фрагменте Б рисунка все точки лежат на одной прямой, и каждому отдельному значению переменной X можно поставить в соответствие одно и только одно значение переменной У, причем, чем больше X, тем больше У. Такая связь между переменными X и У называется прямой, и если это прямая, соответствующая уравнению регрессии, то связанный с ней коэффициент корреляции будет равен +1. (Заметим, что в жизни такие случаи практически не встречаются; коэффициент корреляции почти никогда не достигает величины единицы.)

На фрагменте В рисунка коэффициент корреляции также будет равен единице, но с отрицательным знаком: -1. Это означает обратную зависимость между переменными X и У, т.е., чем больше одна из них, тем меньше другая.

На фрагменте Г рисунка точки также разбросаны не случайно, они имеют тенденцию группироваться в определенном направлении. Это направление приближенно может быть представлено уравнением прямой регрессии.

Такая же особенность, но с противоположным знаком, характерна для фрагмента Д. Соответствующие этим двум фрагментам коэффициенты корреляции приблизительно будут равны +0,50 и -0,30. Заметим, что крутизна графика, или линии регрессии, не оказывает влияния на величину коэффициента корреляции.

Рис. 74. Схематическое представление различных корреляционных зависимостей с соответствующими значениями коэффициента линейной корреляции (цит. по: Иберла К. Факторный анализ. М,, 1980).

Наконец, фрагмент Е дает коэффициент корреляции, равный или близкий к 0, так как в данном случае связь между переменными хотя и существует, но не является линейной.

Коэффициент линейной корреляции определяется при помощи следующей формулы:

где rxyкоэффициент линейной корреляции;

х, у - средние выборочные значения сравниваемых величин;

хi,уi — частные выборочные значения сравниваемых величин;

п — общее число величин в сравниваемых рядах показателей;

 — дисперсии, отклонения сравниваемых величин от

средних значений.

Пример. Определим коэффициент линейной корреляции между следующими двумя рядами показателей.

Ряд 1:  2, 4, 4, 5, 3, б,  8.

Ряд II: 2, 5, 4, 6, 2, 5, 7.

Средние значения этих двух рядов соответственно равны 4,6 и 4,4.

Их дисперсии составляют следующие величины: 3,4 и 3,1. Подставив эти данные в приведенную выше формулу коэффициента линейной корреляции, получим следующий результат: 0,92. Следовательно, между рядами данных существует значимая связь, причем довольно явно выраженная, так как коэффициент корреляции близок к единице. Действительно, взглянув на эти ряды цифр, мы обнаруживаем, что большей цифре в одном ряду соответствует большая цифра в другом ряду и, наоборот, меньшей цифре в одном ряду соответствует примерно такая же малая цифра в другом ряду.

К коэффициенту ранговой корреляции в психолого-педагогических исследованиях обращаются в том случае, когда признаки, между которыми устанавливается зависимость, являются качественно различными и не могут быть достаточно точно оценены при помощи так называемой интервальной измерительной шкалы.

Интервальной называют такую шкалу, которая позволяет оценивать расстояния между ее значениями и судить о том, какое из них больше и насколько больше другого.

Например, линейка, с помощью которой оцениваются и сравниваются длины объектов, является интервальной шкалой, так как, пользуясь ею, мы можем утверждать, что расстояние между двумя и шестью сантиметрами в два раза больше, чем расстояние между шестью и восемью сантиметрами. Если же, пользуясь некоторым измерительным инструментом, мы можем только утверждать, что одни показатели больше других, но не в состоянии сказать на сколько, то такой измерительный инструмент называется не интервальным, а порядковым.

Большинство показателей, которые получают в психолого-педагогических исследованиях, относятся к порядковым, а не к интервальным шкалам (например, оценки типа «да», «нет», «скорее нет, чем да» и другие, которые можно переводить в баллы), поэтому коэффициент линейной корреляции к ним неприменим. В этом случае обращаются к использованию коэффициента ранговой корреляции, формула которого следующая:

где Rs — коэффициент ранговой корреляции по Спирмену;

di — разница между рангами показателей одних и тех же испытуемых в упорядоченных рядах;

п — число испытуемых или цифровых данных (рангов) в коррелируемых рядах.

Пример. Допустим, что экспериментатора интересует, влияет ли интерес учащихся к учебному предмету на их успеваемость. Предположим, что с помощью некоторой психодиагностической методики удалось измерить величину интереса к учению и выразить его для десяти учащихся в следующих цифрах: 5, 6, 7, 8, 2, 4, 8, 7, 2, 9. Допустим также, что при помощи другой методики были определены средние оценки этих же учащихся по данному предмету, оказавшиеся соответственно равными: 3,2;  4,0;  4,1;  4,2;  2,5;  5,0;  3,0;  4,84,6;  2,4.

Упорядочим оба ряда оценок по величине цифр и припишем каждому из учащихся по два ранга; один из них указывает на то, какое место среди остальных данных ученик занимает по успеваемости, а другой — на то, какое место среди них же он занимает по интересу к учебному предмету. Ниже приведены ряды цифр, два из которых (первый и третий) представляют исходные данные, а два других (второй и четвертый) — соответствующие ранги1:

2-1,5

2,4-1

2-1,5

2,5-2

4-3

3,0-3

5-4

3,2-4

6-5

4,0-5

7-6,5

4,1-6

7-6,5

4,2-7

8-8,5

4,6-8

9-10

5,0-10

Определив сумму квадратов различий в рангах (∑d2i) и подставив нужное значение в числитель формулы, получаем, что коэффициент ранговой корреляции равен 0,97, т.е. достаточно высок, что и говорит о том, что между интересом к учебному предмету и успеваемостью учащихся действительно существует статистически достоверная зависимость.

Однако по абсолютным значениям коэффициентов корреляции не всегда можно делать однозначные выводы о том, являются ли они значимыми, т.е. достоверно свидетельствуют о существовании зависимости между сравниваемыми переменными. Может случиться так, что коэффициент корреляции, равный 0,50, не будет достоверным, а коэффициент корреляции, составивший 0,30, — достоверным. Многое в решении этого вопроса зависит от того, сколько показателей было в коррелируемых друг с другом рядах признаков: чем больше таких показателей, тем меньшим по величине может быть статистически достоверный коэффициент корреляции.

В табл. 35 представлены критические значения коэффициентов корреляции для различных степеней свободы.

1 Если исходные данные, которые ранжируются, одинаковы, то и их ранги также будут одинаковыми. Они получаются путем суммирования и деления пополам тех рангов, которые соответствуют этим данным.

 

 

 

 

 

 

Таблица 35

Критические значения коэффициентов корреляции

для различных степеней свободы (n - 2) и разных вероятностей

допустимых ошибок

Число

степеней

свободы

Уровень значимости

0,05

0,01

0,001

2

0,9500

0,9900

0,9900

3

8783

9587

9911

4

8114

9172

9741

5

0,7545

0,8745

0,9509

6

7067

8343

9249

7

6664

7977

8983

8

6319

7646

8721

9

6021

7348

8471

10

0,5760

0,7079

0,8233

И

5529

6833

8010

12

5324

6614

7800

13

5139

6411

7604

14

4973

6226

7419

15

0,4821

0,6055

0,7247

16

4683

5897

7084

17

4555

5751

6932

18

4438

5614

6788

19

4329

5487

6625

20

0,4227

0,5368

0,6524

21

4132

5256

6402

22

4044

5151

6287

23

3961

5052

6177

24

3882

4958

6073

25

0,3809

0,4869

0,5974

26

3739

4785

5880

27

3673

4705

5790

28

3610

4629

5703

29

3550

4556

5620

30

0,3494

0,4487

0,5541

31

3440

4421

5465

32

3388

4357

5392

33

0,3338

0,4297

0,5322

34

3291

4238

5255

35

0,3246

0,4182

0,5189

36

3202

4128

5126

37

3160

4076

5066

38

3120

4026

5007

39

3081

3978

4951

40

0,3044

0,3932

0,4896

(В данном случае степенью свободы будет число, равное п — 2, где п — количество данных в коррелируемых рядах.) Заметим, что значимость коэффициента корреляции зависит и от заданного уровня значимости или принятой вероятности допустимой ошибки в расчетах. Если, к примеру, коррелируется друг с другом два ряда цифр по 10 единиц в каждом и получен коэффициент корреляции между ними, равный 0,65, то он будет значимым на уровне 0,95 (он больше критического табличного значения, составляющего 0,6319 для вероятности допустимой ошибки 0,05, и меньше критического значения 0,7646 для вероятности допустимой ошибки 0,01).

Метод множественных корреляций в отличие от метода парных корреляций позволяет выявить общую структуру корреляционных зависимостей, существующих внутри многомерного экспериментального материала, включающего более двух переменных, и представить эти корреляционные зависимости в виде некоторой системы.

ФАКТОРНЫЙ АНАЛИЗ

Один из наиболее распространенных вариантов этого метода — факторный анализ — позволяет определить совокупность внутренних взаимосвязей, возможных причинно-следственных связей, существующих в экспериментальном материале. В результате факторного анализа обнаруживаются так называемые факторыпричины, объясняющие множество частных (парных) корреляционных зависимостей.

Фактор — математико-статистическое понятие. Будучи переведенным на язык психологии (эта процедура называется содержательной или психологической интерпретацией факторов), он становится психологическим понятием. Например, в известном 16-факторном личностном тесте Р. Кеттела, который подробно рассматривался в первой части книги, каждый фактор взаимно однозначно связан с определенными чертами личности человека.

С помощью выявленных факторов объясняют взаимозависимость психологических явлений. Поясним сказанное на примере. Допустим, что в некотором психолого-педагогическом эксперименте изучалось взаимовлияние таких переменных, как характер, способности, потребности и успеваемость учащихся. Предположим далее, что, оценив каждую из этих переменных у достаточно представительной выборки испытуемых и подсчитав коэффициенты парных корреляций между всевозможными парами данных переменных, мы получили следующую матрицу интеркорреляций (в ней справа и сверху цифрами обозначены в перечисленном выше порядке изученные в эксперименте переменные, а внутри самого квадрата показаны их корреляции друг с другом; поскольку всевозможных пар в данном случае меньше, чем клеток в матрице, то заполнена только верхняя часть матрицы, расположенная выше ее главной диагонали).

Анализ корреляционной матрицы показывает, что переменная 1 (характер) значимо коррелирует с переменными 2 и 3 (способности и потребности). Переменная 2 (способности) достоверно коррелирует с переменной 3 (потребности), а переменная 3 (потребности) — с переменной 4 (успеваемость). Фактически из шести имеющихся в матрице коэффициентов корреляции четыре являются достаточно высокими и, если предположить, что они определялись на совокупности испытуемых, превышающей 10 человек, — значимыми.

1

2

3

4

1

0,82

0,50

0,04

2

0,40

0,24

3

0,75

4

Зададим некоторое правило умножения столбцов цифр на строки матрицы: каждая цифра столбца последовательно умножается на каждую цифру строки и результаты парных произведений записываются в строку аналогичной матрицы. Пример: если по этому правилу умножить друг на друга три цифры столбца и строки, представленные в левой части матричного равенства, то получим матрицу, находящуюся в правой части этого же равенства:

2

X

2

3

4

=

4

6

8

3

6

9

12

4

8

12

16

Задача факторного анализа по отношению к только что рассмотренной является как бы противоположной. Она сводится к тому, чтобы по уже имеющейся матрице парных корреляций, аналогичной представленной в правой части показанного выше матричного равенства, отыскать одинаковые по включенным в них цифрам столбец и строку, умножение которых друг на друга по заданному правилу порождает корреляционную матрицу.

Иллюстрация:

Х1

х

Х1

Х2

Х3

Х4

=

0,16

0,50

0,30

Х2

0,16

0,40

0,24

Х3

0,50

0,40

0,75

Х4

0,30

0,24

0,75

Здесь х1 х2, x3 и х4 — искомые числа.

Для их точного и быстрого определения существуют специальные математические процедуры и программы для ЭВМ.

Допустим, что мы уже нашли эти цифры: x1= 0,45, х2 =,36 х3 = 1,12, х4= 0,67. Совокупность найденных цифр и называется фактором, а сами эти цифры — факторными весами или нагрузками.

Эти цифры соответствуют тем психологическим переменным, между которыми вычислялись парные корреляции,

х1— характер,

х2 — способности,

х3— потребности,

х4— успеваемость.

Поскольку наблюдаемые в эксперименте корреляции между переменными можно рассматривать как следствие влияния на них общих причин — факторов, а факторы интерпретируются в психологических терминах, мы можем теперь от факторов перейти к содержательной психологической интерпретации обнаруженных статистических закономерностей. Фактор содержит в себе ту же самую информацию, что и вся корреляционная матрица, а факторные нагрузки соответствуют коэффициентам корреляции. В нашем примере х3 (потребности) имеет наибольшую факторную нагрузку (1,12), а х2   (способности) — наименьшую (0,36).

Следовательно, наиболее значимой причиной, влияющей на все остальные психологические переменные, в нашем случае являются потребности, а наименее значимой — способности. Из корреляционной матрицы видно, что связи переменной х3 со всеми остальными являются наиболее сильными (от 0,40 до 0,75), а корреляции переменной х2 — самыми слабыми (от 0,16 до 0,40).

Чаще всего в итоге факторного анализа определяется не один, а несколько факторов, по-разному объясняющих матрицу интеркорреляций переменных. В таком случае факторы делят на генеральные, общие и единичные.

Генеральными называются факторы, все факторные нагрузки которых значительно отличаются от нуля (нуль нагрузки свидетельствует о том, что данная переменная никак не связана с остальными и не оказывает на них никакого влияния в жизни).

Общие — это факторы, у которых часть факторных нагрузок отлична от нуля.

Единичные — это факторы, в которых существенно отличается от нуля только одна из нагрузок. На рис. 75 схематически представлена структура факторного отображения переменных в факторах различной степени общности.

Переменные, между которыми определены в результате эксперимента парные корреляционные зависимости

Рис. 75. Структура факторного отображения взаимосвязей переменных.

Отрезки, соединяющие факторы с переменными, указывают на высокие

факторные нагрузки

Поделись с друзьями