ПЕРВИЧНАЯ ОБРАБОТКА ДАННЫХ

В ходе математико-статистической обработки данных (на специальном жаргоне) термины «признак», «показатель», «параметр» и «переменная» нередко употребляются как синонимы. Важно отличать от них понятие «значение». Каждое значение - это эмпирически выявленная, вполне определенная числовая величина того или иного показателя у конкретного испытуемого. Например, время реакции на раздражитель в третьей (первой, второй, десятой) пробе, время решения пятой задачи в третьей серии, выбранный испытуемым вариант ответа из семи предложенных и т. п.

1. Составление таблиц

В большинстве случаев обработку целесообразно начать с составления таблиц (сводных таблиц) полученных данных. В таблицу можно свести не только числовые данные. К данным качественного характера также могут быть применены простейшие способы количественной обработки. Для всей выборки и отдельных подвыборок могут быть подсчитаны частоты встречаемости (количество случаев появления события), а затем и частости (относительные частоты, то есть частоты, деленные на количество испытаний) интересующих вас индикаторов, проявлений некоторого вида.

Так, например, при использовании рисуночного теста «Дерево» можно в качестве параметра рассматривать наличие/отсутствие листьев на ветках в рисунке. Если этот параметр будет определен у всех испытуемых, это позволит подсчитать частость его появления по всей выборке и для отдельных групп внутри ее. В таблицу могут быть сведены данные и по другим параметрам теста «Дерево», а затем подсчитаны частости. Далее можно составить таблицу, в которой будут представлены данные не по отдельным испытуемым, а для всей вашей выборки и отдельных групп. Это позволит сделать шаг к более целостному представлению информации.

Основной для сводной таблицы исходных данных является следующая форма. Каждая строка содержит значения всех показателей одного испытуемого. В каждом столбце (поле) записаны значения одного показателя по всем испытуемых. Таким образом, в каждой ячейке (клетке) таблицы записано только одно значение одного показателя одного испытуемого.

В самой верхней строке дана нумерация всех столбцов. Во второй строке названы измеренные вами показатели, шкальные оценки и т. п. Вторая строка облегчает вам ориентировку в таблице. Оператору, который будет вводить ваши данные через клавиатуру компьютера, эта строка не нужна. В каждой последующей строке записана фамилия испытуемого и значения всех, измеренных у него параметров; разумеется, для всех испытуемых в одном и том же порядке показателей. Все строки и все столбцы должны быть пронумерованы. Последовательность признаков может быть упорядочена по разным основаниям. В первых столбцах лучше разместить демографические или социально-демографические показатели: пол, возраст, уровень образования (если важен) и т. д. Затем по убывающей значимости (предполагаемой информативности) приведены измеренные в эксперименте параметры. Параметры, полученные с помощью одной методики, удобнее располагать компактно - в одной группе (рядом друг с другом), например, все шкалы одной методики, шкалы следующей и т. д.

Испытуемых можно перечислить в алфавитном порядке, но лучше использовать этот принцип на самом нижнем уровне деления. Сначала лучше разделить испытуемых по их принадлежности к каким-либо подгруппам, которые будут сравниваться между собой. Внутри этих подгрупп полезно упорядочить испытуемых по полу, возрасту или другому, важному для вас, параметру (см. табл. 8).

Таблица 8

	Форма		сводной таблицы данных
№	1	2	3	4 Внимание! Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы. Расчет стоимости Гарантии Отзывы	5	б	7	8	9	-
№ п/п	Фамилия, имя, отчество	Пол	Ио	Ид	Ин	А	В	С	Е	-
1	Глухарь П. И.	1	38	9	9	12	9	17	16	-
2	Орел С. С.	1	37	10	9	12	10	17	18
3	Петух И. И.	1	35	7	9	14	10	17	8	-
-	-	-	-	-	-	-	-	-	-	-
-	-	-	-	-	-	-	-	-	-	-
-	-	-	-	-	-	-	-	-	-	-
33	Кура Н. Н.	2	39	10	8	10	9	15	15	-
34	Сова Т. О.	2	37	10	9	10	9	12	11	-
35	Утка Л. А.	2	31	9	8	9	7	5	7	-

Таблицам необходимо давать заголовки, достаточно полно отражающие их содержание и специфику. При большом количестве таблиц без заголовков по ходу ознакомления с текстом трудно понять их назначение.

И для ручной, и для компьютерной обработки в исходную сводную таблицу чаще всего заносят начальные данные. Сейчас преимущественной формой математико-статистической обработки стала компьютерная. Если форма распределения эмпирических данных незначительно отличается от нормального распределения, то предварительное центрирование, нормирование или перевод в шкальные (стандартизированные) оценки по имеющимся в данной методике таблицам не требуется. В начальный период обработки данных можно предположить, что собранный вами материал подходит для обработки средствами параметрической статистики. Получив на первом шаге компьютерных вычислений первичные статистики признаков, можно сделать дальнейшие, более точные, предположения о форме распределения каждого признака.

В ходе обработки данных весьма вероятно, что потребуются несколько пользовательских программ. Современные программы предоставляют довольно широкие возможности перевода данных из одной в другую. Однако не будет лишним соблюсти некоторые правила, чтобы облегчить преобразование формата данных.

Старайтесь без особой необходимости не заносить в таблицу различные текстовые символы (точки, запятые, тире и т. п.). Всю информацию, которую можно закодировать числами, лучше перевести в числовую форму. Это даст больше возможностей для разных видов обработки данных. Исключением является строка, в которой записаны названия (чаще краткие названия - аббревиатуры) измеренных показателей.

До начала набора данных в электронную таблицу узнайте, в каком виде должны записываться десятичные дроби - какой знак (точка или запятая) должен разделять целую дробную части.

Не объединяйте без необходимости ячейки рабочей таблицы. Эстетическому чувству полезно дать проявиться при оформлении таблицы в тексте рукописи, когда все подсчитано, но не ранее. Особо внимательно отнеситесь к первым ячейкам - в левом верхнем углу таблицы. Лучше заполнить их произвольными числами, чем оставлять пустыми. Без этого при экспорте в другой формат может быть не считана вся первая строка или может измениться структура всей таблицы.

2. Преобразование формы информации

В таблицу целесообразно внести все интересующие вас признаки в форме десятичного числа, то есть предварительно пересчитать минуты в десятичные доли часа, секунды - в десятичные доли минуты, количество месяцев - в десятичную долю года и т. д. Это необходимо, поскольку формат данных для большинства используемых сейчас компьютерных программ накладывает свои ограничения.

В виде чисел в таблицу можно вписать информацию и о тех параметрах выборки, которые предположительно могут оказаться значимыми факторами, но имеются у вас в качественных показателях. Наиболее простыми операциями могут быть: числовое кодирование (мужчины - 1, женщины - 2; прошедшие обучение - 1, не прошедшие - 2 и т. п.) и перевод качественных показателей в ранги. Число 0 для кодирования лучше не использовать, поскольку некоторые статистические компьютерные программы не смогут обработать такие данные. Это не значит, что в таблицу вообще не могут быть записаны нулевые значения. Имеются в виду те случаи, когда в сформированной рабочей подвыборке какой-либо признак имеет только нулевые значения.

Уровень образования, ранжируя, можно следующим образом перевести в числа (см. табл. 9).

Таблица9

Ранжирование уровней образования

Ранг	Уровень образования
1	Менее 5 классов школы
2	5-8 классов или училище с дипломом о неполном среднем образовании
3	9-11 классов или училище с дипломом о полном среднем образовании
4	Техникум или колледж, или 1-2 курса вуза
5	3-6 курсов вуза без диплома о высшем образовании
6	Вуз с дипломом
7	Аспирантура, ординатура или другие формы постдипломного образования со сроком обучения 2 года и более

Разумеется, включая в обработку полученные таким образом числовые величины, мы не всегда обнаруживаем ясно выраженную зависимость этих параметров от остальных. Тем не менее мы получаем возможность хотя бы приблизительной оценки взаимосвязей. Эту оценку можно сделать и другими способами. Например, при компьютерной обработке и использовании системы управления базой данных можно формировать подвыборки по разным основаниям деления, в том числе и по уровню образования или должностному статусу, и проверять различия между отдельными категориями выборки.

Таблица 10

Ранжирование должностного статуса

Ранг	Должностной статус, категория
1	Подсобные рабочие, технические исполнители
2	Квалифицированные рабочие, вспомогательный персонал среднего уровня квалификации
3	Инженерно-технические работники, специалисты со средним специальным и высшим образованием
4	Работники нижнего руководящего звена (бригадиры, начальники участков и т. п.), руководители подразделений, имеющие в подчинении исполнителей, специалисты высокой квалификации, преподаватели, имеющие ученую степень
5	Работники среднего руководящего звена (начальники цехов, отделов и т. д.), руководители основных структурных подразделений, имеющих в своем составе подразделения нижнего уровня, заместители руководителей предприятий, ведущие специалисты
6	Работники верхнего руководящего звена (руководители предприятий, учреждений и организаций, их первые заместители, главные специалисты)

Описанное числовое кодирование полезно для предварительного (разведочного) анализа - немного шансов выявить отчетливые закономерности, но проделать эту работу полезно. Включение, например, в корреляционный анализ таких числовых величин может обнаружить существование или отсутствие взаимосвязей с другими параметрами, позволит не тратить время на более сложные процедуры.

3. Проверка данных

После создания таблицы на бумаге или компьютере необходимо проверить качество полученных данных. Для этого часто достаточно внимательно осмотреть массив данных. Начать проверку следует с выявления ошибок (описок), которые заключаются в том, что неправильно написан порядок числа. Например, 100 написано вместо 10, 9,4 - вместо 94 и т. п. При внимательном просмотре по столбцам это легко обнаружить, поскольку сравнительно редко встречаются параметры, которые сильно варьируют. Чаще всего значения одного параметра имеют один порядок или ближайшие порядки. При наборе данных на компьютере важно соблюдать требования к формату данных в используемой статистической программе. Прежде всего это относится к знаку, который должен отделять в десятичном числе целую часть от дробной (точка или запятая).

Затем массив данных надо проверить на наличие «выскакивающих», вариант - выделяющихся значений, которые могли быть получены в результате неточных измерений, ошибок в записях, отвлечения внимания испытуемого и т. д. Если обнаружены «подозрительные» значения, то принять обоснованное решение об их выбраковке, используя достаточно мощный параметрический критерий t. Он рассчитывается по следующей формуле:

V – M

t = 0 > t st

где t - критерий выпада; V — выпадающее значение признака; М- средняя величина признака для всей группы, включающей артефакт; tst - стандартные значения критерия выпадов, определяемые для трех уровней доверительной вероятности по таблице приложения 1. Смысл критерия в том, чтобы определить, находится ли данная варианта в интервале, характерном для большинства членов выборки, или же вне его.

Допустим, нами принят уровень значимости 0,05 (доверительная вероятность 0,95), а значение критерия составило 1.5. Поскольку 95 % вариант лежат в пределах М ± 1,96 о (1,5 меньше 1,96), то, следовательно, и данная варианта лежит в указанном интервале. Если же значение критерия больше, например, 2,4, то это означает, что данное значение не относится к анализируемой совокупности (выборке), включающей 95 % вариант, а есть проявление иных закономерностей, ошибок и пр. и поэтому должно быть исключено из рассмотрения.

Например, в эксперименте вы предлагаете решать мыслительные задачи и регистрируете в числе других параметров время решения. При просмотре данных обнаруживаете, что у одного из испытуемых время решения заметно больше, чем у остальных. Это бывает связано с тем, что вместо решения очередной задачи испытуемый начинает «искать закономерность более широкого плана», «выводить общий принцип» или нечто подобное. Об этом он может сообщить, но может и не сообщить экспериментатору. Понятно, что время решения конкретной задачи при этом может сильно отличаться от средней величины. Если у вас есть предположение, что результаты какого-либо опыта, пробы обусловлены влиянием, которое вы не можете оценить или его оценка не входит в ваши планы, то вы окажетесь перед необходимостью принять обоснованное решение - включать полученное численное значение в дальнейшую обработку или нет.

Предположим, в эксперименте были получены следующие значения некоторого параметра: 10,20, 20, 30, 30, 40,40, 50, 210. Следовательно, п = 9. Вычислили: М = 50, а = 61. Можно ли считать значение 210 выпадающим?

t = 210 – 50 = 2,6; ( по табл.) = 2,4 (для Р = 0,95;. 61

Следовательно, значение 210 может считаться выпадающим и должно быть исключено из дальнейшей обработки.

После исключения выпадающих значений первичные статистические параметры вычисляются заново.

Поможем написать любую работу на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту

Узнать стоимость

ПЕРВИЧНАЯ ОБРАБОТКА ДАННЫХ

Наука как система знаний

Методология научного поиска

Методы научного исследования

Категориальный аппарат научного исследования

Методология психологии (педагогики): определение, задачи, уровни и функции

Методологические принципы научного исследования

Научное исследование как особая форма познавательной деятельности в области психологии и педагогики

Компоненты научного аппарата психолого-педагогического исследования

Требования к курсовым работам по психологии и педагогике