Надежность — это помехоустойчивость теста, независимость его результатов от действия всевозможных случайных факторов. К числу таких факторов следует отнести:
—разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому
—динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тести рования (время так называемой врабатываемости.),
— информационно-социальные обстоятельства (различная динамика в установлении контакта с психологом; возможное наличие других людей в помещении; наличие предыдущего опыта знакомства с данным тестом...).
Эти факторы обусловливают появление у каждого испытуемого отклонения измеренного тестового балла от истинного тестового балла (который можно было бы в принципе получать в идеальных условиях). Средняя относительная величина этого отклонения определяется как стандартная ошибка измерения ( Se ). Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы
ОШИБКА ИЗМЕРЕНИЯ ( Se ) и надежность измерения ( R ), согласно общепринятой психометрической теории, связаны следующей формулой: R = 1 – Se2 / Sx2, (1), где S — дисперсия тестовых показателей X .
Эта формула является чисто теоретической, и на ее основе нельзя подсчитать надежность теста, так как величина Se оказывается также неизвестной величиной. Поэтому на практике применяют корреляционные методы- Самый известный из них — метод перетестирования (тест-ретест) или метод измерения РЕТЕСТОВОЙ НАДЕЖНОСТИ. На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании) проводят первое тестирование X , а затем повторное тестирование Y . Интервал, как правило, — две недели, что гарантирует забывание вопросов теста.
Затем для двух рядов значений X и Y подсчитывается, например, линейный коэффициент корреляции (возможный и нередко более корректный вариант — подсчитывать ранговый коэффициент корреляции):
где Sx , S — стандартные отклонения X и Y , Cov ( X , Y ) — ковариация двух переменных X и Y .
для сути теории надежности тестов, так это возможность определить ошибку измерения после того, как подсчитана корреляция тест-ретест по формуле (3),
.полученной путем простого преобразования формулы (1): Se = Sx × V1 – R. (3)
Таким образом, если стандартное отклонение в тесте составило 10 очков (среднее отклонение, которое в среднем допускают испытуемые от среднего балла для выборки), а корреляция тест-ретест оказалась равной лишь 0,5, то ошибка измерения оказывается очень большой: Se = 10 × V1-0,5 ~ 7.1.
Таким образом, низкая корреляция результатов теста между первым и повторным тестированием говорит о том, что случайные факторы существенно искажают результаты теста. Это значит, что тест не обладает необходимой помехоустойчивостью, и его нельзя использовать как измерительный инструмент.
Показатель надежности R , который принято считать достаточно высоким, равен или превышает 0,95. Хотя в личностных тестах часто пользуются значительно менее надежными тестами с показателями 0,8 — 0,9.
Метод измерения ретестовой надежности пригоден только для психических свойств, стабильных во времени. Надежность тестов на психические состояния и динамичные установки личности нельзя проверить таким образом. В этом случае применяют различные методы расщепления теста на отдельные пункты, освещение которых выходит за пределы настоящего пособия.
В самом широком смысле надежность теста – это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах и в какой мере они могут быть приписаны случайным ошибкам.
В методическом смысле под надежностью понимают степень согласованности результатов теста, получаемых при первичном и вторичном его применении у одних и тех же испытуемых в различные моменты времени с использованием разных наборов тестовых заданий или при других изменениях условий обследования.
Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется РЕПРЕЗЕНТАТИВНОСТЬЮ тестовых норм— третье важнейшее психометрическое свойство теста.
Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале произвести РЕСТАНДАРТИЗАЦИЮ), то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы будут производиться по неадекватным тестовым нормам и будут неточны и неверны.
Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если два этих распределения оказываются практически тождественны ми, то можно говорить о репрезентативности тестовых норм (более подробно об этом уже указанные специализированные издания по психометрике).
Введение понятия репрезентативности позволяет нам дать более строгое определение того, что такое стандартизация теста. О СТАНДАРТИЗАЦИИ ТЕСТА в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической структурой распределения тестовых баллов на выборке стандартизации.
8 Валидность – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним. «Понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» А. Анастази. В стандартных требованиях к тестам валидность определяется как комплекс сведений о том, относительно каких групп психологических свойств личности могут быть сделаны выводы с помощью методики, а также о степени обоснованности выводов при использовании конкретных тестовых оценок или других форм оценивания. В психодиагностике валидность – обязательная и наиболее важная часть сведений о методике, включающая данные о степени согласованности результатов теста с другими сведениями об исследуемой личности, полученными из различных источников (теоретических ожиданий, наблюдений, экспертных оценок, результатов других методик, достоверность которых установлена и т. д.), суждение об обоснованности прогноза развития исследуемого качества, связь изучаемой области поведения или особенности личности с определенными психологическими конструктами. Валидность описывает также конкретную направленность методики (контингент испытуемых по возрасту, уровню образования, социально-культурной принадлежности и т. д.) и степень обоснованности выводов в конкретных условиях использования теста. В совокупности сведений, характеризующих валидность теста, содержится информация об адекватности применяемой модели деятельности с точки зрения отражения в ней изучаемой психологической особенности, о степени однородности заданий (субтестов), включенных в тест, их сопоставимости при количественной оценкерезультатов теста в целом.
Большинство методик, особенно тестов способностей и интеллекта, исследуется на предмет диагностической и прогностической валидности. Два этих типа валидности нередко объединяют в понятие эмпирической валидности. Здесь подчеркивается общность подхода к их определению, который осуществляется путем статистического коррелирования баллов (оценок) по тесту и показателей по внешнему параметру, избранному в качестве валидизации критерия (см. валидности критериальная). Критерий валидности выступает в качестве меры, показателя исследуемых психологических особенностей. Так, тесты специальных способностей проверяются путем сопоставления с результатами обучения по другим предметам, достижениями в музыке, рисовании и т. д. Тесты общих интеллектуальных способностей валидизируются сравнением с еще более широкими характеристиками школьных достижений (общей успеваемостью, овладением сложными системами знаний и навыков). Критерий валидности является независимым от теста показателем, обладающим непосредственной ценностью для определенных областей практической деятельности. Например, в области педагогической психологии это успеваемость, в психологии труда – производительность, в медицинской психологии – состояние здоровья и т. д. В качестве непосредственных критериев часто используются экспертные оценки и характеристики лиц, обследованных с помощью валидизируемого теста, данные педагогами, сотрудниками, руководителями.
достоверность
теста - психометрическое свойство теста, обеспечивающая защиту его результатов от сознательных фальсификаций (лжи, неискренности испытуемого) или непреднамеренных мотивационных искажений.
достоверность тестового задания выражает также меру его устойчивости к фальсификации. Достоверность измеряется путем сравнения результатов по обычной инструкции и по инструкции на фальсификацию, или с помощью расчета корреляций между ответами на данный пункт и баллами испытуемых по специальной шкале лжи.
Спопобы количественной оценки надежности и валидности
Под надёжностью теста понимается степень точности, с которой тест измеряет определённое свойство или способ поведения личности. Надёжность теста – это характеристика точности его как измерительного инструмента, его устойчивости к действию помех (как внешних, так и внутренних). Эмпирическое определение надёжности теста является обязательным условием его допуска для использования в практической деятельности психолога.
В психометрике обоснование получили три метода оценки надёжности тестов:
1. метод повторного тестирования (метод тест-ретест);
2. метод тестирования параллельной, или эквивалентной, формой теста;
3. метод деления, или расщепления теста на части. Оценка надёжности по методу повторного тестирования требует, чтобы тест дважды предъявлялся одной и той же выборке испытуемых через какое-то время. Длительность временного промежутка определяется содержанием и характером задач теста.
Второй метод оценки надёжности теста требует наличия параллельной, то есть эквивалентной, формы теста, например формы "А" и "Б". Репрезентативную выборку испытуемых, на которой проверяется надёжность теста, случайным образом делят на две примерно равночисленные группы. Затем первой группе предъявляются задачи формы "А", а второй группе – задачи формы "Б". Через некоторое время (не более одной недели) задачи формы "Б" решает первая группа, а формы "А" - вторая. После этого для всей репрезентативной выборки испытуемых отдельно вычисляются первичные результаты для форм "А" и "Б", которые затем подвергаются корреляции.
Общим недостатком первых двух методов оценки надёжности теста является то, что они зачастую дают заниженные или завышенные коэффициенты надёжности. Дело в том, что дисперсия результатов, на основе которой рассчитывается коэффициент корреляции, неоднородна по своему составу. Наряду с дисперсией действительных индивидуальных различий в неё входят частные дисперсии, обусловленные влиянием как внутренних, психологических, причин (колебания внимания, усталость и др.), так и внешних (уличный шум, поведение и высказывания исследователя и т. п.). При этом сила и сочетание этих причин в первом и во втором тестировании могут быть различными, и оценить их влияние или полностью их нейтрализовать оказывается невозможным.
Поэтому, особенно при проверке надёжности тестов мощности (например, интеллектуальных тестов) и достижений, предпочтение следует отдавать третьему методу, поскольку он предполагает лишь однократное тестирование. Третий метод оценки надёжности включает два различных приёма расчёта: разделение тестовых задач на две части, например по принципу "чётные и нечётные", и расчёт коэффициента консистентности задач теста.
Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивости) получаемых результатов относительно измеряемых свойств объектов, то есть относительно предмета измерения. Отличие понятия "валидности" от "надёжности" измерения удобно раскрывать с помощью различения "объекта" и "предмета" измерения.
Надёжность - это устойчивость процедуры относительно объектов. Надёжность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определённую процедуру измерения, показывает её надёжность – способность устойчиво различать объекты, но вопрос о валидности остаётся открытым.
Устойчивость теста относительно объектов (испытуемых) является необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надёжность является необходимым, но не достаточным условием валидности. Отсюда понятно основное соотношение психометрики:
валидность < надёжность.
Это означает, что валидность теста не может превышать надёжности теста.
Данное соотношение, однако, неверно трактовать как указание на прямо пропорциональную связь валидности и надёжности. Повышение надёжности отнюдь не обязательно приводит к повышению валидности. В терминах Анны Анастази валидность определяется репрезентативностью теста относительно измеряемой области поведения.
При проверке устойчивости распределения общая логика основывается на индуктивном рассуждении: если "половинное" (полученное по половине выборки) распределение хорошо моделирует конфигурацию целого распределения, то можно предположить, что это целое распределение будет также хорошо моделировать распределение генеральной совокупности.
Таким образом, доказательство устойчивости распределения означает доказательство репрезентативности тестовых норм.
+ билет № 7
Поможем написать любую работу на аналогичную тему