4. Валидность теста

Соответствие теста измеряемому психическому свойству называется валидностью теста. Это, без преувеличения, важнейшее психометрическое свойство теста. Если высокая надежность теста говорит нам о том, что тест действительно “что-то” измеряет, то высокая валидность указывает на то, что тест измеряет именно то, что мы хотим. Конечно, на валидность теста также негативно влияют случайные факторы. Поэтому в психометрике принято следующее основное психометрическое неравенство:

ВАЛИДНОСТЬ< НАДЕЖНОСТЬ,

что означает, что валидность не может превышать надежности теста.

Но в отличие от надежности, помимо случайных факторов, на валидность теста влияют систематические факторы. Они привносят систематические искажения в результаты. Эти факторы есть другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен.

Например, мы хотим измерять “потенциал обучаемости” (важ­нейший компонент общих интеллектуальных способностей человека), но даем испытуемому тест с жестким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку. Совершенно очевидно, что искомое психическое свойство оказывается смешанным в тесте с ложным психическим свойством – “стрессоустойчивость”: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.

В современной психометрике разработаны буквально десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов. Основным элементом практически всех этих методов является так называемый критерий валидности – это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или хотя бы заведомо более валидной) информации об измеряемом свойстве – с критерием.

В научных исследованиях преобладают специальные лабораторные критерии. Например, конструируется компактный тест-опросник на тревожность. А в качестве критерия валидности для него используется специальный трудоемкий объективный лабораторный эксперимент, в котором воспроизводится реальная ситуация тревожности (испытуемым-добровольцам угрожают за ошибочные действия ударами тока и т.п.).

На практике очень часто в качестве критерия валидности используются прагматические критерии – показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестирование. В школе самый типичный критериальный показатель – это успеваемость. Но для социально-психологической адаптации ребенка внешним критериальным показателем может быть уровень популярности в классе.

Очень часто в качестве критерия валидности используется экспертная оценка. Например, мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого опрашиваем учителей об уровне дисциплинированности хорошо известных им учеников. И после этого сравниваем (коррелируем) результаты теста и экспертный рейтинг учеников по дисциплинированности.

Остановимся чуть подробнее на этом последнем примере. Здесь мы имеем один из самих простых и популярных методов эмпирического (статистического) измерения валидности. Это метод “известных групп”. К участию в психометрическом эксперименте по проверке валидности теста приглашаются испытуемые, про которых известно, к какой группе по критерию они относятся. В случае с тестом дисциплинированности подбираются ученики, заведомо дисциплинированные, по данным экспертной оценки учителей (“высокая” группа по критерию), и заведомо недисциплинированные (“низкая” группа по критерию). Ученики со средними показателями по критерию в тестировании не участвуют.

После проведения теста мы рассчитываем, например, простейшую четырехклеточную корреляцию между тестом и критерием. Для этого заполняется следующая четерехклеточная таблица.

ВЫС. КРИТ. НИЗ. КРИТ
ВЫС. ТЕСТ A B
ВЫС. ТЕСТ C D

Элемент “А” в этой табличке – это число испытуемых, попавших в “высокую” группу по тесту и по критерию, элемент В – число испытуемых, попавших в высокую группу по тесту, но в низкую группу по критерию и т.д.

Очевидно, что при полной валидности теста элементы В и С таблички должны быть равны нулю. То есть тест не должен давать ошибок – говорить о том, что ученик низкодисциплинированный, когда учителя говорят о том, что ученик высокодисциплинированный (случай С).

Меру совпадения (корреляции) между крайними группами по тесту и по критерию оценивают с помощью самого простого Фи-коэффициента Гилфорда:

При численности протестированной группы в 30 человек (это минимальная выборка для проверки валидности) статистически значимую связь теста с критерием мы можем констатировать, когда Phi>=0,36. Хотя это, конечно, невысокая валидность, но все же тест в этом случае дает значительно лучшие результаты, чем случайное гадание. То есть, если в вашем учебном заведении есть конкурс и вы хотите отобрать не только одаренных, но и дисциплинированных учащихся, вы можете использовать тест, валидность которого вы проверили, и она оказалась значимой.

Но… Метод “известных групп” обладает серьезным недостатком. Он не всегда позволяет использовать тест для прогноза, ведь при формировании “известных групп” оценивается поведение в прошлом, а мы хотим сделать тест дня прогноза поведения в будущем. Многие тесты, используемые в образовательной психодиагностике, обладают указанным недостатком. Они прошли в лучшем случае проверку по методике “известных групп” и не обладают так называемой прогностической валидностью (или по крайней мере эта валидность строго экспериментально не доказана). Конечно, на местном уровне задачу обеспечения прогностической валидности не решить. Это под силу только крупным научно-методическим центрам. Ведь к психометрическому исследованию по проверке прогностической валидности надо привлекать примерно на порядок больше испытуемых – не 30, а минимум 300. Ведь мы просто не знаем, кто из этих 300 попадет в будущем в крайние группы.

Например, мы хотим использовать тест для прогноза готовности школьников к обучению в вузах. Это типичная прогностическая психодиагностическая задача. Кто-то должен взяться за нелегкую многолетнюю программу проверки прогностического потенциала этого теста. Нужно протестировать 300-500 школьников, а затем подождать, кто из них поступит в вуз и будет успешно там учиться. После двух-трехлетнего интервала можно сформировать критериальные группы и подсчитать корреляцию группы с прежними тестовыми показателями этих бывших школьников. Только после реализации такой схемы психометрического эксперимента можно5. Стандартизация тестов

Что, несомненно, должен знать и уметь делать каждый грамотный пользователь теста – это понимать, что такое тестовые нормы и как ими пользоваться.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют в тестологии “сырым тестовым баллом”. Применение тестовых норм в профессионально организованной психодиагностике основывается на переводе тестовых баллов из “сырой” шкалы в “стандартную”. Эта процедура называется “стандартизацией тестового балла”.

Пусть мы провели тест из 20 заданий и испытуемый дал 12 правильных ответов. Можно ли при этом сказать, что способность у испытуемого выражена лучше или хуже, чем в среднем? Нет. Для такого вывода нужно сравнить балл 12 со средним баллом по представительной выборке испытуемых.

Выборка, на которой определяются статистические тестовые нормы, называется выборкой стандартизации. Ее численность, как правило, не меньше 200 человек. Столько людей должно принять участие в психометрическом эксперименте по определению тестовых норм – в эксперименте по стандартизации теста.

Если после стандартизации теста выясняется, к примеру, что среднее арифметическое по сырой шкале теста равно 14, то оказывается балл 12 – это не лучше, а хуже среднего (хотя испытуемый и справился больше чем с половиной заданий). Просто в данном случае тест содержит слишком простые задания, несколько отклоняясь по этому параметру от оптимальной трудности.

Простейшая линейная стандартизация тестового балла производится по формуле

где Z – стандартный балл на так называемой стандартной шкале Z (с центром 0 и отклонением 1);

Х – сырой балл по тесту;

– средний балл по выборке стандартизации,

Sх – стандартное отклонение по выборке стандартизации.

После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике. Например, перевод в шкалу IQ производится по формуле

IQ=Z..15=100.

Напомним, что в шкале IQ центр равен 100, а отклонение – 15.

Если перевод требуется в так называемую шкалу “стенов” (от англ. “ standart ten” – стандартная десятка), то формула пересчета из шкалы Z выглядит так:

Sten = Z..2 +5,5,

так как в шкале стенов центр равен 5,5, а отклонение равно 2.

Обобщенная формула перевода сырого балла в заданную стандартную шкалу имеет вид:

Y = Ss×Z+M, (7)

где Y – стандартный балл, по произвольной шкале, с центром М и отклонением Ss.

Для серьезных профессиональных тестов вместо описанной здесь простейшей линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению). В результате этой, более точной процедуры разработчики снабжают пользователей теста так называемой конверсионной таблицей для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и стандартной.

Ниже приведен пример того, как может выглядеть конверсионная таблица для некоторого теста арифметических вычислений из 30 заданий. Простейшая процедура подсчета баллов (за правильный ответ – 1 очко, за ошибку –0) дает нам сырую шкалу от 0 до 30.

Таблица 1

Пример фрагмента конверсионной таблицы для перевода сырых баллов в стены

Сырой балл 0-6 7-8 8-9 10-13 14-16 17-19 20-22 23-24
Стены 1 2 3 4 5 6 7 8

Как пользовались таблицей? Если испытуемый показал 5 сырых очков (решил только 5 заданий), то ему ставится минимальный стандартный балл 1. Если испытуемый решил 25 заданий, то получает балл 9.

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило здесь таково: если стандартный балл Y превышает единицу “верхней” (или “высокой”) группы M+Ss, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Например, про ученика говорят, что он является определенно более дисциплинированным, чем средний ученик в российской школе (или московской, или иркутской – в зависимости от того, на какой выборке стандартизации получены нормы). Если же стандартный балл Y ниже границы “нижней” (“низкой”) группы M-Ss, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если стандартный тестовый балл Y заключен в пределах центрального интервала (M-Ss, M+Ss), то про испытуемого говорят, что у него измеренное свойство выражено в средней степени – как у большинства людей.

На шкале стенов граница “верхней” группы равна 7,5, а “нижней” – 3,5, то есть при получении 8 стенов и больше испытуемый зачисляется в “верхнюю” группу, а при получении 3 стенов и меньше – в “нижнюю”.

Если мы имеем дело с биполярным (двухполюсным) психическим свойством, например, “гибкость – ригидность”, то для “высокой” группы формулируется заключение как для “гибких” людей, а для “низкой” группы – как для ригидных людей. Соответственно средняя группа из центрального интервала признается нейтральной, неполяризованной по данному тестовому параметру.

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется репрезентативностью тестовых норм.[4] Репрезентативность – третье важнейшее психометрическое свойство теста. Понимание смысла этого требования к тесту помогает правильно учитывать ограничения в сфере его применения.

Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале произвести рестандартизацию, то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы, произведенные по неадекватным тестовым нормам, будут неточны и неверны.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если эти два распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм.

Введение понятия репрезентативности позволяет нам дать более строгое определение того, что такое стандартизация теста. О стандартизации теста в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической структурой распределения тестовых баллов на выборке стандартизации.

Кроме статистических тестовых норм в современных тестах часто используются критериальные нормы. Они особенно важны для сферы образования. Действительно, что дает нам знание о том, что Петров выполнил тест лучше среднего испытуемого, если средний испытуемый тоже не справился с большинством заданий? Мы прогнозируем, что подавляюще большинство испытуемых без специального дополнительного обучения не смогут показать требуемого уровня эффективности в будущей деятельности.

При построении так называемого “теста по критерию” шкала сырых тестовых баллов калибруется особыми реперными точками, которые соответствуют уровням рассчитанной вероятности достижения какого-то критерия (заданной эффективности деятельности). Например, если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и не соответствовать требуемому уровню критериальной “надежности оператора” (в данном случае “надеж­ность” – измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это может считаться достаточным уровнем “надеж­ности”. Таким образом, при построении диагностических заключений по критериальным тестам мы интересуемся не степенью отклонения балла от центра шкалы, а достижением или недостижением какого-то критического уровня на шкале.

6. Достоверность теста

Особой разновидностью валидности является достоверность, которая не всегда выделяется в учебниках по психодиагностике, хотя требует специальных усилий и процедур по обеспечению. Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении. Способность теста защищать информацию от мотивационных искажений и есть достоверность теста. Особенно остро проблема достоверности стоит в случае тест-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.

Типичный прием обеспечения достоверности – наличие в тест-опросниках ШКАЛ ЛЖИ. Эти шкалы основываются главным образом на феномене социальной желательности – стремлении испытуемых давать в ходе тестирования социально одобряемую информацию.

Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест. Многие более специфичные “ловушки”, направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста, а иногда даже не подлежат разглашению как элемент “ноу-хау” (информационного изобретения) и профессиональной тайны, разделяемой разработчиками только с лицензированными пользователями методики, подписавшими особое лицензированное соглашение при приобретении теста.

Достоверность тестирования тесно связана со степенью доверительности общения, которую психолог смог установить с данным испытуемым. Здесь полезно различать две диагностические ситуации: консультативную (ситуация клиента) и аттестационную (ситуация экспертизы). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (как, например, в профориентационной консультации). Во втором случае тестирование проводится по инициативе педагога или администрации, психолога, родителей, то есть других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый.

Понятно, что в аттестационной ситуации вопрос о достоверности особенно актуален. И опросники, не снабженные шкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента могут быть использованы такие методики, на которые испытуемый заведомо будет отвечать некорректно в ситуации экспертизы.

Вопросы достоверности и стандартизации тесно связаны между собой. Очень часто даже объективные тесты достижений, если они проходили стандартизацию на добровольцах (в ситуации консультации), должны быть рестандартизированы для того, чтобы их использовали в аттестационной ситуации.

 утверждать, что тест прошел проверку на прогностическую валидность. Без этого мы исходим просто из доверия к научной интуиции разработчика теста и не имеем независимых доказательств того, что тест можно использовать для прогноза.

Различие обычной дешевой схемы валидизации теста (по “из­вестным группам”) и дорогой прогностической схемы валидизации теста – важнейший элемент психодиагностической грамотности не только для психологов, но и для педагогов, как, впрочем, и для любых заказчиков психодиагностической информации.

Когда заказчик твердо знает, каких доказательств эффективности предлагаемого теста можно потребовать от тестолога, он будет надежно застрахован от профанации.

В заключение данной темы подчеркнем, что измерение психометрических характеристик теста, конечно, является прежде всего обязанностью разработчиков тестов. Но квалифицированный школьный психолог-методист с полным курсом университетского образования должен по своей подготовке уметь самостоятельно провести простейший психометрический эксперимент и пересчитать тестовые нормы, а также психометрические индексы надежности и валидности теста на своей собственной выборке (в своем регионе, обладающем определенной национально-культурной и социальной спецификой). Без этой проверки никто не может гарантировать, что тест действительно работает в данных условиях.

На сегодня подобная психометрическая работа с тестами облегчается, так как от массы рутинных вычислений специалиста освобождает компьютер. Научная фирма “Гуманитарные технологии” (МГУ) распространяет с 1993 года специализированный пакет программ ТЕСТАН (разработчик – А.Г. Шмелев) для психометрического АНализа ТЕСТов. Задача пользователя такой программы – не тратить время на вычисления, а только содержательно разбираться в том, что означает тот или иной коэффициент.


Информация о работе «Тестирование»
Раздел: Психология
Количество знаков с пробелами: 49237
Количество таблиц: 2
Количество изображений: 0

Похожие работы

Скачать
99170
0
0

... , становления и трансформации тестирования в отечественной истории образования и педагогической мысли. На основе анализа проблемы сформулирована тема исследования: «Генезис тестирования в истории отечественного образования». Актуальность, несоответствия, противоположности, противоречия, проблема и тема позволили сформулировать цель исследования: выявить, определить, обосновать предпосылки ...

Скачать
39664
0
9

... требований или спецификация пользовательских требований. Тестированием сборки всегда занимается независимая группа. Во многих книгах, посвященных тестированию программного обеспечения, например [1], описывается процесс тестирования программных систем, реализующих функциональную модель ПО, но не рассматривается отдельно тестирование объектно-ориентированных систем. В контексте тестирования между ...

Скачать
87173
2
4

... + Трудно - Трудно - Легко + Трудно - Трудно - 0 Неэффективность Всего +6 -1 +4 -3 +4 +7 Рис. 10.8. Взвешенная оценка подходов к сборке. III. ИСПЫТАНИЕ ПРОГРАММНЫХ ПРОДУКТОВ (АНАЛИЗ). ЦЕЛЬ И ОСОБЕННОСТИ ИСПЫТАНИИ. Испытания являются важнейшим элементом управления качеством продукции. В соответствии с ГОСТ ...

Скачать
52511
3
7

... , анализ, прогноз не носят завершающего цикла. В диссертации проанализированы причины, вызывающие затруднения у руководителей вуза и преподавателей по использованию технологий адаптивного компьютерного тестирования в профессиональной деятельности. Теория педагогических измерений в современных условиях внедрения государственных образовательных стандартов – это качественно новый этап в развитии ...

0 комментариев


Наверх