1.3. Критерии качества тестов
Научно обоснованный тест – это метод, соответствующий установленным стандартам
надежности ивалидности.
Традиционно выделяются два основных критерия качества тестов. Первый из них
связан спонятием точности измерений и известен, главным, образом, в виде
понятия надежности теста.
Качество педагогического контроля в вузе зависит не только от надежности
используемых методов, но и от их валидности. Валидность теста — его
пригодностьдля достижения поставленной цели: пригодность по содержанию,
пригодность к применению в конкретных обстоятельствах, пригодность по
какому-либо критериюили, что то же самое, характеристика его способности изучать
то, что он должен изучать по замыслу авторов.[1]
1.3.1. Надежность тестов.
Существует несколько практических способов определения надежности теста.
Самыйбезупречный со статистической точки зрения метод определения надежности –
это коррелирование двух параллельных тестов, созданных для измерения одного и
тогоже свойства.
Суть корреляции состоит в том, что из полученной каждым студентом суммы баллов
вычитаетсяровно то число, которое может быть угадано в соответствии с теорией
вероятностей. Корреляция осуществляется с помощью соотношения:
,
где - скорректированный на догадку тестовый балл испытуемого;
- число правильных ответов, полученных испытуемым в тесте;
- число неправильных ответов;
- число готовыхответов в заданиях теста.
Эта формула применяется к заданиям с одинаковым числом готовых ответов.
Интуитивно наиболее понятный и простой способ определения надежности теста –
это двукратное, по меньшей мере, использованиеодного и того же теста в той же
самой группе студентов. Результаты обоих опросов анализируются с целью поиска
корреляции между ними. Данный метод имеет своидостоинства и недостатки.
Достоинства заключаются в сравнительной простоте его использования, ясности
основных посылок, лежащих в определении надежности,простоте расчетов. К
недостаткам можно отнести неопределенность в выборе временного интервала
между первым и вторым опросами. Этот интервал может колебаться отнескольких
минут до нескольких дней, месяцев и даже лет.
Надежность тестов достаточно просто оценить в гомогенных тестах. Однако, оценка
надежности заметно осложняется в гетерогенных тестах.Осложнение вызвано главным
образом некоррелируемостью (или слабой коррелируемостью) гомогенных тестов между
собой. Соответственно ответыстудентов на задания одного гомогенного теста, как
правило, редко коррелируют с ответами на задания другого. Отсутствие же
корреляции мешает всякой надежде намало-мальски заметную надежность теста в
целом.
Все методы оценки надежности теста основаны на разных теоретических положениях,
но все они призваныответить на один и тот же вопрос – насколько точны
проведенные измерения? Само понятие "точность" в каждом случае оценки
приобретает несколько отличающийсясмысл.
Имеются, по меньшей мере, два источника погрешностей, мешающие говорить об
абсолютной надежности теста. Первый источниксвязан с выборкой испытуемых. Вряд
ли можно найти две такие выборки, в которых тестовый опрос был бы одинаково
надежным. Скорее всего, значения варьировалибы от выборки к выборке в некоторых
пределах в соответствии с законом нормального распределения. Уже одно это
призывает к осторожности в интерпретациикоэффициента надежности. Вместо
выражения «надежность теста» мы вынуждены использовать другое, более точное –
"полученная в данной выборке оценканадежности теста".
Второй источник погрешностей – в формулировании и отборе заданий. Если мы
примем небезосновательноепредположение о детерминации (в статистическом смысле)
или, иначе, о зависимости конкретных результатов измеренияот истинных,
присущих данным испытуемым в идеальных условиях, то коэффициент надежности
удобно интерпретировать как коэффициент детерминации.[1]
1.3.2. Валидность тестов.
в отличие от надежности, определение которой сводится к выбору одной из
множестварасчетных схем, обоснование валидности теста представляет собой задачу
методологического характера. Как и обоснование любой деятельности,
процессвалидизации начинается с уточнения цели и конкретных задач
педагогического контроля. Если ставится цель проверить знания студентов по
какой-либодисциплине и при этом не важно, каким методом это надо будет сделать,
то легко понять, что эта цель может быть достигнута посредством использования
зачетов,экзаменов, курсовых и дипломных работ. Эти и другие методы неравноценны
с точки зрения объективности и качества оценки, и потому вопрос о
валидностилегко переводится в прагматическую плоскость оценки сравнительной
пригодности того или иного метода длядостижения поставленной цели.
Тест может быть валидным, если помимо прочих требований средние результаты
соответствуютбольшей части студентов, а сами данные распределяются по
нормальному закону. Если это условие не выполняется, то тест считается
невалидным с точки зрениясоответствия стандартам распределения. Именно отсюда
возникает стремление разработчиков тестов добиваться нормальности распределения
за счет варьированиячисла легких и трудных заданий.
Если в тесте нет достаточного числа легких и трудных заданий, то возникает
вопрос о его сбалансированности по трудности, тоесть обычно в тесте должно быть
больше заданий средней трудности и несколько меньше откровенно легких или
трудных заданий. В процессе создания теста мератрудности регулярно проверяется
на случайной выборке из того контингента, для которого тест предназначается. В
сбалансированном тесте легко добиваютсянормальности распределения. Дальнейшее
совершенствование идет по пути замены ряда заданий, ответы на которые нарушают
нормальность распределения. Трудностьзаданий влияет на надежность и валидность.
Если тест очень трудный, то студенты чаще вынуждены догадываться – какой ответ
правильный. Но чем чаще ониприбегают к догадке, тем больше распределение
результатов теста приближается к случайному распределению. Поэтому пригодность
теста для оценки всей массыстудентов будет тем ниже, чем труднее тест. Такое же
влияние на надежность, – но по другой причине – оказывает легкий тест, в котором
студенты, наоборот,догадываются редко, их ответы устойчивы, но почти нет
различий между испытуемыми.
Валидность теста существенно зависит от его различающей способности. Если
десять человекв группе получают «отлично», такая оценка не позволяет различать,
кто из этих десяти лучше, а кто несколько хуже знает предмет. Различающая
способность темвыше, чем меньше одинаковых оценок студенты по нему получают.
Следовательно, тем больше вариация результатов и более чувствительна шкала к
индивидуальнымразличиям. Поэтому повышению различающей способности теста (РСТ)
в стадии его создания уделяется большое внимание. При этом применяются несколько
методов:
1.Регулирование по времени тестирования; чем больше стандартное отклонение, тем
больше различающая способность теста.
... с тестами В процессе преподавания важное значение имеют закрепление изученного материала и контроль результатов учебной деятельности, позволяющие определить уровень достижений каждого учащегося. Одним из современных вида контроля знаний и умений, а также развития умственных способностей учеников являются тесты с выбором правильного ответа. Удобно проводить проверку выполнения домашней работы ...
... фундаментальными, хотя все они в определенной степени способствовали развитию физики в прошлом и настоящем. Было бы полезно систематизировать многочисленные исторические наблюдения и опыты, входящие в курс физики средней школы (и те, которые, по нашему мнению, должны войти в будущем), по их функциональному признаку – реализации определенной задачи и значению в развитии физической науки. Класс ...
... : а) первый уровень (1–4 классы) – безопасность школьника; б) второй уровень (5–9 классы) – безопасность личности; в) третий уровень (10–11 классы) – безопасность жизнедеятельности личности, общества и государства. Преподавание основ безопасности жизнедеятельности на каждой ступени общеобразовательной школы имеет свои особенности. В начальной школе особенностью является то, что у младших ...
... , анализ, прогноз не носят завершающего цикла. В диссертации проанализированы причины, вызывающие затруднения у руководителей вуза и преподавателей по использованию технологий адаптивного компьютерного тестирования в профессиональной деятельности. Теория педагогических измерений в современных условиях внедрения государственных образовательных стандартов – это качественно новый этап в развитии ...
0 комментариев