1.3.1. Надежность тестов.

Существует несколько практи­ческих способов определения надежности теста. Самый безупречный со статистиче­ской точки зрения метод определения надежности – это корре­лирование двух параллельных тестов, созданных для измерения одного и того же свойства.

Суть корреляции состоит в том, что из полученной каждым сту­дентом суммы баллов вычитается ровно то число, которое может быть угадано в со­ответствии с теорией вероятностей. Корреляция осуществляется с помощью соотношения:

Методика составления тестовых заданий по курсу "Механика" ,

где Методика составления тестовых заданий по курсу "Механика"- скорректированный на догадку тестовый балл испытуемого;

Методика составления тестовых заданий по курсу "Механика"- число правильных ответов, полученных испытуемым в тесте;

Методика составления тестовых заданий по курсу "Механика"- число неправильных ответов;

Методика составления тестовых заданий по курсу "Механика" - число готовых ответов в заданиях теста.

Эта формула применяется к заданиям с одинаковым числом готовых ответов.

Интуитивно наиболее понятный и простой способ определения на­деж­ности теста – это двукратное, по меньшей мере, использование одного и того же теста в той же самой группе студентов. Результаты обоих опро­сов анализируются с целью поиска корреляции между ними. Данный метод имеет свои достоинства и недостатки. Достоинства заключаются в сравнительной простоте его использования, ясности основных посылок, лежащих в определении надежности, простоте расчетов. К недос­таткам можно отнести неопределенность в выборе вре­менного интервала ме­жду первым и вторым опросами. Этот интервал мо­жет колебаться от не­скольких минут до нескольких дней, месяцев и даже лет.

Надежность тестов достаточно просто оценить в гомогенных тестах. Однако, оценка надежности за­метно осложняется в гетерогенных тестах. Осложнение вызвано главным образом некоррелируемостью (или слабой коррелируемостью) гомогенных тестов между собой. Соответственно ответы студентов на задания одного гомогенного теста, как правило, редко коррелируют с ответами на задания другого. Отсутствие же корреляции ме­шает всякой надежде на мало-мальски заметную надежность теста в целом.

Все методы оценки надежности теста основаны на разных теоретических положе­ниях, но все они призваны ответить на один и тот же вопрос – насколько точны проведенные измерения? Само понятие "точность" в каждом случае оценки приобретает несколько отли­чающийся смысл.

Имеются, по меньшей мере, два источника погрешностей, мешающие говорить об абсолютной надежности теста. Первый источник связан с выбор­кой испытуемых. Вряд ли можно найти две такие выборки, в которых тесто­вый опрос был бы одинаково надежным. Скорее всего, значения варьировали бы от выборки к выборке в некоторых пределах в соответствии с законом нормального распределения. Уже одно это призывает к осторожности в ин­терпретации коэффициента надежности. Вместо выражения «надежность теста» мы вынуждены использовать другое, более точное – "полученная в данной выборке оценка надежности теста".

Второй источник погрешностей – в формулировании и отборе заданий. Если мы примем небезосновательное предположение о детерминации (в ста­тистическом смысле) или, иначе, о зависимости конкретных результатов из­мерения от истинных, присущих данным испытуемым в идеальных усло­виях, то коэффициент надежности удобно интерпретировать как коэффициент детерминации.[1]


1.3.2. Валидность тестов.

в отличие от надежности, определение которой сводится к выбору одной из множества расчетных схем, обоснование валидности теста пред­ставляет собой задачу методологического характера. Как и обоснование лю­бой деятельности, процесс валидизации начинается с уточнения цели и кон­кретных задач педагогического контроля. Если ставится цель проверить зна­ния студентов по какой-либо дисциплине и при этом не важно, каким мето­дом это надо будет сделать, то легко понять, что эта цель может быть дос­тигнута посредством использования зачетов, экзаменов, курсовых и диплом­ных работ. Эти и другие методы неравноценны с точки зрения объективности и качества оценки, и потому вопрос о валидности легко переводится в праг­матическую плоскость оценки сравнительной пригодности того или иного метода для достижения поставленной цели.

Тест может быть валидным, если помимо прочих требований средние результаты соответствуют большей части студентов, а сами данные рас­пределяются по нормальному закону. Если это условие не выполняется, то тест считается невалидным с точки зрения соответствия стандартам распреде­ления. Именно отсюда возникает стремление разработчиков тестов добиваться нормальности распределения за счет варьирования числа легких и трудных заданий.

Если в тесте нет достаточного числа легких и трудных заданий, то воз­никает вопрос о его сбалансированности по трудности, то есть обычно в тесте должно быть больше заданий средней трудности и несколько меньше от­кровенно легких или трудных заданий. В процессе создания теста мера труд­ности регулярно проверяется на случайной выборке из того контингента, для которого тест предназначается. В сбалансированном тесте легко добиваются нормальности распределения. Дальнейшее совершенствование идет по пути замены ряда заданий, ответы на которые нарушают нормальность распреде­ления. Трудность заданий влияет на надежность и валидность. Если тест очень трудный, то студенты чаще вынуждены догадываться – какой ответ правиль­ный. Но чем чаще они прибегают к догадке, тем больше распределение ре­зультатов теста приближается к случайному распределению. Поэтому при­годность теста для оценки всей массы студентов будет тем ниже, чем труднее тест. Такое же влияние на надежность, – но по другой причине – оказывает легкий тест, в котором студенты, наоборот, догадываются редко, их ответы устойчивы, но почти нет различий между испытуемыми.

Валидность теста существенно зависит от его разли­чающей способности. Если десять человек в группе получают «отлично», та­кая оценка не позволяет различать, кто из этих десяти лучше, а кто несколько хуже знает предмет. Различающая способность тем выше, чем меньше одина­ковых оценок студенты по нему получают. Следовательно, тем больше ва­риация результатов и более чувствительна шкала к индивидуальным разли­чиям. Поэтому повышению различающей способности теста (РСТ) в стадии его создания уделяется большое внимание. При этом применяются несколько методов:

1.Регулирование по времени тестирования; чем больше стандартное от­клонение, тем больше различающая способность теста.

2. Оптимальный подбор заданий. В принципе РСТ, а вместе с ней и на­дежность теста, возрастают с увеличением доли заданий средней трудности в тесте. Однако в тесте обязательно должна быть некоторая часть легких и трудных вопросов, точное количество которых зависит от конкретных об­стоятельств.

3. Точность измерений. Если, например, время реакции измерять у ис­пытуемых с точностью до одной десятой, сотой, тысячной и так далее се­кунды, то получим различную различающую способность теста.

Валидность теста связана, помимо прочего, с понятиями «гомогенный и гетерогенный тест». Если тест создан с целью проверки знаний по одной учебной дисциплине и все вопросы теста связаны именно с ней, то такой тест считается гомогенным, а значит и валидным для этой частной цели. Поэтому в более чистом виде гомогенный тест представляет собой тест для изучения знаний какому-то частному разделу программы.

Для комплексной оценки знаний студентов может быть составлен тест, состоящий из вопросов по нескольким дисциплинам. Это – пример гетеро­генного теста, который состоит из группы гомогенных тестов. Соответст­венно такой тест является валидным именно для комплексной оценки.

Валидность теста зависит и от так называемой длины теста. Под длиной теста понимается количество заданий, входящих в тест. Существуют тесты очень короткие, состоящие из 7 – 15 заданий, и очень длинные, состоящие из более чем пятисот заданий.

 Если тест очень длинный, то ухудшается мотивация и внимание у ис­пытуемых, а это снижает надежность и валидность. Практика показывает, что если тестирование занимает более полутора часов, то при этом возникают ор­ганизационные проблемы, испытуемые с неохотой соглашаются отвечать на вопросы теста. С другой стороны, с точки зрения теории, чем длиннее тест, тем он надежнее. Возникающее противоречие между теорией и практикой решается компромиссом в ту или иную сторону, в зависимости от конкрет­ного случая.

 Валидность теста зависит еще и от расположения заданий в тесте. Су­ществует различная практика расположения заданий:

1. По степени возрастания трудности. Такое расположение характерно в основном для гомогенных тестов. Для гетерогенных тестов сохранение это­го принципа выражается в так называемой «спиральной» форме расположения заданий.

2. В случайном порядке. Этот способ расположения заданий широко применяется в психологических тестах и в процессе компьютерного тестиро­вания.

3. В специальном порядке, в соответствии с какой-либо теорией, сооб­ражениями переноса навыков, концентрации внимания и других.

4. В порядке, сочетающем специальный и случайный подбор. Обычно это делается в гетерогенных тестах.

Существуют несколько подходов к валидизации тестов, различающихся в зависимости от используемых критериев. В педагогической практике наи­большее распространение в последние годы получили такие тесты, валид­ность которых не требуется доказывать эмпирически: в таких тестах крите­рием их пригодности является само содержание теста, одобренное опытными преподавателями-экспертами. При этом у преподавателя должна быть уве­ренность в том, что:

задания теста находятся в соответствии с программой;

задания теста охватывают не один какой-либо раздел, а всю про­грамму курса;

высока вероятность того, что студент, успешно ответивший на зада­ния теста, знает предмет в соответствии с полученной оценкой.

Перечисленные три пункта объединяются общей идеей – содержит ли тест задания, пригодные для оценки знаний по конкретной дисциплине? Если в результате статистической проверки выявляется, что ответы на вопросы теста вполне позволяют обоснованно судить о знаниях студентов, то счита­ется, что тест содержит валидные вопросы; он валиден по содержанию. Тре­бо­вание валидности по содержанию предъявляется к каждому вопросу теста, мерой валидности является коэффициент корреляции ответов по заданию с критерием. При создании теста в качестве критерия обычно берутся оценки, выставляемые студентам группой преподавателей-экспертов без тестов. Ре­зультаты студентов по вопросам теста и по оценкам экспертов коррелиру­ются. Высокая согласованность оценок по тесту и у экспертов указывает и на высокую валидность.

Надо подчеркнуть, что нет показателей раз и навсегда установленных надеж­ности и валидности теста. В каждом отдельном исследовании рекомен­дуется проверять качество теста и лишь на этой основе делать выводы о дос­товерно­сти данных.

Подпись: Таблица 1.1
Требования к надежности и валидности тестов.[1] 
Величина коэф-фициента корре-ляции	Надежность	Валидность
0.90 – 0.990.85 – 0.890.80 – 0.840.75 – 0.790.70 – 0.740.60 – 0.690.50 – 0.590.40 – 0.490.30 – 0.390.20 – 0.290.100 – 0.190.00 – 0.09	ОтличнаяОчень хорошаяХорошаяУдовлетворительнаяМалоудовлетворительнаяСомнительнаяНеудовлетворительная-----	ОтличнаяОтличнаяОтличнаяОтличнаяХорошаяХорошаяХорошаяУдовлетворительнаяМалоудовлетворительная--Неудовлетворительная



К показателям надежности, как и валидности, предъявляют определен­ные требования. Надежность и валидность можно оценить с помощью таб­лицы 1.1.[1]

Информация о работе «Методика составления тестовых заданий по курсу "Механика"»
Раздел: Информатика, программирование
Количество знаков с пробелами: 43141
Количество таблиц: 1
Количество изображений: 6

Похожие работы

Скачать
20020
4
0

... с тестами В процессе преподавания важное значение имеют закрепление изученного материала и контроль результатов учебной деятельности, позволяющие определить уровень достижений каждого учащегося. Одним из современных вида контроля знаний и умений, а также развития умственных способностей учеников являются тесты с выбором правильного ответа. Удобно проводить проверку выполнения домашней работы ...

Скачать
72487
0
0

... фундаментальными, хотя все они в определенной степени способствовали развитию физики в прошлом и настоящем. Было бы полезно систематизировать многочисленные исторические наблюдения и опыты, входящие в курс физики средней школы (и те, которые, по нашему мнению, должны войти в будущем), по их функциональному признаку – реализации определенной задачи и значению в развитии физической науки. Класс ...

Скачать
144436
9
0

... : а) первый уровень (1–4 классы) – безопасность школьника; б) второй уровень (5–9 классы) – безопасность личности; в) третий уровень (10–11 классы) – безопасность жизнедеятельности личности, общества и государства. Преподавание основ безопасности жизнедея­тельности на каждой ступени общеобразователь­ной школы имеет свои особенности. В начальной школе особенностью является то, что у младших ...

Скачать
52511
3
7

... , анализ, прогноз не носят завершающего цикла. В диссертации проанализированы причины, вызывающие затруднения у руководителей вуза и преподавателей по использованию технологий адаптивного компьютерного тестирования в профессиональной деятельности. Теория педагогических измерений в современных условиях внедрения государственных образовательных стандартов – это качественно новый этап в развитии ...

0 комментариев


Наверх