7.    Обязательно нужно проводить количественный и качественный анализ контрольной работы.

1.3.2 Машинные средства проверки

Для контроля знаний учащихся используют персональный компьютер. Для контроля знаний учащихся удобно применять типовые расчеты, которые включают наиболее характерные задания базового курса [3].

В дальнейшем будем говорить о машинных средствах контроля знаний, и, в частности, о тестировании с применением средств вычислительной техники.

1.4 Компьютерное тестирование

Идея компьютерного тестирования напрямую проистекает от идеи программированного контроля знаний. Программированный контроль знаний, в свою очередь, явился неизбежной реакцией на некоторые проблемы прежде всего высшего образования в России. Собственно, примерно те же проблемы распространяются и на школьное образование, но последнее, в силу традиционной косности, очень слабо восприимчиво к новым технологиям.

Основной проблемой любого образования (и не только российского, кстати), является отсутствие четкого контроля за качеством усвоения материала. Причем если в школьной практике учитель еще более-менее имеет возможность с определенной периодичностью проверять уровень текущих знаний ученика, то в ВУЗе преподаватель целый семестр выдает материал и лишь в конце семестра убеждается в уровне его усвоения. Само собой, в системе высшего образования подразумевается, что студенты должны в достаточной степени заниматься и самостоятельным образованием, однако, это предполагаемое самостоятельное получение знаний остается целиком и полностью на совести студента, и преподаватель абсолютно не может знать, кто именно из студентов хоть что-то делает самостоятельно. С получением большим числом обучаемых доступа в Internet положение усугубилось еще и тем, что теперь даже сдача рефератов не подразумевает абсолютно никакой работы с информацией; частенько студенты даже не считают нужным целиком прочесть то, что распечатывают из Сети [4].

Необходимость систематического контроля за усвоением материала сомнений не вызывает. Прежде всего это давало бы экономию времени преподавателя, который при отсутствии обратной связи вынужден или повторять положения, которые студентами давно усвоены, или излагать положения, основанные на фактах, плохо усвоенных студентами. Во вторую очередь, систематический контроль за уровнем знаний учащихся стимулирует повышение качества обучения за счет усиления акцента на трудных для усвоения положениях и повышения ответственности обучаемых за результаты самостоятельной работы (в случае, естественно, когда преподаватель в этом заинтересован).

Важным моментом систематического программированного контроля знаний является его объективность, что обусловлено переносом акцента с карательной функции на информативную. Только в таком случае учащийся не будет бояться контроля и изобретать способы получения повышенной оценки, и только в таком случае преподаватель будет получать реальную картину знаний учащегося.

Технически программированный контроль знаний прост - учащимся выдается некий бумажный носитель (расцвет программированного контроля вызвал к жизни релейно-ламповых "электронных" монстров, которые по сей день можно видеть на экзаменах по сдаче на водительские права), на котором записаны вопросы и варианты ответов, один (или несколько) из которых являются правильными. Учащемуся остается лишь расставить крестики против правильных ответов.

Подобная технология позволила совершить качественный скачок в осуществлении обратной связи между преподавателем и студентом. Программированный контроль, состоящий из 8-10 вопросов, проводится за очень короткий срок - от 5 до 10 минут, и при этом преподаватель может получить полноценную информацию об усвоении пройденного материала всей учебной группой одновременно. Кроме того, техническая реализация программированного контроля позволила полностью избежать списывания, давая возможность предложить каждому учащемуся свой вариант программированной карты.

Недостатком программированного контроля в его до-компьютерном виде являлась высокая трудоемкость создания программированных карт, которые (в идеале) требовались на каждое занятие, и сложность их последующей обработки. С появлением компьютерных технологий у преподавателей появилась возможность резко снизить трудоемкость и подготовки контроля, и обработки результатов.

Выделяют пять общих требований к тестам:

·     валидность;

·     определенность (общепонятность);

·     простота;

·     однозначность;

·     надежность.

Валидность теста – это адекватность. Различают содержательную и функциональную валидность: первая – это соответствие теста содержанию контролируемого учебного материала, вторая – соответствие теста оцениваемому уровню деятельности.

Выполнение требования определенности (общедоступности) теста необходимо не только для понимания каждым учеником того, что он должен выполнить, но и для исключения правильных ответов, отличающихся от эталона.

Требование простоты теста означает, что тест должен иметь одно задание одного уровня, т.е. не должен быть комплексным и состоять из нескольких заданий разного уровня. Необходимо отличать понятие “комплексный тест” от понятия “трудный тест”. Трудность теста принято характеризовать числом операций P, которое надо выполнить в тесте: P < 3 – первая группа трудности; P = 3-10 – вторая группа трудности. Не следует также смешивать понятия простоты-комплексности и легкости-трудности с понятием сложности.

Однозначность определяют как одинаковость оценки качества выполнения теста разными экспертами. Для выполнения этого требования тест должен иметь эталон. Для измерения степени правильности используют коэффициент Ka = P1 / P2 , где P1 – количество правильно выполненных существенных операций в тесте или батарее тестов; P1 – общее количество существенных операций в тесте или батарее тестов. Существенными считают те операции в тесте, которые выполняются на проверяемом уровне усвоения. Операции, принадлежащие к более низкому уровню в число существенных не входят. При Ka ³ 0.7 считают, что деятельность на данном уровне усвоена.

Понятие надежности тестирования определяют как вероятность правильного измерения величины Ka. Количественный показатель надежности r Î [0, 1]. Требование надежности заключается в обеспечении устойчивости результатов многократного тестирования одного и того же испытуемого. Надежность теста или батареи тестов растет с увеличением количества существенных операций P [5].

Итак, при реализации систем компьютерного тестирования необходимо, на мой взгляд, придерживаться именно этих пяти требований к создаваемым тестам. Но проблема компьютерного тестирования стоит намного острее. Реализация в системах тестирования описанных выше пяти требования к тестам не означает того, что созданный комплекс будет отвечать всем требованиям преподавателя и учащегося.

Большинство программных продуктов не дают возможности преподавателю и студенту, учителю и ученику отойти в реальном учебном процессе от традиционных методик: лекционного курса, конспекта, очного контроля знаний, контрольных работ, зачетов, экзаменов. Недостаток этот можно определить следующим: компьютерный курс является авторским по определению, и поэтому обеспечивает высокое качество образования только при соответствующем сопровождении автором (который, в большинстве случаев, не обладает достаточными знаниями в области информационных технологий). Хотя отдельные компоненты компьютерного обучающего, контролирующего или обучающе - контролирующего курса могут использоваться как независимые учебные модули другими преподавателями (а также и при самостоятельном освоении темы ), максимальный эффект, скорее всего, может быть достигнут только во взаимодействии с автором- разработчиком курса.

Если же в образовательный процесс, основанный на авторском мультимедиа курсе, включается другой преподаватель, возникает опасность конфликта личностей, так как на едином образовательном поле сталкиваются не только различные способы методической организации учебного процесса, но и разные личностные подходы.

Что касается проверки качества знаний, неформальный характер процесса оценивания знаний требует применения трудно поддающихся обработке преподавателем компьютерных тестов, необходима активная обратная связь, помогающая оценить правильность усвоения материала, должна быть четко выражена определенность и результативность [6].

Именно неформальность знаний как таковых, и процесса проверки знаний в частности, породило множество проблем в области компьютерного тестирования, таких как необъективность оценивания, трудность понимания учащимися подготовленных вопросов, медленная работа компьютерных систем, и т.п.

На мой взгляд, инженерия знаний и методы теории искусственного интеллекта помогут создать систему контроля знаний, позволяющую строить модели знаний преподавателя и тестируемого и объективно оценивать знания и умения последнего.


2. Интеллектуальное тестирование

В понятие «искусственный интеллект» вкладывается различный смысл — от признания интеллекта у ЭВМ, решающих логические или даже любые вычислительные задачи, до отнесения к интеллектуальным лишь тех систем, которые решают весь комплекс задач, осуществляемых человеком, или еще более широкую их совокупность. Можно выделить две основные линии работ по искусственному интеллекту (ИИ). Первая связана с совершенствованием самих машин, с повышением "интеллектуальности" ис­кусственных систем. Вторая связана с задачей оптимизации совместной работы "искусственного интеллекта" и собственно интеллектуальных возможностей человека.

Идея создания мыслящих машин "человеческого типа", которые, каза­лось бы, думают, двигаются, слышат, говорят, и вообще ведут себя как живые люди, уходит корнями в глубокое прошлое. Еще древние египтяне и римляне испытывали благоговейный ужас перед культовыми статуями, кото­рые жестикулировали и изрекали пророчества (разумеется, не без помощи жрецов). В средние века и даже позднее ходили слухи о том, что у кого-то из мудрецов есть гомункулы (маленькие искусственные человечки) - настоящие живые, спо­собные чувствовать существа [2]. В настоящее время роботы, системы распознавания образов, экспертные системы и т.д. вызывают у непосвященного тот же трепет и восторг перед «думающей» машиной.

Но не зря в свое время были заморожены некоторые исследования в области ИИ. Попытки создать машинный разум не удавались, и раз за разом энтузиазм ученых угасал, так как существующие на тот момент вычислительные средства не позволяли хотя бы приблизительно воссоздать взаимодействие нейронов головного мозга. Появление многопроцессорных систем и увеличение количества команд микропроцессоров и его тактовой частоты позволяет сейчас, на мой взгляд, «построить» приближенное мышление человека с использованием параллельных процессов и нейронных сетей.

Обращаясь к проблеме роли ИИ в обучении и образовании, будем рассматри­вает этот процесс как одну из разновидностей взаимодействия человека с ЭВМ, и раскрывать среди перспективных возможностей те, которые направлены на создание так называемых адаптивных обучающихся систем, имити­рующих оперативный диалог учащегося и преподавателя-человека.

2.1 Методы и модели

Интеллектуальное тестирование предполагает наличие модели знаний, модели самого процесса тестирования и оценивания. Так можно охарактеризовать в общем все разработки в этой области. Рассмотрим некоторые из них более подробно.

2.1.1 Модели распознавания образа уровня знаний

Традиционная Российская система оценивания знаний обучаемых основана на лингвистических оценках, по которым устанавливается стипендия, производится учет успеваемости, проставляются записи в зачетных книжках за период обучения и др.

Вместе с тем, такая новая образовательная процедура как образовательное тестирование по альтернативному признаку предполагает оценивание уровня знаний в диапазоне от нуля до ста, что порождает проблему распознавания лингвистического образа знаний по результатам такого образовательного тестирования.

Под образом уровня знаний понимаются обучаемые, принадлежащие к множеству (группе), знания которых по “эталону уровня знаний” отнесены к лингвистическим оценкам неудовлетворительно (D), удовлетворительно (C), хорошо (B), отлично (A).

Под распознаванием образа уровня знаний понимается процедура принятия решения о принадлежности конкретного обучаемого к одному из указанных образов на основании сравнения его образовательных достижений при тестировании с характеристиками образа.

При тестировании по альтернативному признаку используется закрытая форма теста, характеристиками которой являются: функция плотности распределения неправильных ответов f(d), приемлемый уровень неправильных ответов q0, неприемлемый уровень неправильных ответов q1, риск заниженной оценки знаний a, риск завышенной оценки знаний b, функция оценивания знаний f(Q), объем образовательной информации N, объем выборки заданий теста n и критерий принятия решений в виде предельного числа неправильных ответов K.

Перечисленные характеристики являются взаимозависимыми, но не обладающими достаточным свойством четкости. В условиях их нечеткости для распознавания образа уровня знаний обучаемых вполне допустимо для нормально реализованной образовательной услуги принять модель распределения неправильных ответов по закону редких случайных событий Пуассона и функцию оценивания уровня знаний сформировать по этому же закону [8].

Поскольку образовательная информация в банке заданий теста N в их выборке n представляется как статистическая совокупность, а задания теста обучаемому в компьютерном варианте всегда для выполнения выдаются последовательно, то для распознавания образа уровня знаний возможно воспользоваться последовательным критерием Вальда. При этом примем дополнительное принципиальное условие, что задания теста однородны по количеству образовательной информации по конкретной учебной дисциплине, поскольку аналитических методов классификации заданий по мере их сложности или трудности пока не разработано.

Будем обозначать гипотезу о приемлемом уровне знаний H0, а гипотезу о неприемлемом уровне знаний H1. Пусть в результате последовательного поступления заданий теста в объеме n получены неправильные ответы d1, d2, d3…dn. При известной функции оценивания знаний по закону Пуассона последовательный критерий Вальда позволяет по выборке объемом n классифицировать обучаемых по уровню знаний на три подобраза по количеству областей принятия решений. Для того, чтобы иметь четыре образа необходимо произвести для каждой из трех областей повторное последовательное тестирование [7].

В предлагаемой процедуре рекомендуется использовать два способа распознавания образа уровня знаний: нормальный и усиленный. При этом задаются только четыре исходные характеристики теста q1, q0, a и b.

По нормальному способу по первой выборке заданий теста n1 производится классификация обучаемых на три предварительные области (уровни): низкая, нормальная и высокая. По второй выборке заданий теста n2=n1 или n2<n1 для уровня низкий ужесточаются исходные характеристики q0 и q1 и обучаемые аттестуются по трем образам D,C и B. Для нормального уровня ужесточаются характеристики a и b и обучаемые аттестуются по трем образам C,B и A. Для высокого уровня тестирование осуществляется без изменения исходным q0, q1, a и b и обучаемые аттестуются на два образа B и A. К достоинствам нормального способа относится то, что обучаемые по второй выборке могут существенно улучшить свои образовательные достижения, что отвечает требованиям закона «О защите прав потребителей продукции и услуг».

По усиленному способу по первой выборке обучаемые классифицируются только на два уровня: низкий и высокий. По второй выборке для низкого уровня ужесточаются характеристики q0 и q1и обучаемые аттестуются только на два образа D и C. По второй выборке для высокого уровня ужесточаются характеристики a и b и обучаемые аттестуются только на два образа B и A. Достоинством усиленного способа является более уверенное распознавание образа уровня знаний и поэтому его рекомендуется использовать в тех случаях, когда снижено доверие к реализуемой образовательной услуге.

Существенным отличием предлагаемых методов распознавания образа уровня знаний при тестировании от известных является заранее заданная погрешность распознавания, заложенная в рисках принятия решений a и b, использование наиболее мощного критерия Вальда и достаточно простые и апробированные в статистическом приемочном контроле способы ужесточения планов тестирования, что позволяет использовать для решения практических задач распознавания образа уровня знаний международный стандарт ИСО 8423-91 «Статистические методы. Последовательные планы выборочного контроля по альтернативному признаку». Это способствует повышению достоверности компьютерного тестирования, что позволяет использовать предложенные теоретические разработки для обоснования методов оценивания знаний в предлагаемом едином экзамене довузовского образования, в процессе реформирования Российской системы образования [7].

2.1.2 Предметно - критериальная методика составления тестов

В каждом курсе есть ключевые моменты, особенно важные темы, без знания которых невозможно усвоение более сложного материала в процессе учебы или которые будут необходимы в работе по специальности. На устном экзамене при личном контакте со студентом преподаватель обязательно оценивает понимание студентом этих тем. При автоматизированном тестировании можно учесть важность каких-либо разделов курса, увеличив долю вопросов по этим разделам в общем количестве вопросов. Но это не всегда удобно для составителя теста, потому что не всегда наиболее важные разделы содержат больше всего материала.

Предлагаемая методика предусматривает учет таких параметров, как степень важности и объем изучаемого материала в разделах курса.

При составлении теста преподаватель делит курс на темы Т1, T2, … , Tk и оценивает степень важности Si и объем изучаемого материала Vi по каждой теме Ti. Количество вопросов ni по каждой теме Ti должно соответствовать (быть пропорционально) объему изучаемого материала Vi.

Минимальное количество вопросов ni по каждой теме Ti определяется в соответствии с методикой с учетом параметра Vi.

Знания по каждому разделу курса оцениваются по пятибалльной (а фактически по четырехбалльной) системе. Оценке «отлично» (5) соответствует вероятность правильного ответа от p3 до 1; оценке «хорошо» (4) соответствует вероятность правильного ответа от p2 до p3; оценке «удовлетворительно» (3) соответствует вероятность правильного ответа от p1 до p2; оценке «неудовлетворительно» (2) соответствует вероятность правильного ответа менее p1. Следует отметить, что вероятности р1, р2 и р3 (0< p1£ p2£ p3<1) задаются преподавателем с учетом структуры теста и могут быть изменены. Абсолютное количество (или доля) правильных ответов, достаточное для получения соответствующей оценки, определяется по специальной методике.

Итак, преподаватель:

·     разбивает курс на темы (разделы) Т1, Т2, … , Тк;

·     определяет их объемы V1, V2, … , Vk и степень важности S1, S2, … , Sk;

·     определяет структуру теста – количество m вариантов ответов на каждый вопрос;

·     задает р1, р2, р3 – уровни знаний студента (или вероятности выбора правильного ответа), соответствующие оценкам: “2” – 0£ p< p1 , “3” — p1<p£ p2 , “4” — p1< p£ p3 , “5” — p3<p£1 .

р1 должно быть заметно больше 1/m – вероятности выбора правильного ответа наугад.

После этого вычисляется минимальное количество вопросов n, необходимое для того, чтобы при заданных параметрах m, p1, p2, p3 и заданном уровне значимости e на основании испытания статистических гипотез можно было поставить оценку «5», «4», «3» или «2» за определенный раздел курса.

Минимальное количество вопросов n будет содержать тест по теме с минимальным значением Vj = min{V1,V2, … , Vk}; nj=n.

Минимальное количество вопросов по темам Т1, Т2, … , Тк определяется пропорционально их объемам, V1,V2, … , Vk.

По ответам студента вычисляется оценка Oi по каждой теме Ti (1 £ i £k ) как результат испытания статистических гипотез

При вычислении итоговой отметки за тест (курс) O учитывается степень важности Si каждого раздела Ti. Получившаяся итоговая оценка О округляется до целых.

Следует отметить, что описанная выше методика позволяет давать студентам тест поэтапно, по мере изучения и усвоения материала отдельных разделов курса, и выводить итоговую оценку с учетом результатов промежуточного тестирования [10].

2.1.3 Метод определения количества образовательной информации

Теория образовательного тестирования должна формироваться на частных законах и закономерностях таких научных направлений как информациология, общая статистика, статистический приемочный контроль, квалиметрия, педагогика, психология, исследование операций, теория принятия решений и др. Прямое применение теоретических разработок из указанных научных направлений не дает заметных практических результатов по оцениванию знаний по причине нематериальности знаний, как объекта исследований. Задачу формирования теории образовательного тестирования можно сформулировать как задачу поиска оптимальной структуры специфических законов и закономерностей тестологии, позволяющую оценить знания с заданной погрешностью.

Для решения задач подобного класса наиболее успешно используются генетические методы, основанные на реализации генетических алгоритмов, позволяющих осуществить направленный перебор частных законов и закономерностей по наиболее приемлемым направлениям для формирования отечественной теории образовательного тестирования.

В отличие от традиционного случайного поиска приемлемых решений, алгоритмы генетического поиска используют аналоги или близость имеющихся решений во многих областях знаний к поиску оптимального набора специфических законов, обеспечивающих объективность, достоверность и точность оценивания уровня знаний, воспроизведенных обучаемыми в процедурах тестирования. Такой направленный перебор частных законов является эволюционным и имеет очень много сходств с операторами, применяемыми в генетических алгоритмах и процедурах, происходящих с живыми организмами в природе.

Рассмотрим применение генетических алгоритмов для формирования специфического закона о количестве образовательной информации. Исходные популяции: Государственный образовательный стандарт, учебная программа, специфическая совокупность учебной информации, банк тестовых заданий. Репродукция: образовательная совокупность. Скрещивание: образовательная совокупность, статистическая совокупность. Мутация: образовательная совокупность информации.

Следующий генетический алгоритм направлен на поиск единицы образовательной информации. Исходные популяции: единица статистической совокупности, единица допуска, информацион. Репродукция: единица образовательной совокупности. Скрещивание: единица образовательной совокупности, единица допуска, информацион. Мутация: условная единица образовательной информации конкретной дисциплины.

Формирование специфического закона тестологии об образовательной информации: образовательная информация является первичной, поскольку независимо от образовательной услуги, формы теста, процедур тестирования и уровня подготовки обучаемых знания по конкретной дисциплине оцениваются только по их соответствию «образу знаний». Вся остальная информация является вторичной и третичной и не может претендовать на такую же роль как образовательная информация.

Любая информация, и в том числе образовательная, для ее последующего применения в заданиях теста должна быть представлена определенным количеством, рассчитанным с использованием условной единицы образовательной информации.

Следующий закон о сохранении образовательной информации определяет, что количество образовательной информации HQ и количество ее энтропии IQ величина всегда постоянная для всех процедур тестирования. Вычисление количества информации и количества энтропии производится по одной и той же формуле. При этом HQ вычисляют только после создания тестов, а IQ до их создания, что позволяет погрешности тестирования определить априорно. Такие вычисления невозможны без условной единицы образовательной информации, под которой понимается наиболее типичное и применяемое понятие в конкретной учебной дисциплине, поскольку обобщенного понятия пока получить не удается. Например, в материаловедении это «свойство материала», в технологии машиностроения это «операция». В последующем количество образовательной информации пересчитывается по аналогии.

Реализация указанных законов об образовательной информации позволяет с достаточной для практической цели точностью определять количество информации в банке тестовых заданий, в одном задании теста, в выборке заданий теста и в выборке выполненных тестов и обеспечивать соблюдение минимально необходимого соотношения между объемом выборки и банком тестовых заданий, соответствующего выбранной погрешности оценивания уровня знаний по образовательным тестам [11].

2.1.4 Информационно-генетические алгоритмы

Основные свойства образовательных тестов предлагается формировать на популяциях частных законов таких научных отраслей как: информациология; психология, педагогика и психодиагностика; логика; теория вероятностей; теория поиска; теория нечетких множеств; теория игр; теория статистических решений; приемочный выборочный контроль.

Эти популяции позволяют реализовать информационно-генетический алгоритм и получить новое поколение специфических законов теории тестирования о (об): первичности образовательной информации; «образе знаний», воссозданном по первичной информации; «образе уровня воспроизведенных знаний»; количестве и энтропии образовательной информации; единстве количества образовательной информации; минимально допустимом соотношении между количеством образовательной информации в «образе знаний» и в выборке заданий теста; условной единице образовательной информации; энтропии нормальной образовательной услуги; не материальности знаний, как объекта исследований; соответствии формы теста и признака оценивания; формах существования функции оценивания знаний; характеристиках доверия к результатам тестирования; правах тестируемых на получение объективной оценки уровня знаний; защите прав тестируемых при воспроизведении ими знаний по образовательным тестам; переходе количественных результатов тестирования в качество «уровня знаний».

В качестве примера рассмотрим применение информационно-генетических алгоритмов на трансформацию международных и отечественных стандартов ГОСТ Р50 779.71-99 и ГОСТ Р50 779.72-99 на статистический приемочный контроль, применительно к задачам тестирования, позволяющих предложить способы выделения «образов уровня знаний» при тестировании по двум независимым выборкам заданий теста закрытой формы, и применению традиционных лингвистических оценок: отлично (I), хорошо (II), удовлетворительно (III) и неудовлетворительно (IV) [12].

Исходные данные для реализации «образа уровня знаний»: N – объем банка заданий (образ знаний); n – объем выборки заданий; a — риск занижения оценки; b — риск завышения оценки; AQL(q0) – приемлемый процент неправильных ответов; RQL(q1) – неприемлемый процент неправильных ответов; С1 – приемлемое число неправильных ответов; степень тестирования – абсолютный объем выборки; уровень тестирования – соотношение между объемом выборки n и числом С в зависимости от предшествующих результатов ответа на задания теста; QL – предельный процент неподготовленных обучаемых, которые могут получить завышенную оценку.

Для нормальной образовательной услуги характерен нормальный процесс восприятия и воспроизведения знаний обучаемыми, нормальный «белый шум». В таких условиях неправильные ответы на задания теста предпочтительного соотношения 5-1 (пять ответов, из которых один правильный) вполне оправданно считать как редкие случайные события и функцию оценивания знаний сформировать по закону Пуассона.

Для конкретного примера задаем N=250; AQL=10%; RQL=20%; QL£10%; a<b; степень II по ГОСТ Р50 779.72-99. Объем первой выборки n1 =20 и критерии принятия решений C1<5, C2=6. Для второй выборки применяем усиленное тестирование n1 =20, C3< 3, C4=4, а для нормального тестирования оставляем исходный план n2 =20, C1< 5, C2=6.

По первой выборке уровень тестирования принят нормальный (классификация), а тестируемые разделяются на две группы: y — недостаточная подготовка и Å — достаточная подготовка. По второй выборке (аттестация) для группы y тестирование производится по усиленному уровню (ужесточенному) и деление производится на два образа IV и III.

Для группы Å уровень остается нормальным, но время на выполнение заданий сокращается. Тестируемые делятся на два образа II и I. Из схемы видно, что по второй выборке тестируемые получают возможность на улучшение результата, что реально защищает их права на объективность оценивания уровня знаний. Далее имеем скрещивание частных законов, которые проявляются в мутации специфического закона тестирования о переходе количества неправильных ответов в качество знаний, проявляющихся в лингвистической форме. Риски (ошибки) попадания в образы по второй выборке α=0,03, β=0,16. Предельный процент тестируемых с низким уровнем знаний, но получивших положительные оценки QL=q0=10%. Разработаны также методы выделения «образов уровня знаний» и для количественного признака, когда каждое выполненное задание имеет количественное значение в диапазоне [0, 1000], однако рамки статьи не позволяют привести такие примеры.

Таким образом, использование информационно-генетических алгоритмов для выделения необходимых свойств образовательных тестов в форме законов тестирования и их реализация для выделения «образа уровня знаний» наглядно показывает необходимость дальнейших исследований по их применению для решения новых задач по оценке уровня знаний в предстоящих единых экзаменах с целью повышения их объективности, достоверности, эффективности и социальной значимости [13].

2.1.5 Модель Раша

Система тестирования на основе модели Раша обладает важными достоинствами, среди которых, прежде всего, необходимо отметить следующие.

Модель Раша превращает измерения, сделанные в дихотомических и порядковых шкалах в линейные измерения, в результате качественные данные анализируются с помощью количественных методов. Это позволяет использовать широкий спектр статистических процедур.

Оценка трудности тестовых заданий не зависит от выборки испытуемых, на которых была получена и, аналогично, оценка уровня знаний испытуемых не зависит от используемого набора тестовых заданий.

Пропуск данных для некоторых комбинаций (испытуемый — тестовое задание) не является критическим.

Сама система тестирования достаточно проста, по сравнению с другими аналогичными системами она характеризуется наименьшим числом параметров — только один параметр уровня знаний для каждого испытуемого и только один параметр трудности для каждого задания.

Модель Раша опирается на четкие и конструктивные понятия "трудность задания" и "уровень знаний". Так, одно задание считается более трудным, чем другое, если вероятность правильного ответа на первое задание меньше, чем на второе, независимо от того, кто их выполняет. Аналогично, более подготовленный студент имеет большую вероятность правильно ответить на все задания, чем менее подготовленный.

Благодаря простой структуре модели существуют удобные вычислительные процедуры для многоаспектной проверки адекватности модели: для всего набора тестовых результатов, для каждого испытуемого, для каждого задания и для каждого конкретного ответа.

"Остатки", получаемые при аппроксимации результатов тестирования моделью можно использовать для выделения различных типов испытуемых.

Однако, несмотря на 40-летний опыт применения этой системы тестирования за рубежом во многих областях знания, прежде всего в образовании, медицине и психологии, до сих пор продолжаются дискуссии об истинной ценности и эффективности системы тестирования на основе модели Раша. До сих пор существуют две крайние точки зрения на эту модель тестирования.

Наиболее убежденные сторонники модели Раша утверждают следующее: "Можно ли собрать или построить или сформулировать данные так, чтобы они соответствовали определению измерения (модели Раша)? Если нет, — то такие данные бесполезны".

Их наиболее последовательные оппоненты утверждают следующее: "Данные — это данные, а модель — это конструкция исследователя, которая подвержена ошибкам". Например, при построении регрессии, выбрасывая те или иные данные, можно получить любую зависимость, но мы тем самым ограничиваем реальный мир данных. Таким образом, мы создаем искусственную переменную, о которой мало что знаем.

Для практики одним из наиболее важных критериев является точность оценивания. Поэтому выбор темы в значительной степени обусловлен противоречивой информацией относительно точности системы тестирования на основе модели Раша. Кроме того, не удалось найти работы, в которых проведен всесторонний анализ точности модели Раша. В известных работах только даются те или иные общие рекомендации по использованию этих моделей.

Чем больше точность, тем лучше работает модель. В случае отсутствия ошибок измерения любая модель в смысле точности измерения работает идеально. Но на практике ошибки всегда есть и поэтому важно знать, насколько точные оценки позволяет получать та или иная модель.

На основе имитационного моделирования исследуются точность оценивания уровней знаний и трудностей заданий, а также число итераций, требуемых для вычисления этих оценок (методом наибольшего правдоподобия) в многофакторной ситуации в зависимости от:

·     диапазона уровней знаний испытуемых;

·     диапазона трудностей заданий;

·     степени соответствия диапазонов уровней знаний испытуемых и трудностей заданий;

·     числа испытуемых;

·     числа заданий;

·     степени соответствия данных модели;

·     доли пропущенных данных.

Для статистической обработки результатов моделирования используется многофакторный дисперсионный анализ [14].


2.1.6 Абсолютная временная шкала измерения знаний

Знания являются абсолютной субстанцией: они либо есть, либо их нет. По крайней мере, так считается в любой форме традиционного оценивания знаний — как на выпускных экзаменах в школах, так и на вступительных экзаменах в вузы. Поэтому интересно проанализировать возможности абсолютных шкал оценки и при переходе к измерению знаний на основе тестов.

В данных исследованиях изучаются возможности так называемой «абсолютной временной шкалы оценивания знаний». Формулируются ее принципы. Формулируются этапы последовательного перехода от традиционной формы экзаменов к тестовой форме этого подхода, на их основе – требования к созданию тестовых материалов этого подхода.

Анализируется опыт использования данного подхода на вступительных экзаменах в Тверском государственном университете на протяжении 4-х лет.

Изучается диагностический потенциал данного подхода. Формулируется принцип «трехуровнего абстрагирования» для диагностических тестирований. Ниже показана «диаграмма знаний» по математике, полученная в результате обработки данных тестирования выпускников одной из школ г.Твери (75 учащихся).

Здесь цифры по окружности – номера тем по математике, по радиусам отложена «успешность ответов» учащихся по той или иной теме.

Как видно, тестирование с использованием абсолютной шкалы оценки имеет ценность диагностическую даже более, чем для итоговых экзаменов.

Изучается уровень достоверности результатов компьютерного тестирования в данном подходе и соотношение «случайного» и «достоверного» в итоговой оценке. На рисунках приведена зависимость (в данном подходе) итоговой оценки по математике от времени тестирования:

Как видно, за все время тестирования (40 минут) в первые 15 минут (первые 4 задания по математике) оценка менялась наиболее заметно. За последние же 10 минут итоговая оценка изменялась не более чем на 10 баллов — доля «случайного» в итоговой оценке.

Таким образом, при использовании абсолютной шкалы данного подхода существует возможность ответить на вопросы: 1) существует ли предел, к которому сходится итоговая оценка с увеличением времени тестирования (или количества заданий теста); 2) какова погрешность «измерения знаний» если прервать тестирование в некоторый определенный момент, например через 40 минут.

Еще одно очевидное преимущество абсолютной шкалы оценивания – итоговая оценка появляется на экране компьютера сразу же после выполнения теста испытуемым [15].

2.1.7 Методика статистического анализа качества обучения

Предлагаемая методика основывается на том, что учебный процесс является частным случаем технологического процесса и ему должны быть свойственны такие же методы анализа, какие приняты для производственных процессов. Однако слепо перенести подобные методики нельзя, особенно это касается содержательного анализа процесса.

Для того чтобы проанализировать учебный процесс нужно иметь, во-первых, критерий качества обучения, а, во-вторых, проследить его изменение во времени. В качестве наиболее информативного критерия качества обучения следует использовать степень обученности учащихся — СОУ. Этот критерий основан на статистике полученных учащимися оценок за выполнение отдельных заданий или контрольных работ. Оценки входят в СОУ с «весом» равным интегралу вероятности получения данной оценки для некоторого «типового» распределения оценок.

В качестве такого «типового» распределения используется стандартное распределение Гаусса с параметрами: среднее значение оценки — 4 и стандартное отклонение — 1,39 /1/. Такое распределение обладает одним особым свойством: для этого распределения значения СОУ и качественной успеваемости совпадают и составляют 0,64. Это свойство выделяет «типовое» распределение среди других распределений со средней оценкой 4.

Расчеты для «типового» распределения показывают, что если СОУ больше 0,76, то обученность «отличная», если СОУ от 0,5 до 0,76, то обученность «хорошая», если СОУ от 0,24 до 0,5, то обученность «удовлетворительная», если менее 0,24, то «неудовлетворительная».

Для оценки изменения СОУ во времени используется известная в математической статистике методика, связанная с критерием «3 s». Согласно этой методике, если какой либо процесс идет нормально, то отдельные значения должны укладываться в интервал «3s» относительно среднего значения (s — стандартное отклонение) с определенной точностью. Те значения, которые не укладываются в заданный интервал, являются отклонениями от стандартного распределения. Чем меньше таких отклонений, тем больше соответствие анализируемого распределения стандартному. Что касается применения этой методики для технологических процессов, то ее надо скорректировать — следует учитывать только те значения, которые выходят за нижнюю границу интервала.

Если взять отношение числа значений попадающих в интервал «3 s» к общему количеству значений, то такую величину можно назвать коэффициентом стандартности распределения, а в случае рассмотрения учебного процесса — коэффициентом отлаженности учебного процесса (КОУП). Расчеты показывают, что если значение КОУП больше 0,94, то процесс можно считать «отлично отлаженным», если КОУП от 0,84 до 0,94 — «хорошо отлаженным», если КОУП от 0,69 до 0,84 — «почти отлаженным», если менее 0,69 — «не отлаженным».

Для общей оценки учебного процесса можно перемножить среднее значение СОУ по предмету за год на КОУП. Полученную величину можно трактовать как фактор качества учебного процесса (ФКУП). Этот фактор имеет большее число градаций, чем СОУ и КОУП. «Отличному» качеству соответствует ФКУП больше 0,71, «очень хорошему» от 0,64 до 0,71, «хорошему» от 0,41 до 0,64, «удовлетворительному» от 0,17 до 0,41 и «неудовлетворительному» менее 0,17.

Описанная методика реализована в виде электронной таблицы. Для примера проанализируем учебный процесс по информатике и информационным технологиям в 8 классе. По программе это первый класс, когда начинается систематическое изучение информационных технологий. Кроме того, следует учитывать, что учащиеся переходят от одного учителя к другому и уровень требовательности к ним существенно повышается. В течение учебного года, учащиеся должны выполнить 9 заданий на оценку, при чем первые 4 задания по работе с операционной средой Windows, а остальные 5 по работе с текстовым процессором Word. В таблице представлены результаты для 8 Б класса, который по уровню обученности оказался средним среди 3-х классов в параллели [16].

2.1.8 Модель адаптивного тестового контроля

Процедура тестирования предполагает анализ ответов на последовательность тестовых заданий определенной сложности. Проведем аналогию с поведением поискового алгоритма оптимизации для некоторой гипотетической функция Y, максимум которой необходимо найти. В задачах оценивания по тестированию — это максимум функции уровня знаний.

Реализация поискового алгоритма сводится к последовательному анализу локальной окрестности функционала Y, оценки градиента и выбора очередной области исследования. Если при оценке градиента имеют место помехи, то нельзя говорить о сходимости алгоритма. В обычном смысле он сходится вообще не будет, а будет “блуждать” вокруг области экстремума.

Аналогично можно поступить в случае тестового контроля. Если ответ правильный, то предполагается, что уровень подготовки студента выше сложности предъявленной задачи и он способен решать задачи заданной сложности, в противном случае — неспособен. Это подобно оценке градиента некоторой гипотетической функции регрессии, в которой градиент сам является случайной величиной.

Предлагается использовать следующий подход. Считаем, что если тестируемый решил задание, то у него появляется желание решить более сложное задание. Если нет — то им будет сделана еще одна попытка решения задания той же сложности. Если оно также не решено, то предъявляется задача пониженной сложности. Если сразу не решено менее сложное задание, то к решению предлагается задача меньшей сложности . Аналогично происходит процесс повышения сложности заданий. В результате, если исключить этап обучения при решении задач, студент выберет для себя определенный уровень сложности, вокруг которого и будет размываться сложность заданий.

Таким образом, функция «уровня знаний» является преобразованием функции «сложности» задачи через «способность решения задач» определенной «сложности». В этом высказывании термины «уровень знаний», «способность решения задач» и «сложности» носят нечеткий характер. Поэтому для формализации этих понятий целесообразно использование аппарата нечетких множеств. Кроме того, в указанной постановке заметна разница между «сложностью» и «способностью решения задач».

Понятия «сложность» и «уровень знаний» — это некоторые нечеткие переменные (только переменные, хотя они и задаются функцией), в то время как «способность решения задач» является нечетким отношением нечетких переменных «сложности» и «уровня знаний». Количество баллов также является переменной, однако эта переменная может не анализироваться, поскольку является преобразованием «уровня знаний».

При моделировании ответов в настоящее время наиболее развит анализ IRT теории, которая использует для моделирования вероятностей правильных ответов логистическую кривую. Проведен сравнительный анализ логистического и нормального распределений. Показано, что рассматривая логистическое распределение очень хорошо аппроксимируется нормальным. В свою очередь нормальный закон является предельным случаем биномиального распределения. Этот факт можно формально интерпретировать так, что «уровень знаний» является долей решенных задач, так как число решенных из общего числа задач при заданной вероятности решения подчинено биномиальному распределению.

Далее предполагается, что сложность задания задана некоторым числовым значением, и в результате выполнена формализация процесса тестирования в виде марковской цепи, в которой вероятности переходов по сложностям определяются на основании логистической кривой. Предполагается, что ответы на задания — независимые величины. Поэтому используется однородная марковская цепь, где состояниями цепи являются меры сложности заданий. Показано, что для построенной цепи существует единственное, не зависящее от начального состояния, стационарное распределение. Найдено аналитическое решение стационарных вероятностей.

Увеличивая дискретизацию сложности, т.е. увеличивая количество состояний марковской цепи показана сходимость к непрерывному распределению. Найдено предельное распределение, которое используется для визуализации преобразований «сложности» в «знание». На практике наиболее естественны случаи, когда оценки имеют постоянную дисперсию или постоянный коэффициент вариации. Постоянный коэффициент вариации объясняется увеличением неопределенности при возрастании «уровня знаний». Постоянная дисперсия может использоваться, когда изменение уровня знаний невелико. Для постоянной дисперсии показано, что преобразование носит экспоненциальный характер. Экспоненциальная функция монотонная и большим значениям функции «уровень знаний» соответствуют большие значения плотности распределения «сложности» решаемой задачи. Соответственно максимум плотности приходится на максимум целевой функции. Для постоянного коэффициента вариации (g) показано, что преобразование описывается степенной функцией, а при g=1 функция плотности вероятности с точностью до постоянного множителя на всей области определения совпадает со средним значением функционала. Таким образом, если есть мера «сложности» задания, то определена и мера «уровня знаний» и она совпадает с плотностью распределения адаптивного алгоритма тестирования.

Если предположить существование функционала «знаний» Y, то стационарные вероятности марковской цепи являются монотонным преобразованием Y. Однако Y неизвестен и этот функционал можно подменить стационарными вероятностями. Такая замена основывается на том, что в поисковом алгоритме при оценки градиента по оценке значений функционала, стационарные вероятности полностью повторяют функционал [17].

2.1.9 Концептуальная модель адаптивного тестового контроля знаний

Была предложена концептуальная модель, состоящая из следующих блоков.

2.1.9.1 Блок целей обучения

Цели обучения определяют успешность процесса обучения. Поэтому их содержание, конкретная формулировка являются важнейшим шагом в технологическом конструировании учебного процесса. Цели образовательной системы в целом определяются законом об образовании. Цели данного учебного заведения определяются Уставом этого учреждения. При формировании целей обучения в рамках учебного предмета основная задача учителя заключается в следующем: по каждому разделу и теме учебной программы он должен определить степень успешности освоения учеником требуемых знаний, умений, и навыков, учесть проявляемое отношение к предмету и на основании этого определить комплекс учебных целей.

2.1.9.2 Блок содержания

В соответствии с концепцией адаптивного тестового контроля было рассмотрено содержание непрерывного курса информатики с 1 по 11 кл. и структурировано на модули. Обучающий цикл должен обеспечивать последовательную ориентацию обучения на намеченные цели. Благодаря такому строению учебный процесс приобретает “модульный” характер. В гуманитарно-естественном лицее N41 г. Ижевска разработана учебная программа по предмету “Основы информатики и вычислительной техники” (ОИВТ), построенная на модульном принципе, который позволяет в максимальной степени учесть быстро меняющееся содержание, дифференциацию учебных классов и учащихся.

Созданная модель содержания курса информатики и представленная в виде образовательных модулей позволяет разработать план теста и его спецификацию по каждому модулю курса с учетом требований образовательного стандарта по школьному курсу информатики. Для оценки изучаемого объема знаний предлагается составить тезаурус –толковый тематический словарь понятий.

Для контроля знаний учащихся методистами ИУУ и учителями информатики в роли экспертов проводился анализ и экспертиза качества созданных в лицее педагогических тестов по анкетной форме согласно разработанной инструкции.

Были определены основные проблемы при конструировании и применении адаптированных тестовых измерителей: модульный принцип структурирования содержания курса информатики, создание плана и спецификации тестов с выделением структурных единиц в виде “учебных единиц”, повышение содержательной валидности тестовых заданий, надежности результатов тестирования учащихся, предварительная диагностическая оценка уровня обученности и тестирование с применением адаптивных тестов для индивидуального точного определения уровня обученности.

2.1.9.3 Блок измерения

1) Таксономическая модель адаптивного контроля знаний определяет таксономию учебных целей в когнитивной области. Один из подходов к описанию целей обучения состоит в указании уровней, ступеней, которых достигает ученик по мере овладения знаниями. Выделяются шесть иерархических ступеней по B.S.Bloom: узнавание, понимание, применение, анализ, синтез, оценка. Формулирование целей обучения можно производить с помощью системы требований к качеству знаний. К двум наиболее известным в мировой литературе классификациям знаний и способностей B.S.Bloom и R.M.Gagne. B.C.Аванесов добавляет свой перечень видов знаний, которые сформулированы исключительно для решения задач педагогического измерения. Объективные и адекватные измерителя успешности обучения - тесты, задачи, упражнения, контрольные задания, контрольные работы, компьютерное моделирование - могут быть использованы на всех уровнях иерархии учебных целей.

Самый распространенный способ описания целей обучения состоит в указании качеств знаний, которыми должны обладать учащиеся в результате обучения. Такой подход обоснован в трудах известных советских дидактов: М.И.Зарецкого, И.Я.Лерненра, И.Т.Огородникова, Е.И.Перовского, М.Н.Скаткина. Руководством к выбору целей обучения является раскрытие содержания качеств знания. Полнота знаний определяется количеством знаний об изучаемом объекте, входящих в школьную программу, глубина - совокупностью осознанных знаний об объекте. Полнота и глубина знаний - связанные, но не тождественные качества. Полнота допускает изолированность знаний друг от друга, глубина же, напротив, предполагает наличие осознанных существенных связей, в разной степени опосредованных.

2) Математическая модель адаптивного контроля знаний определяет уровень обученности учащихся в зависимости от трудности заданий. Теоретической основой адаптивного контроля является теория IRT в сочетании с дидактическим принципом индивидуализации обучения. Целям дифференциации обучаемых служит построение индивидуальных кривых испытуемых по двухпараметрической модели A.Bimbaum.

В рамках классической теории тестов уровень знаний испытуемых оценивается с помощью их индивидуальных баллов, преобразованных в те или иные производные показатели. Это позволяет определить относительное положение каждого испытуемого в нормативной выборке.

Другой подход к созданию педагогических тестов и к интерпретации результатов их выполнения представлен в так называемой современной теории педагогических измерений Item Response Theory (IRT), получившей широкое развитие в 60-е - 80-е годы в ряде западных стран. К исследованиям последних лет в этом направлении относятся труды B.C.Аванесова, В.П.Беспалько, Л.В.Макаровой, В.И.Михеева, Б.У.Родионова, А.О.Татура, В.С.Черепанова, Д.В.Люсина, М.Б.Челышковой, Т.Н.Родыгиной. Е.Н.Лебедевой и др.

К наиболее значимым преимуществам IRT относят измерение значений параметров испытуемых и заданий теста в одной и той же шкале, что позволяет соотнести уровень знаний любого испытуемого с мерой трудности каждого задания теста. Именно на этом свойстве оценок параметров испытуемых и заданий основана организация современного адаптивного контроля знаний. Критики тестов интуитивно осознавали невозможность точного измерения знаний испытуемых различного уровня подготовки с помощью одного и того же теста. Это одна из причин того. что в практике стремились обычно создавать тесты, рассчитанные на измерение знаний испытуемых самого многочисленного, среднего уровня подготовленности. Естественно, что при такой ориентации теста знания у сильных и слабых испытуемых измерялись с меньшей точностью.

3) Автоматизированный контроль знаний с применением компьютера и обработка результатов тестирования на ЭВМ для определения параметров качества тестирования.

2.1.9.4 Блок адаптивного обучения

1) Модели обучения.

Информационные технологии оказывают решающее влияние на все этапы процесса обучения: от предоставления учащимся знаний, умений и навыков до контроля их усвоения, при этом обеспечиваются такие важнейшие характеристики обучения, как качество, избирательность материала, учет индивидуальности, постоянный контроль и самоконтроль усвояемости материала, высокий эффект использования ресурсов учителей. Конгресс Юнеско подтвердил это положение и предложил рассмотреть различные модели использования информационных технологий в компьютерных приложениях и способы организации работы учащихся такие, как классно-урочная модель, проектная и индивидуальная.

2) Педагогические технологии.

Технологический подход к учебному процессу гарантирует достижение поставленных целей обучения. Оперативная обратная связь которая пронизывает весь учебный процесс, является основой последовательной ориентации обучения на цели. Таким образом, отличительными особенностями технологического конструирования учебного процесса являются:

• конкретизация целей обучения в когнитивной области, разработка учебных единиц как эталонов усвоения учебного материала всеми учениками в классе;

• создание системы проверочных работ (диагностических тестов, адаптивных тестов);

• выбор быстрых способов проверки тестов (компьютерные программы);

• подготовка специальных методов корректирующей методики (краткие конкретные тексты, содержащие необходимые теоретические сведения, тренажеры);

• дополнительные задания, повторные тесты.

Весь учебный процесс пронизан возможностями адаптации к индивидуальным особенностям обучающихся в условиях коллективного обучения. Переход к развивающему обучению без адаптации к индивидуальным особенностям учащихся практически невозможен. Именно во время индивидуального контакта учителя с учеником важно иметь инструмент для контрольного тестирования уровней обученности. Контроль проводится учителем и не влияет на оценку, он позволяет увидеть состояние обученности каждого и внести соответствующие коррекции в учебный процесс.

Важно знать заучил, усвоил ли ученик базовый минимум. Остальной материал прорабатывается с ориентацией на непроизвольное запоминание, расширяющее возможности каждого ученика, занятого активной творческой деятельностью[2].

Исходный тест по предложенному модулю, оцененный экспертами, предназначен для предварительного тестирования групп учащихся с целью приближенного определения уровня обученности группы по соответствующему модулю курса. Обработка результатов тестирования была проведена по IRT, определялась групповая адаптивность, на соответствие среднего догита трудности заданий теста Вср. и среднего логита обученности испытуемых Qcp. по выражению:

Агр=1- [Qcp. - Вер.]

Групповая адаптивность Агр.=1 при идеальном соответствии Вер. и Qcp. Результаты предварительного тестирования группы учащихся имеют значения Агр. далеко не равными единице, поэтому следующим шагом является изменение значения групповой адаптивности путем исключения из теста “неработающих” заданий в этой группе тестируемых с Bj“0 и определение уровня обученноети каждого испытуемого, а также получения в этом случае индивидуальных характеристических кривых испытуемых. В дальнейшем определяется истинный балл как сумма всех вероятностей ответов каждого испытуемого на каждое задание теста и оценивается уровень знаний.

Таким образом, появляется возможность для данного испытуемого выбирать соответствующий его уровню набор тестовых заданий и испытуемые могут быть протестированы тестами составленными индивидуально для них. Для группы тестируемых создаются адаптивные тесты, имеющие разную длину и время выполнения для сильных, слабых и средних учащихся данной группы. Такой процесс требует компьютерной технологии создания, хранения тестов, проведения тестирования и обработки результатов тестирования. Для обработки результатов тестирования исходного и адаптивного тестов создана программа, позволяющая определить такие параметры как: надежность, погрешность измерения,, корреляция, определение значений информационной функции и др.

По сути, эта технология дает начало новой организации как тестового контроля знаний, так и учебного процесса в целом, на более высоком научном уровне. В классно-урочной форме обучения этот принцип не мог быть реализован в каких-нибудь заметных масштабах из-за отсутствия требуемых для этого программно - педагогических и программно - инструментальных средств. В условиях массового образования адаптивное обучение дает возможность эффективной практической реализации принципа индивидуализации обучения.

В качестве доказательств ценности полученных результатов исследования, подтверждающих выдвинутую гипотезу, состоящую в том, что применение адаптированных тестовых измерителей позволит повысить объективность в оценке индивидуального уровня обученности учащихся за счет снижения погрешности измерения в выборке учащихся, адаптивной предлагаемым трудностям тестовых заданий; можно привести следующие факты:

1) разработанный комплект тестовых заданий и рекомендованный кафедрой естественнонаучных дисциплин ИУУ УР для оценки усвоения знаний учащихся общеобразовательной школы по предмету “информатика”, применялся для текущего и итогового контроля знаний учащихся общеобразовательных учреждений;

2) применение адаптивных тестов для контроля знаний учащихся приводит к более точной оценки уровня знаний испытуемых с использованием меньшего количества тестовых заданий по сравнению с обычным тестированием за счет снижения погрешности измерения в выборке учащихся, адаптивной предлагаемым трудностям тестовых заданий;

3) эффективные тестовые измерители позволяют определить уровень обученности каждого испытуемого после изучения модуля курса и определить индивидуальную динамику развития учащегося по окончанию изучения всего курса;

4) в лицее, где с 1996 г. применяется адаптивное обучение, а позднее с 1998г. внедряется адаптивный тестовый контроль знаний учащихся, полученные результаты обученности учащихся характеризуются такими уровнями в когнитивной области как анализ, синтез, что обеспечивает прекрасный потенциал для их дальнейшего успешного развития в творческой эвристической оценочной деятельности (участие в олимпиадах, турнирах, научно-исследовательских конференциях и др.).

2.1.9.5 Блок системы мониторинга.

Под мониторингом в системе “учитель-ученик” мы понимаем совокупность контролирующих и диагностирующих мероприятий, обусловленных целеполаганием процесса обучения и предусматривающих в динамике уровни усвоения учащимися материала и его корректировку. Иначе говоря, мониторинг - это непрерывные контролирующие действия в системе “учитель-ученик”, позволяющие наблюдать (и корректировать по мере необходимости) продвижение ученика от незнания к знанию. Мониторинг - это регулярное отслеживание качества усвоения знаний и умений в учебном процессе.

Мониторинг отличается от обычной оценки знаний тем, что обеспечивает учителя оперативной обратной связью об уровне усвоения учащимися обязательного учебного материала. Система мониторинга включает в себя создание непосредственно инструментов контроля знаний и умений и корректирующую методику, ориентированную непосредственно на личность школьника с учетом его индивидуальных достижений в учебном процессе [18].

2.1.10 Технология рейтинговых исследований качества образования с применением нейронных сетей

Основными компонентами процесса оценки качества образования являются[ сбор исходных данных и получение результирующей информации о состоянии системы образования. Ежегодный аналитический доклад «Качество образования в выявим учебном заведении» предполагает получение данных по более чем десяти направлениям. Для выполнения аналитических отчетов и мер по повышению качества образования необходимо проведение результирующих «интеллектуальных» обработок исходных данных Задача определения качественного уровня вуза (его рейтинга) является одним из основных направлений таких обработок.

В информационной системе мониторинга качества образования (ИСМО), создаваемой в Брянском государственном техническом университете, разрабатывается информационная технология рейтинговых исследований качества образования на основе применения нейронных сетей. Программный комплекс нейрокомпьютерной обработки применяется в качестве одного из модулей финишной обработки информации. Выходная информация работа! такого мо­дуля - вычисленные «рейтинги качества» для каждого вуза.

Исследования проводятся по следующим основным направлениям:

классификация - определение принадлежности каждого вуза к конкрет­ной группе качества.

На первом этапе выявляются основные тенденции в образовании, такие, как уровень разрыва в качестве образования, плотность распределения объектов мониторинга по группам качества. При этом возможны следующие варианты реализации первого этапа:

·     глобальная кластеризация — предполагает наличие в исходной выборке данных по отечественным и зарубежным вузам;

·     федеральная кластеризация - наличие в выборке данных по вузам из подчинения Министерства образования Российской Федерации;

·     отраслевая кластеризация - выборка состоит из данных по однотипным вузам (техническим, педагогическим, медицинским, и т. д.);

·     региональная кластеризация - выборка по вузам определенного региона.

Для адекватности кластерных исследований периодичность их проведе­ния должна быть достаточно большой.

На этапе классификации исходные данные но каждому вузу подаются на входы обученной нейронной сети, после чего определяется «рейтинг качества» данного вуза. Многие параметры, по которым происходит опенка качества об­разования, подвержены динамическим изменениям. Поэтому определение рейтинга качества образования в информационной системе будет выполняться ежеквартально.

Ряд последовательных операций на каждом этапе определяет облик соот­ветствующей информационной технологии. Информационная технология эта­па кластерных исследований определяется следующими операциями:

·     получение исходных данных для проведения исследований с сервера ин­формационной системы (отдельно для каждого этапа реализация);

·     проведение кластерных исследований посредством самоорганизующейся карты Кохонена;

·     идентификация «групп качества образования», на которые было разбито исходное множество учебных заведений;

·     присвоение «рейтингов качества» каждой «группе качества».

Завершающая операция на данном этапе может дать заключение о глобальных тенденциях в качестве образования и являться основанием для проведения мероприятий организационно-управленческого плана. Такой тенденцией может быть, например, резкое увеличение количества объектов в группах с низким рейтингом качества

В ИСМО в основу технологии классификации положено использование многослойной нейронной сети, обучаемой по методу обратного распростране­ния ошибки. В данном случае технологический облик этапа определяется осо­бенностями процесса обучения нейронной сети и состоит из следующих опе­раций:

·     формирование исходной выборки для обучения нейронной сети, в которой на входы нейронной сети подаются параметры качества образова­ния, а на выходы-рейтинги качества;

·     подача на входы сети нового примера, соответствующего вузу, рейтинг которого определяется;

·     выполнение предыдущей процедуры для всех вузов, включенных в систему мониторинга.

Выполнение первого этапа, на котором генерируются примеры для обу­чения нейронной сети, может основываться на методе экспертных оценок. Функционирование информационной системы происходит в полуавтоматическом режиме. На персонал информационной системы возлагается обязанность пополнения базы данных параметров оценки качества образования.

Текущая обработка по этапу классификации может изменять рейтинг качества конкретного вуза, но не меняет картину качества в целом. Этим опреде­ляется небольшой период проведения итоговых обработок по этому этапу. Итоговые обработки; проводимые в рамках кластерных исследований, спо­собны изменить общую картину качества [25].

2.2 Собственные разработки

В результате трехлетней работы были разработаны некоторые методы автоматизированного контроля совместно с преподавателями кафедры «СУ и ВТ» Калининградского Технического Университета, созданы реализации теоретических выкладок, о которых хотелось бы рассказать в этой работе.

2.2.1 Тестирование по методу цепочек вопросов

Автоматизированная система контроля знаний, созданная как результат выпускной квалификационной работы и дипломного проектирования в подсистеме «Создание теста» предлагает преподавателю использовать цепочную систему вопросов, когда несколько вопросов объединяются в фиксированную последовательность (цепочку) по некоторому смысловому признаку, определяемому преподавателем, а каждому вопросу в цепочке присваивается некоторый коэффициент важности данного вопроса в данной цепочке. Этот коэффициент изменяется от 0 и сумма коэффициентов вопросов в цепочке принимается равной 1. Смысл коэффициента раскрывается при обработке результатов тестирования: оценка за ответы на вопросы, объединенные в цепочку, выставляется в зависимости от важности вопросов, на которые были даны правильные ответы . Цепочка может содержать неограниченное число вопросов, объединенных по семантическому признаку внутри выбранной темы тестирования. Вырожденным случаем цепочной структуры является наличие в цепочке всего лишь одного вопроса. В этом случае коэффициент его важности, очевидно, устанавливается равным единице.

Хочется отметить, что тест, как правило, создается по отдельной теме конкретной дисциплины, должен иметь небольшой объем, что обуславливается неразделяемостью ресурсов персонального компьютера и необходимостью проводить тестирование большого количества обучаемых в течение ограниченного времени.

2.2.2 Автоматизированный контроль знаний по методике уточняющих вопросов

Концепция базируется на автоматизации методики уточняющих вопросов, широко используемой в педагогической практике для выявления глубины знаний обучаемого. Относительная важность задаваемых вопросов определяется их весовыми коэффициентами, учитываемыми при подведении результатов тестирования. При подготовке к тестированию преподаватель имеет возможность определять или корректировать относительную важность каждого вопроса, устанавливать объем теста N, задавать время, отводимое экзаменуемому на демонстрацию своих знаний, и настраивать оценочную шкалу, по которой суммарный балл, набранный в ходе тестирования, переводится в итоговую оценку.

В ходе автоматизированного тестирования экзаменуемому предъявляется конечное множество т.н. цепочек вопросов. Каждая цепочка представляет собой последовательность близких по тематике вопросов, формулируемых для уточнения знаний экзаменуемого. Очередной вопрос в цепочке задается только после получения ответа на предыдущий вопрос. В зависимости от стратегии тестирования, избираемой организатором контроля знаний, очередной вопрос в цепочке может предъявляться до первой ошибки (“строгий” преподаватель), либо экзаменуемому предоставляется возможность демонстрировать максимум знаний, отвечая на все вопросы данной тематической последовательности.

Каждому j-му вопросу в i-й цепочке присваивается весовой коэффициент Кij, характеризующий его относительную важность в рамках этой цепочки. Значения всех коэффициентов автоматически нормируются так, чтобы их сумма внутри каждой цепочки была равна 1. В цепочку может объединяться неограниченное количество тематически близких вопросов. В вырожденном случае цепочка состоит из единственного вопроса, коэффициент важности которого устанавливается равным 1.

Процедура количественного оценивания знаний, выявленных в ходе тестирования, состоит из трех этапов. На первом рассчитываются баллы, набранные за правильные ответы в рамках каждой отдельной тематической последовательности:

 ,

где Si - балл, выставляемый за ответы на i-ю тематическую последовательность; Кij - весовой коэффициент j-го вопроса в i-й цепочке; Zij=1, если на j-й вопрос в i-й цепочке получен правильный ответ и Zij=0 - в противном случае; Li- количество вопросов в i-й цепочке.

На втором этапе рассчитывается суммарный балл SS за ответы на все вопросы теста с учетом количества цепочек вопросов, на которые экзаменуемый успел ответить за отведенное время:

2 ,

где N –объем теста; Кt – количество цепочек вопросов, на которые экзаменуемый успел ответить за отведенное время t.

На третьем этапе определяется итоговая оценка знаний экзаменуемого. Для этого набранный им суммарный балл SS проецируется на оценочную шкалу, имеющую вид

[0; I1; I2; I3; 1] ,

где 0< I1< I2< I3< 1 – границы интервальных диапазонов оценок, задаваемые преподавателем при организации тестирования.

Итоговая оценка за тест ОT выводится по следующим правилам:

После необходимой доработки и полного документирования демонстрационная версия программы и информация об условиях ее поставки будет опубликована на Веб-сайте Калининградского государственного технического университета [26].

2.2.4 Алгоритмы прямого тестирования в интеллектуальной автоматизированной системе контроля знаний

Прямым тестированием будем называть способ контроля знаний обучаемого, при котором структура теста (т.е. набор и порядок предъявления тестовых заданий) не зависит от фактических ответов обучаемого. Практически все существующие в настоящее время АСКЗ функционируют в режиме прямого тестирования, однако чаще всего они реализуют лишь простейшие и далеко не самые эффективные методики оценивания знаний.

Детальный анализ педагогических приемов и способов “живого” диалогового общения преподавателя и тестируемого показал, что можно выделить по крайней мере пять параметров, значения которых влияют на организацию процесса контроля и оценивания знаний.

Цель тестирования определяется основным вопросом, ответ на который должен быть получен в результате тестирования - а) обладает ли обучаемый равномерным уровнем знаний по всему материалу (проверка широты знаний) или б) обладает ли обучаемый систематическими знаниями по темам предъявляемых ему тестовых заданий (проверка глубины знаний).

Вид тестирования имеет два значения - зачетное или экзаменационное. Результаты зачетного тестирования представляются в двоичном формате: “зачет” или “незачет”. В ходе зачетного тестирования оценка “зачет” выставляется в случае, если обучаемый демонстрирует знания, превышающие некоторое априори заданное пороговое значение.

При экзаменационном тестировании по сумме баллов, набранной обучаемым при выполнении теста, рассчитывается итоговая оценка знаний обучаемого (имеющая в общем случае более двух допустимых значений), для чего сумма баллов проецируется на применяемую оценочную шкалу.

Сложность теста характеризуется уровнем знаний, которые должен продемонстрировать обучаемый при его выполнении. Она определяется степенью сложности тестовых заданий, которые могут предъявляться обучаемому. Исследования позволяют говорить о как минимум трех уровнях сложности тестов – стандартной, повышенной и пониженной.

Уровень контроля определяет степень строгости проверки глубины знаний. Изучение методик проведения зачетных и экзаменационных опросов показывает, что можно говорить о четырех различных уровнях строгости оценивания ответов на тестовые задания (строгий контроль; выявление наиболее важных знаний; выявление простейших знаний; выявление любых имеющихся знаний).

И, наконец, отслеживание условия раннего прекращения тестирования предполагает досрочное завершение теста в ситуации, когда продолжение тестирования становится нецелесообразным. В качестве первого из этих условий рассматривается превышение предельной длительности тестирования. Второе условие – прекращение тестирования и выставление неудовлетворительной оценки при получении априори заданного количества неправильных ответов.

Разнообразие возможных сочетаний значений пяти предложенных характеристик позволяет говорить о существовании весьма обширного семейства алгоритмов прямого тестирования знаний (например, экзаменационного оценивания глубины знаний с повышенной сложностью и строгим контролем, либо зачетного оценивания широты знаний со стандартной сложностью и контролем предельной длительности тестирования и т.п.).

Подсчет показывает, что в состав этого семейства входят, по крайней мере, 24 алгоритма оценивания широты знаний и 78 алгоритмов оценивания глубины знаний, что позволяет организатору тестирования выбирать в конкретной ситуации именно тот алгоритм, который наилучшим образом соответствует требованиям действующих инструктивно-методических документов, либо который он считает наиболее адекватным собственному представлению об организации контроля знаний [27].

Рис. 1 – Свойства алгоритмов прямого тестирования

2.2.5 Метод адаптивного автоматизированного тестирования знаний

Адаптивным тестированием знаний будем называть способ экзаменационного контроля уровня подготовки обучаемого, при котором процедура выбора и предъявления ему очередного тестового задания на (t+1)-м шаге тестирования определяется ответами обучаемого на предыдущих t шагах теста. Математическую основу такого учета составляет предложенная в [2] модель объединения тестовых заданий в тематические последовательности со взвешенным ранжированием как отдельных заданий, так и целых последовательностей и выведением итоговой оценки за тест с учетом нормированной суммы баллов, накапливаемой за выбранные обучаемым варианты ответов.

Пусть V = {vj},  - множество тестовых заданий, которые могут использоваться для формирования теста, VT = {vi}, VT Í V,  - тестовые задания, отобранные для проверки знаний конкретного тестируемого, причем N << Nmax. Обозначим St нормированную относительно количества заданных вопросов сумму баллов, накопленную обучаемым за ответы на 1, 2, …, t-м шагах теста, причем t £ N, а 0 £ St £ 1. Шкалу итогового оценивания знаний ZI упрощенно представим в виде

ZI = [0; I1/O1; I2/O2; …; In/On; 1/On+1]

где 0 < I1 < I2 < …< In< 1 – границы оценочных интервалов; Oi,  - оценка, которой характеризуются знания тестируемого в случае, когда накопленная им сумма баллов St попадает в интервал (Ii-1,Ii].

Поскольку N << Nmax, то согласно теории вероятностей сумма баллов St может использоваться для оценивания знаний обучаемого с доверительной вероятностью Pt< 1 и, следовательно, при выведении итоговой оценки знаний по результатам t £ N шагов тестирования необходимо учитывать ненулевой интервал неопределенности ±DI>0, в котором с вероятностью Pt находится истинное значение Stи: StиÎ[St-DI;St+DI]. C практической точки зрения это означает, что при проецировании значения St на шкалу ZI следует принимать во внимание не только сегмент этой шкалы (Ii,Ii+1], в который попадает значение St, но и его зонирование с учетом интервала неопределенности DI.

При попадании суммы баллов в интервал Ii+DI<SN<Ii+1-DI сумма баллов SNи, соответствующая истинной оценке знаний, ни при каких условиях не попадает в зоны неопределенности (Ii±DI) и (Ii+1±DI). В этой ситуации имеется достаточно оснований для выставления оценки Oi+1 сразу по завершении первого этапа тестирования, поэтому дальнейшее предъявление дополнительных или уточняющих вопросов нецелесообразно [28].


Заключение

Начавшееся в нашей стране с начала 80-х годов внедрение в учебных заведениях новых информационных технологий – обучение при помощи педагогических программных средств, а также использование тестирующих программ – дало более чем скромные результаты. Среди многих известных причин этого (финансовые, технические, организационные, методические трудности) отметим одну: психологическое неприятие учителями “компьютерных” методов обучения и контроля знаний, особенно высококвалифицированными, творчески работающими. У них для этого есть основания: налицо большое количество плохих программ, не отвечающих главным психолого-педагогическим принципам обучения, неудачно реализующих основные этапы процесса усвоения знаний; как правило, отсутствует методическое сопровождение; оказываются непомерно большими затраты времени и сил на освоение компьютеров, изучение программы, поддержку соответствующей инфраструктуры; при использовании даже хороших систем нивелируется роль учителя в учебно-воспитательном процессе, исчезает творческий характер его труда; отсутствует система поощрения педагогов-новаторов, осваивающих новые информационные технологии.

Эту ситуацию, на мой взгляд, можно и хочется изменить. Технический прогресс стремительно продвинулся вперед, современная вычислительная техника и системы телекоммуникаций достигли огромных результатов за последние несколько лет в плане быстродействия, объемов обрабатываемой и хранимой информации. Развитие систем проектирования программ (объектно-ориентированные системы визуального программирования, СУБД, системы моделирования нейронных сетей, и т.п.) дало в руки инженеров и системных аналитиков мощнейшие средства разработки и внедрения в жизнь самых фантастических проектов. Отсутствие финансирования в области образования в нашей стране тормозит, как мне кажется, процессы создания качественных программных продуктов общего применения, смещая акцент в сторону коммерческих интеллектуальных мультимедийных курсов, создание которых могут себе позволить только крупные «софтверные» компании.

В данной работе частично были проанализированы существующие методы и модели, позволяющие построить так называемую интеллектуальную автоматизированную систему контроля знаний. Практические реализации собственных теоретических разработок в этой области уже есть: на сегодняшний день готова демонстрационная версия программы, проводящей тестирование по методу цепочек вопросов. Этот метод не является «интеллектуализацией» процесса контроля знаний, а является первым шагом к созданию системы, позволяющей преподавателю проводить текущий и финальный контроль более быстро, объективно и эффективно. Реализация методов адаптивного тестирования, использование нечеткой логики и инженерии знаний позволит достичь больших результатов в этой области.


Список использованной литературы

1.    Касьянова Н. В. «Cоздание системы компьютерного контроля как результат новых информационных технологий в обучении», Восточноукраинский Национальный Университет (ВНУ), Украина, г.Луганск // материалы конференции ИТО-2001;

2.    Бренич С.Г. «Проблема искусственного интеллекта. Кибернетика.» // реферат;

3.    Иващенко А.И. «Контроль знаний и умений учащихся по математике в школе» // дипломная работа;

4.    Ваньков Е.А. «Технологии компьютерного тестирования» // реферат;

5.    Кузнецов А. А. «Универсальная автоматизированная обучающая система. Подсистема контроля знаний.» // дипломный проект;

6.    Соловей Е.В. «Автоматизированная система контроля знаний «Цепь знаний». Сетевая версия» // дипломный проект;

7.    http://ito.edu.ru/2001/ito/VI/VI-0-28.html;

8.    Моисеев В.Б., Пятирублевый Л.Г., Таранцева К.Р. «Информационный подход к выбору решений в системах адаптивного тестирования». Материалы конференции «Анализ качества образования и тестирование». 22.03.2001, Москва, МО РФ, МЭСИ

9.    Моисеев В.Б., Пятирублевый Л.Г., Таранцева К.Р. «Распознавание образа обучаемых по уровням их знаний в компьютерном тестировании». Сборник материалов Интернет-конференции «Проблемы перехода классических университетов в систему открытого образования». Москва. МЭСИ, 2001

10. http://ito.edu.ru/2001/ito/VI/VI-0-19.html;

11. http://ito.edu.ru/2001/ito/VI/VI-0-27.html;

12. Моисеев В.Б., Усманов В.В., Таранцева К.Р., Пятирублевый Л.Г. «Оценивание результатов тестирования на основе экспертно-аналитических методов». Журнал «Открытое образование», №3, 2001, с.32-36.;

13. http://ito.edu.ru/2001/ito/VI/VI-0-12.html;

14. http://ito.edu.ru/2001/ito/VI/VI-0-1.html;

15. http://ito.edu.ru/2001/ito/VI/VI-0-32.html;

16. http://ito.edu.ru/2001/ito/VI/VI-0-2.html;

17. http://ito.edu.ru/2001/ito/VI/VI-0-17.html;

18. http://www.tl.ru/~gimn13/ped/doclad/shuhard.html;

19. Аванесов B.C. Композиция тестовых заданий. Учебная книга для преподавателей вузов, учителей школ, аспирантов и студентов пед.вузов. 2 изд., испр.. и доп. М.: Адепт;

20. Границкая А.С. Научить думать и действовать: Адаптивная система обучения в школе: Кн. для учителя. М.: Просвещение;

21. Казаринов А.С., Култышева А.Ю., Мирошниченко А.А. Технология адаптивной валидности тестовых заданий: Учебное пособие. Глазов: ГГПИ, 1999;

22. Майоров А.Н. Тесты школьных достижений: конструирование, проведение, использование. Издание второе - СПб.: Образование и культура, 1997;

23. Кальней В.А., Шишов С.Е. Технология мониторинга качества обучения в системе “учитель-ученик”: Методическое пособие для учителя. М.: Педагогическое общество России, 1999;

24. Челышкова М.Б. Разработка педагогических тестов на основе современных математических моделей: Уч.пособие. М.: Исследовательский центр проблем качества подготовки специалистов, 1995;

25. П.Ю. Шалимов, В.И. Попоков «Технология рейтинговых исследований качества образования с применением нейронных сетей»

26. И.Д. Рудинский, Е.В. Соловей «Автоматизированный контроль знаний по методике уточняющих вопросов». Сборник материалов конференции, 2001

27. И.Д. Рудинский, Е.В. Соловей «реализация алгоритмов прямого тестирования в интеллектуальной автоматизированной системе контроля знаний». Сборник материалов конференции, 2001

28. И.Д. Рудинский «Метод адаптивного автоматизированного контроля знаний». Сборник материалов конференции, 2001


Информация о работе «Методы и модели интеллектуального автоматизированного контроля знаний»
Раздел: Информатика, программирование
Количество знаков с пробелами: 100800
Количество таблиц: 1
Количество изображений: 2

Похожие работы

Скачать
131566
7
26

... , повысить вероятность выявления дефектов и, с другой стороны, снизить различные технико-экономические затраты на проведение контроля. 2. Проектирование системы контроля знаний 2.1 Общая структура системы По своей логической структуре система состоит из трёх частей: -            подсистемы конфигурирования теста; -            подсистемы тестирования; -            подсистема сервиса. ...

Скачать
68203
5
3

... состоит в том, что педагогический контроль обученности впервые рассматривается как самостоятельная исследовательская проблема; экспериментально проверена эффективность метода тестирования как средства педагогического контроля обученности старшеклассников. Практическая значимость заключается в том, что выводы и результаты курсовой работы могут быть использованы в учебно-воспитательном процессе ...

Скачать
84959
8
2

... < 1.0 3 6 9 12 Согласно приведенным данным в зависимости от дидактических целей обучения студенты выполняют тесты заданного уровня и знания могут оцениваться по принятой в Агролицее шкале (2 уровень усвоения). Далее, исходя из К усвоения разработка системы рейтинг-контроля проводится по следующему алгоритмы. После изучения дисциплины рассчитывается общий К усвоения каждого студента ...

Скачать
160830
3
0

... которым в течение года предстояло усвоить довольно большой объем новой для них информации и овладеть учебными умениями сравнительно-аналитического характера. Разработанная мною модель-конструкт тестовой системы контроля знаний школьников по истории содержит тесты различных типов. Большая часть тестов направлена на проверку умений учащихся выполнять задания с подсказкой (тесты 1-го уровня) или по ...

0 комментариев


Наверх