Структура контрольно-измерительных материалов экзаменов (тестов) с высокими ставками
Содержание
Введение
Глава
1. Тестирование с высокими ставками
.1
Тестирование, как способ оценки знаний обучающихся
.2
Измерительные инструменты (КИМ) для экзаменов с высокими ставками: преимущества
и недостатки разных форм заданий
.2.1
Задания закрытого типа
.2.2
Задания открытого типа
.2.3
Задания с выбором правильного ответа и задания с коротким и развернутым
ответом, какие из них лучше?
.3
Мировая практика экзаменов с высокими ставками: структура КИМ
.3.1
Страны СНГ
.3.2
Англия
.3.3
США
.3.4
Франция
.3.5
Россия
.4
Оптимальная структура теста
Глава
2. Практическая часть - симуляция новой структуры теста. Моделирование заданий
.1
Методология исследования
.2
Анализ характеристик исходного и симулированных тестов
.3
Обсуждение
Заключение
Список
литературы
Приложение
Введение
Обучение является неотъемлемой частью нашей
жизни, также как и оценка знаний, полученных в ходе него. Только посредством
оценки можно отследить, «получают ли необходимые знания и навыки конкретные
учащиеся» [2]. Одним из важнейших этапов окончания школы является выпускной
экзамен, результаты которого должны отражать уровень усвоения школьного
материала выпускником.
В некоторых странах, в том числе и в России,
результаты такого тестирования являются вступительными в вузы, что дает ему статус
экзамена «с высокими ставками». Поступление в вуз для многих выпускников
является приоритетной задачей после окончания школы, и очень многое зависит от
итогового балла, набранного учениками, поэтому тест должен быть очень высокого
качества. Необходимо учитывать множество деталей: какой должна быть структура
теста, какие типы заданий и какое их количество он должен включать, чтобы быть
оптимальным и с точки зрения минимизации ошибки измерения и относительной
несложности массового проведения оценки и так далее.
Возьмем, как пример, Единый Государственный
Экзамен (далее ЕГЭ), который можно отнести к экзаменам с высокими ставками, что
означает высокую степень важности полученных по нему результатов для
выпускников 11 класса. ЕГЭ объединяет в себе две функции:
выпускного экзамена, то есть оценки степени
освоения конкретным учеником школьной образовательной программы;
вступительного экзамена в вуз, то есть оценки
готовности продолжения обучения учеников в высших учебных заведениях, на основе
выстраивания рейтинга по результатам тестирования [2].
Структура ЕГЭ постоянно видоизменяется, и одним
из таких изменений является то, что постепенно убираются задания с выбором
одного правильного ответа, как результат сформированного убеждения, что это
вопросы-«угадайки». Но так ли это на самом деле? Заслуженно ли эти задания
исключаются из структуры тестирования? Это нам предстоит выяснить в рамках
диссертационной работы.
В отличие от многих зарубежных стран, где
существуют стандарты разработки и применения тестирования в образовании, в
России таких стандартов пока нет, и все изменения, происходящие в
контрольно-измерительных материалах (далее КИМах), являются политическими
решениями. Стандарты представляют собой схему процесса создания теста, все
этапы его разработки - от анализа и отбора содержания до анализа качества
тестовых заданий. Принятие такого стандарта придаст всем разрабатываемым
инструментам оценивания, любым изменениям в существующих инструментах (в
частности, ЕГЭ) научное, а не только политическое обоснование, и доверие к ним
в профессиональном сообществе и обществе в целом существенно повысится.
Стандарт должен учитывать лучшие международные практики и адаптировать их к
российской системе образования [4].
Актуальность исследования вытекает из
необходимости научно - обоснованных подходов к разработке любых тестов, но
особенно тестов с высокими ставками, предназначенных для проверки соответствия
знаний образовательным стандартам. Вопрос оптимальности структуры экзаменов с
высокими ставками, таких как ЕГЭ, актуален на сегодняшний день по нескольким
причинам: во-первых, от них зависит дальнейшая траектория жизни и обучения
выпускников. Во-вторых, самим вузам необходимо отобрать наиболее
«подготовленных» абитуриентов, особенно на бюджетные места: так как всех принять
невозможно, то решение принимается в большинстве случаев по результатам ЕГЭ.
Поэтому необходимо, чтобы тест с высокими ставками соответствовал ряду
требований. Он должен быть максимально валиден, надежен, информативен и
обеспечивать минимальную ошибку измерения участников тестирования. Для
обоснования той или иной структуры теста, необходимо провести ряд исследований,
позволяющих говорить о ее оптимальности.
Объект исследования - экзамены (тестирование) с
высокими ставками.
Предмет исследования - структура
контрольно-измерительных материалов экзаменов (тестов) с высокими ставками.
Проблема исследования состоит в отсутствии в
российском профессиональном сообществе единого мнения о структуре экзаменов с
высокими ставками, есть разные точки зрения, но, самое главное, ни одна не
основана на научных исследованиях (не обоснована эмпирическими данными).
Исследовательский вопрос: какая структура теста
с высокими ставками (типа ЕГЭ) является оптимальной с точки зрения
удовлетворения всем требованиям к такому экзамену?
Цель исследования - определить наиболее
оптимальную структуру тестов с высокими ставками на примере теста аналогичного
КИМ ЕГЭ (имеющего такую же сложную структуру).
Задачи исследования:
проанализировать исследования, посвященные
изучению заданий различных типов в тестировании, в первую очередь, заданий с
выбором одного правильного ответа и открытых заданий;
провести сравнение эффективности заданий разных
типов, а также сравнение эффективности тестов с различной структурой (различной
комбинацией заданий разных типов);
выяснить, какая структура теста является
оптимальной.
Гипотеза исследования - комбинация заданий
различных форм способна обеспечить оптимальную структуру экзаменов с высокими
ставками.
В рамках диссертационной работы предполагается
качественная методология исследования: общенаучные методы теоретического
исследования - классификация, сравнение, аналогия, описание и объяснение,
анализ и синтез, обобщение, и количественная - анализ теста аналогичного КИМ
ЕГЭ в рамках современной теории тестирования, симуляция различной структуры
исходного теста - исключение некоторых заданий и добавление смоделированных
заданий для анализа и сравнения получившихся характеристик.
Результаты диссертационной работы делятся на:
теоретические: оценка необходимости заданий с
выбором правильного ответа в тестировании и, в частности, в тестах с высокими
ставками с учетом мирового опыта;
эмпирические: предложена оптимальная структура
теста с высокими ставками на примере теста аналогичного КИМ ЕГЭ.
Глава 1. Тестирование с высокими
ставками
.1 Тестирование, как способ оценки
полученных знаний
Технологии тестирования широко используются в
мировой практике для объективного контроля знаний и умений обучаемых,
установления степени их соответствия образовательным стандартам и для отбора
учащихся для дальнейшего обучения.
Создание теста состоит из множества этапов [5],
одним из которых является разработка заданий. Это, очевидно, особенно важный
этап, и для его успешной реализации необходимо, чтобы его выполняли люди со
специальными знаниями и навыками. Может показаться, что нет ничего сложного в
том, чтобы составить задания для проведения оценки того, что усвоили ученики за
период своего обучения. На самом же деле, это целое искусство составить такое
задание, чтобы оно оценивало именно то, что было задумано, чтобы оно было
понятным, корректно составленным, дифференцировало слабых испытуемых от сильных
и многое другое: есть множество нюансов, которые следует учитывать при создании
КИМов для их более высокой эффективности.
«Эффективным можно назвать тест, если он лучше,
чем другие тесты, измеряет знания студентов … с меньшим числом заданий,
качественнее, быстрее, дешевле и все это по возможности в комплексе» [1]. В
настоящей работе мы под «эффективным» будем понимать тест, который измеряет
испытуемых с минимальной ошибкой измерения, и при этом удовлетворяет критериям
качества. Оптимальной мы будем называть такую структуру теста, которая
обеспечивает большую его эффективность. Хорошо составленный КИМ имеет высокую
валидность (измеряет то, что должен измерять и дает результаты, отражающие
измеряемый конструкт) и надежность (обеспечивает минимальную ошибку измерения).
Это означает, что он должен:
быть валидным по содержанию, т.е.
репрезентативно и полно отражать содержание проверяемой учебной дисциплины;
удовлетворять требованиям с точки зрения
психометрического качества в рамках выбранной теории (классической или
современной) и выбранной модели измерения;
дифференцировать более подготовленных учащихся
от менее подготовленных;
не содержать заданий, дискриминирующих
какую-либо группу участников;
быть одномерным, т.е. измерять только тот
конструкт, который должен. Это означает, что тест не должен содержать заданий,
требующих применения навыков, которые не измеряются тестом.
При разработке теста, необходимо решить, задания
какой формы он будет включать - открытой, закрытой или и той, и другой. Выбор
формы - это всегда ответственность разработчика. При этом надо учитывать, что
выбор формы задания определяется содержанием задания (той областью знаний,
которая оценивается) и уровнем проверяемых умений [25].
Важным элементом является и количество заданий,
которое закладывает разработчик в тест: «чем больше количество заданий, тем:
более надежным будет создаваемый тест;
больший объем информации мы можем получить»[5].
Однако вместе с увеличением количества заданий в
рамках одного теста увеличивается и время его выполнения, что может приводить к
негативным последствиям - таким, как утомление, которое может привести к
увеличению числа случайных ошибок, снижению скорости выполнения заданий [5].
Для того чтобы этого не происходило, как один из вариантов, можно грамотно
сочетать задания различных типов, делая тест не слишком длинным, но и не
слишком коротким.
Далее в работе мы рассмотрим задания разных типов
вместе с их преимуществами и недостатками.
1.2 Формы и типы заданий в
тестировании, их достоинства и недостатки
В КИМ для экзаменов с высокими ставками могут
входить задания различных форм, которые можно разделить на две большие группы:
открытые и закрытые формы заданий. Они, в свою очередь, также могут делиться на
несколько типов, которые мы рассмотрим далее.
1.2.1 Вопросы закрытого типа
Вопросы закрытого типа можно разделить на:
задания с выбором одного правильного ответа;
задания с выбором нескольких правильных ответов;
задания с двумя вариантами - верно/неверно.
Чаще всего в тестировании используются задания с
выбором одного правильного ответа. Такие задания состоят из вопроса (стема -
постановки вопроса или задачи) и нескольких вариантов ответа (обычно от трёх до
пяти), один из которых является правильным, остальные предложенные варианты
называются «дистракторами» и призваны отвлечь испытуемого от правильного
ответа, поэтому они не должны быть очевидно неверными ответами, а наоборот,
должны быть одинаково правдоподобными наравне с правильным ответом.
Халадина Т. и Даунинг М. сформулировали 43
правила по написанию заданий с выбором одного правильного ответа и разделили их
на три категории: (1) общие правила по написанию заданий, (2) составление
вопроса (стема) и (3) разработка вариантов ответа [22]. Затем они провели
валидизацию этих правил, некоторые из которых были пересмотрены.
Как и все формы заданий, формат задания с
выбором одного правильного ответа имеет преимущества, главными из которых
являются их эффективность и объективность, задания с выбором правильного ответа
позволяют оценивать большое количество кандидатов с минимальным вмешательством
человека [26]. Также задания с выбором правильного ответа требуют меньше
времени на выполнение, чем задания других форм, что позволяет включить большое
число таких заданий и тем самым шире охватить содержание дисциплины. При
условии, что такие задания хорошо составлены, они могут хорошо дифференцировать
испытуемых с высоким и низким уровнем способностей [34]. Однако для того, чтобы
сделать задание с выбором правильного ответа качественным, необходима высокая
квалификация разработчика и достаточно много времени [16].
Некоторые авторы отмечают, что задания с выбором
одного правильного ответа чаще проверяют только фактические знания, а не
когнитивные навыки [29]. Другие считают, что хорошо построенные задания с
выбором правильного ответа могут также оценивать способности более высокого
порядка, такие как интерпретация, обобщение и применение знаний, а не служить только
для проверки знания единичных фактов [7, 12, 20, 21].
В качестве примера проверки умения применять,
добывать и оценивать информацию с помощью заданий с выбором одного правильного
ответа можно взять американский экзамен SAT, в котором превалируют задания с
выбором одного правильного ответа, но, например, в разделе «чтение» необходимо
не просто выбрать правильный ответ, но и выделить кусок текста, на основе
которого испытуемый выбрал свой ответ.
Актуальным остается вопрос по поводу того,
сколько вариантов ответа должно быть в задании с выбором одного правильного
ответа. Некоторые исследования говорят, что достаточно трёх вариантов ответа [27].
Однако в этом случае вероятность угадывания правильного ответа увеличивается до
1/3. Логичным представляется, что пять вариантов ответа снижают эту вероятность
до 1/5, но составление такого количества правдоподобных дистракторов может
оказаться довольно затруднительным.
Преимущества вопросов с выбором правильного
ответа [4]:
полнота охвата по содержанию: во-первых,
содержание практически любой дисциплины может быть отражено в этой форме
заданий, во-вторых, эта форма дает возможность более полно охватить содержание
проверяемой учебной дисциплины;
полнота охвата по проверяемым уровням учебной
деятельности: от простого запоминания до более сложных уровней, таких, как
понимание, применение знаний в стандартной и нестандартной ситуации, анализ и
т.д.;
эффективность: быстрота тестирования с помощью
заданий этой формы позволяет предложить больше заданий в одно и то же время, а
значит, покрыть гораздо больше тем содержания предмета;
технологичность: задания этой формы могут
проверяться автоматически и легко адаптируются в компьютерную форму
тестирования;
простота подсчета первичных баллов учеников: как
правило, при оценивании заданий этой формы используется дихотомическая оценка,
ученик получает 1 балл за правильно выполненное задание и 0 баллов в противном
случае;
объективность: существует эталон правильного
ответа, поэтому эти задания не требуют проверки человеком;
возможность обратной связи: дистракторы,
выбранные студентами, могут дать педагогу информацию о проблемах в обучении.
Недостатки заданий с выбором одного правильного
ответа:
высокая сложность, а отсюда ресурсозатратность,
составления качественного задания;
реже делаются тестовые задания, требующие
высоких когнитивных навыков, потому что составить задание, требующее оценки
фактического знания, легче;
зависимость от навыков чтения тестируемого;
возможно угадывание правильного ответа.
Гадание правильного ответа можно разделить на
два вида:
произвольное (random)
- когда испытуемый случайно выбирает ответ среди всех вариантов;
непроизвольное, информированное (informed),
когда испытуемый выбирает ответ, исключая какие-то варианты, иногда очевидно
неправильные.
В статье Калиновой Г.С. в журнале
«Педагогические измерения» автор выделяет следующие недостатки заданий с
выбором одного правильного ответа в «итоговой аттестации»: «невозможность
проверять материал творческого характера, умения применять, добывать и
оценивать приобретённые знания; трудоёмкость разработки качественного
инструментария; сложности в выявлении причины пробелов в усвоении определённого
материала. К числу главных недостатков заданий с выбором ответа относят
присутствие элемента случайности, угадывания верного ответа. Для исключения
угадывания при составлении вариантов в экзаменационную работу включаются
задания с выбором одного ответа, имеющие результаты выполнения ниже 85%, а
дифференцирующую силу выше 25%» [3].
Еще одним типом заданий закрытой формы являются
задания с выбором нескольких правильных ответов, которые, как правило, связаны
с идеей проверки так называемых классификационных знаний, или иначе, проверки
знаний принадлежности отдельных видов или объектов к тому или иному роду, виду,
классу. Вероятность случайного ошибочного выбора будет возрастать по мере
увеличения, в одном задании, числа неправильных ответов. Особенностью заданий
такого типа является то, что в них приходится определять не только правильные
ответы, но и оценивать самому испытуемому полноту своего ответа, а
следовательно, эти задания по форме и содержанию труднее, чем задания с выбором
одного правильного ответа [1]. Необходимость выбрать несколько правильных
ответов в задании уменьшает вероятность угадывания испытуемыми.
Также к заданиям закрытой формы относится
задания с двумя вариантами ответов верно/неверно. Этот тип заданий имеет все
положительные стороны задания с выбором одного правильного ответа из нескольких
предложенных, минусом же является высокая вероятность угадывания правильного
ответа, а именно 50%. По этой причине такие задания практически не используются
в экзаменах с высокими ставками.
К заданиям закрытого типа также можно отнести:
задания на установление соответствия и задания на установление правильной
последовательности. Такие задания также используются в экзаменах с высокими
ставками (в частности, могут входить в часть В ЕГЭ по различным предметам), но
в рамках нашей работы подробно на них мы останавливаться не будем.
1.2.2 Задания открытого типа
Задания открытой формы можно разделить на два
типа:
задания с кратким ответом;
задания со свободно конструируемым ответом.
Отметим положительные и отрицательные стороны
открытых заданий.
Преимущества заданий с кратким ответом:
. Полнота охвата по содержанию. Содержание почти
любой дисциплины может быть отражено в этой форме заданий.
. Их сравнительно легко разрабатывать (по
сравнению с другими формами).
. В силу однозначности правильного ответа
проверка результатов носит объективный характер, может быть автоматизирована.
Не требуется экспертная проверка.
. Отсутствует угадывание правильного ответа.
Недостатки заданий с кратким ответом:
1. На выполнение одного задания уходит больше
времени, чем, например, на задания с выбором одного правильного ответа.
2. Проверятся меньшее число элементов
содержания программы.
Преимущества заданий со свободно конструируемым
ответом:
. Являются эффективным способом для измерения
когнитивных знаний более высокого уровня и подходят для измерения способностей
учеников организовывать и интегрировать информацию, логически выстраивая свой
ответ.
2. Подготовка к таким заданиям имеет
положительный эффект на процесс обучения. Ученики не просто запоминают факты, а
пытаются понять материал, увидеть взаимосвязи и т.д. В реальной жизни вопросы
не будут представлены в формате множественного выбора, а будут требовать от
учеников умения выстраивать и представлять свои мысли.
Перечислим основные недостатки заданий со
свободно конструируемым ответом:
1. Субъективность: такие задания требуют
экспертной проверки, и различные факторы могут повлиять на оценку и выставление
баллов, например:
) Ответ на вопрос задания, который проверяется
после очень хорошего ответа, может быть оценен хуже, чем, если бы он проверялся
после плохого ответа.
) Если ответ начался с хорошей аргументации, то
последующие доводы могут быть оценены выше, чем, если бы ответ начался с
плохой/неправильной аргументации, в этом случае последующие хорошие ответы
могут быть оценены ниже.
) Проверяющий может иметь некоторые ожидания на
счет того, чью работу он проверяет, которые могут повлиять на выставленные
баллы.
) Качество почерка, опрятность работы, лексика и
грамматические ошибки или их отсутствие также могут повлиять на отношение
проверяющего.
. Очень много времени занимает ответ на вопрос
задания и последующая проверка;
. Из-за того, что ответ на один открытый вопрос
требует достаточно продолжительного времени, захватываемая область содержания
узкая;
. Проверка занимает много времени и начисление
баллов является субъективным решением проверяющего.
1.2.3 Задания с выбором правильного
ответа или задания с кратким и развернутым ответом, какие из них лучше?
Считается, что задания с выбором правильного
ответа направлены лишь на оценку низших уровней когнитивных процессов, в
отличие от заданий с кратким ответом. Также небезосновательно считается, что
они имеют вероятность угадывания правильного ответа, что понижает надежность
оценивания менее подготовленных тестируемых [32]. Но многие исследования
показывают, что задания с выбором правильного ответа также могут оценивать
когнитивные способности более высокого порядка, чем принято считать [19, 30].
В статье Elizabeth
Ligon и ее коллег [15]
на основе изучения лабораторных (labor
based) исследований и
исследований, проведенных в классах (classroom
based), делается вывод,
что, несмотря на то, что задания с выбором одного правильного ответа считаются
«необходимым злом», такая репутация не обоснована в отношении потенциала
тестирования с заданиями такой формы как инструмента содействия обучению.
Задания с выбором одного правильного ответа, заявляют авторы, не только
способствуют изучению информации, но также способствует изучению связанной
информации.
Для того, чтобы понять, влияет ли и как именно
то, что из теста исключаются вопросы с конструируемым ответом и остаются только
задания с выбором правильного ответа и, наоборот, убираются задания с выбором
правильного ответа и остаются задания с конструируемым ответом, надо оценить,
способны ли оба этих формата заданий оценивать одни и те же способности. Для
этого в литературе можно выделить два подхода. В первом используют задания с
одинаковыми вопросами (стемами) в обеих формах заданий, чтобы исключить
различия в содержании, а во втором подходе задания двух форматов имеют разные
вопросы, затрагивающие одинаковые или разные области знаний. Высокая корреляция
указывает на то, что оба формата измеряют одинаковые способности, а низкая - на
то, что измеряются разные конструкты.
Помимо корреляционного исследования для оценки
того, одинаковые ли конструкты измеряют оба формата, можно использовать
факторный анализ [32]. Так, некоторые исследования показали, что задания с
выбором правильного ответа чаще всего нагружены одним фактором, а задания с
конструируемым ответом могут быть нагружены несколькими факторами [8, 11, 27,
32].
Роберт В. (Robert W. Lissitz) и Ксайодонг Ху
(Xiaodong Hou) в своем исследовании [32] изучили корреляцию баллов в заданиях
двух форм, а именно баллов по тесту, который состоял из заданий обоих форм, и
тестов содержащих задания только одной из двух форм. Результаты показали
довольно сильную корреляцию. Между итоговыми баллами по тесту с заданиями с
конструируемым ответом и без них она составила 0.96 по алгебре, 0.98 по
биологии и 0.98 по английскому. Надежность теста немного снизилась, когда из
теста убрали задания с конструируемым ответом, но стала даже немного выше,
когда добавили еще вопросов с выбором правильного ответа.
Согласно проведенному исследованию Никсон Чан и
Питера И. Кеннедит [28] некоторые задания с выбором одного правильного ответа,
с одной стороны, могут быть легче, чем такие же задания, но с конструируемым
ответом, даже после поправки на гадание, так как предложенные варианты ответа
могут помочь вспомнить и натолкнуть на правильный ответ. Например, если
попросить дать определение какому-нибудь феномену, испытуемый может оказаться
неспособным сформулировать ответ, а при наличии нескольких альтернатив может
быть способен выбрать правильный ответ. Так, Heim
и Watts (1967) обнаружили,
что баллы по тесту на проверку словарного запаса с заданиями с выбором одного
правильного ответа выше, чем баллы по такому же тесту, но с открытыми ответами
[21]. Те же результаты, только при проверке математических знаний, получились и
у Франка Паджереса и M. Дэвида Миллера [17]. Гилберт Сакс и ЛеВерн С. Коллет в
своей статье продемонстрировали, что средний балл по тесту с заданиями с
выбором одного правильного ответа выше в случае, когда испытуемые готовятся по
тестам с заданиями этого же типа, чем средний балл, когда они готовятся по
заданиям с открытым ответом [18]. Более высокий средний балл у испытуемых,
которые решали задания с выбором одного правильного ответа, наблюдается и в
симуляционном исследовании Роберта Б. Фрари [31].
С другой стороны, некоторые задания с выбором
одного правильного ответа не дают никаких преимуществ испытуемым, так как ответ
на эквивалентное ему задание с конструируемым ответом может быть настолько
очевидным, что не будет отличаться от задания с выбором одного правильного
ответа. А иногда дистракторы в задании с выбором правильного ответа, если
задание хорошо составлено, могут казаться даже правдоподобнее, чем правильный
ответ, что является затрудняющим элементом.
В исследовании Смита и Смита [34], в котором
сравнивалась трудность заданий с выбором одного правильного ответа и с открытым
ответом теста на понимание прочитанного, авторы обнаружили, что трудность обоих
типов заданий оказалась примерно одинаковой. Они предположили, что возможной
причиной этому может послужить то, что возможность вернуться к прочитанному
тексту нивелирует возможность угадывания в заданиях с выбором одного
правильного ответа (в случае работы с текстом).
Роберт Б. Фрэри в своей статье говорит, что
вычисленная им надёжность и валидность тестов с заданиями с открытым ответом не
на столько выше, чем с заданиями с выбором одного правильного ответа, чтобы не
учитывать то, сколько усилий необходимо приложить для их оценивания, не говоря
уже о таком недостатке, как возможная субъективность такой оценки [31].
David
Thissen, Howard
Wainer и Xiang-BoWang
отмечают, что имеет смысл использовать совместно задания с выбором одного
правильного ответа с заданиями со свободным ответом, из-за маленького размера
нагрузок последних на свои собственные специфические факторы, из-за чего баллы
по заданиям с открытым ответам не будут отличаться от баллов по заданиям с
выбором одного правильного ответа. Для большей нагрузки надо использовать куда
больше заданий с открытым ответом, чем это делается обычно, что не совсем
удобно из-за времени, которое тратится на одно задание такого типа [13].
Таким образом, исходя из всего вышесказанного,
можно сделать вывод, что главными недостатками заданий с выбором одного
правильного ответа являются возможность угадывания учеником правильного ответа
и наталкивания его на правильный ответ. Однако задания этого типа имеют ряд
весомых преимуществ, при том, что в случае эквивалентности заданий обеих форм,
можно достичь схожего уровня трудности и высокой корреляции между результатами
по заданиям двух форм. В некоторых случаях не имеет значения, какой тип заданий
используется в тесте. Например, в случае работы с текстом возможность вернуться
к нему нивелирует возможность угадывания в заданиях с выбором одного
правильного ответа. В этом случае трудность заданий обоих типов - с выбором
одного правильного ответа и открытых - примерно одинаковая.
1.3 Структура экзаменов в разных
странах
Во многих странах, как и в России, проводятся
экзамены для выпускников школ и абитуриентов вузов. В некоторых странах один
экзамен объединяет в себе обе эти функции, а в некоторых - это два разных
экзамена или школьники сдают всего один экзамен, выполняющий одну из двух
функций: выпускной, либо вступительный, в зависимости от образовательной
политики страны. В таблице ниже приведен список некоторых стран и цели
проведения экзамена в них. Также в ней указаны формы заданий, которые
присутствуют в КИМе.
Таблица
1
Структура тестов с высокими ставками, мировой
опыт
Страны
|
Типы
заданий
|
С
какой целью проводится экзамен
|
|
МС
|
С
кратким ответом
|
С
развернутым ответом
|
|
1.
Англия
|
+
|
+
|
+
|
GCSE
- для получения аттестата о среднем образовании. A-levels - получение Общего
свидетельства об образовании продвинутого уровня и одновременно вступительные
в вуз.
|
2.
Белоруссия
|
+
|
+
|
+
|
ЦТ
- одновременно выпускной и вступительный экзамен.
|
3.
Бразилия
|
+
|
+
|
+
|
Есть
выпускной экзамен и вступительные (но выпускной тоже учитывается).
|
4.
Казахстан
|
+
|
-
|
-
|
ЕНТ
<#"896692.files/image001.jpg">
Рисунок 1. Карта переменных
Одна решётка равна 18-ти испытуемым, одна точка
- от 1 до 7 испытуемых.
Чем выше на шкале находится задание, тем оно
сложнее. Также и с испытуемыми - чем они выше на шкале, тем выше уровень их
подготовленности.
На карте переменных видно, что распределение мер
испытуемых близко к нормальному и смещено немного вверх относительно заданий.
Из этого следует, что тест оказался не очень сложным для данной выборки
испытуемых. Очевидно не хватает заданий с высоким уровнем трудности для сильных
испытуемых.
Следующим этапом анализа теста была проверка
размерности теста.
В ходе исследования размерности было показано,
что тест является существенно одномерным.
Статистики каждого задания по отдельности по
порядку расположения в тесте, а именно трудность, ошибка измерения,
дискриминативность заданий и статистики согласия заданий с моделью показаны в
таблице в Приложении 1. В этой таблице жёлтым цветом в столбце
«дискриминативность» отмечены значения ниже 0.2, то есть те, которые ниже
минимально допустимого. В столбцах со статистиками согласия голубым цветом
выделены значения, которые выше максимально допустимого значения - эти задания
не согласуются с моделью, а малиновым те задания, которые ниже минимального
допустимого значения - эти задания, наоборот, имеют сверхсогласие с моделью.
В первую очередь мы смотрим на те задания, у
которых статистика INFITMNSQ выходит за пределы [0,8; 1,2]. Таких заданий всего
два. У этих же заданий все остальные статистики выходят за пределы допустимых
значений. Уровень дискриминативности у этих заданий ниже 0.2, то есть они имеют
низкую корреляцию с уровнем подготовленности испытуемых - плохо различают
слабых и сильных испытуемых. Эти два задания являются самыми проблемными из
всех.
Исходный тест по всем показателям является
достаточно качественным, большинство заданий имеет хорошие психометрические
свойства. Однако тест оказался немного легче, чем требуется для данной выборки.
Не хватает заданий для сильных испытуемых.
Далее рассмотрим результаты по симулированным
тестам.
Первым этапом симуляции было удаление из
первоначального КИМ всех заданий Части А, то есть заданий с выбором одного
правильного ответа, и добавление такого количества заданий Части В, которое в
среднем можно успеть сделать за отведённое время на выполнение Части А.
Так как в Части А 37 заданий, на выполнение
которых отводилось примерно 48 минут (по спецификации теста), а на выполнение
задания Части В отводится в среднем 5 минут, то, следовательно, за 48 минут
можно успеть сделать максимум 10 заданий Части В.
Таким образом, в тест было добавлено10 заданий с
кратким ответом приблизительно той же трудности, что уже были в Части В.
Результаты симуляции представлены ниже в Таблицах 6 и 7.
В таблице 6 представлены статистики по
испытуемым.
Таблица
6
Статистики по испытуемым
|
Первичный
балл
|
Уровень
подготовленности
|
Ошибка
измерения
|
Статистики
согласия
|
|
|
|
|
INFIT
|
OUTFIT
|
|
|
|
|
MNSQ
|
ZSTD
|
MNSQ
|
ZSTD
|
Ср.
значение
|
20.4
|
-0.30
|
0.34
|
1.02
|
0.0
|
1.06
|
0.10
|
Ср.
кв. отклонение
|
9.1
|
0.97
|
0.06
|
0.33
|
1.0
|
0.60
|
1.0
|
Макс.
значение
|
47.0
|
3.40
|
0.76
|
2.79
|
3.7
|
9.05
|
4.8
|
Мин.
значение
|
2.0
|
-3.55
|
0.29
|
0.28
|
-3.0
|
0.28
|
-2.5
|
Мы видим, что средний уровень подготовленности
испытуемых понизился с 0.30 до -0.30, симулированный тест оказался сложнее для
испытуемых, выборка смещена вниз относительно среднего значения трудности
заданий (таблица 6).
Размах уровня подготовленности испытуемых
находится в диапазоне от -3.55 до 3.40. Размах оценок среди заданий по уровню
трудности находится в диапазоне от -1.66 до 1.42. Это означает, что всё еще не
хватает заданий как для испытуемых с высоким уровнем подготовленности, так и
для слабых испытуемых. Ошибка измерения по испытуемым увеличилась до значения
0,34 (ранее она составляла 0,28).
Средние значения статистик согласия с моделью по
испытуемым находятся в границах своих доверительных интервалов: MNSQ [0,8 -
1,2], ZSTD [-2, 2]. Однако максимальные и минимальные значения обеих статистик
согласия выходят за эти границы. Это свидетельствует о выбросах, т.е. профили
ответов некоторых испытуемых значимо отличаются от ожидаемого моделью
В Таблице 7 представлены статистики по заданиям
симулированного теста.
Таблица
7
Статистики по заданиям теста
|
Первичный
балл
|
Трудность
|
Ошибка
измерения
|
Статистики
согласия
|
|
|
|
|
INFIT
|
OUTFIT
|
|
|
|
|
MNSQ
|
ZSTD
|
MNSQ
|
ZSTD
|
Ср.
значение
|
1358.7
|
0.00
|
0.04
|
1.00
|
-0.3
|
1.06
|
-0.1
|
Ср.
кв. отклонение
|
504.8
|
0.87
|
0.01
|
0.16
|
2.8
|
0.39
|
2.9
|
Макс.
значение
|
2255.0
|
1.42
|
0.06
|
1.72
|
9.9
|
2.80
|
9.9
|
Мин.
значение
|
516.0
|
-1.66
|
0.03
|
0.86
|
-4.1
|
0.79
|
-4.4
|
Средние значения всех статистик не выходят за
пределы критических значений (MNSQ [0,8-1,2], ZSTD [-2, 2]), что говорит о том,
что в среднем задания хорошо согласуются с моделью. Но максимальные и
минимальные значения всех статистик согласия, кроме min MNSQ, отклоняются от
критических значений. Это говорит о том, что имеются задания, которые не
согласуется с моделью.
На Рисунке 2 изображена карта переменных по
симулированному тесту.
Рисунок 2. Карта переменных
Исследование размерности показало, что тест
одномерен, так как собственное значение первого контраста не превышает двух.
Вторым этапом симуляции было полное исключение
из первоначального теста заданий Части В, и добавление вместо них заданий Части
А, с выбором одного правильного ответа. Было добавлено такое количество заданий
с выбором одного правильного ответа, которое можно успеть сделать за отведенное
время на выполнение заданий Части В. В тест входит 7 заданий Части В. На
решение одного задания выделялось около 5 минут. За 35 минут можно сделать 35
заданий с выбором одного правильного ответа. Такое количество заданий и было
добавлено вместо исключённых заданий Части В. Результаты симуляции представлены
ниже в Таблицах 8 и 9.
В таблице 8 представлены статистики по заданиям
симулированного теста.
Таблица
8
Статистики по тестовым заданиям
|
Первичный
балл
|
Трудность
заданий
|
Ошибка
измерения
|
Статистики
согласия
|
|
|
|
|
INFIT
|
OUTFIT
|
|
|
|
|
MNSQ
|
ZSTD
|
MNSQ
|
ZSTD
|
Ср.
значение
|
855.9
|
0.00
|
0.06
|
1.00
|
0.1
|
1.00
|
0.0
|
Ср.
кв. отклонение
|
227.7
|
0.73
|
0.01
|
0.07
|
3.0
|
0.12
|
3.0
|
Макс.
значение
|
1611.0
|
1.56
|
0.07
|
1.24
|
9.9
|
1.37
|
9.8
|
Мин.
значение
|
401.0
|
-1.75
|
0.03
|
0.85
|
-6.6
|
0.69
|
-5.7
|
Размах оценок среди заданий по уровню трудности
увеличивается и находится в диапазоне от -1.66 до 1.42. Размах уровня
подготовленности испытуемых (таблица 9) находится в диапазоне от -3.17 до 4.0,
увеличилось число «сильных» испытуемых и снизилось число «слабых».
Таблица
9
Статистики по испытуемым
|
Первичный
балл
|
Уровень
подготовленности
|
Ошибка
измерения
|
Статистики
согласия
|
|
|
|
|
INFIT
|
OUTFIT
|
|
|
|
|
MNSQ
|
ZSTD
|
MNSQ
|
ZSTD
|
Ср.
значение
|
43.6
|
0.17
|
0.25
|
1.00
|
0.0
|
1.00
|
0.0
|
Ср.
кв. отклонение
|
16.6
|
0.98
|
0.04
|
0.15
|
1.0
|
0.16
|
1.0
|
Макс.
значение
|
86.0
|
4.68
|
1.84
|
5.2
|
2.94
|
4.1
|
Мин.
значение
|
4.0
|
-3.17
|
0.22
|
0.64
|
-2.1
|
0.54
|
-2.6
|
Рассмотрим карту переменных по симулированному
тесту на Рисунке 3.
Исследование размерности показало, что тест
одномерен.
В презентации «Контрольные измерительные
материалы государственной итоговой аттестации. Особенности и пути развития»
Решетникова О.А. приводит данные да 2014-2015 гг. (именно в 2015 году структура
теста меняется, и он начинает делиться на две части), что
«исключение/сокращение числа заданий с выбором одного правильного ответа не
снизило показатели надежности измерения».
Рисунок 3. Карта переменных
Мы решили проверить это для наших данных и
сделали еще две симуляции: в первой мы исключили 10 заданий с выбором одного
правильного ответа и вместо них добавили два задания с кратким ответом. Во
второй симуляции мы также исключили 10 заданий из части А, а вместо них
добавили уже одно задание части С. Результаты также приведены в Таблице 14
выше. В обоих случаях структура теста почти совпадает со структурой 2015 года.
Как мы видим надежность в обоих случаях одна из самых низких. Также она немного
ниже надежности оригинального теста, что не совпадает с данными из презентации.
Далее после проведения симуляций теста с
моделированием разных типов заданий и структуры теста, сравним показатели всех
вариантов теста (исходного и четырёх симуляций) между собой (таблица 10).
Таблица
10
Сравнение показателей оригинального теста и
симулированных
Тест
|
Надёжность
|
Separation (real)
|
Ср.
тета (+ max и min)
|
Ошибка
измерения (+ max и min)
|
|
КТТ
|
IRT
|
|
|
|
Оригинальный
тест (А+В+С)
|
0,90
|
0,91
|
2,91
|
0,30
|
0,28
|
|
|
|
|
3,72
|
-2,31
|
0,72
|
0,26
|
Первая
симуляция В+С+В
|
0,87
|
0,88
|
2,45
|
-0,30
|
0,34
|
|
|
|
|
3,40
|
-3,55
|
0,76
|
0,29
|
Вторая
симуляция A+C+A
|
0,93
|
0,93
|
3,65
|
0,17
|
0,25
|
|
|
|
|
3,98
|
-3,17
|
0,72
|
0,22
|
Третья
симуляция -10А+2В
|
0,89
|
0,89
|
2,80
|
0,14
|
0,30
|
|
|
|
|
3,68
|
-2,67
|
0,73
|
0,27
|
Четвертая
симуляция -10А+1С
|
0,89
|
0,89
|
2,77
|
0,16
|
0,30
|
|
|
|
|
3,65
|
-2,63
|
0,73
|
0,27
|
Самый высокий показатель надёжности наблюдается
во второй симуляции, когда структура теста состоит из 70-ти заданий с выбором
одного правильного ответа и 6-ти заданий с развернутым ответом, также в этом
случае измерение проводится с самой маленькой ошибкой. Такие показатели связаны
с длиной теста, которая в сумме составляет 76 заданий. Однако такая структура
не является оптимальной ввиду уже знакомых нам ограничений заданий с выбором
одного правильного ответа.
Самая низкая надежность измерения и самая
большая ошибка измерения наблюдается в случае симуляции такой структуры, в
которую входит 17 заданий части В и 6 заданий части С.
В таблице 11 представлены сравнения средних
значений ошибок измерения методом t-test
исходного теста и первой симуляции (pair
1), исходного теста и второй симуляции (pair
2), сходного теста и третьей симуляции (pair
3) и исходного теста и четвертой симуляции (pair
4). Мы видим, что во всех случаях при наличии заданий с выбором одного
правильного ответа (в паре 2 при наличии увеличенного числа заданий Части А)
ошибка измерения значимо меньше.
Таблица
11
Парный анализ средних значений ошибок измерения
|
Paired Differences
|
t
|
df
|
Sig. (2-tailed)
|
|
Mean
|
S.D.
|
S.E. Mean
|
95% Conf. Int. of the Difference
|
|
|
|
Pair 1
|
-0.06
|
0.05
|
0.001
|
-0.06
|
-0.06
|
-50.29
|
1530
|
0.000
|
Pair 2
|
0.03
|
0.02
|
0.001
|
0.03
|
0.03
|
63.24
|
1530
|
0.000
|
Pair 3
|
-0.02
|
0.02
|
0.000
|
-0.02
|
0.01
|
-41.35
|
1530
|
0.000
|
Pair 4
|
-0.02
|
0.02
|
0.000
|
-0.02
|
0.02
|
-45.26
|
1530
|
0.000
|
Для сравнения приведём количество испытуемых,
несогласующихся с моделью, в трёх рассмотренных выше ситуациях: в оригинальном
тесте и первых двух симуляциях. Данные приведены в таблице 12. Мы видим, что
самый низкий процент несогласующихся с моделью испытуемых в случае добавления
заданий с выбором одного правильного ответа взамен заданий с кратким ответом,
то есть, количество испытуемых с неожиданными ответами гораздо меньше. Самый
высокий процент несогласованности испытуемых с моделью наблюдается при
исключении Части А и добавлении дополнительных заданий Части В.
Таблица
12
Процент испытуемых, несогласующихся с моделью
|
>1,2
|
>=1,5
|
|
MsqInfit
|
Msq Outfit
|
MsqInfit
|
Msq Outfit
|
Исходный тест
|
20.38%
|
17.11%
|
4.57%
|
5.16%
|
Первая симуляция (+В)
|
24.69%
|
24.82%
|
8.36%
|
10.52%
|
Вторая симуляция (+А)
|
8.82%
|
7.12%
|
1.18%
|
0.78%
|
Третья симуляция (-А+В)
|
23.58%
|
18.80%
|
5.55%
|
6.14%
|
Четвертая симуляция (-А+С)
|
21.62%
|
18.55%
|
5.55%
|
6.34%
|
Эффективность теста обратно пропорциональна
ошибке измерения, и перед разработчиком теста стоит задача заложить в тест
такие задания, чтобы ошибка измерения испытуемых была наименьшей. Одним из
методов подбора наиболее подходящих заданий служит использование информационных
функций заданий. Информационная функция задания - это обратное значение
стандартной ошибки измерения испытуемых с помощью конкретного задания. Данная
функция показывает количество информации, которую вносит задание в тест.
Информационная функция теста представляет собой сумму информационных функций
заданий всего теста.
Использование информационных функций имеет ряд
преимуществ, как при составлении теста, так и для сравнения эффективности
различных тестов для измерения уровней подготовленности испытуемых между собой.
Оценивать соответствие трудности теста уровню
подготовленности испытуемых с помощью показателя количества информации,
получаемой в результате тестирования, первым предложил A. Birnbaum в 1968 г.
[9], но пока только для дихотомических заданий. В 1969 г. F. Samejima [33]
расширил понятие информации на случай политомических заданий.
В структуру нашего теста входят дихотомические и
политомические задания. Политомические задания представлены двух видов:
двухшаговые задания с тремя ответными категориями и с максимальным баллом 2;
трехшаговые задания с четырьмя ответными категориями и с максимальным баллом 3.
На рисунках 4-8 изображены информационные
функции исходного теста и четырех симулированных.
Рисунок 4. Информационная функция исходного
теста
На графиках мы можем найти показатель количества
информации для каждой теты (уровня подготовленности) - I(θ).
Показатель количества информации (I(θ))
в
исходном тесте равен 15.
Рисунок 5. Информационная функция первого
симулированного теста (В+С+В)
Показатель количества информации (I(θ))
равен
12.
Рисунок 6. Информационная функция второго
симулированного теста (А+С+А)
Показатель количества информации (I(θ))
равен
20.
Рисунок 7. Информационная функция третьего
симулированного теста (-10А+2В)
Показатель количества информации (I(θ))
равен
14.
Рисунок 8. Информационная функция четвертого
симулированного теста (-10А+1С)
Показатель количества информации (I(θ))
равен
14.
В таблице 13 для наглядности приведены
показатели количества информации всех рассматриваемых тестов.
Таблица
13
Показатели количества информации
Тест
|
I(θ)
|
Исходный
|
15
|
Первая
симуляция (В+С+В)
|
12
|
Вторая
симуляция (А+С+А)
|
20
|
Третья
симуляция (-10А+2В)
|
14
|
Четвертая
симуляция (-10В+1С)
|
14
|
Наибольший показатель количества информации
наблюдается в случае добавления заданий части А с одновременным исключением
заданий части В. Однако более оптимальным является соотношение различных типов
заданий, как в исходном тесте, так как при довольно высоком показателе
количества информации, каждый тип задания вносит свои преимущества измерения
испытуемых. В случае исключения из теста десяти заданий части А и добавлении
вместо них двух заданий части В или одного задания части А количество
информации, полученной в результате измерения, немного меньше. Самый низкий
показатель количества информации наблюдается при полном удалении заданий части
А и добавлении вместо них заданий части В.
Очевидно, что тест, дающий наибольшее количество
информации при измерении определенной выборки испытуемых на том или ином промежутке
уровня подготовленности, более эффективен. Сравнительная эффективность двух
тестов характеризуется отношением их информационных функций:
,
где RE(θ) обозначает
сравнительную эффективность тестов A и B, IA(θ)
и
IВ(θ) - информационные
функции этих тестов.
Возьмем средний уровень подготовленности
испытуемых для каждого теста и посмотрим на соответствующем графике показатель
количества информации в этой точке. Соотнесем поочередно количество информации
исходного теста с количеством информации в каждой симуляции.
В исходном тесте средний уровень
подготовленности (тета) равен 0,3. Далее, для наглядности, в таблице 15
приведены средние теты по всем симуляциям.
Таблица
15
Средняя тета тестов и соответствующие им
показатели количества информации
Тест
|
Средняя
Тета
|
I(θ)
|
Исходный
|
0,3
|
15
|
Первая
симуляция
|
-0,3
|
10
|
Вторая
симуляция
|
0,17
|
20
|
Третья
симуляция
|
0,14
|
13
|
Четвертая
симуляция
|
0,16
|
12
|
Для первой симуляции средняя тета равна -0.3, I(θ)
для
этого теста в этой точке примерно равно 10. Тогда:
сравнительная эффективность исходного теста по
отношению к первой симуляции равна RE(θ)
= 15/10 = 1,5;
сравнительная эффективность исходного теста по
отношению ко второй симуляции равна RE(θ)
= 15/20 = 0,75;
сравнительная эффективность исходного теста по
отношению к третьей симуляции равна RE(θ)
= 15/13 = 1,15;
сравнительная эффективность исходного теста по
отношению к четвертой симуляции равна RE(θ)
= 15/12 = 1,25.
Таким образом, для испытуемых среднего уровня
подготовки по отношению к каждому симулированному тесту, кроме второй
симуляции, исходный тест гораздо эффективнее.
2.3 Обсуждение
Из представленных выше данных можно сделать
вывод, что сочетание в рамках одного теста заданий различных форм и типов
повышает надежность измерения и понижает ошибку измерения испытуемых - тест
становится более информативным и сбалансированным с точки зрения оптимального
соотношения длины теста и времени его выполнения. Каждый тип заданий вносит
свой положительный вклад, сглаживая недостатки друг друга. Например, «для
возможной борьбы с угадыванием возможно использование в концовке теста
достаточно трудных заданий открытого типа» [5]. Это, конечно, поможет отличить
слабого и сильного испытуемого, но если говорить о сравнении испытуемых с
одинаковым уровнем подготовленности, случайно угаданный ответ одним из них
повышает его итоговый балл и общий рейтинг, например, при отборе в вуз. С этой
точки зрения возможность угадывания является большим недостатком, который можно
свести к минимуму качественным составлением дистракторов и, следовательно,
невозможностью выбора испытуемым стратегии угадывания верного ответа путём
отбрасывания неправдоподобных дистракторов, что все равно полностью не сведет
возможность угадать правильный ответ к нулю. Показатели надёжности и ошибки
измерения, статистики согласия с моделью говорят нам о том, что использование
заданий с выбором одного правильного ответа оправдывает себя.
Заключение
Любая оценка полученных знаний должна
соответствовать некоторым параметрам качества, таким как валидность,
надёжность, информативность, объективность и другим. В особой мере это
относится к тестированию с высокими ставками, потому что от его результатов
могут зависеть принимаемые касаемо кандидатуры испытуемого решения, которые
прямым образом повлияют на его жизнь. Примером экзамена с высокими ставками
можно считать ЕГЭ, на примере которого проводились исследования в рамках данной
работы.
Тестирование может включать в себя задания
различных типов, каждый из которых имеет свои преимущества и недостатки. Важным
является правильный выбор формы и типа заданий, которые будут включены в тест.
Этот выбор, зависит от области и уровня проверяемых знаний.
Необходимым является также оптимальное сочетание
разных типов заданий для всесторонней и максимально надежной и информативной
оценки с минимальной ошибкой измерения подготовленности испытуемых.
Так как сейчас происходит активное исключение
заданий с выбором одного правильного ответа из КИМов ЕГЭ по всем предметам, без
конкретных обоснований, эмпирических данных, на основе которых можно было бы
сделать выводы об обоснованности этих действий, мы решили на реальных данных
теста аналогичного КИМ ЕГЭ, где в структуру входят задания частей А, В и С,
посмотреть, как функционирует тест, какие имеет статистики, показатели
надежности и так далее. Вместе с этим мы провели симуляции на основе исходного
теста, в ходе которых добавляли и исключали задания разных типов: с выбором
одного правильного ответа, с кратким ответом, с развернутым ответом - то есть
задания ранее входившие в части А, В и С экзамена по биологии. Далее мы провели
сравнения показателей исходного теста и симуляций.
Результатом комбинирования смоделированных
заданий разных типов (и форм) стало подтверждение гипотезы, что «комбинация
заданий различных форм способна обеспечить оптимальную структуру экзаменов с
высокими ставками», которая будет обеспечивать высокую надежность измерения,
приемлемое соотношение длины теста, времени его выполнения и объема проверяемых
областей знания. Сравнение показателей количества информации, которую даёт тест
в результате измерений испытуемых также показало, что более эффективным
является тест, в котором сочетаются различные типы заданий, как, например, в
исходном тесте.
Вопрос об использовании заданий с выбором одного
правильного ответа всегда будет оставаться дискуссионным. Всегда будет те, кто
считает, что задания с выбором одного правильного ответа - это «вынужденное
зло», также как будут и те, кто считает наоборот, что эти задания заслуживают
того, чтобы быть инструментом оценки полученных знаний. Во многих странах
задания с выбором одного правильного ответа активно используются в
тестировании, в том числе и с высокими ставками, но есть и страны, где заданий
закрытого типа в структуре, например, выпускного/вступительного экзамена в вузы
вообще нет.
Однако стоит учитывать те преимущества, которые
имеют задания с выбором одного правильного ответа, и не исключать возможность
их использования в тестировании.
Список литературы
1. Аванесов
B.C. Композиция тестовых заданий. Учебная книга. 3 изд.. доп. М.: Центр
тестирования, 2002г. -240 с.
2. Болотов
В.А. Типология и характеристика программ оценки учебных достижений школьников.
(2013). Проблемы современного образования, 1, с. 35-53.
. Калинова
Г.С. Совершенствование экзаменационной модели ЕГЭ по биологии. (2016).
Педагогические измерения. 1, с. 66-74
. Карданова
Е.Ю. Контроль и оценка результатов обучения. (2016). Управление начальной
школой. 1, с. 18-26
. Майоров
А.Н. Теория и практика создания тестов для системы образования. (Как выбирать,
создавать и использовать тесты для целей образования). - М., «Интеллект-центр»,
2001. - 296 с.
. Решетникова
О.А. Принципы организации процедур оценки качества образования (2012).
Управление образованием: теория
и практика, 4 (8), с.
78-85.
. Aiken,
L.R. (1982). Writing multiple-choice items to measure higher-order educational
objectives. Educational and Psychological Measurement, 42. 803-806.
. Bennett,
R.E., Rock, D.A.,&Want, M., (1991). Equivalence of free-response &
multiple-choice items. Journal of Educationsl Measurement, 28, 77-92.
. Birnbaum
A. Some Latent Trait Models and Their Use in Inferring an Examinee's Ability /
In: F.M. Lord and M.R. Novick. Statistical Theories of Mental Test Scores.
Reading, Mass: Addison - Wesly, 1968. - 568p.
. Brent
Bridgeman and Charles Lewis. The Relationship of Essay and Multiple-Choice
Scores with Grades in College Courses. (1994).
. Bridgeman,
B., & Rock, D. (1993). Relationship among multiple-choice and open-ended
analytical questions. Journal of Educational Measurement, 30(4), 313-329.
. Case
& Swanson, 2001; Jacobs, Lucy C. «How to write better tests. A Handbook for
Improving Test Construction Skills» 2004.
. David
Thissen, Howard Wainer and Xiang-Bo Wang. Are Tests Comprising Both
Multiple-Choice and Free-Response Items Necessarily Less Unidimensional than
Multiple-Choice Tests? An Analysis of Two Tests. (1994)
. Downing,
2002 - Downing, S.M., 2002.Assessment of knowledge with written test forms. In:
Norman, G.R., Van der Vleuten, C., Newble, D.I. (Eds.), International Handbook
of Research in Medical Education. Kluwer
Academic
Publishers, Dordrecht, pp. 647-672.
. Elizabeth
Ligon Bjork, Nicholas C. Soderstrom and Jeri L. Little. Can Multiple-Choice
Testing Induce Desirable Difficulties? Evidence from the Laboratory and the
Classroom. - The American Journal of Psychology, Vol. 128, No. 2 (Summer 2015),
pp. 229-239
. Farley,
J.K., 1989. The multiple-choice test: developing the test blueprint.
NurseEducator 14 (5), 3-5.
17. Frank
Pajares and M. David Miller, 1997. The Journal of Experimental Education, Vol.
65, No. 3 (Spring, 1997), pp. 213-228
. Gilbert
Sax and LeVerne S. Collet. An Empirical Comparison of the Effects of Recall and
Multiple-Choice Tests on Student Achievement. (1968).
. Gregory
R. Hancock, 1994. Cognitive Complexity and the Comparability of Multiple-Choice
and Constructed-ResponseTest Formats. The Journal of Experimental Education,
Vol. 62, No. 2 (Winter, 1994), pp. 143-157
20. Haladyna,
T.M. (1994). Developing and validating multiple-choice items. Hillsdale, NJ:
Lawrence Erlbaum Associates, Inc.
. Haladyna,
T.M. (1997). Writing test item to evaluate higher order thinking. Boston:
Allyn&Bacon.
. Haladyna,
T.M.,&Downing, S.M. (1989). A taxonomy of multiple-choice item writing
rules. Applied Measurement in Education, 2(1), 37-50.
. Heim,
A.W.,&Watts, K.P. (1967). An experiment on multiple-choice versus open-ended
answering in a vocabulary test. British Journal of Educational Psychology, 37
339-346.
. Howard
Wainer&David Thissen (1993) Combining Multiple-Choice and
Constructed-Response Test Scores: Toward a Marxist Theory of Test Construction,
Applied Measurement in Education, 6:2, 103-118, DOI: 10.1207/s15324818ame0602_1
. Margit
Kastnera, Barbara Stangla (2005). Multiple Choice and Constructed Response
Tests: Do Test Forma and Scoring Matter? Institute for Tourism and Leisure
Studies,Vienna University of Economics and Business, A-1090 Vienna, Austria.
. McCoubrie,
2004 - McCoubrie, P., 2004. Improving the fairness of multiple-choice
questions: a literature review. Medical
Teacher 26 (8), 709-712.
. Michael
C. Rodriguez, 2005 - Three Options Are Optimal for Multiple-Choice Items: A
Meta-Analysis of 80 Years of Research.
. Nixon
Chan and Peter E. Kennedyt, (2002). Are Multiple-Choice Exams Easier for
Economics Students? A Comparison of Multiple-Choice and "Equivalent"
Constructed-Response Exam Questions. Southern Economic Journal, 68(4), 957-971.
. Pamplett
and Farnhill, 1995 - Pamplett, R., Farnhill, D., 1995. Effect of anxiety on
performance in multiple-choice examinations. Medical Education 29, 298-302.
. Randy
Elliot Bennett, Donald A. Rock and Minhwei Wang. Equivalence of Free-Response
and Multiple-Choice Items (1991).
. Robert
B. Frary. Multiple-Choice versus Free-Response: A Simulation Study. (1985).
. Robert
W. Lissitz Xiaodong, (1999). Hou Multiple Choice Items and Constructed Response
Items: Does It Matter? University of Maryland.
33. Samejima,
F. (1969). Estimation of latent ability using a response pattern of graded
scores. Psychometrika, Monograph Supplement, 34, 100-114. Psychometrika,
Monograph Supplement, 34, 100-114.
. Smith,
J.K.&Smith, M.R. (1984, April). The influence of item format on measures of
reading comprehension. Paper presented at the annual meeting of the American
Educational Research Association, New Orleans, LA.
. Schuwirth
and Vander Vleuten, 2003 - Schuwirth, L.W.T., Vander Vleuten, C.P.M., 2003. ABC
of learning and teaching in medicine: written assessment. BMJ 326 (7390),
643-645.
Приложение
№
|
Трудность
|
Ошибка
измерения
|
Коэф.
корреляции
|
Статистики
согласия
|
|
|
|
|
INFIT
|
OUTFIT
|
|
|
|
|
MNSQ
|
ZSTD
|
MNSQ
|
ZSTD
|
1
|
-0.65
|
0.06
|
0.53
|
0.84
|
-6.6
|
0.76
|
-6.4
|
2
|
-1.59
|
0.07
|
0.45
|
0.87
|
-3.0
|
0.68
|
-4.8
|
3
|
1.51
|
0.06
|
0.36
|
0.99
|
-0.4
|
1.08
|
1.6
|
4
|
-0.74
|
0.06
|
0.40
|
0.97
|
-1.3
|
0.91
|
-2.2
|
5
|
-0.29
|
0.06
|
0.53
|
0.85
|
-7.1
|
0.80
|
-6.5
|
6
|
-0.25
|
0.06
|
0.44
|
0.95
|
-2.5
|
0.89
|
-3.5
|
7
|
-0.10
|
0.06
|
0.46
|
0.93
|
-3.5
|
0.90
|
-3.4
|
8
|
0.12
|
0.06
|
0.39
|
1.00
|
0.2
|
0.97
|
9
|
-1.20
|
0.07
|
0.40
|
0.94
|
-1.8
|
0.83
|
-2.9
|
10
|
-0.74
|
0.06
|
0.41
|
0.95
|
-2.0
|
0.93
|
-1.5
|
11
|
-0.94
|
0.06
|
0.45
|
0.91
|
-3.1
|
0.80
|
-4.2
|
12
|
0.39
|
0.06
|
0.39
|
1.00
|
-0.1
|
1.00
|
0.0
|
13
|
-0.13
|
0.06
|
0.34
|
1.04
|
2.1
|
1.04
|
1.4
|
14
|
1.09
|
0.06
|
0.41
|
0.96
|
-1.4
|
1.01
|
0.3
|
15
|
-0.63
|
0.06
|
0.39
|
0.97
|
-1.0
|
0.93
|
-1.7
|
16
|
-0.69
|
0.06
|
0.43
|
0.93
|
-2.7
|
0.88
|
-3.0
|
17
|
-0.89
|
0.06
|
0.25
|
1.07
|
2.4
|
1.19
|
3.7
|
18
|
0.24
|
0.06
|
0.41
|
0.99
|
-0.6
|
0.97
|
-1.3
|
19
|
-0.81
|
0.06
|
0.40
|
0.96
|
-1.6
|
0.91
|
-2.1
|
20
|
-0.19
|
0.06
|
0.16
|
1.21
|
9.5
|
1.30
|
8.8
|
21
|
-0.62
|
0.06
|
0.43
|
0.94
|
-2.4
|
0.86
|
-3.5
|
22
|
0.58
|
0.06
|
0.26
|
1.13
|
6.2
|
1.16
|
5.7
|
23
|
-1.08
|
0.06
|
0.40
|
0.93
|
-2.3
|
0.98
|
-0.4
|
24
|
0.90
|
0.06
|
0.26
|
1.12
|
5.2
|
1.17
|
5.0
|
25
|
0.15
|
0.06
|
0.17
|
1.20
|
9.9
|
1.28
|
9.5
|
26
|
0.18
|
0.06
|
0.28
|
1.10
|
5.3
|
1.14
|
5.1
|
27
|
-0.04
|
0.06
|
0.50
|
0.88
|
-6.0
|
0.86
|
-5.3
|
28
|
-1.31
|
0.07
|
0.43
|
0.90
|
-2.8
|
0.76
|
-4.0
|
29
|
-0.31
|
0.06
|
0.24
|
1.11
|
5.1
|
1.21
|
6.0
|
30
|
0.13
|
0.06
|
0.49
|
0.90
|
-5.2
|
0.88
|
-4.7
|
31
|
-0.30
|
0.06
|
0.29
|
1.08
|
3.5
|
1.12
|
3.4
|
32
|
-1.54
|
0.07
|
0.38
|
0.94
|
-1.5
|
0.80
|
-3.0
|
33
|
0.71
|
0.06
|
0.43
|
0.95
|
-2.3
|
0.97
|
-1.0
|
34
|
-1.13
|
0.06
|
0.48
|
0.87
|
-4.1
|
0.73
|
-5.4
|
35
|
-0.27
|
0.06
|
0.23
|
1.14
|
6.5
|
1.15
|
4.5
|
36
|
0.64
|
0.06
|
0.30
|
1.08
|
4.0
|
1.12
|
4.1
|
37
|
0.07
|
0.06
|
0.44
|
0.95
|
-2.8
|
0.92
|
-3.1
|
38
|
0.41
|
0.04
|
0.50
|
0.98
|
-0.7
|
0.97
|
-0.9
|
39
|
1.30
|
0.04
|
0.56
|
0.89
|
-3.7
|
0.90
|
-3.2
|
40
|
-0.47
|
0.04
|
0.57
|
0.88
|
-4.0
|
0.86
|
-4.5
|
41
|
-0.24
|
0.04
|
0.46
|
1.12
|
3.8
|
1.43
|
6.6
|
42
|
1.03
|
0.04
|
0.17
|
1.79
|
9.9
|
2.99
|
9.9
|
43
|
-0.14
|
0.03
|
0.50
|
1.09
|
3.0
|
1.08
|
1.4
|
44
|
1.53
|
0.04
|
0.53
|
0.93
|
-1.4
|
1.05
|
0.3
|
45
|
0.24
|
0.06
|
0.41
|
0.98
|
-1.3
|
0.98
|
-0.9
|
46
|
1.13
|
0.05
|
0.43
|
1.05
|
1.5
|
1.05
|
1.7
|
47
|
1.65
|
0.04
|
0.58
|
0.95
|
-1.3
|
0.95
|
-0.9
|
48
|
1.48
|
0.03
|
0.60
|
0.94
|
-1.4
|
0.97
|
-0.5
|
49
|
0.77
|
0.03
|
0.65
|
1.02
|
0.5
|
0.99
|
-0.2
|
50
|
1.05
|
0.03
|
0.66
|
0.90
|
-2.8
|
0.84
|
-3.4
|
Mean
|
0.00
|
0.05
|
0.41
|
1.00
|
-0.1
|
1.02
|
-0.2
|
S.D.
|
0.84
|
0.01
|
0.12
|
0.14
|
4.1
|
4.1
|
Похожие работы на - Структура контрольно-измерительных материалов экзаменов (тестов) с высокими ставками
|