Problems of Testology
📝 Original Info
- Title: Problems of Testology
- ArXiv ID: 0710.3447
- Date: 2007-11-12
- Authors: ** В.В. Кромер (V.V. Kromer) – 노보시비르스크, 러시아 **
📝 Abstract
Some problems of testology are discussed.💡 Deep Analysis
📄 Full Content
1
В.В. Кромер
г. Новосибирск
СУММА ТЕСТОЛОГИИ
0. Данные тезисы подготовлены для доклада на Международной
научно-практической
конференции
"Инновации
в
педагогическом
образовании"
(Новосибирский
государственный
педагогический
университет, 22–24 октября 2007 г).
1. В данном докладе сформулированы требования к педагогическим
измерительным материалам (тестам), проанализированы применяющиеся
измерительные
материалы
и
причины,
снижающие
их
качество.
Рассмотрена возможность улучшения качества тестов.
2.
Качество
тестов
(тестовых
результатов)
характеризуется
валидностью и надежностью. Валидность теста зависит от валидности
составляющих его заданий, а надежность – в основном от их количества.
При предтестировании валидность заданий определяется измерением
коэффициента корреляции заданий с критерием r. Недостаточный размер
нормативной выборки – причина измерения коэффициента корреляции с
недопустимой погрешностью, в результате чего в тест проникают
некачественные
задания.
Пример:
Преобразованные
по
формуле
преобразования Фишера [1, с. 380]
5
3
1
1
ln
2
1
5
3
x
x
x
r
r
z
значения
распределены с дисперсией
3
1
n
, что при выборке в
100
n
испытуемых
дает доверительный интервал для z-значения с полушириной 0,2. Таким
образом, задание с оцененной на нормативной выборке еще допустимой
корреляцией
30
,0
r
и включенное на этом основании в тест, может иметь
совершенно неприемлемый истинный коэффициент корреляции
11
,0
r
, и
т.п. Аналогичные выводы делаются и при использовании взамен
2
коэффициента
корреляции
индекса
дискриминативности.
Выход
заключается в применении моделей со снижением в процессе рабочего
тестирования веса некачественных заданий на основе параметризации
заданий [2; 3].
3. Низкое качество существующих тестов выявляется при оценке
количеств различимых интервалов (квантов) в рабочем диапазоне
измерения теста. Существует простое мнемоническое правило: качество
существующих
тестов
оценивается
отметкой
на
привычной
четырехбалльной шкале, равной числу различимых тестом квантов
измерения [6] (См. Приложение). Тем самым удовлетворительными
признаются тесты, различающие хотя-бы три уровня измеряемого
качества,
чего
совершенно
недостаточно
для
дифференциации
испытуемых в соответствии с заявленными целями тестирования.
4. Один из источников смещенности значений тестовых баллов –
неучет явления угадывания. Возврат к несмещенным значениям тестовых
баллов в заданиях с выбором одного правильного ответа возможен при
введении коррекции баллов на угадывание, что требует раздельного учета
факта выбора неправильного ответа и отказа от ответа (пропуска задания),
либо же при комплектовании теста заданиями, где вероятность угадывания
верного ответа мала (ниже 1%). Это задания открытой формы и задания с
выбором нескольких ответов, на установление соответствия и на
установление правильной последовательности при соответствующем
выборе числа элементов в задании [5].
5. При тестировании параметры тестирующих определяются
тестовыми заданиями, а параметры заданий – испытуемыми, т.е. речь идет
о взаимно согласованной параметризации испытуемых и заданий. Если по
результатам предтестирования из теста удаляются некачественные
задания, то удалять из матрицы неадекватных испытуемых недопустимо.
Выход
заключается
в
переходе
к
моделям
тестирования,
где
3
параметризируется степень неадекватности испытуемого, и данные
испытуемые принимают участие в параметризации с очень малым весом
[2; 3].
6. При извлечении из
матриц данных параметров сторон
тестирования
в
IRT-моделях
возникает
проблема
испытуемых
с
экстремальными значениями тестовых баллов [7, с. 111–117]. Байесовский
подход к проблеме, при всей корректности получаемых результатов, ведет
к низкой очевидной валидности теста, а тем самым к отказу от
байесовского подхода [4].
Список литературы
1. Варден Ван дер. Математическая статистика. – М.: ИИЛ, 1960.
2. Кромер В.В. Об одной возможности расширения семейства
логистических моделей // Вопросы тестирования в образовании. – 2005. –
№3 (15). – С. 13–15.
3.
Кромер
В.В.
О
многопараметрической
оценке
уровней
подготовленности испытуемых и трудностей заданий // Педагогические
измерения. – 2005. № 3. – С. 65–72.
4. Кромер В.В. Добавление виртуальных заданий как альтернатива
удалению реальных испытуемых // Вопросы тестирования в образовании. –
2005. – № 4(16). – С. 57–64.
5. Кромер В.В. Еще раз о коррекции тестового балла //
Педагогические измерения. – 2007. – № 1. – С. 89–94.
6. Кромер В.В. Протестировали. С какой точностью? // Вестник
педагогических инноваций. – 2007. – №3(11). В печати.
7. Suen H.K. Principles of Test Theories. – Hillsdale, NJ: Erlbaum, 1990.
4
Приложение
В теории измерений вводится понятие об энтропийной погрешности
э, линейно связанной со среднеквадратической погрешностью se
соотношением
e
э
э
s
k
Δ
, где kэ– энтропийный коэффициент, зависящий от
вида распределения погрешности. Для равномерн
Reference
This content is AI-processed based on open access ArXiv data.