Калькулятор теории ответа на задание
(IRT)
Основные модели IRT
Теория ответа на задание (Item Response Theory, IRT) — это семейство математических моделей, описывающих вероятность правильного ответа испытуемого на пункт теста как функцию латентной черты θ и параметров пункта. В отличие от классической теории тестов (КТТ), IRT обеспечивает инвариантность параметров относительно выборки.
Модель Раша (1PL)
Однопараметрическая модель, разработанная датским математиком Георгом Рашем в 1960 году. Каждый пункт описывается только параметром трудности b — значением θ, при котором вероятность правильного ответа равна 50%. Дискриминация фиксирована: a = 1. Применяется в российских стандартизированных тестах ЕГЭ и ОГЭ.
2-параметрическая (2PL)
Предложена Аллан Бирнбаумом в 1968 году как расширение модели Раша. Добавляет параметр дискриминации a — крутизну ICC в точке перегиба. Высокое a означает, что пункт хорошо разделяет испытуемых с близкими уровнями θ. Применяется в PISA, TIMSS и большинстве крупномасштабных оценочных программ.
3-параметрическая (3PL)
Трёхпараметрическая модель добавляет параметр псевдоугадывания c — нижнюю асимптоту ICC. При очень низком θ даже слабые испытуемые имеют ненулевую вероятность правильного ответа (угадывание при множественном выборе). Используется в SAT, GRE, TIMSS для заданий с вариантами ответа.
История и теория IRT/ полное руководство
Теория ответа на задание сформировалась в середине XX века как альтернатива классической теории тестов. Сегодня IRT — стандарт психометрики для крупномасштабных оценочных программ по всему миру, включая российские ЕГЭ и ОГЭ.
История: от Раша до современности
Фредерик Лорд публикует статью о выборке-зависимости показателей КТТ, закладывая теоретическую основу для IRT
Георг Раш (Дания) формулирует однопараметрическую логистическую модель в книге «Probabilistic Models for Some Intelligence and Attainment Tests»
Аллан Бирнбаум разрабатывает двух- и трёхпараметрические модели, публикует в сборнике Лорда и Новика «Statistical Theories of Mental Test Scores»
Лорд публикует «Applications of Item Response Theory to Practical Testing Problems» — фундаментальный учебник по применению IRT
IRT внедряется в PISA (ОЭСР), TIMSS (IEA), российское ЕГЭ, ОГЭ и ОРКиСЭ как стандарт психометрического анализа
IRT vs КТТ: принципиальные различия
| Критерий | КТТ | IRT |
|---|---|---|
| Зависимость от выборки | Параметры зависят от выборки | Инвариантность параметров |
| Стандартная ошибка | Одинакова для всех θ | Условная, меняется по θ |
| Сравнение тестов | Требует эквивалентных форм | Единая шкала θ для разных пунктов |
| Адаптивное тестирование | Не поддерживает CAT | Основа для CAT-систем |
| Сложность анализа | Простота расчётов | Требует ПО (R, IRTPRO) |
Применение в российском образовании
ЕГЭ и ОГЭ (ФИПИ)
Федеральный институт педагогических измерений использует IRT-анализ для калибровки банков заданий, установки пороговых баллов и выравнивания форм ЕГЭ разных лет.
ОРКиСЭ (оценка качества)
Оценка результатов обучения в рамках ОРКиСЭ использует модель Раша для анализа диагностических работ и построения шкал образовательных достижений.
PISA и TIMSS
Международные сравнительные исследования, в которых участвует Россия, используют 2PL-модели для сравнения образовательных достижений между странами по единой шкале.
Адаптивное тестирование (CAT)
Российские ВУЗы и корпоративные учебные центры внедряют CAT-системы на основе IRT. Алгоритм подбирает следующий пункт, максимизирующий I(θ) для текущей оценки θ.
Методы оценки параметров θ
MLE (Maximum Likelihood)
Метод максимального правдоподобия. Даёт точечную оценку θ. Проблема: не определён для всех правильных/всех неправильных паттернов ответов.
EAP (Expected A Posteriori)
Байесовская оценка: математическое ожидание апостериорного распределения θ. Работает при любом паттерне ответов. Используется в CAT-системах.
MAP (Maximum A Posteriori)
Байесовская точечная оценка: мода апостериорного распределения. Компромисс между MLE и EAP. Применяется при промежуточных измерениях в CAT.
Инвариантность параметров — ключевое свойство IRT
Инвариантность означает, что параметры пункта (a, b, c) не зависят от состава группы испытуемых, а оценка θ испытуемого не зависит от набора предъявленных пунктов (при выполнении предположений модели). Это позволяет: (1) сравнивать результаты тестов разных лет через единую шкалу, (2) использовать разные формы теста без потери сопоставимости, (3) строить адаптивные тесты из единого банка. В КТТ такая инвариантность не достигается — параметры пункта зависят от выборки.
Программное обеспечение: IRTPRO (Vector Psychometric Group), flexMIRT, Winsteps (Раш), R-пакеты mirt, ltm, TAM. Для российских задач — открытый пакет TAM в R.
Допущения IRT: Унидимензиональность (тест измеряет одну латентную черту), локальная независимость пунктов (при фиксированном θ ответы независимы), монотонность ICC (вероятность растёт с θ).
Ключевые концепции IRT
Основные функции и показатели теории ответа на задание, необходимые для разработки и анализа тестов.
ICC / Item Characteristic Curve
Кривая характеристики пунктаS-образная кривая, описывающая вероятность правильного ответа P(θ) как функцию латентной черты θ. Параметр b — точка перегиба (P = 0.5). Параметр a — наклон в точке перегиба (крутизна кривой). Параметр c — нижняя асимптота (вероятность угадывания). ICC — основной инструмент оценки качества тестового пункта в IRT.
IIF / Item Information Function
Информационная функция пунктаПоказывает, насколько точно конкретный пункт измеряет θ в каждой точке шкалы. Формула 2PL: I(θ) = a²·P·Q. Максимум достигается при θ = b, максимальное значение = a²/4. Пункты с высоким a дают больше информации. IIF суммируются для получения TIF всего теста. Используется для отбора пунктов в CAT и оптимизации банка.
TIF / Test Information Function
Информационная функция тестаСуммарная точность теста: TIF(θ) = Σ I_i(θ). TIF показывает, для каких значений θ тест измеряет наиболее точно. Хорошо спроектированный тест достижений должен иметь высокую TIF в диапазоне пороговых баллов. Для аттестации — высокая TIF у порогового θ. Для CAT — равномерное покрытие шкалы.
SEM / Standard Error of Measurement
Стандартная ошибка измеренияУсловная стандартная ошибка SE(θ) = 1/√TIF(θ). В IRT SE меняется вдоль шкалы: меньше там, где тест наиболее информативен. 95% доверительный интервал для θ: θ ± 1.96·SE(θ). SE < 0.35 соответствует надёжности > 0.90 (приблизительно). Критически важно для принятия высокоставочных решений (ЕГЭ, аттестация).
Советы по применению IRT
Практические рекомендации для разработчиков тестов и психометристов.
1Выбирайте модель по задаче
Используйте модель Раша для образовательных тестов с дихотомической оценкой, когда важна инвариантность. Применяйте 2PL, когда пункты существенно различаются по дискриминации. 3PL — только для MCQ-тестов с реальным угадыванием, когда c значимо превышает 0.
2Контролируйте качество пунктов
Параметр дискриминации a < 0.5 — сигнал к пересмотру пункта. Трудность b за пределами [−2.5, +2.5] означает, что пункт почти никогда не даёт информации в целевом диапазоне θ. Параметр c > 0.35 указывает на серьёзную проблему с дистракторами.
3Проверяйте подгонку модели
Перед использованием IRT проверьте допущения: унидимензиональность (EFA, CFA или DETECT), локальную независимость (Q3-статистика Ингебо), монотонность ICC (непараметрический IRT). Нарушение допущений приводит к смещённым оценкам параметров.
4Оптимизируйте TIF для цели теста
Для аттестационного теста максимизируйте TIF в диапазоне порогового балла (θ = 0 на стандартизированной шкале). Для диагностики широкого диапазона — добивайтесь равномерного TIF. Для CAT — создавайте пул пунктов с разными b, покрывающими весь диапазон целевых θ.
5Используйте байесовскую оценку θ
Метод EAP предпочтительнее MLE при малом числе пунктов (менее 20) или экстремальных паттернах ответов. EAP сжимает оценки к среднему, что снижает крайние значения и улучшает надёжность оценки. Большинство CAT-систем используют EAP для оперативной оценки θ.
6Достаточный объём выборки для калибровки
Модель Раша: минимум 200–250 испытуемых. 2PL: 500–1000. 3PL: 1000–2000. При меньших выборках параметр c (угадывание) оценивается крайне ненадёжно. Для ЕГЭ ФИПИ использует выборки от 100 тысяч участников, что обеспечивает высокую точность калибровки.
Как пользоваться калькулятором
Пошаговая инструкция для анализа тестовых данных по моделям IRT.
Выберите модель IRT
Перейдите на вкладку соответствующей модели: Раша (1PL) для простых образовательных тестов, 2PL для заданий с разной дискриминацией, 3PL для MCQ с угадыванием, TIF для анализа теста в целом.
Введите параметры
Задайте уровень способности θ (от −3 до +3), трудность b, дискриминацию a (0.5–2.5) и угадывание c (0–0.35). Для TIF: параметры a и b для 5 пунктов в таблице.
Изучите ICC и графики
Калькулятор мгновенно строит кривую ICC от θ = −3 до +3. Наблюдайте, как изменение a влияет на крутизну, b — на горизонтальное смещение, c — на нижнюю асимптоту.
Интерпретируйте результаты
Оцените вероятность P(θ), информацию I(θ) и SE. Для теста: сравните TIF в целевом диапазоне θ с требованиями надёжности. SE < 0.35 — надёжность выше 0.90.
Часто задаваемые вопросы

Лиана Арифметова
Миссия: Демократизировать сложные расчеты. Превратить страх перед числами в ясность и контроль. Девиз: «Любая повторяющаяся задача заслуживает своего калькулятора».
Отказ от ответственности
Только для информационных целей. Все расчёты, результаты и данные, предоставляемые данным инструментом, носят исключительно ознакомительный и справочный характер. Они не являются профессиональной консультацией — медицинской, юридической, финансовой, инженерной или иной.
Точность результатов. Калькулятор основан на общепринятых формулах и методиках, однако фактические результаты могут отличаться в зависимости от индивидуальных условий, исходных данных и применяемых стандартов. Мы не гарантируем полноту, точность или актуальность приведённых расчётов.
Медицинские, финансовые и профессиональные решения должны приниматься исключительно на основании консультации с квалифицированными специалистами — врачом, финансовым советником, инженером или другим профессионалом в соответствующей области. Не используйте результаты данного инструмента как единственное основание для принятия важных решений.
Ограничение ответственности. Авторы и разработчики сервиса не несут никакой ответственности за прямой или косвенный ущерб, возникший в результате использования данных расчётов. Пользователь принимает на себя всю ответственность за интерпретацию и применение полученных результатов.
Похожие инструменты
Калькулятор SaaS-метрик: Unit-экономика, MRR, Churn, Runway
Комплексный калькулятор SaaS-метрик: unit-экономика (CAC, LTV, LTV/CAC, ARPU, ARPPU), метрики выручки (MRR, ARR, Quick Ratio), анализ оттока (Churn, NRR, когорты), метрики роста (Rule of 40, T2D3), воронка конверсий и финансовые прогнозы (runway, burn rate).
Калькулятор биомассы и биоэнергетики
Расчёты биоэнергетики: теплота сгорания, котлы, биогаз, пеллеты, экономика, выбросы CO₂
Калькулятор коррозии
Расчёты коррозии: скорость, катодная защита, покрытия, гальваническая коррозия, ресурс трубопровода
Калькулятор титрования (кривые титрования)
Построение кривых кислотно-основного титрования. Точка эквивалентности, выбор индикатора, pH расчёт.
Калькулятор фармакологии
Фармакокинетика: период полувыведения, клиренс, объём распределения, стационарная концентрация, нагрузочная доза, терапевтический индекс.
Калькулятор HVAC (кондиционирование)
BTU сплит-системы и секции радиаторов по площади и теплопотерям. Физика теплопередачи.
Калькулятор биомеханики: нагрузка на позвоночник, прыжок, бег и мышцы Хилла
Биомеханические расчёты: модель Чаффина, кинетика прыжка и бега, центр масс (Де Лева), сила удара, модель мышцы Хилла.
Калькулятор производства: норма выработки, OEE, такт-время
Калькулятор для производства. Рассчитайте норму выработки, такт-время, время цикла и эффективность оборудования (OEE). Инструмент для технологов и мастеров.
Калькулятор тригонометрии
Вычисление sin, cos, tan, cot, sec, csc. Решение треугольников, радианы/градусы, тригонометрические уравнения.
Калькулятор тарифов такси, каршеринга и амортизации авто
Сравните стоимость поездки на такси, каршеринге и личном авто. Узнайте расходы на топливо и потерю стоимости автомобиля (амортизацию).
Калькулятор формулы Паркланда (ожоги)
Расчёт объёма инфузионной терапии при ожогах. Рингера лактат, первые 24 часа, скорость введения капель.
Калькулятор физиологии растений
Скорость фотосинтеза, водный потенциал, транспирация, устьичная проводимость, LAI, содержание хлорофилла, RGR.
Калькулятор участка: земля (грунт), мульча, плитка и грядки
Рассчитайте объем плодородной земли, количество мешков мульчи (кора, щепа), плитку для дорожек и планировку грядок.
Калькулятор ROC и AUC (точность, чувствительность)
Построение ROC-кривой, расчет AUC и метрик классификации (Accuracy, F1, Recall, Precision).
Калькулятор гляциологии
Масс-баланс ледника, водный эквивалент снега SWE, закон течения Глена, толщина льда, ELA, вклад в подъём уровня моря.