calcal.ru
Психометрика и педагогические измерения

Калькулятор теории ответа на задание (IRT)

Рассчитайте кривые характеристики пунктов (ICC), информационные функции (IIF/TIF) и стандартную ошибку измерения по моделям Раша, 2PL и 3PL. Инструмент для разработчиков тестов ЕГЭ, ОГЭ и международных исследований PISA/TIMSS.

1–3PL
Модели IRT
Раш, двух- и трёхпараметрические логистические
θ
Латентная черта
Измеряемое скрытое свойство испытуемого
ICC
Кривая характеристики
Связь θ и вероятности правильного ответа
CAT
Адаптивное тестирование
Индивидуальный подбор пунктов в реальном времени

Основные модели IRT

Теория ответа на задание (Item Response Theory, IRT) — это семейство математических моделей, описывающих вероятность правильного ответа испытуемого на пункт теста как функцию латентной черты θ и параметров пункта. В отличие от классической теории тестов (КТТ), IRT обеспечивает инвариантность параметров относительно выборки.

📈

Модель Раша (1PL)

Однопараметрическая модель, разработанная датским математиком Георгом Рашем в 1960 году. Каждый пункт описывается только параметром трудности b — значением θ, при котором вероятность правильного ответа равна 50%. Дискриминация фиксирована: a = 1. Применяется в российских стандартизированных тестах ЕГЭ и ОГЭ.

P(θ) = e^(θ−b) / (1 + e^(θ−b))
📊

2-параметрическая (2PL)

Предложена Аллан Бирнбаумом в 1968 году как расширение модели Раша. Добавляет параметр дискриминации a — крутизну ICC в точке перегиба. Высокое a означает, что пункт хорошо разделяет испытуемых с близкими уровнями θ. Применяется в PISA, TIMSS и большинстве крупномасштабных оценочных программ.

P(θ) = 1 / (1 + e^(−a·(θ−b)))
📋

3-параметрическая (3PL)

Трёхпараметрическая модель добавляет параметр псевдоугадывания c — нижнюю асимптоту ICC. При очень низком θ даже слабые испытуемые имеют ненулевую вероятность правильного ответа (угадывание при множественном выборе). Используется в SAT, GRE, TIMSS для заданий с вариантами ответа.

P(θ) = c + (1−c) / (1+e^(−a·(θ−b)))

История и теория IRT/ полное руководство

Теория ответа на задание сформировалась в середине XX века как альтернатива классической теории тестов. Сегодня IRT — стандарт психометрики для крупномасштабных оценочных программ по всему миру, включая российские ЕГЭ и ОГЭ.

История: от Раша до современности

1952

Фредерик Лорд публикует статью о выборке-зависимости показателей КТТ, закладывая теоретическую основу для IRT

1960

Георг Раш (Дания) формулирует однопараметрическую логистическую модель в книге «Probabilistic Models for Some Intelligence and Attainment Tests»

1968

Аллан Бирнбаум разрабатывает двух- и трёхпараметрические модели, публикует в сборнике Лорда и Новика «Statistical Theories of Mental Test Scores»

1980

Лорд публикует «Applications of Item Response Theory to Practical Testing Problems» — фундаментальный учебник по применению IRT

2000-е

IRT внедряется в PISA (ОЭСР), TIMSS (IEA), российское ЕГЭ, ОГЭ и ОРКиСЭ как стандарт психометрического анализа

IRT vs КТТ: принципиальные различия

КритерийКТТIRT
Зависимость от выборкиПараметры зависят от выборкиИнвариантность параметров
Стандартная ошибкаОдинакова для всех θУсловная, меняется по θ
Сравнение тестовТребует эквивалентных формЕдиная шкала θ для разных пунктов
Адаптивное тестированиеНе поддерживает CATОснова для CAT-систем
Сложность анализаПростота расчётовТребует ПО (R, IRTPRO)

Применение в российском образовании

ЕГЭ и ОГЭ (ФИПИ)

Федеральный институт педагогических измерений использует IRT-анализ для калибровки банков заданий, установки пороговых баллов и выравнивания форм ЕГЭ разных лет.

ОРКиСЭ (оценка качества)

Оценка результатов обучения в рамках ОРКиСЭ использует модель Раша для анализа диагностических работ и построения шкал образовательных достижений.

PISA и TIMSS

Международные сравнительные исследования, в которых участвует Россия, используют 2PL-модели для сравнения образовательных достижений между странами по единой шкале.

Адаптивное тестирование (CAT)

Российские ВУЗы и корпоративные учебные центры внедряют CAT-системы на основе IRT. Алгоритм подбирает следующий пункт, максимизирующий I(θ) для текущей оценки θ.

Методы оценки параметров θ

MLE (Maximum Likelihood)

Метод максимального правдоподобия. Даёт точечную оценку θ. Проблема: не определён для всех правильных/всех неправильных паттернов ответов.

EAP (Expected A Posteriori)

Байесовская оценка: математическое ожидание апостериорного распределения θ. Работает при любом паттерне ответов. Используется в CAT-системах.

MAP (Maximum A Posteriori)

Байесовская точечная оценка: мода апостериорного распределения. Компромисс между MLE и EAP. Применяется при промежуточных измерениях в CAT.

Инвариантность параметров — ключевое свойство IRT

Инвариантность означает, что параметры пункта (a, b, c) не зависят от состава группы испытуемых, а оценка θ испытуемого не зависит от набора предъявленных пунктов (при выполнении предположений модели). Это позволяет: (1) сравнивать результаты тестов разных лет через единую шкалу, (2) использовать разные формы теста без потери сопоставимости, (3) строить адаптивные тесты из единого банка. В КТТ такая инвариантность не достигается — параметры пункта зависят от выборки.

Программное обеспечение: IRTPRO (Vector Psychometric Group), flexMIRT, Winsteps (Раш), R-пакеты mirt, ltm, TAM. Для российских задач — открытый пакет TAM в R.

Допущения IRT: Унидимензиональность (тест измеряет одну латентную черту), локальная независимость пунктов (при фиксированном θ ответы независимы), монотонность ICC (вероятность растёт с θ).

Ключевые концепции IRT

Основные функции и показатели теории ответа на задание, необходимые для разработки и анализа тестов.

📈

ICC / Item Characteristic Curve

Кривая характеристики пункта

S-образная кривая, описывающая вероятность правильного ответа P(θ) как функцию латентной черты θ. Параметр b — точка перегиба (P = 0.5). Параметр a — наклон в точке перегиба (крутизна кривой). Параметр c — нижняя асимптота (вероятность угадывания). ICC — основной инструмент оценки качества тестового пункта в IRT.

📊

IIF / Item Information Function

Информационная функция пункта

Показывает, насколько точно конкретный пункт измеряет θ в каждой точке шкалы. Формула 2PL: I(θ) = a²·P·Q. Максимум достигается при θ = b, максимальное значение = a²/4. Пункты с высоким a дают больше информации. IIF суммируются для получения TIF всего теста. Используется для отбора пунктов в CAT и оптимизации банка.

📑

TIF / Test Information Function

Информационная функция теста

Суммарная точность теста: TIF(θ) = Σ I_i(θ). TIF показывает, для каких значений θ тест измеряет наиболее точно. Хорошо спроектированный тест достижений должен иметь высокую TIF в диапазоне пороговых баллов. Для аттестации — высокая TIF у порогового θ. Для CAT — равномерное покрытие шкалы.

📏

SEM / Standard Error of Measurement

Стандартная ошибка измерения

Условная стандартная ошибка SE(θ) = 1/√TIF(θ). В IRT SE меняется вдоль шкалы: меньше там, где тест наиболее информативен. 95% доверительный интервал для θ: θ ± 1.96·SE(θ). SE < 0.35 соответствует надёжности > 0.90 (приблизительно). Критически важно для принятия высокоставочных решений (ЕГЭ, аттестация).

Советы по применению IRT

Практические рекомендации для разработчиков тестов и психометристов.

1Выбирайте модель по задаче

Используйте модель Раша для образовательных тестов с дихотомической оценкой, когда важна инвариантность. Применяйте 2PL, когда пункты существенно различаются по дискриминации. 3PL — только для MCQ-тестов с реальным угадыванием, когда c значимо превышает 0.

2Контролируйте качество пунктов

Параметр дискриминации a < 0.5 — сигнал к пересмотру пункта. Трудность b за пределами [−2.5, +2.5] означает, что пункт почти никогда не даёт информации в целевом диапазоне θ. Параметр c > 0.35 указывает на серьёзную проблему с дистракторами.

3Проверяйте подгонку модели

Перед использованием IRT проверьте допущения: унидимензиональность (EFA, CFA или DETECT), локальную независимость (Q3-статистика Ингебо), монотонность ICC (непараметрический IRT). Нарушение допущений приводит к смещённым оценкам параметров.

4Оптимизируйте TIF для цели теста

Для аттестационного теста максимизируйте TIF в диапазоне порогового балла (θ = 0 на стандартизированной шкале). Для диагностики широкого диапазона — добивайтесь равномерного TIF. Для CAT — создавайте пул пунктов с разными b, покрывающими весь диапазон целевых θ.

5Используйте байесовскую оценку θ

Метод EAP предпочтительнее MLE при малом числе пунктов (менее 20) или экстремальных паттернах ответов. EAP сжимает оценки к среднему, что снижает крайние значения и улучшает надёжность оценки. Большинство CAT-систем используют EAP для оперативной оценки θ.

6Достаточный объём выборки для калибровки

Модель Раша: минимум 200–250 испытуемых. 2PL: 500–1000. 3PL: 1000–2000. При меньших выборках параметр c (угадывание) оценивается крайне ненадёжно. Для ЕГЭ ФИПИ использует выборки от 100 тысяч участников, что обеспечивает высокую точность калибровки.

Как пользоваться калькулятором

Пошаговая инструкция для анализа тестовых данных по моделям IRT.

1

Выберите модель IRT

Перейдите на вкладку соответствующей модели: Раша (1PL) для простых образовательных тестов, 2PL для заданий с разной дискриминацией, 3PL для MCQ с угадыванием, TIF для анализа теста в целом.

2

Введите параметры

Задайте уровень способности θ (от −3 до +3), трудность b, дискриминацию a (0.5–2.5) и угадывание c (0–0.35). Для TIF: параметры a и b для 5 пунктов в таблице.

3

Изучите ICC и графики

Калькулятор мгновенно строит кривую ICC от θ = −3 до +3. Наблюдайте, как изменение a влияет на крутизну, b — на горизонтальное смещение, c — на нижнюю асимптоту.

4

Интерпретируйте результаты

Оцените вероятность P(θ), информацию I(θ) и SE. Для теста: сравните TIF в целевом диапазоне θ с требованиями надёжности. SE &lt; 0.35 — надёжность выше 0.90.

Часто задаваемые вопросы

Теория ответа на задание (Item Response Theory, IRT) — это семейство психометрических моделей, описывающих вероятность правильного ответа испытуемого на тестовый пункт как функцию скрытой (латентной) черты θ и параметров пункта. В отличие от классической теории тестов (КТТ), IRT обеспечивает инвариантность: параметры пункта не зависят от выборки испытуемых, а оценка θ — от набора пунктов. Это позволяет создавать сопоставимые измерения на разных выборках и строить адаптивные тесты.
Главное отличие — инвариантность. В КТТ параметры пункта (трудность, дискриминация) зависят от выборки испытуемых: трудный пункт на сильной выборке кажется лёгким. В IRT параметры пункта описывают его истинные свойства, независимо от группы. Кроме того, КТТ даёт одну константную стандартную ошибку для всех испытуемых, тогда как IRT вычисляет условную SE(θ) — разную для разных уровней θ. IRT поддерживает адаптивное тестирование, КТТ — нет.
Модель Раша (1PL) применяется, когда важна строгая инвариантность и все пункты предполагаются одинаково дискриминативными. Подходит для образовательных тестов достижений, ЕГЭ и ОГЭ. 2PL используется, когда пункты имеют существенно разную дискриминацию — например, в когнитивных тестах с открытыми ответами. 3PL применяется для MCQ-тестов, где угадывание является реальным фактором (SAT, PISA). Выбор модели подтверждается статистическими тестами подгонки (model-fit).
Theta (θ) — это латентная черта, которую измеряет тест: способность, знание, установка или личностная черта. В стандартизированном виде θ распределена нормально со средним 0 и стандартным отклонением 1. Диапазон практически значимых значений: от −3 до +3. θ = 0 — средний уровень; θ = +2 — сильно выше среднего; θ = −2 — сильно ниже. Параметр b пункта находится на той же шкале: пункт наиболее информативен для испытуемых с θ ≈ b.
ICC (Item Characteristic Curve) — кривая характеристики пункта, S-образная зависимость вероятности правильного ответа от θ. Три ключевых параметра: b — горизонтальное положение кривой (трудность, точка перегиба P = 0.5 для 1PL/2PL); a — наклон в точке перегиба (дискриминация); c — нижняя асимптота (угадывание). Хороший пункт: крутой подъём (высокое a) в диагностически важном диапазоне θ, трудность близко к порогу теста, минимальное угадывание.
CAT (Computer Adaptive Testing) — система, которая подбирает следующий пункт теста на основе текущей оценки θ испытуемого. Алгоритм: (1) начать с пункта средней трудности; (2) оценить θ методом EAP или MLE; (3) выбрать следующий пункт, максимизирующий I(θ); (4) повторять до остановки (достигнут SE-критерий или израсходованы пункты). CAT сокращает количество пунктов на 50–60% при той же точности. Требует банка из 200–500 откалиброванных пунктов по IRT.
ФИПИ (Федеральный институт педагогических измерений) использует IRT для калибровки банков заданий ЕГЭ и ОГЭ. Параметры пунктов (трудность b, дискриминация a) оцениваются на данных предыдущих лет. Шкала первичных баллов переводится в тестовые баллы с помощью IRT-выравнивания (equating), что обеспечивает сопоставимость результатов разных годов и вариантов. Пороговые баллы устанавливаются на шкале θ.
Инвариантность означает, что параметры пункта (a, b, c) остаются стабильными при оценке на разных выборках (при выполнении допущений модели). Инвариантность оценки θ означает, что результат испытуемого не зависит от того, какой набор пунктов из банка ему предъявлен. Это позволяет: сравнивать испытуемых, проходивших разные варианты теста; сравнивать результаты разных лет; строить CAT с единым банком. Инвариантность проверяется статистическими тестами (DIF-анализ — Differential Item Functioning).
Оценка θ по паттерну ответов выполняется итерационными методами. MLE: максимизирует функцию правдоподобия L(θ|u), где u — вектор ответов 0/1. EAP: вычисляет E[θ|u] = ∫θ·L(u|θ)·π(θ)dθ, где π(θ) — априорное распределение. MAP: максимизирует апостериорное распределение. В практике CAT θ обновляется после каждого ответа. Для ручной оценки по таблицам: сумма баллов пункта × log-правдоподобие по IRT-параметрам. Калькулятор показывает P(θ) при введённых параметрах, что помогает понять принцип оценки.
Открытые (бесплатные): R-пакет mirt (многомерный IRT, 1-4PL, политомические модели), ltm (ограниченный, только 2PL/3PL), TAM (педагогические измерения, модель Раша). Коммерческие: IRTPRO (Vector Psychometric), flexMIRT (конкурент IRTPRO), Winsteps/Facets (специализированно для Раша). Для ЕГЭ ФИПИ использует специализированное ПО на основе алгоритмов BILOG-MG. Для начала обучения рекомендуется пакет mirt в R — он бесплатный, поддерживает все основные модели и активно развивается.
Лиана Арифметова
Создатель

Лиана Арифметова

Миссия: Демократизировать сложные расчеты. Превратить страх перед числами в ясность и контроль. Девиз: «Любая повторяющаяся задача заслуживает своего калькулятора».

⚖️

Отказ от ответственности

Только для информационных целей. Все расчёты, результаты и данные, предоставляемые данным инструментом, носят исключительно ознакомительный и справочный характер. Они не являются профессиональной консультацией — медицинской, юридической, финансовой, инженерной или иной.

Точность результатов. Калькулятор основан на общепринятых формулах и методиках, однако фактические результаты могут отличаться в зависимости от индивидуальных условий, исходных данных и применяемых стандартов. Мы не гарантируем полноту, точность или актуальность приведённых расчётов.

Медицинские, финансовые и профессиональные решения должны приниматься исключительно на основании консультации с квалифицированными специалистами — врачом, финансовым советником, инженером или другим профессионалом в соответствующей области. Не используйте результаты данного инструмента как единственное основание для принятия важных решений.

Ограничение ответственности. Авторы и разработчики сервиса не несут никакой ответственности за прямой или косвенный ущерб, возникший в результате использования данных расчётов. Пользователь принимает на себя всю ответственность за интерпретацию и применение полученных результатов.

Похожие инструменты

💻

Калькулятор SaaS-метрик: Unit-экономика, MRR, Churn, Runway

Комплексный калькулятор SaaS-метрик: unit-экономика (CAC, LTV, LTV/CAC, ARPU, ARPPU), метрики выручки (MRR, ARR, Quick Ratio), анализ оттока (Churn, NRR, когорты), метрики роста (Rule of 40, T2D3), воронка конверсий и финансовые прогнозы (runway, burn rate).

⚙️

Калькулятор биомассы и биоэнергетики

Расчёты биоэнергетики: теплота сгорания, котлы, биогаз, пеллеты, экономика, выбросы CO₂

⚙️

Калькулятор коррозии

Расчёты коррозии: скорость, катодная защита, покрытия, гальваническая коррозия, ресурс трубопровода

⚗️

Калькулятор титрования (кривые титрования)

Построение кривых кислотно-основного титрования. Точка эквивалентности, выбор индикатора, pH расчёт.

🏥

Калькулятор фармакологии

Фармакокинетика: период полувыведения, клиренс, объём распределения, стационарная концентрация, нагрузочная доза, терапевтический индекс.

⚙️

Калькулятор HVAC (кондиционирование)

BTU сплит-системы и секции радиаторов по площади и теплопотерям. Физика теплопередачи.

🏥

Калькулятор биомеханики: нагрузка на позвоночник, прыжок, бег и мышцы Хилла

Биомеханические расчёты: модель Чаффина, кинетика прыжка и бега, центр масс (Де Лева), сила удара, модель мышцы Хилла.

🏭

Калькулятор производства: норма выработки, OEE, такт-время

Калькулятор для производства. Рассчитайте норму выработки, такт-время, время цикла и эффективность оборудования (OEE). Инструмент для технологов и мастеров.

📐

Калькулятор тригонометрии

Вычисление sin, cos, tan, cot, sec, csc. Решение треугольников, радианы/градусы, тригонометрические уравнения.

🏠

Калькулятор тарифов такси, каршеринга и амортизации авто

Сравните стоимость поездки на такси, каршеринге и личном авто. Узнайте расходы на топливо и потерю стоимости автомобиля (амортизацию).

🏥

Калькулятор формулы Паркланда (ожоги)

Расчёт объёма инфузионной терапии при ожогах. Рингера лактат, первые 24 часа, скорость введения капель.

🏥

Калькулятор физиологии растений

Скорость фотосинтеза, водный потенциал, транспирация, устьичная проводимость, LAI, содержание хлорофилла, RGR.

🏗️

Калькулятор участка: земля (грунт), мульча, плитка и грядки

Рассчитайте объем плодородной земли, количество мешков мульчи (кора, щепа), плитку для дорожек и планировку грядок.

📐

Калькулятор ROC и AUC (точность, чувствительность)

Построение ROC-кривой, расчет AUC и метрик классификации (Accuracy, F1, Recall, Precision).

🌿

Калькулятор гляциологии

Масс-баланс ледника, водный эквивалент снега SWE, закон течения Глена, толщина льда, ELA, вклад в подъём уровня моря.