AI時代のテスト設計～より良いテストとは？～

学校の定期テスト、大学の単位修得試験、資格・検定試験…多くの場面でテストが実施されています。しかしその多くで、問題の難易度や質の担保は担当者の経験や感覚に依存しており、「本当に受験者の実力を正しく測れているか」を問い直す機会は少ないのではないでしょうか。

問題の難易度を測る指標に「正答率」があります。しかし、正答率は受験者の集団によって変動する…優秀な集団が解けば上がり、苦手な集団が解けば下がる…つまり受験者次第でブレてしまうため、絶対的な評価には向かないという側面があります。

そこで注目されるのが、項目反応理論（IRT） です。IRTでは、問題ごとの「困難度（難易度）」「識別力」といった指標をデータから算出し、下図のような項目特性曲線を可視化できます。

これは5問の項目特性曲線の例です。❶のように曲線の傾きが急な問題は、識別力が高い良問といえます。一方、❷は曲線の傾きが緩やかで識別力が低く改善の余地があります。また、❸のように横ばいに近い問題は、能力に関わらず同程度の確率で正解してしまい、学力差の測定に貢献しません。❹は易しすぎ、❺は難しすぎて実質的に識別に機能しないため、この3問は見直しの余地ありと読み取れます。IRTは、受験者のレベルで評価がブレることはなく、問題の質を客観的に評価、改善できる点が強みといえます。

しかし、国内でIRTを導入している例はTOEFLやITパスポートなど、概ね大規模なテストに限られているようです。その理由の１つがデータ量です。IRTのパラメータを安定して推定するには、1問あたり数百～1000件以上の解答データが必要なため、大規模テストでないと活用しづらいという面があります。

この状況を変えつつあるのがAIです。少ないデータでもAIと組み合わせることで、パラメータ推定の精度を補完したり、作問段階で識別力が低くなりそうな問題を予測したり、問題プールから最適な問題を自動選択したりできる可能性がでてきました。

私たちは現在、AIを活用した類題生成や問題の質向上に取り組んでいますが、次のステップとして、IRTとAIの統合も検討しています。蓄積された解答データをAIで解析し、問題の困難度・識別力を把握する仕組みを構築することで、継続的なテスト品質の向上や難易度の自動調整などに活用していきたいと考えています。

ただし、どれだけ精度の高いテストを設計しても、測定だけで終わっては意味がありません。テストは「ふるい分け」ではなく「支援の入口」であるべきと考えます。弊社開発のリメディアル教材やSPI.StudyCampでも、導入テスト→苦手分野を可視化したうえで学習→最終テストで成果測定、という「測る」から「学ぶ」へつなぐ流れを重視しています。AI×IRTなどの活用により「入口」としての精度を高め、効果的な学びにつなげる「より良いテスト」の実現に向けて取り組んでいきます。

Written By Y.Koyama

本番で実力通りの力を発揮する出題形式を搭載
ナスピアの提案するSPI対策e-learningはコチラ

学習意欲を育む教材制作ならナスピア。
企画・制作のお困りごとをお寄せください。

株式会社ナスピア

AI時代のテスト設計　～より良いテストとは？～

AI時代のテスト設計 ～より良いテストとは？～

AI時代のテスト設計　～より良いテストとは？～