SSudo's Lab

須藤爽のブログです。専門は(英語)教育政策,教育経営。

【読書メモ022】『テストは何を測るのか』(光永, 2017)1章・2章

書誌情報:光永悠彦 (2017) 『テストは何を測るのか:項目反応理論の考え方』

上記文献のひとり読書会をしています。
せっかくなので、メモを貼り付けておきます(要約ではありません)。

第1章 理論編Ⅰ:試験という「道具」を理解する

  • すべての試験は、何らかの「尺度」をもち、それに基づき受験者の「能力」を表示する——という共通点がある。
  • 曖昧なものを測定する場合、その曖昧さゆえに評価者間における見解の不一致が起こることもあれば、逆に「明らかにAさんよりもBさんの方が〇〇力が高い」というように見解が一致することもある。
  • 試験の設計=<測りたい対象を「構成概念」としてあらかじめ定義しておき、多数の「問題」に対する受験者の「反応」を手がかりに、尺度を構成する手続きのこと>(p. 15)
    • 単発ではなく定期的に行われるテストでは、各試験で測定しようとしている構成概念を一致させることが必須
    • 上記の点をクリアすれば、テストを受けた時期・場所に関係なく、そのテスト結果を普遍化することが可能となる
    • 受験・入試では「テスト=関門」という認識が強いが、そもそも<試験を実施する目的は「組織にとって有用な人を選抜したい」「ある能力をもっているかどうかを診断したい」であり、「受験者に試練を与えること」ではないはず>(p. 3)
  • アンケート調査における因子分析も、試験における項目反応理論も、統計学的手法は同じ。
  • 項目反応理論の手続き:<「試験で測りたいことが測れていると考えたときに、その構成概念の軸に沿って受験者を序列化するような尺度」を、正解・不正解のデータの傾向から推定し、その尺度上で難易度を表示する、という手続き>(p. 28)
  • 次の指摘は重要:

ある特定の「能力」を仮定した試験を行おうとすると、どうしても避けて通れない問題があります。それは「尺度の原点と単位は、誰かが定義しなければ定まらない。誰が、どのように定義するのが妥当なのか」という点です。(p. 29)

    • ESAT-J でもこの点が問題となっている。具体的には、スピーキングテストの配点が全体の20点を占めるというのは、いったい誰が・どのように決めたのか——という点。
  • 「質のよい試験」とは何か?
    • 信頼性と妥当性の説明
    • 「特異項目機能 (Differential Item Functioning)」という言葉を覚えた
    • 【コメント】<「妥当性のなかに、信頼性も含まれる」という、現在主流の妥当性観>(p. 37) とあるが、そのような考え方が「主流」だとは知らなかった。私の理解だと、「信頼性」はテストの安定性や一貫性を意味し、「妥当性」とはけっこう違う——という印象だったのだが。テストに限らず調査でも「信頼性」という言葉は使われていて、テストにしろ調査にしろ、「何度その測定を同じ人にやっても、その結果は安定しているか・一貫しているか」という点で共通している用語のはず。
    • 信頼性・妥当性の評価を行うためには試験問題を実施前に外部に広く公表する必要があるが、ハイステイクスなテストの場合、試験問題の漏洩となってしまうためそれが行えないというジレンマ。

第2章 実践例紹介:共通語学試験の開発

  • アンカー問題(項目)、重複テスト分冊法
  • 項目反応理論のモデル:

「試験の正誤の結果が、受験者の能力のばらつきと、問題がもっている特性(項目パラメタ)のばらつきに起因している」という仮定を「数理モデル」として仮定します。(p. 55)

  • 「社会インフラとしての試験のあり方」(劉, 2010; 2011)
    • 「問題を出す側」「問題を解く側」「スコアを利用する側」という3つのアクター

たとえば大学入試の場合は、大学入試を「出題する側」としての大学、「問題を解く側」としての受験者以外に「スコアを利用」して合否を判定する主体としての「大学」を想定して制度を設計しなければなりません。大学入試センター試験の場合は、出題する側が大学入試センター、問題を解く側が受験生、スコアを利用する側は各大学です。(p. 68)

    • 【コメント】 近年、大学入試において、民間試験や共通テストの活用に伴い、独自問題を出題する大学は減っている印象(ちゃんと数字は見ていないが)。例えば、立教大学はもう独自の英語試験は実施していないし、青山学院大学についても全学部入試を除いて、独自の入試問題は出題していない。その結果、従来は「問題を出す側」と「スコアを利用する側」が一致していたが、最近の傾向として、その2つが必ずしも一致しないケースが増えてきているように思われる。まぁ、そりゃあ、「コスト」的な面のみ重視するのであれば、えげつなくコストのかかる独自試験を実施するより、出来合いの試験を使わせてもらって問題作成とか採点とか運営とかの手間は削減して、で、受験料はこれまで通りもらう——としたほうがはるかに ”お得” ですわな。さらに言えば、民間試験を導入すれば、文科省が褒めてくれるだろうし。
    • 【コメント】 試験の目的は、受験者が「ある能力・適性を持っているかどうか」を診断することであるが、果たしてその大学が求める「能力」「適性」をその試験がどれほど妥当性・信頼性を担保して測定できているのか。大学によっては、英語試験の点数を、共通テストか民間試験のどちらかを提出すればよい——とあるが、その大学は果たして、受験生に求める「英語能力」をどのように定義しているのか。共通テストと民間試験を「同一視」する根拠は何なのだろうか。
    • 【コメント】 そもそも、その大学が求める「能力・適性」を勝手に大学側が決めてしまっていいのか。もちろん、大学ごとの個性は尊重すべきだけど、大学側も入試を通じて高校の学習の在り方の指針を示している自覚が少しでもあるならば、各大学が好き勝手にやるだけでなく、ある程度の合意形成は必要なはず。