【読書メモ026】2020年の民間試験導入問題をめぐる "fairness" についての考察 (Butler & Iino, 2021)

Butler, Y.G., Iino, M. (2021). Fairness in College Entrance Exams in Japan and the Planned Use of External Tests in English. In: Lanteigne, B., Coombe, C., Brown, J.D. (eds) Challenges in Language Testing Around the World. Springer, Singapore.

  • 2020年の大学入試への英語民間試験導入をめぐる議論を「公正性 (fairness)」の観点から分析した論文
  • 阿部 (2017) や南風原 (2018) でも指摘されているCEFR対応表について、次のように批判している:

Critically, the table was not based on MEXT's own validation efforts; instead, MEXT simply put together information reported by the test developers, but the credibility of some of that information (i.e., validity evidence) is questionable. Curiously, MEXT modified the table a couple of times without clearly explaining the changes. For example, TOEIC has a listening and reading test (TOEICL&R, 990 points in total) and a speaking and writing test (TOEIC S&W, 400 points in total), and the sum of the scores of these two tests (1390 points) was used inthe table released by MEXT in July 2017. In the version released in March 2018, however, the TOEIC speaking and writing score was multiplied by 2.5 (1000 points) and added to the TOEIC L&R score, resulting in a total of 1990. Moreover, MEXT simply replaced the old numbers with the new aggregated scores without verifying their compatibility with CEFR (Hato 2018). Unexplained changes were made in all four domestic tests as well. (p. 50, 下線は引用者)

  • Fariness
    • Kane (2010) による fairness についての概念整理をもとに、民間試験導入を分析している。
      • Kane, M. (2010). Validity and fairness. Language Testing, 27(2), 177–182.
      • Kane によると、validity と fairness の関係はそれらの用語をどう定義するかで変わってくる。定義の仕方次第で、validity が fairness を包摂することもあればその逆もあり得る。両者を広義に捉えればほぼ同じ概念を指す、なんてこともあり得る。とはいえ違う用語である以上、それぞれが特に注目・強調する箇所は異なる。そこで Kane は両者の用語を "Are the proposed interpretations and uses of the test scores appropriate for a population over some range of contexts?" (p. 177) という共通の問を検討する用語であると説明したうえで、それぞれについて次のように説明している。

Validity theory has tended to focus on the accuracy and appropriateness of score-based interpretations and decisions about all of the individuals in the population of interest. Analyses of fairness have tended to focus on group differences and on differences in the accuracy and appropriateness of interpretations and decisions across groups, which are defined in terms of race/ethnicity, gender, age, and so on. (p. 181)

      • 【コメント】 印象としては、validity が対象とするのは主に「テストそのもの」なのに対し、fairness は「社会」にも関心が拡げられているように感じた(とはいえ、後の procedural/substantive まで考慮に入れるとそうは言えない気もするが)。
      • Kane は fairness をprocedural due process と substantive due process の2つの観点から考察している。Butler & Iino (2021) でもこの概念整理をもとに、民間試験導入のfairness について検討している。
      • 簡単に言ってしまえば、前者が「すべての受験者が平等に、同じ方法で評価されているか」、後者が「テストの点数の解釈やそれに基づく決定が合理的 (reasonable) で適切 (appropriate) かどうか」を意味する。この定義だけ読んでも後者についてのイメージが掴めなかったのだが、要するに SES (Socioeconomic Status) の観点を含めて公正性を評価しよう——ということだと思う。具体例として、アセスメントやスコアの解釈が valid and fair でも、そのテストで必要となるスキルを受験者である子どもが家庭で学ぶ機会が保障されていなければ substantively unfaird だよね、みたいなことが述べられている。
      • 【コメント】この概念整理は果たしてどれくらい有効なのだろうか。個人的には、上記の procedural fairness と substantive fairness は包摂する内容に差がありすぎるので、両者を "fairness" と一括してまとめることに違和感を覚えた。そもそも、validity/fairness で二分してさらに procedural/substantive に二分しているわけだが、validity と procedural fairness は指している内容がほぼ同じであろう(あえてその2つに分けることで説明力が上がっているとは思えない)。例えば、equality/equity の方がスッキリしそう。
    • まず、民間試験導入について、validity と (procedural) fairness の観点から考察している。CEFR対応表の怪しさ、テスト費用のコスト(経済格差だけでなく地位格差も含む)、採点の怪しさ(高校英語教員や大学講師を採点官として多く雇っている点で)について、validity と fairness が担保されていない点が指摘されている。この点は阿部 (2017) と南風原 (2018) でも検討されているが、英語文献で民間試験導入について論じた先行研究はそう多くないので引用文献としては有用。
    • 肝心の "substantive fairness" についての記述をまとめると以下の通り:
      • 民間試験の一部には学習指導要領外の内容も含まれる → そのための対策が必要 → 進学校の生徒は対策の機会を享受しやすい・裕福な家庭は教育機会を提供しやすい → substantively unfair
      • 日本の英語教育政策では、procedural fairness だけでなく、substantive fairness についても検討すべき、という指摘。
    • 【コメント】繰り返しにはなるが、あえて procedural/substantive という二分法を使う必要はあるのだろうか。というより、「テストそのものの評価」と「経済格差」の話は明確に分けて検討した方が混乱を招きにくいと思う。今回の substantive fairness について言及したいのであれば、ブルデューの理論とかを引いた方がうまく説明できそう。