【読書メモ010】「日本のウォッシュバック研究のレビュー論文」をさらにレビューしてみた (Allen & Tahara, 2021)

書誌情報：Allen, D., & Tahara, T. (2021). A review of washback research in Japan. JLTA Journal, 24, 3-22.
https://doi.org/10.20622/jltajournal.24.0_3

日本における英語試験・テストのウォッシュバック研究のレビュー論文。
中止に終わった大学入試への民間試験導入にせよ、予定されている都立高校へのスピーキング試験導入にせよ、その根本にはテストの波及効果、すなわち、「入試を変えれば教育が変わる」「入試を変えれば日本人の英語力が変わる」という考えが前提としてある。その意味で、ウォッシュバック研究は英語教育研究の中でも今、最もホットな研究テーマの一つと言えるだろう。

タイトル通り、本研究をさらにレビューしていきながら、ウォッシュバック研究の成果と課題について考えたい。

要約とコメント
論文全体に関するコメント
- 論文中での「エビデンス」という用語の使い方が気になる
- baseline data と longitudinal data を！！！

要約とコメント

Introduction

Studies conducted since the 1990s (e.g., Alderson & Hamp-Lyons, 1996; Alderson & Wall, 1993; Bailey, 1996; Hughes, 2003; Green, 2007; Wall, 2005; Watanabe, 1997) have provided researchers with a now reasonably well-developed theory of the washback mechanism, though due to its complexity, predicting washback effects precisely is still an arduous task. (p. 4, 下線は引用者)

ウォッシュバック研究が本格化して今年で約30年。それだけの蓄積があるから、これまでに複数の理論やモデルが提唱されてきたが、それらの成果から言えることは「事態は複雑です！」ということぐらい。

そもそも、後述するように「ウォッシュバック」があまりに多くの事象を包括する語となってしまっており、この用語自体が複雑になりすぎてしまっている印象がある。大半の先行研究では、ひとまずウォッシュバックの定義を引いたうえで、ウォッシュバックの「どの側面」に注目するのかを改めて書くというケースが多い。例えば、「教員の指導法の変化に注目します！」とか「テスト特化型クラスと通常クラスで、テストの成績にどのような違いが生じるか検証します！」とか。あるいは、「〇〇大学の受験をした際に、A方式とB方式で受験した生徒間で、学習内容・方法に違いはあったか？」とか。検討対象が多種多様であるがゆえに、ウォッシュバックに関する理論も多種多様となり、結果的にそれぞれの理論に一貫性・統一性があまり無いというか。同じウォッシュバック研究でも、知見・理論としてはあまり有用でない——と感じるものが多いのは、ウォッシュバック研究の多様性ならではの特徴かと。

Method

2021年より前に発表された論文をGoogle scholar を使って検索。

Results and Discussion

分析の際に使用したカテゴリーは以下の通り。

Publication：著者、出版年、使用言語
Test(s)：試験・テストの目的、対象とするスキル（4技能）、試験の具体性
Context and participants：公教育と私教育、教育段階、調査参加者、サンプルサイズ
Methodology：データ収集、リサーチデザイン
Washback：検討対象（学習の内容・方法・動機づけ・結果）、ウォッシュバック研究のエビデンス
Consequences：これまでの日本のウォッシュバック研究をカテゴリーごとに分類

Publication

割愛

Test(s)

割愛

Context and participants

Context of education. The vast majority of reasearch concerned participants and tests within mainstream education, with only two studies exclusively focusing on the shadow education sector, that is, in yobikō ('preparatory schools') and/or juku ('cram schools'; Allen, 2016b; Watanabe, 1996; Table 2). (p. 10)

Participants. Six studies have investigated teachers, 19 have investigated learners, and six have dealt with both (Table2). One paper, Sugino and Tokuda (2008), did not include participants. Taken together, there are over twice as many data sets from learners (n=25) as from teachers (n=12). Other participants, such as school principles, parents, and materials developers, have not been investigated in the washback studies. (p. 10)

塾・予備校を対象にした研究が少ない、教師よりも生徒を対象とした研究が2倍以上多い、教師・生徒以外のアクターへのウォッシュバックについて検討した研究はない、という研究課題が指摘されている。後者の「アクターの多様さをもっと考慮すべき」というのはウォッシュバック研究ではよくなされる指摘（例えば、Bailey, 1996）。一方で前者の「教師よりも生徒を対象とした研究が圧倒的に多い」という指摘は、1993年から2013年までのウォッシュバック研究をレビューしたCheng et al. (2015) とは真逆の指摘となっており、日本のウォッシュバック研究ならではの特徴だと言える。

Methodology

Research design. Wall and Horák (2007) suggest there are two types of impact studies: those that describe the effects of exsiting tests, and those that describe the effects of new/revised tests. The crucial methodological difference concerns whether a test is newly introduced or not; if so, it is more straightforward to demonstrate evidence of change that is brought about by the test, which is necessary for a strong washback argument (Messick, 1996). Wall and Horák suggest that this is best achieved through inclusion of a baseline study, which provides a complete description of the educational situation prior to the introduction of the test. (p. 11)

重要な指摘。Wall and Horák (2007) の二分法に従えば、後者の「新テストの導入による効果」を分析するには、その導入前と導入後のデータが不可欠。しかし、著者らが指摘しているように、日本の波及効果研究では baseline となる「導入前のデータ」を入手せずに、単に「導入後のデータ」のみで新テスト導入のウォッシュバックについて検討している研究が複数ある。

そもそもの問題として、ウォッシュバック研究では上記の2つの区分を明確に区別していないものがきわめて多い印象。というより、この2つをどちらも「ウォッシュバック」と同じ名前で呼ぶことをやめた方が良いと思う。「ウォッシュバック」という用語は「テストによる影響」を何でもかんでも詰め込んだ用語となっており、特に「新テスト導入による効果」のような政策的議論と密接にかかわる議論*1をする際に「ウォッシュバック」「波及効果」という用語を持ち出すことは誤解のある議論を誘発しかねない。

それから、著者らはウォッシュバック研究のデザインを within-participants designs と between-participant(s) designs に分類しているが、正直、何が違うのかよくわからん。3回きちんと読んだけど、やっぱりわからん。ウォッシュバック研究の論文はかなり読んできたが、このような分け方はたぶん初めて見た*2。

文脈から察するに、おそらく between-participant(s) designs がアクターを「生徒」のみに絞って検討するデザイン。一方、within-participants designs がアクターを「生徒以外」にまで拡大したときのデザイン（教員だけでなく、クラス環境なども含まれる）かと推測される。within-participants designs についてはさらに2つに細分化されている：

Two other types of within-participants designs were observed in the research. One involves multiple teachers each teaching for multiple tests that differ in content. In this case, it is possible to observe whether the same teacher teaches differently according to a specific test. [...] The second type of within-participants design seeks to investigate whether there is any impact of a test by comparing exam-focused classes with regular classes. (p. 12)

前者が「対象とするテストによって、教員が指導法を変えるか・変えないか」、後者が「テスト対策に特化したクラスと通常のクラスを比較することで、テストのインパクトに違いは生じるか」というタイプ。このような分類をすることで、ウォッシュバック研究の理論的説明にどれほど貢献するのかはよくわからないが、「ウォッシュバック」という用語がカバーする範囲が異常に広いということが改めてよくわかる。

以上のように、ウォッシュバック研究のリサーチデザインについて本論文では色々提案されているが、個人的には最初に挙げた「『既存のテスト』による波及効果か『新テスト』による波及効果か」という区分けをまずは明確に意識して、研究がなされるべきだと思う。特に、ハイステイクスなテスト（主に入試制度）の改訂や新形式のテストの導入による波及効果は、前述したように政策研究と密接に関与する分野であるため、一般的な波及効果研究のノリで研究をして知見を蓄積しても意味がない。意味がないどころか、それを一種の「エビデンス」として使用され、エビデンスとしての価値がほとんどないにもかかわらず（この点については後述）、政策立案者に都合の良いように使われてしまう可能性もある。現状、政策学的に妥当なリサーチデザインに基づき入試のインパクトを評価した研究がほとんどないことを考慮すると、いっそのことそれについて語る際には「ウォッシュバック」という用語は使わずに、政策研究でよく使われる「インパクト」であったり、あるいはわかりやすく「政策効果 (policy effects)」という用語を用いて、明確に区別をした方が良いのかもしれない。

Washback

"Washback" という章立てではあるが、主にリサーチデザインに関する内容。

Evidence of washback. Of the studies reviewed, five did not present clear evidence for either the presence or lack of washback (Kowata, 2016; Oguri, 2009; Shimatani, 2007; Watanabe, 1992, 2004a). The lack of evidence appears to be in part due to a reliance on survey data. For instance, Oguri (2009) did not observe washback from the introduction of the NCT-L on learning behavior, specifically regarding practicing listening to English. This could potentially be explained by the perceived low-stakes of the NCT-L or because all learners regardless of cohort (i.e., 2007 or 2009) had sufficient awareness of the test. Unfortunately, the lack of qualitative data means neither of these possibilities could be confirmed. (p. 14, 下線は引用者)

簡単に行ってしまえば、これまでの日本のウォッシュバック研究のいくつかは「第3の変数」についての考慮が欠けているよ！　という指摘。2006年のセンター試験へのリスニング導入の波及効果を検証した研究を例として挙げている。研究の結果、「リスニング試験の導入が生徒の英語学習に波及効果を及ぼさなかった」と結論付けられているが、この結果から「日本の大学英語入試を変えても、生徒の学習行動に影響を及ぼさない」と結論付けるのは不適切。今回波及効果が観察されなかったのは、センター試験におけるリスニング試験の得点比率（当時はリーディング：リスニング＝ 8：2）、難易度が低かった*3、調査では観察されなかったが実際は意識していた——という可能性があるのではないかというご指摘。この点については特に異論はない。同様の指摘を拙稿でもしている。

In general, studies that failed to provide washback evidence, or provided only very weak evidence, typically provided very restricted data (i.e., only one type of data, or a small number of responses) and/or failed to provide data concerning the role of crucial mediating factors (e.g., whether the test was perceived as important for the learners). Conversely, studies that demonstrated strong evidence of washback typically included multiple sources (i.e., teachers and learners) and/or methods of data collection (e.g., survey and interview data; or observation and interview data). Such studies typically can provide relatively comprehensive coverage of learning and/or teaching, and thus can identify washback effects and explain the factors that mediate them. (p. 14, 下線は引用者)

ウォッシュバック研究における "strong evidence" の条件として、「多様なアクターを検討しているかどうか」「データ収集の仕方は適切か」という点を挙げている。後者についての詳しい言及は結論部分に書かれているので、そちらも以下に引用しておく。

Furthermore, too few washback studies have utilized direct observation as a method of data collection. In fact, some of the most interesting observation data can be found in teaching practice and teacher education studies. However, without a framework for investigating washback built into the research design, such studies cannot provide adequate answers to questions of washback in schools. Moreover, studies should whenever possible triangulate their data collection methods (Alderson & Wall, 1993; Wall, 2005). The use of qualitative data such as that provided by interviews, narrative journals or open-ended surveys, to support quantitative survey and test data is particularly crucial, otherwise there will be no evidence for the mediating factors of washback, which explain why participants do what they do and thus why washback occurs or not. (p. 16, 下線は引用者)

この箇所以外にも、良質なエビデンス生成の条件として、「トライアンギュレーション」の活用を激推ししている。たしかに、量的研究・質的研究にはそれぞれ強み・弱みがあり、どちらかに固執するのではなく目的や研究の実現可能性に応じて使い分ける、あるいは、両方活用する姿勢は重要だと思う。その点については概ね同意するが、それら研究の「中身」についてこの論文ではほとんど議論されていない。量的研究と質的研究を組み合わせても、そのリサーチデザインに欠陥があれば両者を足したところで……　という感じ。せめて量的研究については、（特に「エビデンス」という用語を使いたいのであれば）反実仮想・内的妥当性・外的妥当性については触れてほしかった*4。蛇足だが、ランダム抽出や反実仮想を重視しないのは、ウォッシュバック研究に限らず「言語教育研究あるある」の一つ。

一方、ウォッシュバック研究における質的研究は、なかなか評価が難しい気がする（というより、私自身、その有用性は認めるものの、質的研究のあり方についてよくわかっていない……）。現状では、とりあえずインタビューやフィールドワークを行って、後は書き手の好きなようにつなげる——という印象。どのようにウォッシュバック研究の質的研究が評価されるべきかについてはまだ答えが出ないので、今年中の検討課題としたい。

Consequences

割愛

論文全体に関するコメント

論文中での「エビデンス」という用語の使い方が気になる

日本のウォッシュバック研究のレビュー論文はあまりなかったので、その点では貴重な論文だと思う、が、一点気になったのが「エビデンス」という用語の使い方。本論文中では計10回使用されているが、いわゆる「証拠」とか「根拠」ぐらいの意味で使っていると思われる。テスティング理論やアセスメント関係の文脈でそういった使い方をするのは取り立てて問題ではないかもしれないが、政策的示唆に関する内容があるにもかかわらず、エビデンスをそのような狭義の意味で使ってしまうのはマズい。特に気になった部分を以下に引用する。

If teaching differs in terms of content, methods or materials for each test, this may provide evidence of washback. (p. 12)

Similarly, even if a study reports evidence of a washback effect, without sufficient information about learner perceptions and behaviors it is impossible to confirm the basis of the effect. (p. 14)

In this case, research is required into the use of four-skills tests and the washback that they generate in different micro-contexts, though most importantly those at the senior high school level. There is a particularly crucial requirement to provide evidence of washback at this level because the intended outcome of the reform (and the use of four-skills tests in this context) is to generate positive effects in education. (p. 15, 下線は引用者)

おそらく本論文ではエビデンスを「ウォッシュバックが観察されたか否か」ぐらいの意味で使っていると思われる。ウォッシュバック研究でよくある、テストの妥当性検証を目的とした論文*5であれば、まぁ別にいいかという感じなのだが、最後の引用のような文脈での使用はマズいと思う。最後の引用部分は、入試改革におけるウォッシュバック研究の話をしており、きわめて政策的要素が強い*6。そのような文脈で「エビデンス」という用語を使用する際はそれ相応の注意をしないといけないし、それが政策学研究に足を踏み入れる際の一種の「マナー」だと思う。ウォッシュバック研究は、テスティング理論・アセスメントの観点から研究がなされることが大半ではあるが、そういったノリで政策効果について言及するような「領空侵犯」は犯してはならない。

政策研究における「エビデンス」とは、「『処遇→アウトカム』という因果モデルにおける因果効果を示した実証的データであり、かつ、その確からしさ（エビデンスの質）に関して格付けを経たもの」（亘理他, 2021, p. 29）を意味する。来年度導入が予定されている東京都立高入試のスピーキング試験を例にすると、「入試にスピーキング試験を導入 → 日本人のスピーキング能力が向上」という因果モデルを、実証的なデータに基づきその関係の確からしさを示すものが「エビデンス」となる。さらに、教育政策関連で因果関係をリサーチする目的は、該当する地域・国、究極的には日本人全体に効果のある方法を見つけることであるため、母集団を考慮したリサーチデザインが求められる。つまり、仮に一部の学校で新テスト導入の効果を検証したとしても、その結果を日本人全体に一般化することは不可能であり、したがってその知見を政策的示唆につなげることもできない。エビデンスに基づく教育 (EBE) の観点からすれば、単にウォッシュバックが生じた・生じなかったという表面上の違いだけで、その結果を「エビデンス」として捉えることは御法度である。

baseline data と longitudinal data を！！！

というように、（自分がそのレベルの研究をできていないもかかわらず）上記で「エビデンス」という用語の使い方について不満をたらたら述べたが、全体的にはたいへん勉強になる論文だった。これまでの波及効果研究のまとめなので、だいたいのことは知っていたが、改めてウォッシュバック研究について検討したり、今後の展望を立てるうえでは有用な論文かと。

特に、Conclusion に記されている以下の箇所には激しく同意。

Moreover, it is important for future studies to include a baseline study, if possible, so that the impact of the introduction of a test can be demonstrated (Messick, 1996; Wall, 2005). This combination of baseline data and longitudinal data would provide convincing evidence of washback effects, whether strong or weak, positive or negative. (p. 17)

先述したように、新テスト導入による政策効果をはかりたいのであれば、「導入前」と「導入後」のデータを比較し、その目的が達成されたかを捉えることで「新テスト導入→政策目標達成」という因果モデルを検証することができる。その意味で、該当する施策が実施される前に、baseline study を計画的に行う必要がある。大学英語入試関連で言うと、2006年のセンター試験へのリスニング試験導入はこの点が不十分だったために、説得力のある先行研究が存在しないと思われる。また、2020年度のセンター試験の廃止に伴う共通テスト導入についても、どの程度 baseline data が考慮されていたのかは今のところ不明……

また、入試の影響は常に一定ではなく、時間とともに変化すると考える方が自然。導入直後よりも2，3年後の方がテストの影響が出ているかもしれないし、逆に薄れているかもしれない。教育活動はスタティックなものではなくダイナミックなものであり、その意味で入試の影響を多角的に論じるためにも、（実施がとてつもなく大変だと思うが）longitudinal study を行う価値は十分にある。

*1:新テスト導入は何らかの教育目的・政策目的をもとになされる取り組みであり、その効果検証をするということは一種の「政策評価」を行うことを意味する。政策的示唆につなげるには、当然のことだがそれに足るエビデンスを提供する必要があり、狭義の意味での効果検証とは明確に区別する必要がある。

*2:本論とはあまり関係ないが、within / beyond classrooms という分け方はウォッシュバック研究でよく目にする。

*3:2006年のリスニング試験導入が波及効果を起こさなかった原因として、リスニング試験の難易度が簡単だから——と説明する先行研究はまぁまぁある（例：Hirai et al., 2013）。

*4:この点も拙稿にて詳述してあります。あとは本ブログでも以前言及しました。sudos.hatenablog.jp

*5:ここで言う「妥当性」とは、テスト作成者が意図する測定項目が実際にそのテストで測れているか否かについての指標を意味する。詳しくは小泉 (2018) を参照。

*6:理由は注1で述べた通り。

SSudo's Lab

須藤爽のブログです。専門は（英語）教育政策，教育経営。