SSudo's Lab

須藤爽のブログです。専門は(英語)教育政策,教育経営。

【読書メモ006】Washback effects 関連のメモ① (Dong, 2020)

2. リサーチクエスチョン

RQ1. テストの妥当性・影響・重要性に関する学習者の認識は、どのように、かつ、どの程度、学習に影響するか?
RQ2. 学習者の取り組みは、どのように、かつ、どの程度、学習のアウトカムに影響するか?

3. 先行研究の問題点

・これまでのウォッシュバック研究のほとんどが質的研究 (qualitative research) であり、量的研究 (quantitative research) が不足している。質的研究は、ウォッシュバックのメカニズムに影響を与える諸要因を特定することには向いているが、要素間の関係を統計的に分析することはできない (Xie, 2015)。

・量的研究もあるにはあるが (e.g., Xie, 2013, 2015; Xie & Andrews, 2013)、これらの研究では、学習内容がテスト勉強 (test preparation)のみに限定されている。そして、テストに対する認識がテスト勉強にどのように影響するか、また、テスト勉強がテストのスコアを上げるか、を調査している。確かに、テスト勉強は、最も直接的で観察しやすいウォッシュバック効果ではあるが、テストによるウォッシュバック効果の全体像をつかみ取れてはいない、という問題点がある (Zhan & Wan, 2014)。

・複数の研究 (e.g., Green, 2007; Xiao, Gu, & Ni, 2014; Xie, 2015)により、テストの妥当性・影響・重要性に関する学習者の認識が、学習に影響を与えることが確認されているが、そういった認識がどのように学習に影響するのかは不明のままである。

・これまでのNMETに関する研究はテストの妥当性の検証に主眼が置かれており、ウォッシュバック効果に関する研究はきわめて少ない。

・NMETを対象にウォッシュバック効果を分析した研究もあるが (e.g., Qi, 2004; Wu, 2012)、そこでは教員・指導法へのウォッシュバック効果のみを分析対象としている。一方、「学習」へのウォッシュバック効果については、ほとんど注目されていない。

・NMETがどのように学習者の英語学習に影響するか、について調べた実証研究は、現状、存在しない。

・学習者のテストに対する認識・態度が学習行動にどのような影響を及ぼすか、学習行動がどのようなアウトカムを生み出すか——これらを個別に検討している先行研究はあるものの、包括的に、「認識」「学習行動」「アウトカム」の関係を検証した実証研究は現状存在しない。

4. 方法

(1) ケースセレクション

中国の重慶市 (Chongqing) から、学校ランキング、その地区の経済・教育レベルをもとに、6つの高校を選出(計4地区)。内訳は次の通り。
・a top high school (N= 429, 13.8%) [municipality level]
・a key high school (N=716, 23.1%) [municipality level]
・a key high school (N= 551, 17.7%) [district level]
・an ordinary high school (N= 642, 20.7%) [district level]
・an ordinary high school (N= 303, 9.8%) [country level]
・a high school (N= 464, 15.0%) [town level]

(2) 処置

反実仮想モデルではないため、「処置」は考慮されていない。

(3) 処置の割当メカニズム

同上

(4) 結果変数の測定方法

・テストの妥当性の認識 (Pvalidity)、テストが与えるインパクト (Pimpact)、テストの重要性の認識 (Pimportance) を質問紙により調査。質問内容の例は以下の通り。Pvalidityだと「NMETは私の英語力を科学的に・客観的に測定している」、Pimpactだと「NMETは私の英語学習の方法に影響を与えている」、Pimportanceだと「私のNMETのスコアは、将来の英語学習を考慮すると重要だ」——といった質問項目が設定されている。

・「学習者の取り組み」は以下の4つを構成要素とする。すなわち、①「授業に基づく学習(例:授業の内容を復習する)」、②「テスト勉強(例:NMETの疑似問題を演習する)」、③「娯楽的学習(例:洋楽を聴く)」、④「コミュニカティブ・ラーニング(例:ネイティブスピーカーと英語でコミュニケーションをとる)」。

・「学習者の成績」は、学習者に、1年間における自身の平均的な点数の幅を選択してもらうことで測定する。指標としては、150点満点中、①75点以下 (poor)、②76~90点 (comparatively poor)、③91~105点 (average)、④106-119 (comparatively good)、⑤120点以上 (good)、の5区分。このような方法を採用した理由は以下の3つ。まず、参加者の学年・所属校・地区がバラバラなため、統一的なテストを実施するのは現実的ではないという点。それから、学習者の学力を一つのテストで計測することはできないという点。最後に、複数のテストを統一的にやるには、サンプルの数からして、あまりにもコストがかかりすぎるという点。以上の理由から、学習者の英語力を、学習者の平均的なテストスコアの幅で計測する方法が、合理的であると判断した。

(5) 実験の実施方法・データ収集の方法

・3,278人に質問紙の回答を依頼した結果、3,215人 (98.1%)から回答を得ることができた。

5. 結果

RQ1. テストの妥当性・影響・重要性に関する学習者の認識は、どのように、かつ、どの程度、学習に影響するか?

→ どの要素も同様に学習者の取り組みに影響することが確認された。しかし、テストに対する認識の良し悪しにより、学習行動に違いが生まれ、結果として正のウォッシュバック効果だけでなく負のウォッシュバック効果が生じている——ということも確認された。

RQ2. 学習者の取り組みは、どのように、かつ、どの程度、学習のアウトカムに影響するか?

→ 4つの取り組みが学習者の成績にどの程度影響したか。結果は以下の通り。
1位 授業に基づく学習 (β= .27)
2位 娯楽的学習 (β= .15)
3位 テスト勉強 (β= .10)
3位 コミュニカティブ・ラーニング (β= .10)

※ コミュニカティブ・ラーニングの数値は、その実施回数の少なさを考慮すれば、決して低いものではない。

6. インプリケーション

・正のウォッシュバック効果をもたらせるかどうかは、学習者のテストに対する認識が大きく影響する

・中国における(一部の地域の)EFLでは、教師による指導が、英語学習において重要な役割を有していた

・学習者が「コミュニカティブ・ラーニング」に取り組まなかったのは、スピーキング能力がNMET のテスト項目で設定されていないから——という可能性がある

7. 研究の限界

・すべてのデータが参加者の自己申告に基づいているため、信頼性は低い。

・本研究では、学校レベル、地区の経済的・教育的レベルを考慮し、サンプルの抽出を行ったが、データを高度に処理する作業 (multi-level analysis) は行っていない。

・多くの先行研究で、ウォッシュバック効果は静的なものではなく動的なもの(=時間と共に変化する)と指摘されているが (Zhan & Wan, 2014)、本研究ではこの点をクリアしていない。

・本研究はかなりのサンプル数が確保されているものの、母集団全体から抽出したわけではなく、ある一つの都市(重慶市)から抽出したものである(=外的妥当性が担保されていない)。したがって、本研究の結果を母集団全体に一般化するには、さらなる研究が必要だ。

8. 今後の研究の方向性

・サンプル抽出後に、更なる統計的処理を加えた研究をすべきではないか(直接は書かれていないが、おそらく「マッチング」などのことを言っているのだろう)。

・ウォッシュバック効果の「移り変わり」を分析するためにも、縦断的研究 (longitudinal study) が必要。

・外的妥当性が保証されたリサーチが必要だ。

ブログ人の感想

・Xie (2013) で使用されている、全サンプルをランダムで半数に分割し、交差検証 (cross-validation) する手法が採用されている。どの程度この方法が有効なのかわからないので、とりあえず Xie (2013) を読もうかと。
 
・波及効果と「学習者の認識」の関係、という視点は波及効果研究ではあまりない。これまでの波及効果研究は、波及効果の有無に焦点がいきがちで、波及効果が起こる(起きない)要因については、あまり分析されていない。また、波及効果関係の論文で、SEM(因子分析とかパス解析とか)を使っているのは見たことがなかったので、その点は参考になった。

・学習者の成績を、「一年間を通して、テストの平均的な点数のレンジを自己申告させる」という手法をとっていたが、測定の仕方がザックリしすぎているのでは?

・インプリケーションで、「学習者がコミュニカティブ・ラーニングをあまり行わなかったのは、NMETにスピーキングテストが含まれていない可能性がある。よって、NMETにスピーキングテストを導入すべきだ」と書かれているが、この主張にはムリがある。本研究は、「学習者の認識が、NMETの波及効果にもたらす影響」について調べているものであり、「テストにスピーキングを導入することで、学習者の学びが変わる」という因果効果の解明を目指したものではない。後者を測定したいならば、因果推論の知見を基にしたリサーチデザインを設定する必要がある。したがって、本研究の知見だけでは、学習者がコミュニカティブ・ラーニングを行わなかった理由が、テストにスピーキングが含まれていないという点にあることを保証できないため、この主張にはかなりの疑問を持った。

・高校の区分がよくわからない(だから英語でそのまま書いておいた)。a top high school は「上位進学校」、an ordinary high school は「普通の高校」とかで良いと思うが(もっとも、なにを「普通」と言っているのかわからないが)、a key high school って一体なんだ?? それから、何もついていないただの high school は 一体なんぞや?? 特に説明がないということは、中国人ならわかるってことなのだろうか。とはいえ、もう少し地域の事情について厚く書いてほしいところ。