「英単語、いくつ知ってる?」を当ててくれるサイトが「8万語」と出してくる件。四択クイズは、消去法で“盛れる”という話
「あなたは英語の単語をいくつ知ってる?」を、100問の四択クイズで当ててくれるWebアプリVocabowlが、Hacker Newsで話題(コメント400超)。仕組みはなかなか賢く、単語を頻度(むずかしさ)で5つの層に分け——いちばん易しい約3,000語から、中級7,000語、上級10,000語、専門25,000語、超レアな40,000語級まで——各層で正解した“割合”に、その層の単語数をかけて合計し、語彙数を見積もる(例:7,000語の層で3問中2問正解なら、約66%=4,600語ほど知っている、と推定)。「170,000語」というのは、オックスフォード英語辞典(第2版)が言う“いま使われている英語”の総数(約171,476語)のこと。ただしツッコミも多く、テストが用意している単語は全部足しても約85,000語ぶんしかなく、全問正解でも理屈上は17万の半分しか測れない。さらに四択ゆえ“消去法”で当てたぶんまで「知ってる」に加算されて数字が膨らむ、「lethargic=lethargyの状態」のような堂々巡りの定義がある、ラテン・ギリシャ語由来の単語に偏っている、といった声も。利用者の自己申告スコアは59,000〜85,000語と、本人も半信半疑。知らない単語まで“知ってること”にしてくれる、ちょっと優しすぎる語彙テストを、4人が掘る。
ひかり:ねえ見て見てっ! 自分が英語の単語をいくつ知ってるか、100問の四択で当ててくれるサイト、やってみたの。……結果、ジャジャーン!「81,000語」だって! わたし、もしかして天才なんじゃない!?
みずき:…盛りすぎ。あんた、この前 “strawberry” のスペル、最後まで書けてなかったじゃん。8万語は、どう考えてもおかしい。
ひかり:うっ……す、strawberryは、みんな間違えるもん! ……ねえことね先輩、このサイト、ほんとに当たってるの? わたしの8万語、信じていいやつ?
ことね:仕組みは、なかなか賢いのよ。やさしい単語から超レアな単語まで、難しさで5つの層に分けてあるの。いちばん易しい層が約3,000語、次が7,000語、上級が10,000語……いちばん上は40,000語級。各層で正解した“割合”に、その層の単語数をかけて、ぜんぶ足す。たとえば7,000語の層で3問中2問正解なら、「約66%、4,600語くらいは知ってそう」って見積もる仕組みね。
ひかり:へぇ〜、ちゃんと計算してるんだ! じゃあ、わたしの8万語も、わりと本物ってこと……?
みずき:…そこが罠。四択ってことは、なんにも知らなくても4回に1回はまぐれで当たる。知らない単語を“消去法”で当てたぶんまで、「知ってる」に足されてく。だから数字は、もりもり膨らむ。
ことね:みずきの言うとおりなの。そもそも「170,000語」っていうのは、オックスフォード英語辞典が言う“いま使われている英語”の総数——だいたい17万語のこと。なのに、このテストが用意してる単語は、ぜんぶ足しても8万5千語ぶんくらい。だから全問正解しても、理屈の上では“17万のうちの半分”しか測れないの。おまけに「lethargic(だるい)=lethargyの状態」みたいに、定義が堂々巡りしてる問題もあるって、ツッコまれてたわ。
みずき:…AIに「知ったかぶりするな、分からないなら分からないと言え」って教える研究、さっきあったよね。このサイトは真逆。当てずっぽうで選んだ単語まで、ぜんぶ「知ってる」に数えてくれる。…甘やかし採点。
ひなた:ふぁ〜…「知ってる単語の数」って、なんだか、食べたことのある料理の数、みたいなのです……。
ひなた:……でもね、名前を聞いたことがあるだけの料理と、ちゃんと味をおぼえてる料理は、ちがうのです。四択でなんとなく選べた単語は、メニューで“見たことある”だけ。ほんとうに知ってる単語は、自分で使って、だれかに通じた言葉なのです。8万でも、3千でも、ちゃんと味わった言葉のほうが、えらい、なのです。
まとめ:100問の四択でわかるのは「あなたの英語力」より、「四択は消去法で盛れる」というほろ苦い事実のほう。測れるのは17万語のうち半分以下、まぐれ当たりも“知ってる”に加算——だから出てくる数字は、ちょっとだけ優しい。AIには「分かりません」を仕込んでいる時代に、このサイトは「ぜんぶ知ってることにしてあげる」。ひかりの8万語が本物になるのは、ひなたの言うとおり、その単語を自分で“味わって”、だれかに通じたときだ。