文系には相関係数は内積で理解できない

相関係数内積だから、高校数学で内積をちゃんと理解しておけば相関係数は3秒で理解できる、という主張を最近ときどき見聞きする。そして、それゆえに、相関係数は高校生に教えなくても良いという過激な主張も見聞きする。しかし、内積についてイメージを持てる人って何人いるの?そして、内積がイメージができない人には相関係数など教えても危険だから教えるなってこと?と思ったりもする。

個人的には、そんなことはまったくないと思っているし、そうだったら困る。内積なしでもこれぐらいは説明はできるだろ、という手持ちの例の一つを以下に書いてみる。

相関係数0の例

ある定義が与えられたとき、極端な値をとるのはどういうときか?ということを考えることはまともな数学の勉強法の一つであるはずである。以下の例は、学生のときに数学科の人に作って、と言われて作ったものなので、数学の人も普通に考えることという話で良いのだと思う。次の問題を考えてみる。

問題

 (-3,0), (1,a), (1,3),  (2,0)という2変量のデータがあったとき、相関係数を0にするaを求めよ。

以下、確率側の言葉とデータ側の言葉の整合性を取る記述が面倒なので、確率変数の問題として議論することにする。

内積

この問題を高校生に説明するときに、2つのベクトル(-3,1,1,2)と(0,a,3,0)のそれぞれのベクトルについて、平均を引いてから直交するなどとやる、と説明するのだろうか?まあ、そうやって計算すればできるんだろうけど。

条件付きの平均で考える

今、データを眺めると、x=-3x=2のときのyの値は、0である。相関係数0ということは、たぶん何らかの「関係ない」ということだろうと。関係ないは、言い換えるとxがyを説明できないということであろうと言い換えられそう。

もし、x=1のときのyの平均がx=-3x=2のときのyの平均値と一致すれば、xがyを説明しているとは言いにくい。そこでx=1のときの平均が0となるようにa=-3と設定すれば良いのでは?と考える。そう考えて相関係数を計算すると、確かに0になる。

これが偶然でないことは、相関係数の定義式をxごとに並べて書き下していけば納得できるはずである。

「xが与えられたときのyの平均がどんなxについても同じであれば、xはyを平均の意味では何も説明していない。その状態が相関係数0である。」というこの話の理解に、なぜベクトルが必要なのか理解に苦しむ。相関係数0の解釈として、直交とこの解釈を比較したとき、文系脳の私には今の解釈のほうがすとっと落ちる。

なお、この例は独立ではないが相関係数0の例になっているはずである。Prob(y=0|x=-3) =1であるが、Prob(y=0)=1/2だから、x=-3x=2のときはy=0になりやすいので独立ではない、となるはず。

なお、こういう話をしたかったりするので、確率変数までは高校で扱ってほしいな、と思う。

同じ理解で他の例を説明しておく

たとえば、y=x^{2} の3点を(-1,1), (0,0), (1,1)ととったものも相関係数0である。y=0とy=1のときの平均が0で同じだから。しかし、xはyを説明している。また、同じ教科書にある円状のデータが0になるというのも理解できる。

これらの例をこんな感じでいじっておいて、ということで相関係数0でもxとyに関係があることもあるので、2変量程度であれば図を描こう、で終わる。あるいは、xを層別化して層ごとにヒストグラム描いて条件付き分布をいくつか眺めておこうとか。条件付けを色々帰るのに表計算ソフトはだるいから、Rでも使えた方が良いよ、なんて言ってみることもあると思う。

なお、高校教科書ではK社の教科書は、相関係数が0になる例がいくつか書かれている。しかし、どうやってそれをひねりだしたかがわからない。さすがにそれでは数学の授業としてね。。。

内積に頼らない説明を考えれば良いだけでは?

相関係数の用語程度は世間に出てくる。よって、内積の概念なしで、そこそこに理解させておこう、という説明を考えれば良いのでは?と思う。そして、ここに書いた感じの内積抜きの説明を探す努力はしてるわけ?と言いたい。

なお、上の例を理解するにはシグマすら必要ないですね・・・

手元の本に行列使って絵を描きつつ共分散行列のイメージを説明している本があるが、それが理解できない対象には相関係数を教えてはならないと言われると???ですよ。

高校理科の人の硬さのせいで私は理系をやめたので・・・(余談)

(私の半径3m以内で観測した)高校理科教師にありがちなのが、自分が「これが本質」と決めたら、それ以外の理解はありえない、とする。そして、自分に合わない人は下々なので見下す・関わらない・無視・排除あたりの行動を取る、という傾向が見受けられる。相関係数はベクトルの内積なんだからそれで理解できる、との主張は、その典型例のように見える。

また、高校理科教師は内容の理解だけでなく、理解のプロセスにも干渉する傾向が見受けられる(主観)。私は、理科の授業でそれを嫌なほど感じた。よって、とてもついていけないと判断して理系を選ばなかった。物理は後から自分で少しだけ勉強して面白いと思ったし、生物も最近参考書をみると勉強して見ても良かったかな、と思い出した。しかし、理科の教師の強要する学び方での物理や生物は面白くないんですよね・・・

やや燃えがちな言い方をするのであれば「あなたたちのやってることは掛け算順序強制の小学校教師と変わりませんよ。本質的には。」と言いたいことは何度もある。

数学の人はもっと柔軟なイメージがあり、「まあ都合の良いように定義しよう」というおおらかさがある気がする。