まずは読んでほしいおすすめ記事

トレーナーが知っておきたい相関関係と因果関係の話 ― 隠れた因子に注意する

相関関係と因果関係

トレーナーが統計について知る必要があるのか?と思う方もいるかもしれませんが、相関と因果関係、それから交絡因子について知っておかないと、介入(つまり現場での指導)によって生じた結果の解釈を誤ってしまう可能性があります。

【語句の定義】
相関関係:2つのデータのうち一方が増減すれば、もう一方も増減するという関係。(例)街を歩く半袖の人口が増えると同時に、アイスの売り上げにも増加が生じる。
因果関係:2つのデータが原因と結果の関係。(例)気温が上昇することで、アイスの売り上げが増加する。
上の画像にある“Correlation does not imply causation”という言葉は「相関関係が認められたからといって、一方が他方の原因である(=因果関係)とは限らない」ということを表しています。つまり、上記の例で言えば、街を歩く半袖の人口が増えれば、アイスの売り上げも増加するという相関関係は事実だとしても、シャツを着て街を歩く人からシャツを剥ぎ取って半袖の割合を増やしたからといって(原因)、アイスの売り上げが増加する(結果)わけではない=因果関係は認められない、ということです。
それから、因果関係の原因→結果の順番は逆にはなりません。上記の例で言うと、頑張ってアイスの売り上げを増やしたからといって、その結果として気温が上昇することはありません。

体重が増えれば年収も増える?

では本題に入ります。下図は、日本人男性の年代別平均年収と平均体重をプロットしたものです。ご覧のとおり、正の相関が示されています。相関係数は0.71で、「強い相関がある」と言えます。つまり、体重が増えれば年収も増える、あるいは年収が増えれば体重も増える、と表現できます。

図20

だとしたら、肥満になればお金持ちになれるのでしょうか?
もちろん、これは誤った解釈です。それぞれ用いたデータに嘘はありませんが見方に問題があります。
因果関係がないのに相関関係が表れるパターンはいくつかありますが、そのなかでもこれは交絡因子が関わっているパターンです。A(体重)とB(年収)の両方に影響を与える第三の因子C、これを交絡因子といいます。
今回の例で、交絡因子は「年齢」ということになります。

図21年功序列を前提とすれば、年々収入は増加します。また、年齢とともに基礎代謝量と身体活動量が減少することを考えれば体重の増加も納得できます。このように、体重と年収の増加は、隠れた因子である年齢によりもたらされていた、ということです。このとき体重と年収は擬似相関であると言えます。

しかし、収入が増える=生活習慣の変化→体重増加ということがあったとしたら、収入が体重の増加を招くという因果関係がある可能性は捨てきれません。その可能性について、検討してみたいと思います。以下、少々難しい内容になります。興味の無い方は読み飛ばしてください。

擬似相関を見破るには?

先ほどのグラフは、隠れた因子である「年齢」の影響も含めたグラフでした。なので、年齢の影響を取り除いた、つまり「体重」と「年収」の純粋な関係性を調べることができれば、先ほどの相関が擬似相関なのか判断することができます。
体重における年齢の影響を取り除くために、年齢に対する標準体重を回帰分析で求め、体重から標準体重を引きます(=この値を残差と言います)。この残差が、年齢の影響を取り除いた体重の値ということになります。同様の方法で年収の残差も求めます。

体重残差年収残差

それぞれの残差(年齢の影響を取り除いた値)が求められたので、体重の残差と年収の残差に相関があるかをみます。もし、体重と年収が原因と結果の関係にあるのであれば、それぞれの残差で分析しても相関関係が見られるはずです。

図22

ご覧のとおり、相関関係はみられなくなりました。

念のため、年齢が年収に影響を与えている関係にあることを確認するために、体重の影響を取り除いた純粋な2要素の関係を調べてみます。

図23こちらは綺麗に正の相関が示されました。
これで、今回扱ったデータに関しては年収と体重の相関は擬似相関であり、実際は隠れた因子である年齢が影響を与えていた、ということが分かりました。

現実世界に目を向けてみると…

統計の話は終わりにして、ざっくりとした話に戻します。世の中、気にしながら色々見ると、擬似相関が溢れています。ビジネスのために、意図的に関係性が操作されている場合もあります。前述の体重と年収の例は単純なので、それが誤りであることは簡単に分かると思いますが、実際はもっと巧みに隠されていたり、現象が複雑で分かりづらかったりします。また、情報発信者が“学者”だったとしても、信用してはいけません(参考記事)。

参考記事:谷本道哉 先生のFacebookでの投稿 ― 喫煙者率低下と肺がん死亡者数増加を表すグラフへの指摘

ここからは少し違った話になりますが、隠れた因子について考えてみます。たとえば、モデルがスタイルを維持するために実践している独自の方法は山ほど紹介されていますが、そこにも隠れた因子がないか疑う余地がありそうです。

もちろん、独自の方法に効果がないとは言い切れませんが、多くの場合は地道な努力をしていて、その地道な努力こそがスタイル維持の大部分を担っているはずです(そして、地道な努力はあまりに平凡すぎて、わざわざメディアで言う程でもないという理由から、語られることは少ないのだと思います)。モデルが行う美容・健康法を自分も真似てみて、どれほどの恩恵を受けることができるかは、一度立ち止まって考えるのが賢明かもしれません。

プロアスリートが行う目新しいトレーニングも同様です。オフシーズンに新しいトレーニングを取り入れてみた結果、次のシーズンで成績が好ましいものになったとしても、そのトレーニングと成績向上を簡単に結びつけてしまうのは早計です。たしかに、目新しいトレーニングはインパクトがあり、その光景を見た人に「こんなトレーニングをして強くなっているのか…」と印象付けてしまうかもしれません。しかし、その選手を作り上げている(結果)のは、本当にその奇抜なトレーニング(原因)なのか?また、どれほど貢献しているのか?隠れた因子がないか疑ってみることが必要だと思います。

参考文献

文部科学省 体力・運動能力調査(平成26年度)

DODA 平均年収ランキング2015