「○○の妥当性と信頼性が~」と語られているのを目にすることがあります。
筋電図の変化を効果だと示す人の意見は丁寧に論駁します。その変化が事実だとしても、私たちの目標はそれ自体にはありません。周径を結果だと言うのがおかしいと感じるのと構造は同様です。例え機械を使用したとしても、妥当性と信頼性の区別がついていないのならば、測定する意味は少ないでしょう。
— よね (@yutayonemoto) 2017年10月14日
このように妥当性と信頼性は、異なる概念です。その部分を整理しておきたいと思います。今回は愛情を例えにして考えてみます。
妥当性と信頼性の違い
愛情の大きさをどのように評価するか
「私のこと、どれくらい好き?」と聞かれたら、どう答えますか?これは非常に難しい問題です。
なぜなら、私たちは「愛情」というものを誰もが納得するような形で定義することが難しく、さらにそれを定量化する絶対的な尺度を持ち合わせていないからです。
文学的な表現で、「マリアナ海溝よりも深く君を愛している」と言うことはできたとしても、これは客観性を欠いていて科学的な態度とは言えません。
客観的に示すには数値化が必要
客観的に愛情を示すには、何らかの手段でそれを測定し、数値化しなければなりません。愛情の測定手段として、仮に「相手を抱きしめる強さ」を採用したとします。これなら、体圧測定器などを使えば数値化できそうです。
早速、測定開始、といきたいところですが、お気づきのように、この方法には大きな問題が存在します。
それは、「力は一般的に男性の方が強い=愛情の大きさに関わらず男性の数値が大きくなってしまう恐れがある」「それって本当に愛情を測れているの?」ということです。これが妥当性の問題です。
測りたいものが測れていないという可能性
こちらの意図としては「愛情」を測定したかったのに、実際にはそこに「力の強さ」という要素が大きな影響を与えてしまっている=測りたいと思っているものを的確に測れていない、というわけです。
仮に(真実の)愛情の大きさが「女性>男性」だったとしても、表に出てくる抱きしめる強さの測定値は「女性<男性」になる可能性が大いにあります。
信頼性のあるデータを取得するために
信頼性に関しては、例えば3回抱きしめて3回ともほとんど同じ数値が記録されれば、信頼性が高いということになります。
そのためには、「抱きしめる時の2人の距離は15cm、足は肩幅に開き、肩関節屈曲45度にて対象者を抱きしめる」というように、条件を規定しておかなければなりません。これが乱れると、測定する毎に数値が大きくブレてしまう可能性があります。
以上が測定方法における妥当性と信頼性です。
体幹の強さを評価できるか?
次に「体幹」について考えてみます。まずは言葉の定義についてです。
「体幹」という言葉は「腹筋群」という意味合いで使われることもあれば、「四肢・頭以外の部分」と定義する人もいます。さらには、もっと曖昧な感じで「インナーマッスル」という意味合いで使っているシーンも見かけます。
「体幹」という言葉の絶対的な定義は、いまのところありません。「愛情」と同じ状況です。
実態のないものを掴めるのか
さらに「体幹の強さ」を評価するゴールドスタンダードも、現時点ではありません。
「体幹スタビリティ」とやらを正確に測定できる機器は未だに存在しませんし、ゴールドスタンダードも存在しません。そのため、世界中のあらゆる研究者が「体幹スタビリティ」という実態の無いものを測定するために様々な方法を模索しています。だけど、その正体を誰も知らない
参考 「体幹トレーニング」ってなんだ?② 学生S&C日記
「正体を誰も知らない」…まさしく愛情と同じ状況です。実態のないものを掴もうとしていて、確固たる定義がないまま色々と主張しようとするから議論が紛糾するわけです。
今回の学会にて「それは本当に体幹スタビリティを評価しているのか?」という質問をフロアからいただきました。
測定方法の妥当性に疑いがあると、このような質問が出ることになります。
まとめ
データの信頼性が確認されていて、そこから導き出された結論も論理的に述べられている、でも評価方法を見てみたら「それって本当に測りたいものを的確に測れているの?その測定方法の選択、問題ない?」ということは十分にありえます。
妥当性と信頼性は別物であることを理解し、それぞれを批判的な視点でチェックすることが大切だと思います。