12.相関関係
12.相関関係
2つの量的変数の関係を分析する手法には、相関(correlation)と回帰:regression(回帰分析:regression analysis)の二つがあります。
(1)相関とは
相関とは、二つの変数(連続変数)同士が、どのような位置関係で散らばっているかを示したものです。
二つの変数の間の「関連(バラつき具合)」を分析する手法と言えます。
相関係数(r)という数値を用いて、お互いの関係(相関関係)の強さを定量化します。
- 相関係数は、「線形的な」関係性の強さを定量化した指標である。
- つまり、直線関係の強さを、数値(-1~+1)で示したものである。
- 単位はない。
- 相関係数は、1に近づくほど正の相関(正比例)の関係が強くなり、-1に近づくほど負の相関(反比例)の関係が強くなる。また、0に近づくほど無相関になる。
相関係数(r)の値と相関関係の強さの関係:
- 0.7 < |r| ≦ 1:強い相関
- 0.4 < |r| ≦ 0.7:中程度の相関
- 0.2 < |r| ≦ 0.4:弱い相関
- 0.0 < |r| ≦ 0.2:ほぼ相関無し
(2)「線形的な」関係性(直線性)とはどういうことか
線形でない(つまり、非線形な)関係、例えば、二次関数や四次関数などにおいては、2つの量的変数の間には明瞭な関係があるにもかかわらず、相関係数はゼロに近く(ほぼ無相関に)なります。
逆に、同じ相関係数を出すデータとはいっても、その散布図を見ると、様々な形が存在することが分かります。
その中には、「線形的な」関係性からはほど遠い分布であるにもかかわらず、相関係数は同じという(相関係数がそれなりの値となる)分布が数多く存在している。
(「同じ相関係数を出す様々なデータ」阿部2021,p.166)
つまり、相関係数だけでは、データの散らばり具合を判断することはできません。
そこで、相関係数を計算する前には、必ず散布図を描き、データがどのように分布しているかを確認しておくことが大切です。
(3)相関と因果関係は全く別物である
ここで、相関と因果関係は全く別物である点には、注意する必要があります。
つまり、相関があるからといって、因果関係があるとは限らないからです。
「相関」では、変数(X、Y)を入れ替えたとしても、その結果(相関係数r)に変わりはありません。
つまり、どちらがXでどちらがYか、ということは重要ではありません。
これに対して、「回帰」では、説明変数Xに対応して目的変数Yが存在する、という関係があります。
つまり、どちらがXでどちらがYか、という関係が重要になります。
(4)相関係数のp値は、相関の強さには関係しない
「p<0.05⇔相関がある(相関が高い)」とするのは、間違いです。
相関の強さと相関係数のp値とは、切り離して考えなければいけません。
言い換えると、2つの変数の関係は、「相関係数の値の大小」と「P値」の両方を見比べて判断する、ことが重要になります。
そのことを、相関係数の帰無仮説と対立仮説から考えてみます。
- 帰無仮説H0:相関係数=0
- 対立仮説H1:相関係数≠0
相関係数の仮説検定では、相関係数ゼロとする帰無仮説に対して、相関係数のP値(累積確率)が、0.05(有意水準)を下回ったならば、「相関係数はゼロではなさそうだ」と結論付けます。(P<0.05:有意差有り)
ただし、これは、「p<0.05⇒相関が高い」(相関が強い)と言うことを意味してはいません。
相関の強さを示すのは、あくまでも「相関係数の値の大小」です。
それに対して、P値は、相関係数の値そのもの(相関の大小を問わない)が、どれだけ確からしいかを示す目安になります。
(5)参考事例:相関係数とP値との関係を考える
1)相関係数0.01、p<0.05の場合:
相関はほぼ無い(相関係数0.01)ことが、確かなようだ(p<0.05)と判断する。
つまり、仮説検定を実施した結果、p<0.05であることが分かってはじめて、その相関の有り無しを主張できる。
2)相関係数0.8、p>0.05の場合:
強い相関がある(相関係数0.80)ようには見えるが、それが確かとまでは言えない(P>0.05)と判断する。
つまり、P>0.05の場合、たとえ相関係数が大きくても、統計的に有意な相関があるとは主張できない。
なお、一般的に、サンプルサイズnが大きいと、P値が小さくなることから、p<0.05(統計的に有意)となる確率は高まります。これは、相関係数の場合でも同様です。
(参考)「サンプルサイズと仮説検定」(阿部2021,p.172)
(6)相関係数を算出する
相関係数を求めるには、共分散をそれぞれの変数の標準偏差で割る。
x と y の相関係数 r =(xとyの共分散)/{(xの標準偏差)×(yの標準偏差)}
以下の手順を順番に実行するとよい。
- それぞれの変数の平均値を求める
- それぞれの変数の偏差(数値 - 平均値)を求める
- それぞれの変数の分散(偏差の二乗平均)を求める
- それぞれの変数の標準偏差(分散の正の平方根)を求める
- 共分散(偏差の積の平均)を求める
- 共分散を2つの変数の標準偏差で割って相関係数を得る
1)ピアソンの積率相関係数 r(Pearson’s correlation coefficient r)
相関分析では、2つの量的変数の間における関係の強さを定量化します。
このとき、最も頻繁に使われる値は、ピアソンの積率相関係数(r)です。
ピアソンの積率相関係数(r)は、パラメトリックな手法です。
つまり、xの分布、yの分布が正規分布であることを仮定しています。
したがって、外れ値がある場合には、適切ではありません。
ピアソンの積率相関係数 r は、共分散をそれぞれの変数の標準偏差で割って求めます。
X と Y の相関係数(r)
=(xとyの共分散)/{(xの標準偏差)×(yの標準偏差)}
2)スピアマンの順位相関係数 ρ(Spearman’s rank correlation coefficient ρ)
スピアマンの順位相関係数(ρ) は、ノンパラメトリックな手法です。
xの分布、yの分布の少なくとも一方に、正規性がない場合に適しています。
正規性のないデータについては、それを順位に変換した後、積率相関係数の式に当てはめて計算をします。
この方法は、外れ値の影響を、ほとんど受けないとされています。
- 吉田寛輝著『いちばんやさしい医療統計』アトムス社(2019年)
- 神田善伸著『EZRでやさしく学ぶ統計学』中外医学社(2020年)
- 阿部真人著『統計学入門』ソシム社(2021年)
- 文部省認定社会通信教育『現代統計実務講座 テキスト1』実務教育研究所(1965年)
このページの目次です関連URL及び電子書籍(アマゾンKindle版)
1)サリドマイド事件全般について、以下で概要をまとめています。
⇒サリドマイド事件のあらまし(概要)
上記まとめ記事から各詳細ページにリンクを張っています。
(現在の詳細ページ数、20数ページ)2)サリドマイド事件に関する全ページをまとめて電子出版しています。(アマゾンKindle版)
『サリドマイド事件(第7版)』
世界最大の薬害 日本の場合はどうだったのか(図表も入っています)
www.amazon.co.jp/ebook/dp/B00V2CRN9G/
2015年3月21日(電子書籍:Amazon Kindle版)
2016年11月5日(第2版発行)
2019年10月12日(第3版発行)
2020年05月20日(第4版発行)
2021年08月25日(第5版発行)
2022年03月10日(第6版発行)
2023年02月20日(第7版発行)、最新刷(2023/02/25)本書は、『サリドマイド胎芽症診療ガイド2017』で参考書籍の一つに挙げられています。
Web管理人
山本明正(やまもと あきまさ)
1970年3月(昭和45)徳島大学薬学部卒(薬剤師)
1970年4月(昭和45)塩野義製薬株式会社 入社
2012年1月(平成24)定年後再雇用満期4年で退職
2012年2月(平成24)保険薬局薬剤師(フルタイム)
2023年1月(令和5)現在、保険薬局薬剤師(パートタイム)