12．相関関係

2022年9月14日2022年9月16日

12．相関関係

2つの量的変数の関係を分析する手法には、相関（correlation）と回帰：regression（回帰分析：regression analysis）の二つがあります。

（１）相関とは

相関とは、二つの変数（連続変数）同士が、どのような位置関係で散らばっているかを示したものです。
二つの変数の間の「関連（バラつき具合）」を分析する手法と言えます。
相関係数（r）という数値を用いて、お互いの関係（相関関係）の強さを定量化します。

相関係数は、「線形的な」関係性の強さを定量化した指標である。
つまり、直線関係の強さを、数値（-1～＋1）で示したものである。
単位はない。
相関係数は、1に近づくほど正の相関（正比例）の関係が強くなり、-1に近づくほど負の相関（反比例）の関係が強くなる。また、0に近づくほど無相関になる。

相関係数（r）の値と相関関係の強さの関係：

0.7 < |r| ≦ 1：強い相関
0.4 < |r| ≦ 0.7：中程度の相関
0.2 < |r| ≦ 0.4：弱い相関
0.0 < |r| ≦ 0.2：ほぼ相関無し

（２）「線形的な」関係性（直線性）とはどういうことか

線形でない（つまり、非線形な）関係、例えば、二次関数や四次関数などにおいては、2つの量的変数の間には明瞭な関係があるにもかかわらず、相関係数はゼロに近く（ほぼ無相関に）なります。

逆に、同じ相関係数を出すデータとはいっても、その散布図を見ると、様々な形が存在することが分かります。

その中には、「線形的な」関係性からはほど遠い分布であるにもかかわらず、相関係数は同じという（相関係数がそれなりの値となる）分布が数多く存在している。
（「同じ相関係数を出す様々なデータ」阿部2021,p.166）

つまり、相関係数だけでは、データの散らばり具合を判断することはできません。
そこで、相関係数を計算する前には、必ず散布図を描き、データがどのように分布しているかを確認しておくことが大切です。

（３）相関と因果関係は全く別物である

ここで、相関と因果関係は全く別物である点には、注意する必要があります。
つまり、相関があるからといって、因果関係があるとは限らないからです。

「相関」では、変数（X、Y）を入れ替えたとしても、その結果（相関係数r）に変わりはありません。
つまり、どちらがXでどちらがYか、ということは重要ではありません。
これに対して、「回帰」では、説明変数Xに対応して目的変数Yが存在する、という関係があります。
つまり、どちらがXでどちらがYか、という関係が重要になります。

（４）相関係数のp値は、相関の強さには関係しない

「p<0.05⇔相関がある（相関が高い）」とするのは、間違いです。
相関の強さと相関係数のp値とは、切り離して考えなければいけません。
言い換えると、2つの変数の関係は、「相関係数の値の大小」と「P値」の両方を見比べて判断する、ことが重要になります。

そのことを、相関係数の帰無仮説と対立仮説から考えてみます。

帰無仮説H0：相関係数=0
対立仮説H1：相関係数≠0

相関係数の仮説検定では、相関係数ゼロとする帰無仮説に対して、相関係数のP値（累積確率）が、0.05（有意水準）を下回ったならば、「相関係数はゼロではなさそうだ」と結論付けます。（P<0.05：有意差有り）

ただし、これは、「p<0.05⇒相関が高い」（相関が強い）と言うことを意味してはいません。
相関の強さを示すのは、あくまでも「相関係数の値の大小」です。
それに対して、P値は、相関係数の値そのもの（相関の大小を問わない）が、どれだけ確からしいかを示す目安になります。

（５）参考事例：相関係数とP値との関係を考える

１）相関係数0.01、p<0.05の場合：

相関はほぼ無い（相関係数0.01）ことが、確かなようだ（p<0.05）と判断する。
つまり、仮説検定を実施した結果、p<0.05であることが分かってはじめて、その相関の有り無しを主張できる。

２）相関係数0.8、p>0.05の場合：

強い相関がある（相関係数0.80）ようには見えるが、それが確かとまでは言えない（P>0.05）と判断する。
つまり、P>0.05の場合、たとえ相関係数が大きくても、統計的に有意な相関があるとは主張できない。

なお、一般的に、サンプルサイズnが大きいと、P値が小さくなることから、p<0.05（統計的に有意）となる確率は高まります。これは、相関係数の場合でも同様です。
（参考）「サンプルサイズと仮説検定」（阿部2021,p.172）

（６）相関係数を算出する

相関係数を求めるには、共分散をそれぞれの変数の標準偏差で割る。

x と y の相関係数 r ＝（xとyの共分散）／｛（xの標準偏差）×（ｙの標準偏差）｝

以下の手順を順番に実行するとよい。

それぞれの変数の平均値を求める
それぞれの変数の偏差（数値－平均値）を求める
それぞれの変数の分散（偏差の二乗平均）を求める
それぞれの変数の標準偏差（分散の正の平方根）を求める
共分散（偏差の積の平均）を求める
共分散を2つの変数の標準偏差で割って相関係数を得る

１）ピアソンの積率相関係数 r（Pearson’s correlation coefficient r）

相関分析では、2つの量的変数の間における関係の強さを定量化します。
このとき、最も頻繁に使われる値は、ピアソンの積率相関係数（r）です。

ピアソンの積率相関係数（r）は、パラメトリックな手法です。
つまり、xの分布、yの分布が正規分布であることを仮定しています。
したがって、外れ値がある場合には、適切ではありません。

ピアソンの積率相関係数 r は、共分散をそれぞれの変数の標準偏差で割って求めます。

X と Y の相関係数（r）
＝（xとyの共分散）／｛（xの標準偏差）×（ｙの標準偏差）｝

２）スピアマンの順位相関係数 ρ（Spearman’s rank correlation coefficient ρ）

スピアマンの順位相関係数（ρ）は、ノンパラメトリックな手法です。
xの分布、yの分布の少なくとも一方に、正規性がない場合に適しています。
正規性のないデータについては、それを順位に変換した後、積率相関係数の式に当てはめて計算をします。
この方法は、外れ値の影響を、ほとんど受けないとされています。

吉田寛輝著『いちばんやさしい医療統計』アトムス社（2019年）
神田善伸著『EZRでやさしく学ぶ統計学』中外医学社（2020年）
阿部真人著『統計学入門』ソシム社（2021年）
文部省認定社会通信教育『現代統計実務講座テキスト１』実務教育研究所（1965年）

このページの目次です
1. 関連URL及び電子書籍（アマゾンKindle版）
1.1. Web管理人

関連URL及び電子書籍（アマゾンKindle版）

１）サリドマイド事件全般について、以下で概要をまとめています。
⇒サリドマイド事件のあらまし（概要）
上記まとめ記事から各詳細ページにリンクを張っています。
（現在の詳細ページ数、20数ページ）

２）サリドマイド事件に関する全ページをまとめて電子出版しています。（アマゾンKindle版）
『サリドマイド事件（第7版）』
世界最大の薬害日本の場合はどうだったのか（図表も入っています）

www.amazon.co.jp/ebook/dp/B00V2CRN9G/
2015年3月21日（電子書籍：Amazon Kindle版）
2016年11月5日（第2版発行）
2019年10月12日（第3版発行）
2020年05月20日（第4版発行）
2021年08月25日（第5版発行）
2022年03月10日（第6版発行）
2023年02月20日（第7版発行）、最新刷（2023/02/25）

本書は、『サリドマイド胎芽症診療ガイド2017』で参考書籍の一つに挙げられています。

Web管理人

山本明正（やまもとあきまさ）

1970年3月（昭和45）徳島大学薬学部卒（薬剤師）
1970年4月（昭和45）塩野義製薬株式会社入社
2012年1月（平成24）定年後再雇用満期4年で退職
2012年2月（平成24）保険薬局薬剤師（フルタイム）
2023年1月（令和5）現在、保険薬局薬剤師（パートタイム）

医療統計

Posted by 管理人