13.回帰分析

2022年9月16日

13.回帰分析

2つの量的変数の関係を分析する手法には、相関(correlation)と回帰:regression(回帰分析:regression analysis)の二つがあります。

(1)回帰とは

回帰とは、ある変数Yの値のバラつきが、どの程度、他の変数Xの値のバラつきによって説明されるかを示すものです。

回帰では、変数Xで変数Yを説明しようとしています。
つまり、XからYという方向性があります。
研究目的に応じて、事前に、2つの変数のうちどちらをXにしてどちらをYにするのか、決めておく必要があります。
これに対して、相関では、どちらがXでもYでも問題ない(認識していない)という違いがあります。

2種類のデータ(例えば、身長と体重のデータ)があった場合、一般的には、次のような順番で、段階的に解析を進めることが考えられます。

  1. 各データの要約統計量を計算する
  2. 各データのヒストグラムを作成する(データの可視化)
  3. X軸:身長、Y軸:体重の散布図を作成する
  4. 回帰分析や相関を算出してみる

(2)回帰式

1)まず、変数が2つの一次方程式(中学教科書)を考えると、次のように表される。

y = ax + b

x:説明変数(独立変数)
y:目的変数(従属変数) 

a(係数):直線の傾き、つまり、xが1増加したときのyの増加量
b(切片):直線がy軸と交わる点、つまり、x=0のときのyの値
(x、yは変数であり、a、bは定数である)

yの値は、xの値が決まれば自動的に決まってきます。
つまり、それぞれのデータは、この直線上のいずれかに存在していることになります。

2)次に、統計の回帰分析の式を考えると、次のようになる。 

y= ax + b + ε

回帰分析では、要因となる説明変数X(例えば、身長)に対応して、結果となる被説明変数Y(例えば、体重)が存在するという関係があります。(相関との違い)

つまり、回帰分析では、どちらの変数を(X)とするか、あるいは(Y)とするかを、事前に決めておかなければなりません。

a(係数):直線の傾き、つまり、xが1増加したときのyの増加量
b(切片):直線がy軸と交わる点、つまり、x=0のときのyの値
ε(誤差):誤差項

x(身長)とy(体重)の関係を考えた場合、直線「y= ax + b」の関係は成り立ちません。
なぜならば、同じ身長であっても、体重の重い人もいれば軽い人もいるからです。 

つまり、データは必ずバラつくものであることが分かります。
このバラつきを表したのが、ε(誤差)になります。 

ここでは、データは、直線「y= ax + b +ε」の周りにバラつくことになります。
つまり、ε(誤差)は、各データとy軸方向の距離(残差)を合計したものになります。

ところで、説明変数/被説明変数に対応する用語は、諸資料で異なることが多くなっています。
したがって、資料ごとにその関係をしっかりつかんでから、読み進めることが大切です。

x(身長):説明変数(独立変数、説明変数、説明変数)
y(体重):被説明変数(従属変数、目的変数、応答変数)

例えば、吉田2019,p.158では、x:身長(説明変数←説明変数)とy:体重(応答変数←被説明変数)の組み合わせを採用しています。
これに対して、阿部2021,p.161では、x(説明変数または独立変数)、y(目的変数または従属変数)となっています。

3)最小二乗法

データが、回帰式「y= ax + b +ε」の周りにバラついているとした場合、
最も適切な回帰式を選ぶには、パラメータa、b(回帰係数:regression coefficient)を、どのように決めればよいかが問題となります。 

その方法の一つとして、各データと回帰式の差(残差すなわち偏差)をできる限り小さくする、ことが考えられます。これを最小二乗法(least squares)と言います。

考え方の手順は、以下のとおりであり、
実際には、偏差平方和が一番小さくなるaとbを選ぶことになります。 

  1. 残差(偏差):各データごとにy軸方向の距離を求める。
  2. 偏差平方:各データごとに残差(偏差)を二乗したものを計算する。
  3. 偏差平方和:各データごとの偏差平方(偏差を二乗したもの)を全て加えたものを計算する。
  4. 偏差平方和が一番小さくなるaとbを選ぶ。
    (ここでの実際の計算には、偏微分方程式を使う)

 以上によって、最適な回帰式を決定することができます。

(3)単回帰分析と重回帰分析

  • 単回帰分析:説明変数が1つの場合、y(体重)= ax(身長)+ b +ε
  • 重回帰分析:説明変数が2つ以上の場合、y(体重)= ax(身長)+cx(年齢)+ b +ε
  • 吉田寛輝著『いちばんやさしい医療統計』アトムス社(2019年)
  • 神田善伸著『EZRでやさしく学ぶ統計学』中外医学社(2020年)
  • 阿部真人著『統計学入門』ソシム社(2021年)
  • 文部省認定社会通信教育『現代統計実務講座 テキスト1』実務教育研究所(1965年)

関連URL及び電子書籍(アマゾンKindle版)

1)サリドマイド事件全般について、以下で概要をまとめています。
サリドマイド事件のあらまし(概要)
上記まとめ記事から各詳細ページにリンクを張っています。
(現在の詳細ページ数、20数ページ)

2)サリドマイド事件に関する全ページをまとめて電子出版しています。(アマゾンKindle版)
『サリドマイド事件(第7版)』
世界最大の薬害 日本の場合はどうだったのか(図表も入っています)

www.amazon.co.jp/ebook/dp/B00V2CRN9G/
2015年3月21日(電子書籍:Amazon Kindle版)
2016年11月5日(第2版発行)
2019年10月12日(第3版発行)
2020年05月20日(第4版発行)
2021年08月25日(第5版発行)
2022年03月10日(第6版発行)
2023年02月20日(第7版発行)、最新刷(2023/02/25)

本書は、『サリドマイド胎芽症診療ガイド2017』で参考書籍の一つに挙げられています。

Web管理人

山本明正(やまもと あきまさ)

1970年3月(昭和45)徳島大学薬学部卒(薬剤師)
1970年4月(昭和45)塩野義製薬株式会社 入社
2012年1月(平成24)定年後再雇用満期4年で退職
2012年2月(平成24)保険薬局薬剤師(フルタイム)
2023年1月(令和5)現在、保険薬局薬剤師(パートタイム)