11.分散分析(ANOVA:分散を使った母平均の検定)

2022年9月16日

11.分散分析(ANOVA:分散を使った母平均の検定)

分散分析(ANOVA)は、3群以上(通常)の連続変数を比較するためのパラメトリックな検定です。
母平均の検定に〈分散を使用する〉ことから、分散分析(ANOVA:Analysis of variance)と呼ばれています。

(1)分散分析(ANOVA)は、「分散を使った母平均の検定」を行う

1)t検定と分散分析(ANOVA)を比べてみる

分散分析(ANOVA)は、「分散を使った母平均の検定」になります。
母平均の検定という点では、t検定と同じということができます。

t検定と同じく、解析対象(アウトカム)は、連続変数になります。
t検定が、1群または2群のとき使用できる検定手法であるのに対して、
分散分析(ANOVA)は、通常、「3群以上のとき」に使う検定手法になります。

注)分散分析(ANOVA)は、2群の場合も可能であり、その結果はStudentのt検定と一致します。

分散分析(ANOVA)は、パラメトリック(何らかの分布に従う)検定に分類され、
対応のない場合(異なるサンプルから得られたデータ)の解析手法になります。

  • 各群のサンプルは独立に得られたものであること
  • 各群が正規分布に従うこと
  • 各群で分散が等しいこと(等分散性があること)

参考)分散分析(ANOVA)で等分散性の確認は不要です。

分散分析(ANOVA)は、「母平均」に関する検定です。
つまり、母集団の平均がどうなっているかに注目しています。
そうした中で、母集団ではなく、標本データで等分散性を確認できたとしても、
母集団そのものが、本当に等分散かどうかは確認のしようがありません。

(2)分散分析(ANOVA)の検定手順

1)帰無仮説と対立仮説は、次のとおりです。

例えば、3群の場合は、次のようになります。

  • 帰無仮説H0:A群の母平均=B群の母平均=C群の母平均
    (全ての群の平均が等しい)
  • 対立仮説H1:A群の母平均、B群の母平均、あるいはC群の母平均の中に異なる値がある
    (少なくとも1つの組み合わせに差がある)

注意点)

分散分析(ANOVA)でたとえ有意差が出たとしても、どの群の間の〈平均〉が異なるのか、ということまでは分かりません。
以下のいずれの場合も考えられます。

  • A群の母平均だけが異なる→B群の母平均=C群の母平均
  • B群の母平均だけが異なる→A群の母平均=C群の母平均
  • C群の母平均だけが異なる→A群の母平均=B群の母平均
  • A群、B群およびC群のいずれの母平均も異なる

3群以上のカイ二乗検定(カテゴリカルな検定)などでも、同様に「どの群の間で違いがあるか」ということまでは分かりません。

留意点)

分散分析で有意差が出た場合、改めて2群検定を3つ実施するという考え方があります。
(A群 vs B群、B群 vs C群、そしてC群 vs A群の3つ)
ただし、分散分析の後で2群間の検定を実施するやり方は、以下の2点から推奨されません。

  1. 検定の回数を増やすと、多重性の問題が生ずる。
  2. 分散分析と2群検定では、知りたいこと(目的)が違う。

解析手法の選択は、どんな結論を出したいかという目的に従って行うものです。
3群比較だから分散分析を使うという考え方で決めるものではありません。
つまり、積極的に有意差を確認したい2群の組み合わせがあるのならば、最初から、その2群について検定を行うべきです。

2)分散分析の仕組み(阿部2021,pp.142-146)

  1. A群、B群、そしてC群の3群のデータを用意する。
  2. 3群の全データを用いて、全体の平均を計算する。
  3. A群、B群、そしてC群のそれぞれの群で、群の平均を計算する。

個々のデータごとの全体平均との差は、次の2つの要素に分解できます。

個々のデータごとの全体平均との差
=各データ ー 全体の平均
=群間変動(群間のバラつき)+群内変動(群内のバラつき)・・・2つの要素に分割する
=群間変動(各群の平均 ー  全体の平均)+群内変動(各データ ー 各群の平均)・・・具体的な計算方法
⇒ 各データ ー 全体の平均・・・()内を整理すると、結局は、この形になる

  • 群間変動は、群間に差があればあるほど大きな値になる(効果による変動)。
  • 群内変動(群内のバラつき)は、例えばC群の各データとC群の平均との差を表す。
    もともと各群内に存在するランダムな誤差の大きさのことである(誤差による変動)。

群間変動(群間のバラつき)/群内変動(群内のバラつき)が大きければ、群間に違いのある可能性が高まります。

3)検定統計量F値

分散分析(一元配置の場合)の検定統計量(F値)は、
「群の不偏分散」(群の平均平方)と「残差の不偏分散」(残差の平均平方)の比になります。
一般的に、F値が大きいとP値は小さくなります。

F値=V(群)/V(残差)

  • V(群):「群の不偏分散」(群の平均平方)⇒ 群間変動(群間のバラつき)
  • V(残差):「残差の不偏分散」(残差の平均平方)⇒ 群内変動(群内のバラつき)
    (F値 ⇒ 平均的な群間変動/平均的な群内変動) 

この検定統計量(F値)は、帰無仮説下では、f分布と呼ばれる分布に従います。
F分布の形状は、サンプルサイズと群の数によって少しずつ異なってきます。(阿部2021,pp.144-145)

4)分散分析表を用意する

F値=V(群)/V(残差)を導くために、計算の段階を追って数値を記録していきます。
その結果、分散分析表が出来上がります。

サンプルデータ(3種の肥料の効果に差はあるか?)、(阿部2021,p.143)

  1. グループA:32.5、34.2、32.4、33.3、31.0、31.5、平均32.483(小数点以下4位四捨五入)
  2. グループB:35.1、32.9、34.4、34.7、33.0、34.9、平均34.167(同上)
  3. グループC:40.1,39.6、38.0、38.1、37.9、39.5、平均38.867(同上)
    総平均35.172

◎V(群)つまり群の不偏分散(群の平均平方)は、次の手順で計算します。

  • 群の平方和:
    まず、各群ごとに{「その群の平均と全体の平均の差」の2乗}を計算する。
    次に、得られた値を、各群のデータの数だけ繰り返して積み上げる。
    (各群のデータごとに、同じ値が得られるので、それを各群のデータ数で掛け合わせる)
    最後に、各群ごとの小計を全ての群で合算する。
  • 群の自由度=群の数ー1
  • 群の不偏分散=群の平方和/群の自由度

A群のデータの平方和:(32.483-35.172)^2)×6 ⇒ 43.381
B群のデータの平方和:(34.167-35.172)^2)×6 ⇒ 6.067
C群のデータの平方和:(38.867-35.172)^2)×6 ⇒ 81.894
全体(A+B+C)の平方和:43.381+6.067+81.894 ⇒ 131.341
群の不偏分散(群の平均平方):131.341/(3-1)⇒ 65.671

◎V(残)つまり残差の不偏分散は、次の手順で計算します。

  • 残差の平方和:
    まず、各群ごとに{「個々のデータとその群の平均との差」の2乗}を計算する。
    次に、各群ごとに、個々のデータから得られた値を足し合わせる。
    最後に、各群ごとの小計を全ての群で合算する。
  • 残差の自由度=全データ数-群の数
  • 残差の不偏分散=残差の平方和/残差の自由度

A群(残差)の平方和:(32.5-32.483)^2+(34.2-32.483)^2+(32.4-32.483)^2+(33.3-32.483)^2+(31.0-32.483)^2+(31.5-32.483)^2 ⇒ 6.788
B群(残差)の平方和:(35.1-34.167)^2+(32.9-34.167)^2+(34.4-34.167)^2+(34.7-34.167)^2+(33.0-34.167)^2+(34.9-34.167)^2 ⇒ 4.713
C群(残差)の平方和:(40.1-38.867)^2+(39.6-38.867)^2+(38.0-38.867)^2+(38.1-38.867)^2+(37.9-38.867)^2+(39.5-38.867)^2 ⇒ 4.733
残差(A+B+C)の平方和:6.788+4.713+4.733 ⇒ 16.235
残差の不偏分散(残差の平均平方):16.235/(18-3)⇒ 1.082

◎全体の数値は、以下のようになります。

  • 全体の平方和=群の平方和+残差の平方和
  • 全体の自由度=群の自由+残差の自由度

◎F値=⇒ 65.671/1.082=60.694

5)F表と有意差判定

F表から、自由度f1=2、f2=15のF分布の上側5%の点は、19.4になります。
(群の自由度:3-1、残差の自由度:18-3)

F値=60.69>19.4(上側5%点)

したがって、帰無仮説は棄却されます。
つまり、有意水準α=0.05で、統計的に有意に群間差があることが分かります。

(3)一元配置分散分析と二元配置分散分析

  • 一元配置分散分析:
    例えば、A群、B群、そしてC群の3水準のデータを持った「群」という1つの因子で、水準間の平均値の差を解析します。(群という因子による比較)
  • 二元配置分散分析:
    例えば、A群、B群、そしてC群の3水準のデータを持った「群」という因子と、男性・女性という2水準のデータを持った「性別」という因子の、2つの因子の組み合わせでの平均値の差を分析します。(群という因子にその他の因子を組み合わせた比較)
  • 多元配置分散分析:
    それ以上の因子の組み合わせによる分析です。

二元配置分散分析(3群の場合を例として)の場合には、特に、A群、B群、そしてC群という3群と、例えば性別(男・女の別)を組み合わせた6水準間(3水準×2水準)で、平均値に違いがあるかどうかを分析する場合が多くなります。

  • 吉田寛輝著『いちばんやさしい医療統計』アトムス社(2019年)
  • 神田善伸著『EZRでやさしく学ぶ統計学』中外医学社(2020年)
  • 阿部真人著『統計学入門』ソシム社(2021年)
  • 文部省認定社会通信教育『現代統計実務講座 テキスト1』実務教育研究所(1965年)

 

関連URL及び電子書籍(アマゾンKindle版)

1)サリドマイド事件全般について、以下で概要をまとめています。
サリドマイド事件のあらまし(概要)
上記まとめ記事から各詳細ページにリンクを張っています。
(現在の詳細ページ数、20数ページ)

2)サリドマイド事件に関する全ページをまとめて電子出版しています。(アマゾンKindle版)
『サリドマイド事件(第7版)』
世界最大の薬害 日本の場合はどうだったのか(図表も入っています)

www.amazon.co.jp/ebook/dp/B00V2CRN9G/
2015年3月21日(電子書籍:Amazon Kindle版)
2016年11月5日(第2版発行)
2019年10月12日(第3版発行)
2020年05月20日(第4版発行)
2021年08月25日(第5版発行)
2022年03月10日(第6版発行)
2023年02月20日(第7版発行)、最新刷(2023/02/25)

本書は、『サリドマイド胎芽症診療ガイド2017』で参考書籍の一つに挙げられています。

Web管理人

山本明正(やまもと あきまさ)

1970年3月(昭和45)徳島大学薬学部卒(薬剤師)
1970年4月(昭和45)塩野義製薬株式会社 入社
2012年1月(平成24)定年後再雇用満期4年で退職
2012年2月(平成24)保険薬局薬剤師(フルタイム)
2023年1月(令和5)現在、保険薬局薬剤師(パートタイム)