10.カイ二乗検定(分割表:独立性の検定)

2022年9月20日

10.カイ二乗検定(分割表:独立性の検定)

(1)はじめに

カイ二乗検定とは、カイ二乗分布を利用する検定方法の総称です。
つまり、カイ二乗検定では、検定統計量からP値を求めるのに、カイ二乗分布を用います。
検定そのものの考え方は、t分布を利用するt検定の場合と同じです。

カイ二乗検定の解析対象(アウトカム)は、カテゴリカル変数です。
ノンパラメトリックな検定であり、2群またはそれ以上の群(対応のないデータ)が対象です。

カイ二乗検定は、分割表(クロス集計表:例えば2×2表)の独立性の検定で多く使われます。
例えば、薬効の有無の検定などがそうです。
なおここで、独立しているとは、複数の変数間で関連がないことを言います。

カイ二乗検定は、独立性の検定以外でも、母分散の区間推定や分布の適合度検定などで使われます。
ただし、一般的には、カイ二乗検定と言えば、独立性の検定を指す場合が多いです。

(2)フィッシャーの正確確率検定との比較(カイ二乗検定との使い分け)

独立性の検定について、一般的には、カイ二乗検定よりもフィッシャーの正確確率検定の方が望ましいと言えます。
フィッシャーの正確確率検定は、「正確」に確率(P値)を計算する手法です。
例数にあまり左右されることもありません。

カイ二乗検定は、カイ二乗分布を用いた「近似」の手法になります。
例数が少ない場合には、使いにくい手法です。
ただし、例数が多い場合には、カイ二乗検定でも可です。

(3)独立性のカイ二乗検定の実際

ここでは、例として、対応のない2群(A群とB群)のカイ二乗検定を考えてみます。
具体的には、2×2分割表(クロス集計表)になります。 

  • A群(薬剤群):データ数m
  • B群(コントロール群):データ数n 
  • 帰無仮説H0:薬剤と効果は独立している(お互いに関連がない→薬効がない)
  • 対立仮説H1:薬剤と効果は独立していない(お互いに関連がある→薬効がある) 

カイ二乗検定では、観測値と期待度数との差を求め、そこから、2群の間で関連性があるかどうか、つまり、2群が独立しているかどうかを検討します。

1)期待度数を算出した分割表を作成する 

期待度数とは、各カテゴリー間で関連がなかったとした場合、得られるであろう値(期待値)のことです。
次の手順で算出します。

まずは、元の観察データを準備します。 

薬剤群とコントロール群で薬効の有無をみた2×2表(元の観察データ)

薬剤群:効いた(13)、効かなかった( 7)、小計(20)
コントロール群:効いた( 5)、効かなかった(15)、小計(20)
合計:効いた(18)、効かなかった(22)、合計(40)

期待度数を算出するには、薬剤群とコントロール群では、関連性がない(独立している)として、数値を平等に案分します。以下のとおりです。 

◎効いた例は、全体で18例(薬効群13+コントロール群5)です。
それを、薬剤群(20)とコントロール群(20)で、20対20に案分します。

  • 薬剤群(効いた例):18×薬効群の割合(20/(20+20))⇒9例
  • コントロール群(効いた例):18×コントロール群の割合(20/(20+20))⇒9例 
    (薬効群とコントロール群が同数なので、案分後の数値は同数になる)

◎効かなかった例は、全体で22例(薬効群7+コントロール群15)です。
それを、薬剤群(20)とコントロール群(20)で、20対20に案分します。

  • 薬剤群(効かなかった例)は、22×薬効群の割合(20/(20+20))⇒11例
  • コントロール群(効かなかった例)は、22×コントロール群の割合(20/(20+20))⇒11例 
    (薬効群とコントロール群が同数なので、案分後の数値は同数になる)

以上から、次の分割表(期待度数で置き換えたもの)が作成できます。 

薬剤群:効いた(  9)、効かなかった(11)、小計(20)
コントロール群:効いた(  9)、効かなかった(11)、小計(20)
合計:効いた(18)、効かなかった(22)、合計(40) 

2)観測値と期待度数の差を求める 

計算式は、以下のとおりです。 
(観測データ - 期待度数)^2/期待度数 

  • 薬剤群(効いた例): (13-9)^2/9 ⇒ 1.78
  • 薬効群(効かなかった例):(7-11)^2/11 ⇒ 1.45
  • コントロール群(効いた例):(5-9)^2/9 ⇒ 1.78
  • コントロール群(効かなかった例):(15-11)^2/11 ⇒ 1.45 

以上から、次の分割表(観測値と期待度数の差で置き換えたもの)が作成できます。  

  • 薬剤群:効いた(1.78)、効かなかった(1.45)
  • コントロール群:効いた(1.78)、効かなかった(1.45) 

3)検定統計量(カイ二乗値) 

検定統計量(カイ二乗値)=Σ((観測データ - 期待度数)^2/期待度数)

カイ二乗値は、分割表(観測値と期待度数の差で置き換えたもの)の4つの数字を足し合わせるだけです。 

カイ二乗値=1.78+1.45+1.78+1.45 ⇒ 6.46

 4)自由度を求める 

2×2分割表では、4つのセルのうち1つのセルの値が決まれば、残りの3つは自動的に決まってしまいます。
つまり、自由度は1ということになります。
 

一般的には、m×n分割表の自由度は、
(m-1)×(n-1)です。 

5)カイ二乗分布表と有意差判定 

カイ二乗値:6.46
自由度:1 

カイ二乗表から、
自由度f=1、P=0.05に対するカイ二乗値は、3.84です。

カイ二乗値=6.46>3.84(上側5%点)

したがって、帰無仮説は棄却されます。
有意水準α=0.05で、統計的に有意な差があることが分かります。
つまり、薬剤群かコントロール群かによって、「効く・効かないが違ってくる」と結論付けられます。

  • 吉田寛輝著『いちばんやさしい医療統計』アトムス社(2019年)
  • 神田善伸著『EZRでやさしく学ぶ統計学』中外医学社(2020年)
  • 阿部真人著『統計学入門』ソシム社(2021年)
  • 文部省認定社会通信教育『現代統計実務講座 テキスト1』実務教育研究所(1965年)

関連URL及び電子書籍(アマゾンKindle版)

1)サリドマイド事件全般について、以下で概要をまとめています。
サリドマイド事件のあらまし(概要)
上記まとめ記事から各詳細ページにリンクを張っています。
(現在の詳細ページ数、20数ページ)

2)サリドマイド事件に関する全ページをまとめて電子出版しています。(アマゾンKindle版)
『サリドマイド事件(第7版)』
世界最大の薬害 日本の場合はどうだったのか(図表も入っています)

www.amazon.co.jp/ebook/dp/B00V2CRN9G/
2015年3月21日(電子書籍:Amazon Kindle版)
2016年11月5日(第2版発行)
2019年10月12日(第3版発行)
2020年05月20日(第4版発行)
2021年08月25日(第5版発行)
2022年03月10日(第6版発行)
2023年02月20日(第7版発行)、最新刷(2023/02/25)

本書は、『サリドマイド胎芽症診療ガイド2017』で参考書籍の一つに挙げられています。

Web管理人

山本明正(やまもと あきまさ)

1970年3月(昭和45)徳島大学薬学部卒(薬剤師)
1970年4月(昭和45)塩野義製薬株式会社 入社
2012年1月(平成24)定年後再雇用満期4年で退職
2012年2月(平成24)保険薬局薬剤師(フルタイム)
2023年1月(令和5)現在、保険薬局薬剤師(パートタイム)