4.正規分布と95%信頼区間(点推定から区間推定へ)
4.正規分布と95%信頼区間(点推定から区間推定へ)
連続変数の要約統計量として、最も一般的なのは、平均値(点推定値)です。
この点推定値に対して、ある一定の幅を持たせて考えようとするのが、95%信頼区間(区間推定値)になります。
そして、この95%信頼区間を考える上では、正規分布の理解が欠かせません。
(1)正規分布(統計で最も重要な分布)
正規分布は、統計にとって最も重要な分布(確率分布)です。
身長や体重など世の中のデータの多くが、正規分布に従うとされています。
そこで、正規分布は、95%信頼区間や統計的検定を考える基礎になっています。
1)正規分布のグラフの特徴は、以下のとおりです。
正規分布(Normal distribution)の位置と形は、平均値(μ)と分散(σ^2)で決まります。
そこで、正規分布のことを、 N(μ, σ^2)と書きます。
- 平均値(μ)を中心にして、左右対称の釣り鐘型である。
(平均値、中央値、そして最頻値は等しい) - 平均値(μ)は曲線の位置を定める、標準偏差(σ)は曲線の形を定める。
- 平均値 ± SD(標準偏差) ⇒ 約68.27%のデータが含まれる。
平均値 ± 2 SD(標準偏差) ⇒ 約95.45%のデータが含まれる。
平均値 ± 3 SD(標準偏差) ⇒ 約99.73%のデータが含まれる。
以上(そして正規分布表)から、
全体の95%のデータが含まれる範囲は、「平均値 ± 1.96×標準偏差( SD)」であることが分かります。
(参考:99%の場合、「平均値 ± 2.576×標準偏差( SD)」となる)
2)標準正規分布を考える
「平均μ、標準偏差σの正規分布N(μ, σ^2)に従う変量xに、
Z=(x-μ)/σ
という変換を施すと、Zの平均は0, 分散は1となり、そのうえやはり正規分布に従う。これを、N(0, 1)と書き、標準正規分布という」。(実務1965,pp.216-217、英数字の表記を少し変更した箇所有り)
Z(スコア)=(x-μ)/σ ⇒ 《偏差》/《標準偏差》になります。
(偏差とは、「個々のデータと平均値との差」のこと)
Zスコアという概念を導入することによって、どのような平均値(μ)と分散(σ^2)を持つ正規分布であっても、標準正規分布N(0, 1)というただ一つの正規分布に変換することができます。
(2)母平均の95%信頼区間を算出する
統計の役割の一つは、母集団を推定することです。
このとき、母集団全体を扱うのは現実的ではないので、まずは、母集団の一部を抽出して標本とします。
この標本から母集団を推定するには、データを適切に処理して、適切な解釈をすることが大切です。
1)標本平均はバラつく(分布する)
標本の平均値と母集団の平均値とは、直感的には同一の値を取ると期待されます。
ただし、標本はあくまでも母集団の一部です。
両者は、完全に同一の集団ではないので、母集団と標本の平均値同士が一致することは、まずあり得ません。
そこで、標本平均(点推定値)にある幅を持たせて計算をして、母平均μ(真値)はその幅の中に含まれているはずだ、とする考え方が出てきます。
これが、母平均の95%信頼区間(区間推定値)の考え方です。
例えば、母集団から標本の抽出を何回も繰り返すと、その都度、異なった標本平均が得られます。
それらの標本平均は、もちろん母平均とも一致することなく、母平均の周りにバラつく(分布する)と考えられます。
この標本平均が分布する範囲から、母平均の95%信頼区間(区間推定値)を推定することができます。
2)標本平均のバラつき指標を求める(標準偏差(SD)から標準誤差(SE)を算出する)
正規分布を仮定したとき、
平均値からのバラつきの大きさ(分布の広がり)を示す値が、〈標準偏差〉です。
そこで、《「標本」平均》の分布が、正規分布に従うと仮定した場合、
《「標本」平均》からのバラつきの大きさ(分布の広がり)を示す値として、《「標本」平均》の〈標準偏差〉を考えることができます。
一般的に、この「標本平均の標準偏差」のことを、「標準誤差(SE)」と言っています。
標準誤差(SE)=標準偏差(SD)/√データ数(n)
つまり、標準誤差は、標準偏差をデータ数のルートで割って求めます。
(SD:標準偏差、standard deviation ⇔ SE:標準誤差、standard error)
「標準誤差」も要約統計量(記述統計量)の一つです。
3)母平均の95%信頼区間の意義:
母集団全体の95%のデータが含まれる範囲は、「平均値 ± 1.96×標準偏差( SD)」です。(既述)
これと同様に考えて、
母平均の95%信頼区間は、「標本平均 ± 1.96×標準誤差(SE)」となります。
これは、100個の信頼区間のうち5個は、信頼区間の範囲内に母平均が含まれない、ことを意味しています。
(注:標本の抽出を100回繰り返すと仮定する。信頼区間 ⇒ 母平均の95%信頼区間のこと)
参考)実務1965,100個の95%信頼区間p.269
なお、ここで「母平均が、95%の"確率"で推定した信頼区間に含まれる」とするのは間違いです。
ところで、P値を見なくても、95%信頼区間を見ただけで、有意かどうかを判断できます。
95%信頼区間が、帰無仮説で設定した数値をまたいでいなければ、有意差があると判断されます。
例えば、t検定(2群の連続変数の比較)では、ゼロをまたいでいなければ、有意差有りとされます。
4)中心極限定理と正規分布
中心極限定理は、正規分布の重要性を証明する基本的な定理です。
「確率変数(連続量でも離散量でもよい)Xiが、母平均μ、母分散σ^2をもつある分布に従うとき、これから無作為に抽出した大きさnの標本平均Xの分布は、nが大きくなるにつれて、平均μ、分散σ^2/nの正規分布に近づく」。(実務1965,p.237)
「もとの母集団の分布が何であっても、標本の大きさnがある程度以上大きければ、標本平均Xの分布はいつも正規分布に近似できる、という定理は、正規分布の重要性をきわだたせている」。(同,p.238)
「もとの分布が正規型であれば、標本平均Xの分布はnのいかんにかかわらず正規型である。また、元の母集団が、正規型からあまりはずれていなければn=10程度で、標本平均Xの分布はほぼ正規型になる。なお、指数分布とよばれる著しく非対称な分布からでも、n=50以上になると、標本平均Xの分布はほぼ正規型になると考えてよいことが知られている」。(同,p.238)
以上、引用にあたって、英数字の表記を少し変更した箇所があります。
- 吉田寛輝著『いちばんやさしい医療統計』アトムス社(2019年)
- 神田善伸著『EZRでやさしく学ぶ統計学』中外医学社(2020年)
- 阿部真人著『統計学入門』ソシム社(2021年)
- 文部省認定社会通信教育『現代統計実務講座 テキスト1』実務教育研究所(1965年)
このページの目次です関連URL及び電子書籍(アマゾンKindle版)
1)サリドマイド事件全般について、以下で概要をまとめています。
⇒サリドマイド事件のあらまし(概要)
上記まとめ記事から各詳細ページにリンクを張っています。
(現在の詳細ページ数、20数ページ)2)サリドマイド事件に関する全ページをまとめて電子出版しています。(アマゾンKindle版)
『サリドマイド事件(第7版)』
世界最大の薬害 日本の場合はどうだったのか(図表も入っています)
www.amazon.co.jp/ebook/dp/B00V2CRN9G/
2015年3月21日(電子書籍:Amazon Kindle版)
2016年11月5日(第2版発行)
2019年10月12日(第3版発行)
2020年05月20日(第4版発行)
2021年08月25日(第5版発行)
2022年03月10日(第6版発行)
2023年02月20日(第7版発行)、最新刷(2023/02/25)本書は、『サリドマイド胎芽症診療ガイド2017』で参考書籍の一つに挙げられています。
Web管理人
山本明正(やまもと あきまさ)
1970年3月(昭和45)徳島大学薬学部卒(薬剤師)
1970年4月(昭和45)塩野義製薬株式会社 入社
2012年1月(平成24)定年後再雇用満期4年で退職
2012年2月(平成24)保険薬局薬剤師(フルタイム)
2023年1月(令和5)現在、保険薬局薬剤師(パートタイム)