3.要約統計量とは(平均値、中央値や標準偏差など)

2022年9月11日

3.要約統計量とは(平均値、中央値や標準偏差など)

【重要】統計の役割には、大きく分けて2つあります。
それは、データの特徴をつかむことと、母集団を推定することです。
要約統計量は、データの特徴をつかむために使用します(記述統計)。
(母集団を推定することは、推測統計に属します)
⇒ 推測統計:統計的検定とは(標本から母集団を推定する)

(1)要約統計量とは

要約統計量とは、データの特徴を分かりやすく表現するために、何らかの計算をして得られる値のことです。
ここで、要約とは、より簡単に分かりやすく表現する(記述する)ことを言います。
そして、統計量とは、データに対して、何らかの計算をして得られる値のことです。
(阿部2021,p.48、要約)

要約統計量の代表的なものとして、平均値(連続変数の場合)があります。
平均値を出したりグラフや表を使って、分かりにくいデータを分かりやすくすることを、記述統計学と言います。

要約統計量(記述統計量)に含まれる情報量は、非常に多く、決しておろそかにすることはできません。

(2)データの種類と要約統計量

1)連続変数:

平均値、標準偏差、標準誤差
中央値、四分位範囲
範囲、95%信頼区間など

2)カテゴリカル変数:
例数、件数、割合(%)など

3)生存時間データ:
中央値、95%信頼区間など

4)カウントデータ:
総件数、一定時間当たりの件数、発生件数など

(3)要約統計量を算出する(データはバラつく)

1)データを見える化する(可視化 => グラフ化)

統計を扱うには、データはバラつくものである、という視点が欠かせません。

データは、ある範囲にバラついて分布しています。
データは、何らかの特徴を持ってバラついています。
このバラつき具合(データの偏りや形など)のことを、分布の特性と言います。

連続変数が1つの場合、データのバラつき具合(分布の特性)を見るには、まずはヒストグラム(縦棒グラフ)を描いてみるのがよいでしょう。
グラフ化することによって、データの偏りや形など(分布の特性)を、視覚的に捉えることができるようになります。
注)2つの連続変数の可視化であれば、散布図があります。

連続変数の場合、代表的な要約統計量としては、平均値と中央値があります。
この二つの要約統計量は、分布の特性(データの偏りや形など)に応じて、以下のように使い分けます。

2)平均値、分散と標準偏差(データが左右ほぼ対称にバラつく場合)

データが、左右ほぼ対称にバラついているとき、
ヒストグラムの形は、左右対称に近い釣り鐘型(身長や体重などの場合)になります。
そして、平均値が、最頻値(ヒストグラムのデータが一番集中している部分)の近くにあります。

データが、左右ほぼ対称にバラついているときは、
まず、分布の中心を表す要約統計量(点推定値)として、平均値を計算します。
さらに、平均値からのバラつきの大きさ(分布の広がり)を示す値として、標準偏差を計算します。
標準偏差も要約統計量の一つであり、平均値に対応するデータのバラつき指標になります。

◎分散(variance)=偏差平方和(偏差の2乗を全て足したもの)/データ数

偏差とは、各データと平均値の差のことです。
偏差を全て足し合わせると、必ずゼロになるので、
バラつき(分散)の計算には、それぞれの偏差の2乗(偏差平方)を用います。
偏差平方を全て足し合わせたものが、偏差平方和です。

◎標準偏差(standard deviation:SD)=√分散

分散は、偏差の2乗を用いて計算しているので、
単位(dimension)をそろえるために、ルート(正の平方根)をとります。

3)中央値、四分位範囲(データが左右どちらかに極端に偏る場合)

データのバラつき具合が、左右対称から極端に外れる場合、
例えば、勤労者世帯の平均貯蓄額などでは、ヒストグラムを描くと、「値がゼロ(貯蓄額ゼロ)」の世帯(左端の数)が最も多く、そこから順に貯蓄額の多い方(右端)に向って、世帯数が減少していく様子がよく分かります。

こうした場合、平均値は、一部の富裕層の貯蓄額(外れ値)に引っ張られて、実態よりも大きな額になってしまっています。
実態をできる限り正確に把握するには、中央値(真ん中の値)も一緒に算出することです。
中央値(真ん中の値)は、外れ値の影響を受けることなく、常に全てのデータの真ん中を示してくれます。

データのバラつき具合が、左右対称から極端に外れる場合は、
まず、分布の中心を表す要約統計量(点推定値)として、平均値ではなく中央値を選びます。
さらに、中央値からのバラつきの大きさ(分布の広がり)を示す値として、四分位範囲を求めます。
四分位範囲も要約統計量の一つであり、中央値に対応するデータのバラつき指標になります。

中央値:データを大小の順番にならべたときの真ん中の値(第2四分位数)のこと。
四分位範囲:(interquartile range:IQR)
「データの25%点」(第1四分位数)と「データの75%点」(第3四分位数)の範囲。
つまり、全データの50%が含まれる範囲のことであり、必ず中央値を含んでいる。

参考)血液検査(AST、ALT)などでは、少数例で非常に高い数値を示すことがあり、分布が右に裾を引く場合がある。

→ヒストグラムに加えて、箱ひげ図も作成するとよい。
→「外れ値の取り扱い方」詳細有り。

注)以下のような組み合わせはあり得ない。

・平均値と四分位範囲
・中央値と標準偏差(SD)

つまり、平均値(点推定値)と標準偏差(その分布の広がり)がセットになります。
また、中央値(点推定値)と四分位範囲(その分布の広がり)がセットになります。

注)カテゴリカル変数、生存時間データ、そして、カウントデータについては、別途まとめる。

  • 吉田寛輝著『いちばんやさしい医療統計』アトムス社(2019年)
  • 神田善伸著『EZRでやさしく学ぶ統計学』中外医学社(2020年)
  • 阿部真人著『統計学入門』ソシム社(2021年)
  • 文部省認定社会通信教育『現代統計実務講座 テキスト1』実務教育研究所(1965年)

 

関連URL及び電子書籍(アマゾンKindle版)

1)サリドマイド事件全般について、以下で概要をまとめています。
サリドマイド事件のあらまし(概要)
上記まとめ記事から各詳細ページにリンクを張っています。
(現在の詳細ページ数、20数ページ)

2)サリドマイド事件に関する全ページをまとめて電子出版しています。(アマゾンKindle版)
『サリドマイド事件(第7版)』
世界最大の薬害 日本の場合はどうだったのか(図表も入っています)

www.amazon.co.jp/ebook/dp/B00V2CRN9G/
2015年3月21日(電子書籍:Amazon Kindle版)
2016年11月5日(第2版発行)
2019年10月12日(第3版発行)
2020年05月20日(第4版発行)
2021年08月25日(第5版発行)
2022年03月10日(第6版発行)
2023年02月20日(第7版発行)、最新刷(2023/02/25)

本書は、『サリドマイド胎芽症診療ガイド2017』で参考書籍の一つに挙げられています。

Web管理人

山本明正(やまもと あきまさ)

1970年3月(昭和45)徳島大学薬学部卒(薬剤師)
1970年4月(昭和45)塩野義製薬株式会社 入社
2012年1月(平成24)定年後再雇用満期4年で退職
2012年2月(平成24)保険薬局薬剤師(フルタイム)
2023年1月(令和5)現在、保険薬局薬剤師(パートタイム)