混乱した統計検定2級の用語をまとめる

統計検定2級の過去問を解いていた時、似た単語がよく出てきて「何でしたっけ…」となっていた。忘れないうちに、それらの単語を書き出してみる。

標本の抽出方法

母集団の要素全てに対して調べることは現実的にできない場合、その中からいくつか取り出して調べることになる。どのように取り出すのがなるべく偏りが出ないかというのと、調べるにあたってどれだけ手間をかけられるか、両者をどこでバランスさせるかによって、色々な手法がある。

単純無作為抽出法

母集団の要素から、どの要素も同じ確率となるよう無作為に抽出する方法。
– 母集団N個から標本n個を抽出する時に、各個体が標本として選択される確率n/N
– どのn個の個体の組も選択される確率が1/NCn
→ 10人から4人選ぶ時に、男2女2という条件がつくと、単純無作為抽出ではなくなる(層化無作為抽出法になる)

系統抽出法

要素全てに番号をふり、1つ目の要素は無作為に抽出し、2つ目以降は等間隔の番号を抽出する方法

層化無作為抽出法

性別、年代、…などで母集団が複数の層にわかれる場合に、いずれかの層に偏りが出ないよう、層ごとにランダム抽出する方法

多段抽出法

例)全国から複数の県を抽出、各県から複数の学校を抽出、各学校からクラスを抽出…というように絞り込んでいく方法
段数が多くなるほど、平均などの推定精度は悪くなる

層化多段抽出法

層化抽出法と多段抽出法を組み合わせたもの

クラスター(集落)抽出法

母集団を分割してクラスターを作った上で複数のクラスターを抽出し、その成員全てを対象とする方法
精度は低め

二相抽出法

調査しやすい項目をまず調査し、それを補助情報として調べたい項目の調査を行う方法(標本を抽出する操作を2度行う)

価格に関係して出てくる用語

ローレンツ曲線、ジニ係数

ローレンツ曲線:
分布を持つようなある事象の偏り(所得の偏りでよく出てくるので、その場合偏りが格差となる)がどの程度あるかを表す
完全に偏りがない場合、下図の点線(均等配分線という)で示す直線になる
ジニ係数:
均等配分線とローレンツ曲線で囲まれた面積の2倍が、縦軸・横軸で囲まれた面積に対して占める割合
0(ローレンツ曲線と均等配分線が一致)だと偏りがないことを示す 最大値は1となる

ラスパイレス指数

物価の変動を表す時によく使われる
下に示すように、基準時とそれと比較する時の価格の変化を基準時の数量をウエイトとして計算する

オッズ比

2つの群を比較した時に、起こりやすさを示す尺度
オッズ比が1だと2つの群の間に起こりやすさの差がないことを意味する

判別分析についてわかったこと

今、判別分析について学んでいて、少しずつわかってきた(ような気がする)ので、現時点で理解した(と思っている)内容をまとめてみる。
※ 以下、私の理解不足による誤りがある可能性もある。

1  判別分析とは何か

  • ある計測・観測した値から、結果(どちらの群に属するか)を推測する手法
    例1)飲酒量や検査の値などから病気の発病を予測する
    例2)顧客の情報から商品の購入を予測する

例1)なら
– 目的変数:病気を発症する群と発症しない群
– 説明変数:飲酒量、検査の値など
となり、病気を発症する群としない群をなるべく精度良く分けるための数式を考える。そして、新たな人の飲酒量等の数値を数式に当てはめることで、その人が発症するかどうかを予測する。

2  どのように判別するか

主にマハラノビスの距離による判別と線形判別式による判別がある。

2-1  マハラノビスの距離による判別

各群の中心(重心)を求め、そこまでの距離が短い方の群に属するとする方法。距離は単純な距離でなく、各群のばらつきを考慮した(1標準偏差あたりとした)距離を使う(マハラノビスの距離という)。

以下、説明変数が一つの場合でまず考え、その後に説明変数が2つの場合に応用する。

2-2  線形判別式による判別

以下、説明変数が2つの場合を例として考える。
その2つの説明変数を2軸とした平面で考えると、最も良く群を分離する直線を引くことを考える方法。

3  判別の精度をどのように測るか

 

参考

以下の書籍で勉強させていただきました。

入門はじめての多変量解析
石村 貞夫 石村 光資郎
東京図書

 

 

川崎 智也 稲垣 具志 寺内 義典 石坂 哲宏
コロナ社

 

 

 


(感想など)
  • まだ不十分なので、後日追記(+修正)したい。あと、判別分析の説明変数がカテゴリデータだった場合である数量化二類についても追記したい。

  • もともと画像にすることを考えずに書いていたこともあって、思った以上に見づらい。ただ、数式の添え字等を打つのが手間がかかるので、画像をもう少し見やすくする方向で改善したい。