Shingoの数学ノート

プログラミングと機械学習のメモ

欠損ありデータの平均・分散共分散の推定1

日付:    カテゴリ: データ分析


欠損ありデータの平均の偏り

今回は欠損ありデータの平均と分散共分散の推定をテーマにします。

平均なんて欠損してないデータで取ればいいじゃんと思った方、次の例を見てください。

今、欠損値を含む体重のデータがあるとします。 以下は観測できている体重の分布です。

miss1

この分布の平均はだいたい60kgでしょうか。 しかし、実は体重の低い人が多く欠損していて、実際は以下の分布でした。

miss2

この分布の平均は60kgではありませんね。 このように、観測値の平均と実際の平均が大きくずれることがあります。

欠損パターンの種類

じゃあどうやって平均値を推定するのか。それを知るには欠損パターンの種類を知る必要があります。

大きく分けて以下の3つあります。

  1. 欠損パターンが完全にランダムである場合(MCAR)
  2. ランダムのため、欠損のレコードごと削除してしまっても平均値や分散が変化することはありません。

    pic1

  3. ある別の変数が欠損パターンに影響している場合(MAR)
  4. 例えば、身体測定で女性が多く休んだため、女性の体重に欠損が多くなった場合です。 女性の方が全体より軽めであれば、当然体重の平均に偏りが生じることになります。 この場合、観測値だけで平均を出して、それを全体の平均としてしまうと偏りを生じます。

    pic2

  5. 変数それ自身が欠損パターンに影響している場合(NMAR)
  6. 例えば、身体測定で体重が重い人が多く休んだため、重い人の欠損が多い場合です。 こちらも観測できる値での平均値は偏りを生じます。

    pic3

MCARであれば欠損値を無視して平均を取っていいけど、MARやMNARは欠損値を無視すると大変ってことですね。

ただ、MARであれば欠損パターンが他の変数によって説明できるので、偏りが少なくなるように平均を求めることが可能です。これは次回以降記事を書いていけたらと思います。

参考文献

欠損データ分析(missing data analysis)-完全情報最尤推定法と多重代入法
欠損値があるデータの分析

Comment Box is loading comments...