プログラミングと機械学習のメモ
日付: カテゴリ: データ分析
今回は欠損ありデータの平均と分散共分散の推定をテーマにします。
平均なんて欠損してないデータで取ればいいじゃんと思った方、次の例を見てください。
今、欠損値を含む体重のデータがあるとします。 以下は観測できている体重の分布です。
この分布の平均はだいたい60kgでしょうか。 しかし、実は体重の低い人が多く欠損していて、実際は以下の分布でした。
この分布の平均は60kgではありませんね。 このように、観測値の平均と実際の平均が大きくずれることがあります。
じゃあどうやって平均値を推定するのか。それを知るには欠損パターンの種類を知る必要があります。
大きく分けて以下の3つあります。
ランダムのため、欠損のレコードごと削除してしまっても平均値や分散が変化することはありません。
例えば、身体測定で女性が多く休んだため、女性の体重に欠損が多くなった場合です。 女性の方が全体より軽めであれば、当然体重の平均に偏りが生じることになります。 この場合、観測値だけで平均を出して、それを全体の平均としてしまうと偏りを生じます。
例えば、身体測定で体重が重い人が多く休んだため、重い人の欠損が多い場合です。 こちらも観測できる値での平均値は偏りを生じます。
MCARであれば欠損値を無視して平均を取っていいけど、MARやMNARは欠損値を無視すると大変ってことですね。
ただ、MARであれば欠損パターンが他の変数によって説明できるので、偏りが少なくなるように平均を求めることが可能です。これは次回以降記事を書いていけたらと思います。