プログラミングと機械学習のメモ
日付: カテゴリ: データ分析
最近機械学習の実装系を多く挙げていたので、今回はちょっと理論チックに行きます。
分析をしている人ならば、確率分布には離散型と連続型が存在することはご存知でしょう。定義は以下のようになっています。(東大出版の統計学入門の定義を書きました。)
例を挙げると、離散型の確率分布は二項分布やポアソン分布、連続型の確率分布は正規分布や一様分布などがあります。
離散型の確率分布と連続型の確率分布の定義をよく見ると、実はどちらにも属さない確率分布がありそうな気がします。というか実際にあります。
例えば、$X$は0.5の確率で0の値を取り、残りの0.5の確率で[0,1]上の一様分布に従う確率変数とします。$X$は確率変数ですが、$X$の確率分布は離散型でしょうか、連続型でしょうか。
$X$が離散だとすると、$X$は[0,1]上の実数値を取りうるため、取りうる値が可算ではありません。(飛び飛びの値ではありません。)
$X$が連続だとすると、連続の定義から$P(X=0)=0$ ($a=b=0$を代入)となりますが、実際は$X$は0.5の確率で0を取ります。
つまり、$X$は離散型でも連続型でもない確率分布をもつ確率変数となってしまったのです。
何が言いたかったかというと、離散型でないから連続型だ!という間違いは犯さないようにしましょう、ということです(私の失敗談より)。特に、取りうる値が連続だからと言って、確率密度関数が存在すると考えるのは非常に危険なのでやめましょう。