プログラミングと機械学習のメモ
日付: カテゴリ: データ分析
私は大学院時代に確率論を専攻していたのですが、確率論やってない人によく「確率論ってなんだ」「高校でやってきてるじゃん」とか言われたりしていました。そこで、なぜ確率論(測度論)が必要かを確率論やったことない人向けに簡単に説明したいと思います。
書いたあとに思ったのですが、簡単にと書いたわりにはある程度統計や集合に慣れていないと読み解くのは難しいかもしれません。わからなかったり、ここおかしい等の質問等は受け付けているのでお気軽にコメントください。
唐突ですが、とりあえず以下の問題を考えてください。(私が結構衝撃を受けた問題です)
Xは[0,1]上の連続一様分布に従う確率変数である。このとき、以下の確率を求めよ。
(1) Xが有理数である確率
(2) Xが無理数である確率
たとえば、1点の確率が0だからそれの和である(1)は0というのであれば、 (2)も同じ理屈で0になってしまい、全体の確率が0となってしまいます。
ちなみに、今の段階では解けなくて構いません。確率論を知ると、この問題を解くことができます。
さて、確率論に興味が出たところで、そもそも確率とは何かを考えましょう。
確率の定義は?と聞かれた時にあなたはどう答えるでしょうか。まず、中学で学ぶものとして以下があります。
\[ P(A)=\frac{事象 A が起こる場合の数}{起こりうる全ての場合の数} \]上記の確率は全ての場合の確率が等しい場合のみに適用できます(離散一様分布)。しかし、ご存知のように確率は同様に確からしいものばかりではありません。このとき、確率はどのように定義すべきかを考えます。
そこで、次に思い浮かぶのは、統計学でよく学ぶ以下の定義です。
離散 \[ P(X=k) = p(k) \] 連続 \[ P(a \le X \le b) = \int_a^bf(x)dx \]$p(x)$を確率関数、$f(x)$を確率密度関数と言いました。それらは、全体の確率は1、非負などの条件が必要です。 確率関数や確率密度関数を適切なものにすれば、様々な確率を表すことができます。
上記でだいたいカバーできているのですが、以下の点が気がかりです。
そこで、どのような性質がなりたてば確率と言えるのかを考えたコルモゴロフという人がいます。コルモゴロフは、確率というのは以下の性質が成り立つだろうと考えました。
コルモゴロフの確率の公理
Ⅲの式が少しわかりづらいので具体例をあげると、1の目が出る確率を$p_1$、2の目が出る確率を$p_2$とすれば、1または2が出る確率は$p_1+p_2$となります、ということです。これは3個以上の事象における確率でも成り立ちます。
以上の性質は、今まででも成り立っている確率の性質です。そこで、これが成り立てば確率と言えるのではないか、ということで、測度論的確率をI、Ⅱ、Ⅲを満たすPを確率と定義します。これにより、離散・連続というくくりはなくなり、適用範囲が大幅に広がることになります。
ちなみに、確率の公理Ⅲの1から無限まで足すというのは確率論にとって非常に重要な性質になっています。
さて、次に事象を定義していきます。事象とは、確率Pの中に入る集合Aのことです。これが、どのような性質を持っていてほしいかを考えます。
結論からいうと、以下の性質を持つ$\mathscr{F}$を事象の集まり、つまり事象族といい、これらの要素Aを事象と言います。
事象の定義
例えば1回サイコロを投げたときの事象を考えます。1の目が出る事象を$A_1$,2の目が出る事象を$A_2$とした場合、確率の定義Ⅲから以下が成り立って欲しいですよね。
これは、「1または2の目が出る」=$A_1\bigcup A_2$の確率を求めたい、つまり事象の和集合は事象であって欲しいわけです。この「事象の和集合は事象」という性質は事象の定義Ⅲに含まれています。
つまり、確率Pの中に入れるときに成り立ってほしい集合の性質を事象と定義しているのですね。
さて、ここはあまり測度論とは関係ないのですが、問題に答えるために必要なので少しだけ解説します。
無限には数えられる無限(可算無限)と数えられない無限(非可算無限)の2種類あり、有理数、無理数はそれぞれ可算無限、非可算無限になります。(証明は省きます。)
有理数が可算無限であるということは、以下が成り立つことを意味します。
無理数は非可算無限なので、自然数と対応づけられず、i=1から$\infty$とすることはできません。
よくわからなければ、ここをみるとイメージがつくかもしれないです。
可算無限と非可算無限さて、ここまでくると実数のなかから有理数を選ぶ確率を求めることができます。
まずは、「Xが有理数」が事象かどうかをチェックしましょう。
前提として、連続一様分布の定義から「$X\in [a,b]$」となる確率を求めるために必要な集合となるので、これを事象とします。すると、$a=b=q_i$とすれば「$X=q_i$」も事象となり、事象の定義Ⅲから、「$X \in Q=\bigcup_{i=1}^{\infty}\{q_i\}$」も事象となり、「Xが有理数」は事象となります。したがって、$P(X \in Q)$が定義できます。事象の定義をしっかりすると、とびとびの値でも事象として扱うことができますね!
次に、「Xが有理数」である確率を求めてみましょう。まず、
となるので、一点の確率は0です。したがって、
となり、Xが有理数である確率は0と出ました。
一方、Xが無理数である確率は、確率の定義Iから、
言い忘れていましたが、「Xが無理数」が事象かどうかは、事象の定義Iと IIから証明することができます。
以上から、一様分布に従った[0,1]上の確率変数が有理数を取る確率は0となりました。有理数は無限個あるはずなのに、それでも確率は0ってなんか不思議ですよね。
今回は確率論(測度論)の導入部分を書きました。離散、連続では表せない確率があること、必ずしも[a,b]の区間での確率しか出てこないとは限らないということ、そのためにどのような性質を持つものを確率、事象と呼べばいいのかを考えるきっかけになれば幸いです。
今後もたまには測度論のことについても書いていきたいなと思っているので、もし興味あればまた見にきてください。