Shingoの数学ノート

プログラミングと機械学習のメモ

確率論(測度論)のすすめ

はじめに

私は大学院時代に確率論を専攻していたのですが、確率論やってない人によく「確率論ってなんだ」「高校でやってきてるじゃん」とか言われたりしていました。そこで、なぜ確率論(測度論)が必要かを確率論やったことない人向けに簡単に説明したいと思います。

書いたあとに思ったのですが、簡単にと書いたわりにはある程度統計や集合に慣れていないと読み解くのは難しいかもしれません。わからなかったり、ここおかしい等の質問等は受け付けているのでお気軽にコメントください。

問題_0から1の実数の中から有理数を選ぶ確率

唐突ですが、とりあえず以下の問題を考えてください。(私が結構衝撃を受けた問題です)

Xは[0,1]上の連続一様分布に従う確率変数である。このとき、以下の確率を求めよ。

(1) Xが有理数である確率

(2) Xが無理数である確率

たとえば、1点の確率が0だからそれの和である(1)は0というのであれば、 (2)も同じ理屈で0になってしまい、全体の確率が0となってしまいます。

ちなみに、今の段階では解けなくて構いません。確率論を知ると、この問題を解くことができます。

そもそも確率とは

さて、確率論に興味が出たところで、そもそも確率とは何かを考えましょう。

確率の定義は?と聞かれた時にあなたはどう答えるでしょうか。まず、中学で学ぶものとして以下があります。

P(A)=事象Aが起こる場合の数起こりうる全ての場合の数 P(A)=\frac{事象 A が起こる場合の数}{起こりうる全ての場合の数}

上記の確率は全ての場合の確率が等しい場合のみに適用できます(離散一様分布)。しかし、ご存知のように確率は同様に確からしいものばかりではありません。このとき、確率はどのように定義すべきかを考えます。

確率関数・確率密度関数を用いた定義

そこで、次に思い浮かぶのは、統計学でよく学ぶ以下の定義です。

離散

P(X=k)=p(k) P(X=k) = p(k)

連続

P(aXb)=abf(x)dx P(a \le X \le b) = \int_a^bf(x)dx

p(x)p(x)を確率関数、f(x)f(x)を確率密度関数と言いました。それらは、全体の確率は1、非負などの条件が必要です。 確率関数や確率密度関数を適切なものにすれば、様々な確率を表すことができます。

コルモゴロフの確率の公理

上記でだいたいカバーできているのですが、以下の点が気がかりです。

  1. 前回の記事でも述べましたが、上記で書けない確率というのも存在します。
  2. 例題の「連続一様分布に従う確率変数が有理数を取る確率」などは上記で表すのは難しいです。有理数はとびとびの値なので、積分するのは難しいです。
  3. 離散と連続で定義が別れてしまっているのもそれぞれの繋がりの解釈や証明が面倒くさいです。

そこで、どのような性質がなりたてば確率と言えるのかを考えたコルモゴロフという人がいます。コルモゴロフは、確率というのは以下の性質が成り立つだろうと考えました。

コルモゴロフの確率の公理

  1. P(Ω)=1P(\Omega)=1 (全事象の確率は1)
  2. P(A)0P(A)\ge0 (確率は全て0以上)
  3. すべてのAi,AjA_i,A_jにおいて、AiAj=空集合A_i\bigcap A_j=空集合が成り立つとき、P(n=1An)=n=1P(An)P(\bigcup_{n=1}^{\infty} A_n) = \sum_{n=1}^\infty P(A_n)  (排反事象の和集合の確率はそれぞれの確率を足したものである。)

Ⅲの式が少しわかりづらいので具体例をあげると、1の目が出る確率をp1p_1、2の目が出る確率をp2p_2とすれば、1または2が出る確率はp1+p2p_1+p_2となります、ということです。これは3個以上の事象における確率でも成り立ちます。

以上の性質は、今まででも成り立っている確率の性質です。そこで、これが成り立てば確率と言えるのではないか、ということで、測度論的確率をI、Ⅱ、Ⅲを満たすPを確率と定義します。これにより、離散・連続というくくりはなくなり、適用範囲が大幅に広がることになります。

ちなみに、確率の公理Ⅲの1から無限まで足すというのは確率論にとって非常に重要な性質になっています。

事象とは

さて、次に事象を定義していきます。事象とは、確率Pの中に入る集合Aのことです。これが、どのような性質を持っていてほしいかを考えます。

結論からいうと、以下の性質を持つF\mathscr{F}を事象の集まり、つまり事象族といい、これらの要素Aを事象と言います。

事象の定義

  1. ΩF\Omega \in \mathscr{F} (全体集合は事象)
  2. AFならば AcFA \in \mathscr{F} ならば A^c \in \mathscr{F} (ある集合が事象なら、その補集合も事象)
  3. A1,A2,A3,FA_1, A_2, A_3,\cdots \in \mathscr{F} ならば n=1AnF\bigcup_{n=1}^{\infty} A_n \in \mathscr{F} (ある集合が事象なら、その和集合も事象)

例えば1回サイコロを投げたときの事象を考えます。1の目が出る事象をA1A_1,2の目が出る事象をA2A_2とした場合、確率の定義Ⅲから以下が成り立って欲しいですよね。

P(1または2の目が出る)=P(1の目が出る)+P(2の目が出る) P(1または2の目が出る)=P(1の目が出る)+P(2の目が出る)

これは、「1または2の目が出る」=A1A2A_1\bigcup A_2の確率を求めたい、つまり事象の和集合は事象であって欲しいわけです。この「事象の和集合は事象」という性質は事象の定義Ⅲに含まれています。

つまり、確率Pの中に入れるときに成り立ってほしい集合の性質を事象と定義しているのですね。

有理数は可算無限である

さて、ここはあまり測度論とは関係ないのですが、問題に答えるために必要なので少しだけ解説します。

無限には数えられる無限(可算無限)と数えられない無限(非可算無限)の2種類あり、有理数、無理数はそれぞれ可算無限、非可算無限になります。(証明は省きます。)

有理数が可算無限であるということは、以下が成り立つことを意味します。

Q=i=1{qi} (ただし、qiは有理数) Q = \bigcup_{i=1}^{\infty}\{q_i\}  (ただし、q_iは有理数)

無理数は非可算無限なので、自然数と対応づけられず、i=1から\inftyとすることはできません。

よくわからなければ、ここをみるとイメージがつくかもしれないです。

可算無限と非可算無限

解答_0から1の実数の中から有理数を選ぶ確率

さて、ここまでくると実数のなかから有理数を選ぶ確率を求めることができます。

まずは、「Xが有理数」が事象かどうかをチェックしましょう。

前提として、連続一様分布の定義から「X\in \[a,b\]」となる確率を求めるために必要な集合となるので、これを事象とします。すると、a=b=qia=b=q_iとすれば「X=qiX=q_i」も事象となり、事象の定義Ⅲから、「XQ=i=1{qi}X \in Q=\bigcup_{i=1}^{\infty}\{q_i\}」も事象となり、「Xが有理数」は事象となります。したがって、P(XQ)P(X \in Q)が定義できます。事象の定義をしっかりすると、とびとびの値でも事象として扱うことができますね!

次に、「Xが有理数」である確率を求めてみましょう。まず、

P(X=qi)=P(qiXqi)=qiqif(x)dx=0 P(X=q_i)=P(q_i \le X \le q_i) = \int_{q_i}^{q_i}f(x)dx=0

となるので、一点の確率は0です。したがって、

P(XQ)=P(Xi=1{qi})=P(i=1{X=qi})=i=1P(X=qi)=0 P(X\in Q) = P(X \in \bigcup_{i=1}^{\infty}\{q_i\}) = P(\bigcup_{i=1}^{\infty}\{X = q_i\}) = \sum_{i=1}^{\infty}P(X= q_i)=0

となり、Xが有理数である確率は0と出ました。

一方、Xが無理数である確率は、確率の定義Iから、

P(Xが無理数)+P(Xが有理数)=P(\[0,1\])=1

より、

P(Xが無理数)=1P(Xが有理数)=10=1 P(Xが無理数)=1-P(Xが有理数)=1-0=1

言い忘れていましたが、「Xが無理数」が事象かどうかは、事象の定義Iと IIから証明することができます。

以上から、一様分布に従った[0,1]上の確率変数が有理数を取る確率は0となりました。有理数は無限個あるはずなのに、それでも確率は0ってなんか不思議ですよね。

まとめ

今回は確率論(測度論)の導入部分を書きました。離散、連続では表せない確率があること、必ずしも[a,b]の区間での確率しか出てこないとは限らないということ、そのためにどのような性質を持つものを確率、事象と呼べばいいのかを考えるきっかけになれば幸いです。

今後もたまには測度論のことについても書いていきたいなと思っているので、もし興味あればまた見にきてください。

Comments

Loading comments...