メモ: 確率変数とは

確率変数とは何かについてのメモ

  1. 変数としての確率変数
  2. 「確率変数の和」をどう定義するか?
  3. 関数としての確率変数
  4. 関数としての確率変数と変数としての確率変数

目次

  1. 変数としての確率変数
  2. 「確率変数の和」をどう定義するか?
  3. 関数としての確率変数
  4. 関数としての確率変数と変数としての確率変数

1. 変数としての確率変数

確率変数とは何かというと、暫定的には

(1) 確率変数とは、確率の定まっている集合Ωを変域とする変数のことである
と、とりあえずは説明できる。
そうすると次は「ある集合に確率が定まっている」のがどういうことなのかの説明がいる。
ある集合Ωに確率が定まっている」というのは、その集合Ωの各部分集合A、B、C……に対して、確率と呼ばれる値P(A)、P(B)、P(C)……が

  • どの部分集合Aについても、 0 ≦ P(A) ≦ 1
  • P(Ω) = 1
  • A∩B = φ (AとBが共通部分を持っていない)ならば、 P(A∪B) = P(A) + P(B)

を満たすように与えられていることである。
(本当は必ずしも全ての部分集合を考える必要はないだけど、それは省略)

確率Pは部分集合に対して与えられているのだけど、単一要素からなる集合 {a} の確率をP( {a} )と書かずに、P(a)と省略して書くこともある。また P( 10

  • P( {3} )
  • P( {X∈Ω| X=3} )
  • P(3)
  • P(X=3)

は、どれも同じことを表している。(集合を引数にした上2つが正式で、下2つは省略あるいは拡張した表記)。
各部分集合に確率Pを与えるのは面倒そうだけど、集合Ωが有限集合の場合は全体の和が1になるように各要素a∈Ωに対してP({a})を定めれば各部分集合の確率が決まるし、Ωが実数集合RとかR2みたいなものだったら適当な非負関数の積分によって確率の値が \textstyle{P(\, [a,b]\, )=\int_a^b f(x)dx} みたいに決まるものを思い浮かべればいい。
また「確率変数Xは正規分布に従う」みたいな言い回しは、Xが変域としている集合Ω(この場合は実数集合R)に正規分布による確率Pが与えられていることをあらわす。
変域となる集合に確率Pが付随しているので、普通の変数とは違って、確率変数に対しては期待値とか分散といった値を定義することができるけど、それ以外は普通の変数とあまり違わない感じがする。

偶然性、ランダム性

確率変数や確率の定義には、偶然性とかランダム性とかの話は全く入ってこない。「偶然に決まる」とか「ランダムに選ぶ」とかの概念は、確率論の外側の話題になる。
例えばΩとして面積1の図形を取って、Ωに含まれる領域Aに対して「P(A)= 領域Aの面積」としてやれば、上の確率の性質を満たす。そうするとそれだけでこの図形Ωを変域とする変数Xは確率変数ということになる。これに「Ω上の点をランダムに選ぶ」みたいな説明を加えても、数学として扱う事柄には特に何も追加されてこない。
ただしこう説明すると数学としての確率論は

  • 割合 (ΩとPに対する条件だけ見ると、Ωが全体で、Pは全体に対する割合の値、と言っているだけにも見える)と、
  • (具体的な問題でPの値を決めるための)組み合わせ計算と積分計算

を扱う数学という感じに見えるかもしれないけれど、「繰り返し」やそれに類するものを考えた時に出てくる漸近挙動や極限定理(大数の法則とか中心極限定理とか)が重要で、それによって偶然性やランダム性がからむ現象とのつながりも見えてくる。
しかし「繰り返し」に関する問題を考えるためには、確率変数の和をきちんととらえる必要がある。

2. 「確率変数の和」をどう定義するか?

確率変数が何かはとりあえず説明されたのだけど、確率変数の和を考えるとうまくいかなくなってくる。どの面の出る確率も等しいサイコロをふる場合を考えてみる。出目は1〜6なので
Ω = {1, 2, 3, 4, 5, 6} で、各要素についてP({a}) = 1/6 とすれば、集合Ωに確率が定まる。
この集合を変域とする確率変数 X はサイコロの出目を表していると考えることができる。

次にサイコロを2回続けて振る場合を考えて、1回目の出目を確率変数 X で表し、2回目の出目を確率変数 Y で表すとする。
このとき、出た目の合計を表す X+Y はどのように定義されるのか。
この問題のX+Yに関する確率の値を計算すること自体は別に難しくない。2回の出目の合計の範囲は2〜12なので
Ω' = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} として
P({2})=1/36、P({3})=2/36、……、P({7})=6/36、 ……、P({12})=1/36
のようにすれば確率の定まった集合Ω'が得られる。でもX+Yは何ものなのか。
普通の変数のことを考えると、変数と変数を+でつなげたものは変数ではない。そうするとX+Yは変数ではないはず。
でも、出た目の合計をZで表すことにするとこれはΩ'を変域とする確率変数で、Z と X+Y は同じものを表しているから、X+Y もこれひとかたまりで一つの確率変数になるような感じもする。
それから、X+Y (2回の出目の合計)と X+X (1回目の出目の2倍)の違いは、どこから来るのか。
こうしたことは「確率変数とは確率の定まっている集合を変域とする変数」という定義を見ても、よく分からない。
伊藤清の講演に次のようにある。

吉田耕作先生も、X、YというのがあってXというのはある確率法則μにつながる、Yはνにつながると、ここまでは分かるけれども、でもX+Yはいったいなんだというのです。これが分からない。
(伊藤清「つれづれなるままに」(『伊藤清の数学』) )

そして、この疑問は確率変数を関数と考えることで説明される。

これが分からない。分からないのは当然であって、これが分かるためには、XとYを1つの空間の上の関数X(ω)、Y(ω)として表現したら初めて分かるわけです。
(伊藤清「つれづれなるままに」(『伊藤清の数学』) )

3. 関数としての確率変数

というわけで、確率変数の定義は次のようになる。

(2) 確率変数とは、確率の定まっている集合Ωから、何からの値の集合Vへの関数のことである
サイコロを2回振る場合について考えると、Ωは{1,2,3,4,5,6}の直積集合
Ω = {1,2,3,4,5,6}×{1,2,3,4,5,6}
  = {(1,1), (1,2), (1,3), ……, (6,4), (6,5), (6,6)}
となり、各要素についてP({a}) = 1/36 として確率が定まる(直積集合に対する確率は一般的な場合についてもきちんと定義できる)。
確率変数については、XはΩの第1成分を取る関数、YはΩの第2成分を取る関数
X : Ω∋ (a,b) → a ∈R
Y : Ω∋ (a,b) → b ∈R
と定義される。
そうすると X+Y というのは単なる関数の和
X+Y : Ω∋ (a,b) → a+b ∈R
であり、X+Y も確率変数となる(Ω上の関数なので)。

: 確率変数を関数として定義したのはコルモゴロフなのだけど、だからといってコルモゴロフ以前は(1)の「確率変数とは確率の定まっている集合Ωを変域とする変数」のような説明がされていた、ということではない。
(1)のように集合に対して確率を与えてその上で確率変数を考える、というのがすでにコルモゴロフ以後の測度論的な見方の影響下にあって、コルモゴロフ以前は
「当時は、確率変数というのはある確率法則をもった変数のことで」(伊藤清「つれづれなるままに」)
とあるように、集合ではなく確率変数の方に確率を付随させてとらえていたみたい。

大学の三年頃から確率論に関する論文や著書を少しずつ読んでいましたが、そこには確率変数という基本概念について直観的説明があるだけで、土台が欠けているように感じました。
 ……確率論の基礎概念である確率変数をいかに定義すべきかについて思い悩んでいるうちに、ロシアの数学者コルモゴロフの本を読んだのは、大学を卒業して内閣統計局に就職したばかりの頃でした。……『確率論の基礎概念』という本ですが、確率変数を確率空間上の関数と定義し、測度論の言葉で確率論を体系化しようという試みです。
(伊藤清「確率論と歩いた六十年」(『確率論と私』) )

4. 関数としての確率変数と変数としての確率変数

ということで「確率変数とは確率の定まった集合から何かの値への関数である」と説明できたのだけど、だからといって(1)の「確率の定まっている集合Ωを変域とする変数」という見方が捨てられたわけではない。確率変数を関数だと考えることで(1)の意味が捨てられたのではなく、(1)の役割を含む形で拡張されている。
(1)のタイプの確率変数を使いたいときには、Ω上の恒等関数を取ればいい。

サイコロの場合でいえば、Ω = {1, 2, 3, 4, 5, 6} を変域とする(1)の意味での確率変数 X の代わりに、Ω上の恒等関数

X : Ω∋a → a∈Ω
を使えばよい。これが(1)の意味での確率変数と同じ役割をはたす。

しかし、恒等関数が間に入っていることをわざわざ意識するのも面倒なので、表記を省略してしまって(1)の意味での変数(つまり普通の意味での変数とあまり変わらないもの)であるかのように扱われたりする。

たとえば「確率変数は関数なのだ」と無理にこだわって

P( { ω∈Ω | 2 < X(ω) < 5} )
と書くよりも
P( { X∈Ω | 2 < X < 5} )
の方が簡潔になる(ただし「確率変数は関数」と厳密に考える人からすると分かりにくくなっただけかも)。
X+Y の場合も、値域が {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} で、確率P({X+Y=2})=1/36、P({X+Y=3})=2/36、……、P({X+Y=12})=1/36 と計算してしまった後は、集合{1,…,6}×{1,…,6}上の関数であることは意識しないで、X+Yひとかたまりで {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} を変域とする変数であるかのようにも扱える。

また入門的な確率論の本や説明の中には、「確率変数は関数」という定義に引っ張られているのか、恒等関数と考えれば済む場合に、わざわざ別の集合をΩとして与えてそこからの関数の形にして説明している場合もある。


確率変数を関数と考えることで自由度が上がっているので、(和を定義するときのように)必要に応じて確率の定まっている集合を広げたり取り替えたりして考えることがスムーズにできる。(実数上の変数x∈Rだったものが、そのまま3次元空間R3の成分xにもなる感じか)。
しかし「全ての確率変数をつねに明示的に関数として考える」というのもそれはそれで面倒なので、扱う確率変数が元々1つしかないとか特定の確率変数だけに注目しているときなどは関数の介在を省略・短絡させて普通の変数のようにも扱われることになる(埋め込み写像f:A→Bのことは忘れて、はじめから部分集合A⊂Bとして扱うのと近いかも)。そのせいで「確率変数は変数のような関数のような曖昧なもの」という感じが生じるのかもしれないけど。