久しぶりに数学を復習しようと思い立ちました。この記事はそのメモです。またLatexで数式を書くための練習です。第13回は確率分布と統計です。
たしか高校生の頃、この範囲はとても苦手で何を言っているのか全然わかっていませんでした。そしてその後もあまりちゃんと理解することもなく、ここまでやってきたんですね。でも機械学習とか深層学習をやろうとすると、なんだか必須らしいです… まあ、当時も形式的に使えればなんとかなったんですが、今回はせっかく復習するんだし、ちゃんと理解してみたいと思います。しかし統計学がこんなにも実用的なものだとは…もっと早く知っておくべきでした。
なお、統計学は最強の学問、だそうですね。面白そうな本をリスナーさんに教えてもらったので、今度読んでみたいと思います。いろいろと忙しいなぁ(笑)
復習時に頭を悩ませたのは下記です。
- 確率変数の1次式の平均
教科書の例題と、期待値の求め方(期待値の定義)でなんとかクリア。 - 二項分布
なかなか二項分布が指す意味や、使い方が頭に染み込んできませんが、そういう問題を少し助けてくれるいい参考サイト 二項分布 - Minitab がありました。また基礎的な話としては 高校数学の復習からはじめる二項分布の導出 - 廿TT の記事もとっても良かったです。 みくねーさん!
ミクの歌って覚える統計入門では初音ミクねーさんが、統計に取り憑かれたかのように、統計の歌を歌いまくっています! もうこれは全曲制覇するしかないっ! ってみくさんにとりつかれたのは私だね…e (ネイピア数)
いきなりネイピア数登場です。解説1行です。無理数、値、以上。はやく微積やろう…。
教材
- 新編 数学B 平成26年度用
編者: 高橋陽一郎
出版社: 啓林館
発行日: 2013-12-10
ISBN: ISBN978-4-402-04576-6
価格: C4341 ¥00000E
第4章 確率分布と統計的な推測
第1節 確率分布
1. 確率変数と確率分布
2. 確率変数の平均
3. 確率変数の分散と標準偏差
4. 和の平均と分散
5. 二項分布
第2節 正規分布
1. 連続的な確率変数
2. 正規分布
第3節 統計的な推測
1. 母集団と標本
2. 推定
確率分布と統計的な推測
確率分布
確率変数と確率分布
- 確率変数、確率分布
ある試行の結果に応じて値が決まる変数を確率変数という。また確率変数の取る値とその確率の対応関係を確率分布という。
一般に確率変数の値をとし、それぞれに対応する確率をとすると次のことが成り立つ。
またの確率分布は次の表のようになる。
確率変数の値がとなる確率をと表し、が以上以下の値を取る確率をと表す。
例1)
のどれかが当たる総数のくじを考える。
このくじから本を引くときの賞金額を円とし、、賞のとき、賞のときである。がどのような確率で当たるかは偶然によって決まり、その確率は下記表のようになる。
例2)
赤玉個と白玉個が入っている袋から個の玉を同時に取り出すとき、出る赤玉の個数の確率分布を求める。
解)
の取りうる値はである。
よっての確率分布は下記表となる。
確率変数の平均
- 平均、期待値 ( expectation )
一般に確率変数の確率分布が下記表のように与えられたとき
を確率変数の平均、または期待値といいで表す。
- 確率変数の次式の平均
が定数でのとき
例)
番号のついた玉がそれぞれ入った袋から玉を個取り出す。玉の番号の枚数だけ円硬貨がもらえるゲームで、円払ってこのゲームをするときの利益円の平均を求めよ。
解)
まず、袋から玉を個取り出すときの番号の平均を求める。これを用いて利益の平均を求める。
より
利益円の平均は玉の番号の倍で、ゲームに円支払うので
ここから
確率変数の分散と標準偏差
- 分散 ( variance ) 、標準偏差 ( standard deviation )
以前の復習高校数学 - データの分析を参考のこと。標準偏差を求める手順は
であることを復習した。これを用いて確率変数の分散と標準偏差を求める。
下記表のような確率分布をもつ確率変数を考える。
この確率変数の平均をとすると、偏差は、偏差平方は、分散は偏差平方の平均である。よって
であり、これをの分散といい、で表す。そして、分散の正の平方根
をの標準偏差といい、で表す。
- 分散と標準偏差の性質
上記表で与えられている確率変数の分散は、の平均をとすると
- 次式の分散と標準偏差
が定数でのとき
確率変数がの次式のときのの分散を考える。
とすると
であるからより
したがって
また
和の平均と分散
- 確率変数の和の平均
確率変数における和の平均は確率変数の和の平均と等しい。
和の平均についてはつ以上の独立な確率変数についても同様のことがいえる。
- 独立な確率変数
つの試行があって、に関する確率変数Xと、に関する確率変数の確率分布がそれぞれ以下の表のようであるとする。
試行が独立のとき、これらの試行は互いに他に影響しないので、、の値を取る確率について
が成り立つ。このときは独立であるという。
独立な確率変数の積の平均
独立な確率変数の和の分散
積の平均、和の分散についてはつ以上の独立な確率変数についても同様のことがいえる。
下記表が成り立つ。
ここでの確率分布は下記表になる。
よっての平均は以下となる。
つの確率変数が独立のときの分散を計算すると
二項分布
- 二項分布 ( binomial distribution )
一般に、回の試行で事象の起こる確率がで、起こらない確率がのとき、回の試行が独立ならば、となる確率、すなわちこの反復試行で事象が回起こる確率は次のようになる。
確率変数の確率分布は以下の表のようになる。
この表の確率をすべて足し合わせたものは、二項定理の展開式の右辺
になっていることから、このような確率分布を二項分布といい、で表す。また、このとき確率変数は二項分布に従うという。
- 二項分布の平均と標準偏差
が二項分布に従うとき、とすると
確率変数の確率分布が二項分布で
のとき、の平均と標準偏差を求める。
この二項分布は、回の試行で起こる確率がの事象と考えると、試行を独立に回繰り返すときにが起こる回数の確率分布である。
今、第回目の試行で「、 起こらないとき」の値を取る確率変数をとすると
であるからである。このとき、確率変数は互いに独立であるから、その和の平均と分散について、次のことがいえる。
ところでの確率分布は
だから、
である。したがって
である。また標準偏差はであることから、
である。
正規分布
連続的な確率変数
- 連続的な確率変数
連続的な値を取る変数についても、そのとる値の範囲の確率が定まっているとき、を確率変数といい、確率変数がの値をとる確率をと表す。
- 確率密度関数、分布曲線
一般に確率変数が連続的な値をとり、その値がの範囲にある確率が図のように、曲線で囲まれた図形の面積で表されているとき、関数をの確率密度関数といい、曲線を分布曲線という。
またのとりうる値の範囲がのとき、曲線で囲まれた図形の面積はとなる。
正規分布
- 正規分布、標準正規分布
確率変数のとり得る値が実数全体で、の確率密度関数が
であるとき、このの確率分布を、平均の正規分布といい、で表す。このとき確率変数は正規分布に従うという。
ここでは無理数で、である。
確率変数が正規分布に従うとき、
とおくと、の確率分布は平均、標準偏差の正規分布となる。正規分布を標準正規分布といい、その確率密度関数は次のようになる。
標準正規分布は次の性質を持つ確率分布である。
のグラフは軸に対して対称な山形の曲線である。
の値がの範囲にある確率は、次の図のような斜線部分の面積となり、が大きくなるとに近づく。
標準正規分布に従う確率変数に対して確率
をのいろいろな値に対して計算して表にまとめたものを正規分布表という。
- 正規分布による二項分布の近似
確率変数が二項分布に従うとき、が大きければ、
はほぼ標準正規分布に従うとしてよい。
二項分布に従う確率変数については
であり
とおくと、確率変数の平均は、標準偏差はとなり、に無関係である。
の取る値を適当な階級に分け、対応する確率を求めグラフを書くとき、の値を大きくし、分割の幅を細かくすると、グラフは標準正規分布の分布曲線に近くなる。
- の確率
正規分布に従う確率変数について
である。すなわち、正規分布において、の値が平均からの範囲にある確率は以上、平均からの範囲にある確率は以上、平均からの範囲にある確率は以上である。
統計的な推測
母集団と標本
- 全数調査、標本調査
調査の対象全体をもれなく調べる全数調査と、一部を抜き出して調べ、それから全体を推測しようとする標本調査がある。
- 母集団、標本、抽出、標本の大きさ
標本調査では調べようとする調査の対象全体を母集団といい、調査のために母集団から抜き出された要素の全体を標本という。
標本を抜き出すことを抽出といい、標本に含まれる要素の個数を標本の大きさという。
- 乱数賽、乱数表、無作為抽出、任意抽出
標本に偏りのでないように公平な抽出をする必要がある。そのため、乱数賽という特殊なサイコロや、乱数表を用いたり、コンピュータに発生させた乱数を利用したりする。このような標本の抜き出し方を無作為抽出、または任意抽出という。
母集団から個の標本を個無作為抽出した確率変数を、ある分布を持つ母集団からの大きさの無作為標本という。
- 母平均と標本平均、復元抽出、非復元抽出
母集団から標本を抽出するとき、抽出のたびに要素をもとに戻し、改めて次を抽出する方法を復元抽出という。一方、もとに戻さないで続けて抽出する方法を非復元抽出という。
母集団から抽出された大きさnの無作為標本が復元抽出によって得られたものであれば、は独立である。
ただし、母集団の要素の数が極めて大きいときは非復元抽出でもが独立であるとして取り扱っても、差し支えないことが知られている。
これからは十分に大きな数の要素からなる母集団を考える。よってある母集団から抽出される大きさの無作為標本は、いずれも母集団の確率分布に従う個の独立な確率変数の組であるとみなしてよい。
このとき母集団についての平均、標準偏差をそれぞれ、母平均、母標準偏差という。
- 標本平均の平均と標準偏差
母平均,母標準偏差の母集団から大きさnの無作為標本を抽出するとき、
を標本平均といい、で表す。
1) 標本平均の平均はに等しい。
2) 標本平均の標準偏差はに等しい。
平均標本の平均と標準偏差について考える。
について
だから、は、
である。また、は独立であるから、の分散は
である。したがっての標準偏差は
となる。
- 標準平均の標準化
一般に、統計調査において、平均,標準偏差の母集団から、大きさの標本を無作為抽出するとき、標本平均について
である。
さらにが大きいとき、次のことが知られている。
母平均,母標準偏差の母集団から抽出された大きさの標本平均について、が大きいときの確率分布は、ほぼ標準正規分布とみなすことができる。
推定
- 推定、区間推定
母集団の分布が持っている定数の値が未知のときに、与えられた標本からその値を推測する方法を推定という。
母集団の特性を示す定数を推定するときには、標本から得られた量にある幅を取って考えることが多い。これを区間推定という。
- 母平均の推定
母平均に対する信頼度の信頼区間は、標本の大きさが大きいとき、標本平均の値を, 標本の標準偏差の値をとすると
また母平均に対する信頼度の信頼区間は
母平均、母標準偏差の母集団から無作為抽出した大きさの標本の標本平均については、が大きいとき
となる確率がである。これを変形し、
となるので、これが成り立つことが確率でいえることになる。ここで示される範囲を、に対する信頼度の信頼区間といい、以下で表す。
は変数だから、信頼区間はの値によって変化する。このときのすべての値について信頼区間がを含むとは限らないが、の確率で信頼区間はを含むといえる。
よって回の標本抽出において回ぐらいは区間
がを含むということになる。これが信頼度の信頼区間の意味である。
そこで、母集団から大きさの標本を無作為抽出して、それから標本平均の値を求めれば、の値がわかっているときは母平均の値が推定できることになる。しかし実際には母標準偏差はわからない場合がほとんどである。しかしが大きいときにはを標本の標準偏差の値で置き換えても、大きな違いは生じないことが知られている。
これより上記区間推定が成り立つ。
- 母比率の推定
ある性質について、母集団を構成する要素が、それを持つか持たないのどちらかのとき、その性質を持つ要素の割合をその母比率という。
その性質をもてば、もたなければの値をとる確率変数をとすると、その平均は
であるから確率変数の平均を推定すればよい。
参考サイト
期待値の求め方(期待値の定義)
確率変数の1次式の平均を使わないと、どういう考え方になるかが分かりました。二項分布 - Minitab
二項分布の説明で一番分かりやすかったサイト。高校数学の復習からはじめる二項分布の導出 - 廿TT
こちらも二項分布について優しく解説してくれている。ミクの歌って覚える統計入門
ミクさんが華麗に統計を歌い上げるサイト。たまりません(笑 ぜひ全曲制覇して確率入門を突破しましょ!期待値と分散に関する公式一覧 | 高校数学の美しい物語
もはや定番です。公式とその証明が詳しく解説されています。