久しぶりに数学を復習しようと思い立ちました。この記事はそのメモです。またLatexで数式を書くための練習です。第5回はデータの分析です。
数学の中で一番苦手なのが、この確率、統計の分野です。数を数えればいいはずなんだけど、なんでできないんだろう…とか考えながらすすめていきたいと思います。
ちょっと復習をすすめると、知らない単語がいっぱい。そりゃ苦手にもなるよなぁ。あと今時の数学って、表計算ソフトとか登場するんですね。しゅごい…
相関関係とかは人間の知恵を感じますね。すっごーい! とうけいちゃん! たくさんのすうじがとくいなふれんずなんだね!
教材
- 新編 数学I 平成25年度用
編者: 高橋陽一郎
出版社: 啓林館
発行日: 平成24年12月10日
ISBN: ISBN978-4-402-03692-8
価格: C4341 ¥00000E
学習範囲 (目次より)
第4章 データの分析
第1節 データの散らばり
1. いろいろなデータの分布
2. データの傾向のとらえ方
第2節 データの相関
1. データの相関
データの分析
データの散らばり
いろいろなデータの分布
度数分布表とヒストグラム
度数分布表 ( frequency distribution )
データの値の区間を作成し、その区間に入るデータの個数を数えてまとめたものを度数分布表という。データの散らばり具合がわかりやすい。階級 ( class )、階級幅 ( class interval ) 、階級値 ( class value ? )、度数 ( frequency )
度数分布表で設定される区間を階級、区間の幅を階級幅、区間の中央値を階級値、各階級に当てはまるデータの個数を度数という。相対度数 ( relative frequency )
各階級の度数の全体に占める割合を相対度数という。累積度数 ( cumulative frequency ) 、累積相対度数 ( cumulative relative frequency )
各階級に対して度数や相対度数を最初の階級からその階級の値まで合計したものを累積度数、累積相対度数という。ヒストグラム ( histogram )
度数分布表をもとに、横軸に階級、縦軸に度数を取ったグラフをヒストグラムという。
ヒストグラム(分布)の形状と意味
- 単峰性 ( unimodal ) と多峰性 ( multimodal )
ヒストグラムが1つのピークだけを示す分布を単峰性の分布といい、2つ以上のピークを示す分布を多峰性の分布という。
データの傾向のとらえ方
代表値
代表値 ( representative value )
分布の特徴は中心の位置と散らばりの大きさで決まる。ちゅうしんの位置を表す指標を代表値といい、平均値、中央値、最頻値がある。平均値 ( mean )
データの総和を総度数で割った値。中央値 ( median )
nこのデータを大きさの順に並べた時中央にくる値。最頻値 ( mode )
最も度数が多いデータの値。度数分布表では、最も度数が多い階級の階級値をいう。複数ある場合もある。
散らばりの指標(1): 範囲と四分位範囲(箱ひげ図)
- 5数要約 ( five-number summary ) 、四分位数 ( four-quantile )
第1四分位数 ( lower quartile ) 、第2四分位数 ( median )、第3四分位数 ( upper quartile )
データの散らばり方を大まかに5つの数で表す方法。データを大きさの順に並べて、その両端の最大値、最小値とデータをほぼ4分割する3つの数で構成される。この3つの数を四分位数といい、値の小さい方から第1四分位数、第2四分位数、第3四分位数という。第2四分位数はデータを大きさの順に並べて半分に分ける中央値のこと。
- 四分位数の決定
データの数をとし
- (奇数)のとき
- 第1四分位: 番目から番目のデータの中央値
- 第3四分位: 番目から番目のデータの中央値
- (偶数)のとき
- 第1四分位: 番目から番目のデータの中央値
- 第3四分位: 番目から番目のデータの中央値
- (奇数)のとき
(偶数)のとき、中央値はその前後の2つのデータの平均値。
範囲 ( range )、四分位範囲 ( interquartile range ) 、四分位偏差 ( inter quartile deviation)
データの100%が含まれる区間の大きさを範囲という。データの中心付近のほぼ50%が含まれる区間の大きさをいう。四分位範囲の半分の大きさを特に四分位偏差という。箱ひげ図 ( box plot )
5数要約を表すグラフを箱ひげ図という。
有効数字
測定値 ( mesured quantity )
長さ、面積、体積などを測って得た数字を測定値という。近似値 ( approximation )
測定の精度には一定の限界があるため正確には真の値になってはいないが、実用上問題のない程度に真の値に近い値と考える時、この値を近似値という。有効数字 ( significant figures )
測定などによって得られた値で信頼できる数字の部分を有効数字といい、その数字の個数を有効数字の桁数という。
有効数字をはっきりさせるためには有効数字を表す整数部分が1桁の小数と、10の何乗かの積の形で表す。
正確さに関する議論は有効数字 - Wikipediaを参照。
散らばりの指標(2): 分散と標準偏差
範囲や四分位範囲は、データを大きさの順並べ、その中の2つの値の差として散らばりの大きさを測る指標だが、データすべての値を使ってデータのの散らばりの大きさを表す方法について考える。
- 偏差 ( deviation ) 、偏差平方 ( squared deviation ) 、分散 ( variance ) 、標準偏差 ( standard deviation )
- 平均値を求める。
- 各データの平均値からの差を求める。これを偏差という。
- それぞれの偏差を2乗する。これを偏差平方という。
- 偏差平方の平均値を求める。これを分散という。
- 分散の正の平方根を求める。これを標準偏差という。
データの散らばりが大きいとは、平均値から離れたデータが多くあるということを意味する。よって偏差平方は正の大きな値となり、その平均である分散の値も大きくなる。
分散はデータの個数に依存しないデータ1個当たりの平均からの距離の2乗を表している。標準偏差は分散の正の平方根なので元のデータと同じ単位を持ち、データ1個あたりの散らばりの大きさの指標と考えることができる。
一般に、「(平均)(標準偏差)」の区間をそのデータの中心の傾向と考える。また「(平均)(標準偏差)」の区間を越えるデータを全体の傾向から外れたデータとして注意する。
変量 ( variable )
得点、個数のように、ある特性を表すデータを変量という。特定の項目の変量を変量、変量などという。
データの数がであるとき、変量の個のデータを添え字を使いと表す。
個のデータの平均値をとするとき、第番目のデータの偏差はとなり、偏差平方は(x_i,\overline x)^2となる。これらより下記数式表現となる。分散、標準偏差の数式表現
分散
標準偏差
表計算ソフトでの分散・標準偏差の計算
表計算ソフトでの分散・標準偏差の計算方法についての解説。略す。
データの相関
データの相関
散布図
散布図 ( scatter plot )
2つの変量を平面上の点としてプロットし、2つの変量の関係を調べる事ができるようにした図。見るときには下記ポイントに注意。- 全体的な傾向を見て、その関係と強さを見る。
- 全体的な傾向から著しく離れたデータがあるかどうかを見る。
正の相関関係、負の相関関係
一般に散布図において2つの変量の間に- 一方が増えると他方も直線的に増える傾向が見られるとき、正の相関関係があるという。
- 一方が増えると他方が直線的に減る傾向が見られるとき、負の相関関係があるという。
- 1.2.に当てはまらないとき、相関関係はないという。
データが直線をなすとき、完全な正の相関があるといい、直線からはずれた点が多くなるにつれ、相関が弱くなるという。
データが2次関数のような曲線がみられても相関関係があるとは言わず、関数的な関係があるという。
相関係数
- 共分散 ( covariance )
相関関係と関連する偏差積の平均の値を変量と変量の共分散といい、で表す。
散布図において相関関係の度合いを数値で表現することを考える。2つの変量を変量、変量とし、個のデータを
で表す。またの平均値を、標準偏差をで表す。
2つの変量の平均値を座標とする点を中心にして平面を4つの区域(象限)に分ける。このとき点の位置と、変量と変量のそれぞれの偏差の積(偏差積)
の符号の関係は下記となる。
1. 点が区域かに入る時
2. 点が区域かに入る時
よって変量と変量の間に正の相関関係があれば、区域か区域に点が多く集まるので、変量と変量の偏差積の平均
は正となる。
逆に負の相関関係があれば区域かに点が多く集まるので、偏差積の平均は負となる。また相関関係が殆ど無い場合は、点が区域に均等にばらつくので偏差積の平均はに近い値となる。
- 相関係数 ( correlation coefficient )
変量、変量の単位のとり方により共分散の値は相関関係は変わらないのに値が変わる、これを防ぐため、共分散を変量と変量の標準偏差で割った値を考える。これを変量と変量の相関係数といい、相関関係の方向と強さを示す指標とする。
相関係数についてはであり、やの測定単位を変更しても相関係数の値は変わらない。
表計算ソフトでの相関係数の計算
表計算ソフトでの相関係数の計算方法についての解説。略す。
散布図と相関係数
相関係数だけでは解釈に誤解が生じるケースがあることに要注意。特に全体の傾向から外れた値 ( 外れ値 outliers ) がある場合に全体の傾向を示さない場合がある。
一般に相関関係の値から次のような解釈をする。
1. 相関係数がに近いほど2つの変量との正の相関関係は強い。またのとき傾きが正の直線上に点が分布する完全な正の相関関係になる。
2. 相関係数がに近いほど2つの変量との負の相関関係は強い。またのとき傾きが負の直線上に点が分布する完全な負の相関関係になる。
3. 相関係数がに近いほど2つの変量との正の相関関係は弱い。またのとき相関関係がないことになる。
相関関係と因果関係
- 偽相関 ( 擬似相関ともいう spurious correlation )
相関関係は2つの変量の間の関係の強さを表しており、原因と結果のような因果関係を表しているわけではない。相関が強いデータでも2つの変量の間に共通の別の変量が関係し、見かけ上相関関係が生じている場合もある。これを偽相関という。
2次元の度数分布表
数量的に2つの変量の間の関係をとらえるために用いる。
気づいたこと、不具合、ご意見など、コメント待ってます!