ラビットチャレンジ 応用数学レポート2 統計学

応用数学 数学

集合

ものの集まり

要素a~gを持つ集合Sを次のように書く。

$$ S = {a, b, c, d, e, f, g} $$

要素aが集合Sに含まれている。

$$ a ∈ S $$

確率・統計に登場する「事象」は「集合」として取り扱うことができる。

確率

頻度確率(客観確率)

発生する頻度。

例:10本のうち一本だけ当たりのくじの当選する確率10%

→ 実験や全数調査によって確かめられる

ベイズ確率(主観確率)

信念の度合い。

例:あなたがインフルエンザにかかっている確率は40%ですという診断

→ いろいろな条件を使って主観的に観測していく。

確率の定義

$$ P(A) = \frac{n(A)}{n(U)} = \frac{事象Aが起こる数}{すべての事象の数} $$

余事象

$$ P(\bar{A}) = 1 – P(A) $$

\(P(A \cap B)\)の確率

Aという条件のもとBである確率

$$ P(B \mid A)$$

\(A \cap B\)の確率は

$$ P(A \cap B) = P(A)P(B \mid A) $$

\(A \cap B\)と\(B \cap A\)は同じことなので

$$ P(A \cap B) = P(B \cap A) $$

上の式から

$$ P(A)P(B \mid A) = P(B)P(A \mid B) $$

条件付き確率

ある事象Bが与えられたもとで、Aとなる確率。

例:雨が降っている条件下(B)で交通事故にあう(A)確率

$$ P(B \mid A) = \frac{P(A \cap B)}{P(A)}$$

U>Bのため、U全体のうちの\(P(A \cap B)\)よりもBに占める\(P(A \cap B)\)の割合は大きくなる。つまり、条件付き確率の方が同時確率より一般的に確率は大きくなる。

 

和集合の確率

$$ P(A \cup B) = P(A) + P(B) – P(A \cap B)$$

\(P(A \cap B)\)を2重に数えているので引く

ベイズ則

一般的に事象Aと事象Bに対して

$$ P(A)P(B \mid A) = P(B)P(A \mid B) $$

条件付き確率のときの式より

$$ P(A \mid B) = \frac{P(A)P(B \mid A)}{P(B)} $$

統計

記述統計と推測統計

・記述統計
母集団の性質を要約し記述する
・推測統計
母集団の一部(標本)を取り出し母集団の性質を推測する

確率変数と確率分布

・確率変数
事象と結びつけられた数値
事象そのものを指すと解釈する場合も多い
・確率分布
事象の発生する確率の分布
離散値であれば表の示せる

確率分布の期待値

・その分布における、確率変数の平均の値 or 「ありえそう」な値

離散値

$$ 期待値E(f)=\sum_{k=1}^n P(X=x_k)f(X=x_k) $$

連続値

$$ 期待値E(f)=\int P(X=x)f(X=x)dx $$

分散と共分散

分散

・データの散らばり具合
・データの各々の値が平均からどれだけずれているか
・2乗することで絶対値を考慮しなくて平均からのズレを求めることができる

$$ \begin{align}  V(f(X)) &=E\left( \Big(f(X=x)-E(f(x))\Big)^2\right)\\ &=E(f(X)^2)-\Big(E(f(X)) \Big)^2  \end{align}$$

共分散

・2つのデータ系列の傾向の違い
・正の値なら似た傾向
・負の値なら逆の傾向
・ゼロなら関係性に乏しい

$$ \begin{align} Cov(f(X),g(Y)) &=E((f(X=x)−E(f(X)))(g(Y=y)−E(g(Y)))) \\
&=E(f(X=x)g(Y=y))−E(f(X=x))E(g(Y=y)) \end{align}$$

標準偏差

分散は2乗を取ってしまっているので単位が違う。
分散のルートを取ることで元の単位に戻る。
$$ \begin{align}  \sigma &= \sqrt{Var(f)} \\ &=\sqrt{E(f(X)^2)-\Big(E(f(X)) \Big)^2}  \end{align}$$

様々な確率分布

ベルヌーイ分布

  • コイントスのイメージ
  • 裏と表で出る割合が等しくなくとも扱える

$$ P(x \mid \mu) = \mu^x(1 – \mu)^{1-x} $$

マルチヌーイ(カテゴリカル)分布

  • サイコロを転がすイメージ
  • 各面の出る割合が等しくなくとも扱える

二項分布

  • ベルヌーイ分布の多試行版

$$ P(x \mid \lambda, n) = \frac{n!}{x!(n – x)!} \lambda^x(1 – \lambda)^{n-x} $$

ガウス分布

  • 釣り鐘型の連続分布

$$ N(x; \mu, \sigma^2) =\dfrac{1}{\sqrt{2\pi\sigma}}\exp(-\dfrac{(x-\mu)^ 2}{2\sigma^ 2}) $$

推定

母集団を特徴づける母数(パラメーター:平均など)を統計学的に推測すること。
母数は母集団の数ではないことに注意。
母数は母集団を特徴づける数。

  • 点推定
    平均値などを1つの値に推定すること
  • 区間推定
    平均などが存在する範囲(区間)を推定すること

推定量、推定値

  • 推定量(estimator)
    パラメータを推定するために利用する数値の計算方法や計算式のこと。
    時には関数が入ることもある。推定関数とも。
    いろいろな推定値を出してくれる道具
  • 推定値(estimate)
    実際に試行を行った結果から計算した値

真の値 \(\theta\)

推定値 \(\hat{\theta}\)

標本平均

母集団から取り出した標本の平均値
点推定のうちでも代表的なもの

標本平均は次の性質を持つ。

  • 一致性
    サンプル数が大きくなれば、母集団の値に近付く
  • 不偏性
    サンプル数がいくらであっても、その期待値は母集団の値と同様
    $$ E(\hat{\theta}) = \theta $$

標本分散

サンプルサイズをnとすると

$$ \hat{\sigma}^2 = \frac{1}{n} \sum_{i = 1}^n {(x_i – \overline{x})^2} $$

標本分散は一致性は満たすが、不偏性は満たさない。
母集団から少数の標本を取り出すので分散は小さくなる。

不偏分散

$$ s^2 = \frac{n}{n – 1} ×\frac{1}{n}\sum_{i = 1}^n {(x_i – \overline{x})^2} \\ = \frac{1}{n – 1} \sum_{i = 1}^n {(x_i – \overline{x})^2} $$

コメント

タイトルとURLをコピーしました