1. Introduction

지난번 글에서 머신러닝 엔지니어가 알아야할 기초 101 공유 했는데요.
이번 글에서는 머신러닝 엔지니어가 알고 있어야 하는 통계 부분에 대해서 공유 하겠습니다.
오늘은 머신러닝 엔지니어가 반드시 알고 있어야 하는 기초 통계를 작성합니다.

해당글은 작성중입니다.

2. Probability

2.1 쉬운 문제

문제 01. 두개의 주사위를 굴릴때, 합이 7일 경우의 확률은?

일단 6 x 6 = 36 가지의 경우의 수가 있으며, 7이 나오는 경우는..
(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1) .. 총 6가지 존재 합니다.
따라서 7이 나올 확률은 6/36 의 확률입니다.

문제 02. 세일즈맨이 9군데의 상점중 5군데를 방문한다고 할때, 몇가지 경우수가 있습니까?

Permutation을 물어보는 것이고 ABCDE 나 EDCBA 는 서로 다른 것으로 취급합니다.
\({}^{9} \mathrm{ P }_5 = 9! / (9-5)! = 9 \times 8 \times 7 \times 6 \times 5 = 15120\)

문제 03. 4개의 blue 구슬, 6개의 red 구슬 중에서 2개의 blue 구슬과, 1개의 red 구슬을 꺼낼 확률은?

2개의 파란구슬, 1개의 빨간구슬 꺼낼 경우의 수는 36가지가 있으며
\({}^{4} \mathrm{ C }_2 \times {}^{6} \mathrm{ C }_1 = (4 \times 3)/2 \times 6 = 36\)

전체 10개중에 3개를 고를 경우의 수는 120가지가 존재 합니다.
\({}^{10} \mathrm{ C }_3 = (10 \times 9 \times 8) / (3 \times 2 \times 1) = 120\)

따라서 확률은 30%가 됩니다.
\(36 / 120 = 0.3\)

문제 04 52장의 카드속에서, 2개를 꺼냈는데, 모두 kings 일 확률은?

Combination 공식 사용하고, 왕 4장중에서 2장 꺼내는 확률을 구하면 됨
\(n(S) = {}^{52} \mathrm{ C }_2 = n! / (n-r)!r! = (52 \times 51) / (2 \times 1) = 1326\)
즉 52장 중에서 2장을 꺼낼 경우의 수는 1326가지 입니다.

이후 4개의 왕중에서 2개의 선택할 확률은
\(n(King) = {}^4 \mathrm{ C }_2 = (4 \times 3) / (2 \times 1) = 6\)

결론적으로
\(P = n(King) / n(S) = 6 / 1326 = 1/221\)

2.2 Bernoulli 그리고 Binomial distribution 의 차이

Bernoulli distribution의 경우는 n=1 있는 경우이고,
Binomial distribution의 경우는 독립동일분포를 갖는 (Independent and Identically Distributed) Bernoulli variables의 합입니다.

예륻 들어서 단 한번만 동전을 던져서 동전의 앞면이 나올 확률을 구하는 것은 베르누이 확률 분포를 의미하며,
5번을 던져서 정확하게 3번의 앞면이 나올 확률을 구하는 것은 binomial distribution을 구하는 것입니다.

참고로 5번을 던져서 모두 앞면이 나올 확률은 p^5 이며 0.5^5 = 0.03125 이며,
정확하게 3번이 나올 확률을 구하는 것은 아래 공식과 같습니다.

\[\begin{align} P(r) &= \begin{pmatrix} n \\ r \\ \end{pmatrix} \frac{n!}{(n-r)!r!}\ p^{r} q^{n-r} \\ &= combination * 성공확률^{성공횟수} * 실패확률^{실패횟수} \\ &= \frac{5!}{(5-3)! 3!}(0.5)^{3}(0.5)^{5-3} \\ &= 0.3125 \end{align}\]
> from scipy.stats import binom 
> binom.pmf(3, 5, 0.5)
0.3125

2.3 Confidence Interval

문제 01. 회사 배너 광고에서 100번의 노출이 있었고 25번의 클릭이 있었습니다. Confidence interval 값은 어떻게 될까요?

자세한 공식및 설명은 링크 참조
먼저 CI 계산 공식은..

\[\begin{align} CI &= \bar{x} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \\ &= p \pm Z_{\alpha/2} \sqrt{ \frac{p(1-p)}{n} } \end{align}\]
  • \(\bar{x}\) : sample mean
  • \(z\) : confidence level
  • \(s\) : sample standard deviation
  • \(n\) : sample size

대입하면 다음의 공식이 됩니다.

\[\begin{align} CI &= 25\ \pm 1.96 \frac{18.75}{\sqrt{100}} \ \end{align}\]
  • \(\bar{x}\) : 평균값이며 베르누의 분포에서의 평균값의 공식은 \(P(1-P)\) ->

2.4 Margin of Error

문제 01 sample size n 에 대해서, margin of error 는 3입니다.