1. Bias and Variance Tradeoff

1.1 Error

\[Error = noise(x) + bias(x) + variance(x)\]

Bias는 예측된 값과 기대값(GT) 차이라고 볼 수 있습니다.

\[\text{Bias} = E[y - \hat{y}]\]

Bias는 예측관 값과 Ground Truth 값과의 차이의 평균입니다.
Low Bias: 약한 가정 / 오차가 적다 (Decision Tree, KNN, SVM)
High Bias: 강한 가정 / 오차가 크다 (Linear Regression, Linear Discriminant Analysis, Logistic Regression)

\[\text{Variance} = E \left[ \hat{y} - E[\hat{y}] \right]^2\]

Underfitting : High Bias and Low Variance
- 모델은 예측시 강한 가정(assumption)을 갖고 있음.
- 데이터 부족으로 정확한 모델을 만들 수 없을 때 발생
- Linear Model 을 Non-Linear Data 에 적용할때 발생
Overfitting : Low Bias and High Variance
- 노이즈 데이터까지 피팅 시켜서 발생함
- 복잡한 모델을 단순한 데이터에 적용시 발생

Partitioning Data: Random
Goal: Variance 최소화
Method: Random Subspace
Combine method: weighted average
Models: Random Forest
장점
- Over-fitting 문제를 해결 (특히 decision tree -> random forest로 전환시)
- missing data가 발생해도 accuracy를 유지함

Regression Problem

\[F_{bag}(x) = \frac{1}{B} \sum^B_{b=1} f_b(x)\]

Classification Problem

\[F_{bag}(x) = sign\left( \sum^B_{b=1} f_b(x) \right)\]

Steps

Steps

방식은 꽤 많은데.. 핵심은 에러로 나온 에러 데이터에 가중치를 더해서 그 다음 모델에서 다시 학습시킴.
이후 여러개의 모델이 만들어지면 최종 prediction에서는 각 모델의 가중평균을 내서 결과값을 도출

데이터에서 램던 샘플을 취하고 weak leaner M1 을 학습시킨다.
training dataset 에서 랜덤샘플을 신규로 취하고, 이전 모델에서 잘못 예측한 데이터셋 50%를 추가 함. -> weak leaner M2 를 학습
반복적으로 여러개의 모델을 sequentially 만듬.
prediction시에는 예를 들어 5개의 weak leaners 가 있고, [1, 1, 1, -1, -1] 이렇게 예측후, 각 모델마다의 가중치 [0.2, 0.5, 0.2, 0.8, 0.9] 를 곱한후 합치면 -0.8이 나오며, 최종값은 -1이 된다