Introduction
어떤 데이터가 있을때, 어떤 분포를 갖고 있는지 알아야 할 때가 있습니다.
Python을 통해서 가장 fitting이 잘되는 분포를 찾아내는 방법을 코드로 알아보도록 하겠습니다.
Code
Fitting Normal Distribution
예를 들어서 다음과 같은 random normal distribution을 생성합니다.
해당 데이터가 normal distribution이라고 가정했을때, 정규 분포를 만드는데 필요한 평균
그리고 표준편차
는 다음과 같이 알아 낼 수 있습니다.
위에서 구한 평균
그리고 표준편차
를 이용해서 정규분포의 pdf를 시각화 하면,
samples 데이터와 일치하는 정규분포를 그릴수 있습니다.
모든 분포에 사용가능한 형태의 함수
위에서 봤듯이 Scipy에서 분포마다 fit이라는 함수를 제공하고, 이를 통해서 데이터에 최대한 데이터를 맞추게 됩니다.
좀 더 공통적으로 사용하려면 아래의 함수를 사용하면 됩니다.
Beta Distribution
Gamma Distribution
Supported Distributions from Scipy