1. 평균

 

 

2. 분산

값(확률변수)에 평균을 뺀, 편차를 제곱한 다음 합계를 구하고 이를 다시 평균한 것

데이터의 흩어진 정도를 확인할 수 있다.

 

 

3. 표준편차

분산은 제곱을 하므로 본래의 단위의미를 상실하므로 이를 다시 제곱근으로 구한것이 표준편차이다.

분산과 표준편차를 사용하면 데이터가 얼마나 흩어져 있는지, 얼마나 차이가 심한지 알 수 있다.

 

 

4. 공분산

기준이 되는 데이터와 확률변수간의 상관관계를 알수있다.

공분산을 계산할 때는 단위는 신경쓸 필요가 없다. 애당초 서로 다른 두 데이터 간의 관계를 표현하는 지표이기 때문이다.

공분산의 값은 양수나 음수로 나오는데
양수(양의관계)는 두 데이터 중 어느 한 쪽이 증가할 때 다른 한쪽도 증가하는 관계를 의미하고,
음수(음의관계)는 두 데이터 중 어느 한 쪽이 증가할 때 다른 한쪽은 감소하는 관계를 의미한다.

 공분산의 절대값은 관계의 강도를 나타내지 않는다. 관계의 강도는 상관계수로 비교할 수 있다.

 

 

5. 상관계수 (-1 ≤ ρ ≤ 1)

표준편차와 공분산으로 부터 상관계수를 구할 수 있다. 상관관계의 강약을 비교할 수 있다.

상관계수는 +1에 가까울수록 양의 관계가 강하고, -1에 가까울수록 음의 관계가 강하다.

상관계수가 0에 가까울수록 상관관계가 약하다고 보는데, 일반적으로 상관계수의 절대값이 0.7보다 클 때 상관관계가 강하다고 평가한다.