적독가의 기록

<세상에서 가장 쉬운 통계학입문> - 고지마 히로유키

기록하는 마케터 2017. 4. 24. 22:13
반응형

1줄 요약 : 어려운 수식 없이 개괄적으로 통계학을 접해보고 싶은 사람들에게 추천하는 책

 

<세상에서 가장 쉬운 통계학입문>은 통계학입문 관련 책을 찾아보던 중 가장 쉬워 보여서 고른 책이다. <세상에서 가장 쉬운 통계학입문>은 크게 2부로 구성되어 있다. 1부에서는 검정이나 구간추정등 통계학에서 가장 기초적이면서도 가장 중요한 항목들을 중학교 수학 수준으로 이해하기 쉽게  설명한다. 2부에서는 1부보다는 좀 더 깊이 들어가 카이제곱분포, t분포를 사용한 검정, 구간추정의 방법 등을 보다 세세하게 다룬다. 1부보다는 확실히 어렵지만, 조금만 집중한다면 누구나 쉽게 이해할 수 있을 정도다. 최대한 쉽게 통계학을 맛 볼 수 있는 책을 찾고 있다면 <세상에서 가장 쉬운 통계학입문>을 추천한다.

 

1부 표준편차부터 검정과 구간추정까지를 한번에

 

01 강의. 도수분포표와 히스토그램 : 데이터의 특징을 돋보이게 하는 도구

 

데이터는 현실 그대로를 나타내지만, 데이터 자체로는 아무것도 알 수 없기 때문에 통계를 사용한다. 단순한 숫자들의 나열로부터 분포의 특징이나 반복되는 것을 이끌어내기 위해 통계를 사용하는 것이다. 통계에서 사용되는 것은 축약이라고 부르는 방법이다. 축약은 데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리정돈해서 의미 있는 정보만을 추출하는 것이다. 데이터를 축약하는 방법에는 크게 그래프를 만드는 법통계량을 구하는 법이 있다.

 

도수분포표는 데이터를 5~8개 정도의 그룹으로 나눈 것이다. 도수분포표는 데이터의 세부적인 수치들을 희생시키지만, 데이터의 특성(데이터가 집중되는 곳이나 대칭성 등)을 쉽게 파악할 수 있게 한다. 히스토그램이란 도수분포표를 그래프로 바꾼 것으로, 더욱 쉽게 데이터의 특징을 파악할 수 있다.

 

02 강의. 평균값의 역할과 평균값을 이해하는 방법 : 평균값은 지렛대가 균형을 이루는 지점

 

도수분포표와 히스토그램은 그래프를 보고 데이터의 특징을 생각할 때 사람에 따라서 받아들이는 인상이 제각각이라는 단점이 있다. 이 단점을 극복한 또 하나의 축약 방법이 바로 통계량이다. 통계량은 데이터의 특징을 하나의 숫자로 요약한 것으로 대표적으로 평균값, 분산, 표준편차가 있다.

 

평균값이란 데이터는 수치적으로 널리 퍼져있지만, 그 널리 퍼져있는 것 중에 하나의 수를 모든 데이터를 대표하는 수로 뽑은 것이다. 따라서 데이터는 평균값 주변에 분포한다. 도수분포표에서 평균값 = (계급값X상대도수)의 합계다. 히스토그램이 좌우 대칭인 경우, 그 대칭축을 지나는 점이 평균값이 된다.

 

03 강의. 분산과 표준편차 : 흩어져 있는 데이터 상태를 추정하는 통계량

 

평균값이라는 것은 데이터의 분포 중에서 하나의 수를 꺼낸 것에 불과하며, 데이터가 그 주변에 어느 정도 퍼져 있는지, 또는 흩어져 있는지는 알 수 없다. 퍼져 있거나 흩어져 있는 정도를 평가하는 것이 바로 표준편차다. 표준편차는 데이터들이 평균값에서 떨어져 있는 정도를 평균화한 것이다. 이때 멀리 떨어져 있든지 가까운 곳에 있든지, 모두 양수로 평가하여 평균을 구한다.

 

04 강의. 표준편차1 : 데이터의 특수성을 평가

 

표준편차를 알면 2가지를 알 수 있다. 첫째, ‘한 데이터 세트 중에 있는 어떤 데이터 하나의 수가 갖는 의미를 알 수 있다. 둘째, ‘여러 데이터 세트들을 서로 비교해서 나타나는 차이를 알 수 있다. 데이터 세트 중에 있는 어느 한 데이터의 편차가 표준편차로 계산해서 ±1배 전후라면 이것은 평범한 데이터라고 할 수 있으며, ±2배로 멀리 있는 데이터의 경우는 특수한 데이터라고 할 수 있다.

 

05 강의. 표준편차2 : 주식리크스의 지표(주가변동성)로 활용

 

주식거래의 지표는 수익률의 평균값 뿐만 아니라 표준편차도 중요하다. 주식에 투자할 때, 수익률의 평균값이 표준편차 1배 정도 떨어진 수익률이 될 경우도 각오해 두는 것이 좋다. 한편 수익률의 평균값이 표준편차 2배 정도 떨어진 수익률이 될 경우는 거의 없을 것이라고 생각해도 좋다. 주식 수익률의 표준편차는 주가변동성이라고 한다.

 

06 강의. 표준편차3 : 하이 리크스와 하이 리턴, 샤프지수도 이해

 

투자는 기본적으로 하이 리스크, 하이리턴인 상품이나 로우 리스크, 로우 리턴인 상품 중에서 선택하게 된다. 이 상품의 차이는 성질의 차이지, 우열의 차이는 없다. 같은 평균수익률이라면 표준편차가 작은 것이 우량 금융상품이고, 같은 표준편차라면 평균수익률이 높은 것이 우량 상품이다. 금융상품의 우열을 평가하는 기준으로 샤프지수가 있다. 샤프지수가 큰 것이 우량 금융상품이다.

 

07 강의. 정규분포 : , 동전 던지기 등에서 흔히 볼 수 있는 분포

 

정규분포는 자연이나 사회에서 가장 흔히 볼 수 있는 분포다. 예를 들어, 키 데이터나 동전 던지기에서 앞면이 나올 개수의 데이터 등이 있다. 정규분포 중 가장 기초가 되는 표준정규분포는 평균값=0, 표준편차=1이다. (+1)~(-1) 범위의 데이터(평균에서 표준편차 1배 이내의 범위에 있는 데이터)의 상대도수는 0.6826으로 약 70%. (+2)~(-2) 범위의 데이터(평균에서 표준편차 2배 이내의 범위에 있는 데이터)의 상대도수는 0.9544으로 약 95%.

 

08 강의. 통계적 추정의 출발점 : 정규분포를 이용해서 예언

 

표준정규분포의 95% 예언적중구간은 -1.96 이상 +1.96 이하다. 평균값이 m이고, 표준편차가 x인 정규분포의 95% 예언적중구간은 (m-1.96x) 이상 (m+1.96x)이다. 데이터 x의 평균값이 m이고, 표준편차가 n인 정규분포를 따를 경우, 95% 예언적중구간은 부등식 -1.96 <= x-m/n <= +1.96으로 풀어서 구한 범위다.

 

09 강의. 가설검정 : 하나의 데이터로 모집단을 추리

 

정규분포 하고 있는(또는 정규분포에 가까운) 모집단의 모수에서 그 모수가 어떤 수치인지를 추측하는 가설검정은 다음과 같이 계산하면 된다. 평균값을 m, 표준편차를 n으로 했을 때, 관측된 데이터 x에 대한 부등식은 -1.96 <= x-m/n <= +1.96

 

10 강의. 구간추정 : 95% 적중하는 신뢰구간 찾기

 

구간추정이란, 모집단의 모수를 가정했을 때 관측된 데이터의 ‘95% 예언적중구간에 현실적으로 관측된 데이터가 들어있을 모수만을 모으는 추정방법이다. 구간추정으로 정해진 모수의 범위는 ‘95% 신뢰구간이다. ‘95% 신뢰구간이란, 다양한 관측값에서 같은 방법으로 구간추정을 하면 그 중의 95%는 바른 모수를 포함하고 있는 구간을 말한다.

 

2부 관측 데이터 뒷면에 펼쳐져 있는 거대한 세계를 추측한다

 

11 강의. 모집단과 통계적 추정 : 부분으로 전체를 추론

 

무한모집단에는 각 데이터가 무한개씩 존재하며, 그것들이 관측되기 쉬운 정도는 제각각 다르다. 랜덤 샘플링 가정이라는 것은 충분한 횟수로 관측하여 히스토그램을 작성하면 모집단의 분포가 재현된다는 가정이다.

 

12 강의. 모분산과 모표준편차 : 모집단 데이터의 분포 상태를 나타내는 통계량

 

모집단의 데이터가 흩어져 있는 상태를 나타내는 통계량이 모표준편차다. 모분산 제곱 = {{편차의 제곱} X (상대 도수)}의 합계다.

 

13 강의. 표본평균1 : 여러 데이터의 평균값은 한 데이터의 평균값보다 모평균에 가깝다

 

여러 데이터를 관측해 그 평균을 구한 것을 표본평균이라고 부른다. 여러개의 데이터를 관측하여 표본평균을 구하면, 이것은 1개의 데이터보다 훨씬 모평균에 가까운 값이라는 것을 기대할 수 있다. 관측 데이터를 중가시키면 증가시킬수록 표본평균이 모평균에 가까울 가능성이 높아진다.

 

14 강의. 표본평균2 : 관측 데이터가 늘어날수록 예언 구간은 좁아진다

 

정규모집단의 모평균을 m, 모표준편차를 a라고 할 때, 여기에서 관측된 데이터 xn개에 대한 표본평균 x바의 분포는 역시 정규분포 한다. X바의 분포 평균값은 m 그대로지만, 표준편차는 a/root n이 되어, 모집단에 비해서 root n분의 1로 줄어든다. 모평균이 m이고, 모표준편차가 a인 정규분포에서 데이터 n개의 표본평균 엑스바에 대한 95% 예언적중구간은 (m-1.96a/root n) 이상 (m+1.96a/root n) 이하다.

 

15 강의. 표본평균을 이용한 모평균의 구간추정 : 모분산을 알고 있는 정규모집단의 모평균은?

 

정규모집단에서 모표준편차가 a(모분산이 a제곱)라는 사실을 알고 있을 경우, 모평균 mn개의 표본에서 추정하기 위해서는 표본평균 x바를 계산하여 -1.96 <= x-m/(a/root n) <= +1.96을 만족시키는 m을 남기면 된다. 이 때, m 95% 신뢰구간은 x-1.96*a/root n <= m <= x+1.96*a/root n이다.

 

16 강의. 카이제곱분포 : 표본분산을 구하는 방법과 카이제곱분포

 

관측 데이터로 계산한 분산을 표본분산이라고 한다. 표본분산 s제곱={(편차1제곱)+(편차2제곱)+(편차n제곱)}/n이다. 표준정규모집단에서 n개의 표본인 x1, x2, …xn을 제곱하고 모두 합하여 V=(x1제곱)+(x2제곱)+(xn제곱)과 같은 통계량 V를 구하면 V는 자유도 n인 카이제곱분포를 한다. 카이제곱분포를 하는 V 0 이상의 값밖에 나오지 않는다. 또한 0에 가까운 수치의 상대도수가 크고, 0에서 떨어진 수치의 상대도수는 급격하게 작아진다.

 

17 강의. 정규모집단의 모분산을 추정 : 모분산을 카이제곱분포로 추정

 

일반 정규모집단에서 카이제곱분포를 하는 V를 구하는 방법, 모평균 m, 모표준편차 a의 정규모집단에서 n개의 표본 x1, x2, …, xn를 관측하고, V=(x1-m/a)제곱+(x2-m/a)제곱+ … +(xn-m/a)제곱 이라는 형태로 V를 계산하면 통계량 V는 자유도 n인 카이제곱분포를 한다.

 

18 강의. 표본분산의 분포는 카이제곱분포 : 표본분산과 비례하는 통계량 W

 

새로운 통계량 W={(표본)-(표본평균)}의 제곱/모분산의 합이다. W는 자유도 n-1인 카이제곱분포를 따르는 통계량이 된다.

 

19 강의. 모평균이 미지인 정규모집단을 구간추정 : 모분산은 모평균을 몰라도 추정 가능

 

모평균이 미지인 정규모집단의 모분산을 추정하는 방법은 1단계, 관측된 n개의 데이터에서 우선 표본평균 x바를 계산한다. 다음으로 이것을 사용하여 편차를 만들고, 이것을 제곱하고 모두 더한 것을 n으로 나누어 표본분산 s제곱을 계산한다. 2단계, 표본분산 s제곱에 n을 곱하고 모분산 a제곱으로 나누어 통계량 W를 만든다. 자유도 n-1 95% 예언적중구간을 조사한다. W 3단계의 구간에 들어가는 a제곱을 남기고, 들어가지 않는 a제곱을 기각시킨다. 그리고 모분산  a제곱의 95% 신뢰구간을 구한다.

 

20 강의. t분포 : 모평균 이외의 것은 현실에서 관측된 표본으로 계산할 수 있는 통계량

 

모평균 m의 정규모집단에서 n개의 표본에 대한 표본평균을 x바로 하고, 표본표준편차를 s로 하면 이것으로 계산할 수 있다. T=(표본평균-모평균)/표본표준편차 X root자유도는는 자유도 n-1t분포를 따른다. t분포는 상대도수를 확실히 알고 있는 분포다. 대부분의 정규분포와 같은 모양을 하지만, 정규분포보다 약간 완만한 모양을 하며, 정상 부분이 약간 낮고 그만큼 완만한 곳이 높다.

 

21 강의. t분포로 구간추정 : 정규모집단에서 모분산을 모를 때의 모평균 추정

 

T=(표본평균-모평균)/표본표준편차 X root (n-1)은 자유도 n-1t분포를 따른다.

반응형