노년도 할수있다/한자와 함께하는 데이터과학

표본오차 (標本誤差)와 신뢰구간 (信賴區間)

forSilver 2026. 1. 29. 13:08
반응형

 

1. 표본오차 (標本誤差)

우리가 전수조사를 하지 않는 이상, '모수'와 '통계량' 사이에는 차이가 생길 수밖에 없습니다.

  • 표본(標本): 본보기(표)가 되는 근본(본). 즉, 전체에서 뽑아낸 일부.
  • 오차(誤差): 어긋날(오) 차이(차). 계산이나 측정에서 실제 값과 차이가 나는 것.

의미: 전체(모집단)가 아닌 일부(표본)만 조사했기 때문에 발생하는 숙명적인 차이입니다.
예를 들어, 전 국민의 실제 평균 키가 (모수)인데, 내가 뽑은 100명의 평균이 (통계량)라면 그 차이인 가 바로 표본오차입니다.


2. 신뢰구간 (信賴區間)

표본오차 때문에 우리는 "모수는 딱 얼마다!"라고 단정 지을 수 없습니다. 대신 "아마 이 범위 안에 있을 거야"라고 말하게 되는데, 이것이 신뢰구간입니다.

  • 신뢰(信賴): 믿을(신) 의지할(뢰). 믿고 의지함.
  • 구간(區間): 구분할(구) 사이(간). 지점과 지점 사이의 범위.

의미: "모수가 존재할 것으로 믿을 수 있는 범위"를 뜻합니다.
보통 뉴스에서 "95% 신뢰수준에서 표본오차 "라는 말을 보셨을 겁니다. 이는 "우리가 이 조사를 100번 반복한다면, 그중 95번은 우리가 제시한 범위 안에 실제 모수가 들어있을 것이라고 믿어도 좋다"는 뜻입니다.


3. 시험 포인트: 신뢰구간의 길이

빅데이터분석기사 시험에서는 신뢰구간의 '길이(폭)'가 언제 넓어지고 좁아지는지를 묻는 문제가 자주 나옵니다.

  1. 표본의 크기()가 커질수록: 더 많은 정보를 얻었으므로 불확실성이 줄어듭니다. 따라서 신뢰구간은 좁아집니다. (더 정확해짐)
  2. 신뢰수준(95% 99%)이 높아질수록: 모수를 놓치지 않으려다 보니 범위를 더 넓게 잡아야 합니다. 따라서 신뢰구간은 넓어집니다.
  3. 데이터의 흩어짐(표준편차)이 클수록: 데이터가 들쑥날쑥하면 예측이 어려워지므로 신뢰구간은 넓어집니다.

4. 한 문장 정리

"표본오차(誤差) 때문에 발생하는 불확실성을 고려하여, 모수가 있을 법한 범위를 신뢰(信賴)할 수 있는 구간(區間)으로 제시하는 것이 추론통계의 핵심입니다."