통계란 무엇인가?

2023. 11. 30. 16:19통계학

Statistics is the branch of mathematics for obtaining and analyzing data.

통계란 데이터를 분석하고 획득하는 수학의 한 분야이다. 

 

- 통계는 왜 필요한가? (What do we need statistics?)

일단 2가지 개념을 알아둘 필요가 있다.

 

(1) 모집단(Population): 어떤 정보를 얻고자 하는 전체 대상 또는 전체 집합을 뜻한다. (Population is the total set of subjects of interets in a study.) 

(2) 표본(Sample): 모집단에서 추출된 모집단의 부분집합. (Sample is the subset of population on which the study collects of data.)

 

모집단의 특성을 파악하기 위해 모집단 전체를 조사할 수는 없다. 시간이 오래 걸리고 비용이 많이 들기 때문이다.

 

이때문에 모집단에서 표본을 무작위(Randomized)로 추출하여 표본의 특성으로 모집단의 특성을 추정해야 한다 (아래그림참조). 

 

모집단과 표본

 

 

 

 

대표적인 예가 정치인 지지율 여론조사이다. 여론조사를 할때 한국의 5천만 인구를 모두 조사하지 않는다. 시간과 비용이 많이 들기 때문이다. 

 

이때문에 각지역에서 무작위로 표본을 뽑는데 보통 1000명 정도의 표본을 뽑아서 여론조사에 활용한다.  

 

어느정도 오차가 생기지만 여론조사가 대체적으로 정확하다는 것을 알수 있다. 

 

이때문에 통계가 필요한 것이다. 통계를 응용하는 분야는 아주 많다. 

 

 

 

 

- 데이터(Data)

통계는 데이터를 분석하는 기술이다. 그럼 데이터는 무엇인가?

 

The data is a collection of observed information. 

 데이터란 관찰된 정보의 모음이다. 

 

데이터는 '독립변수'와 '종속변수'라는 2개의 변수들로 구성되어 있다.

 

(1) 독립변수(Independent variable): 독립변수는 종속변수의 원인이기에 종속변수를 설명하는데 사용된다. 다른변수에 영향을 받지 않기에 독립적이라고 해서 독립변수라 부른다.

(2) 종속변수(Dependent variable): 종속변수는 연구자가 설명하고자 하는 변수이며 독립변수의 영향을 받는다. 이때문에 종속변수라 불린다. 

 

 

빈곤율(Poverty rate)과 범죄율(Crime rate) 두개의 변수가 있다.

 

둘 중 어떤 변수가 독립변수이고 어떤 변수가 종속변수인가?

 

 

빈곤율이 독립변수이고 범죄율이 종속변수이다. 

 

그이유는 범죄율이 빈곤율의 영향을 받기 때문이다. 빈곤율이 높은 지역이 대체적으로 범죄율도 높다. 빈곤하여 돈과 음식이 부족하면 물건을 훔치는 등 범죄를 저지를 가능성이 높아지기 때문이다. 

 

이 경우 빈곤율이 높아질수록 범죄율도 높아지는 것이다. 이때문에 독립변수(빈곤율)와 종속변수(범죄율) 사이에 양의관계가 있다고 해석할 수 있다.  

 

 

 

 

 

 

- 통계의 종류

통계는 기술통계(Descriptive statistics)와 추론통계(Inferential statistics) 등 2가지가 있다.

 

(1) 기술통계(Descriptive statistics): 기술통계는 데이터에 관한 정보를 요약한다. 

(2) 추론통계(Inferential statistics): 추론통계는 표본에 대한 분석과 관찰을 기반으로 모집단의 특성을 추론하고 예측한다.  

 

보통 우리가 논문을 쓸때 기술통계와 추론통계를 모두 사용한다. 기술통계는 수집한 데이터(표본)에서 내가 분석하고자 하는 집단에 관한 특성과 정보를 표에 요약해서 보여준다. 그리고 회귀분석(regression) 등 다변량 통계분석을 통해 표본을 분석한뒤 모집단의 특성을 추정하고 예측해서 연구결과물을 해석하는 것은 추론통계에 속한다.  

원저논문(Original article)은 고유한 연구를 다룬 논문으로서 기술통계와 추론통계를 모두 사용해야 한다. 반면에 속보(Short Communication)나 기술적 보고서(technical report)는 기술통계만 사용하여 분석한 결과를 제출해도 상관없다.