통계이야기

남 경 현 경기대 응용정보통계학과 교수
기자페이지

우리가 판단의 기준으로 사용하는 것이 숫자와 깊이 연관되어 있다고 생각하는 이는 그리 많지 않을 것이다. 예를 들어, 길이가 비슷한 두 자루의 연필 중 더 긴 것을 고를때 하나를 선택하기는 쉽지 않지만 왼쪽의 것은 17.5㎝이고 오른쪽에 있는 것은 17.7㎝라고 말하면 누구나 주저하지 않고 오른쪽의 것을 선택할 것이다. 이 두 상황을 비교해 보면, 하나는 막연하게 길이를 비교한 것이고 다른 하나는 길이를 구체적인 수로 표현한 것이라는 점이 다르다. ‘두 송이의 꽃 중에서 더 아름다운 것을 고르라’고 할 때, 자신의 기준으로 더 아름답다고 생각하는 한 송이를 고르게 된다. 이런 경우 일반화되지 않은 것 뿐이지 주관적이나마 그 아름다움의 정도를 비교하지 않은 것은 아니다. 이처럼 이 세상의 모든 현상들은, 심지어 인간의 감성까지도 수치로 표현이 가능하다.

이것이 가능하도록 해 주는 것은 수학의 함수인데 함수를 간단히 설명하면 원료를 넣어서 어떤 제품을 생산하는 기계라고 생각하면 된다.

이 함수라는 기계는 투입하는 원료의 종류와 관계없이 항상 숫자라는 제품을 생산한다. 예를 들어, 우리가 어떤 연필의 길이를 알고자 할 때, 연필이라는 물건의 길이를 측정하는 행위는 함수라는 기계에 연필이라는 원료를 투입하는 것이고, 길이가 10.5(cm)라는 측정값을 구하는 것은 입력된 원료의 길이를 측정하는 기능을 가지고 있는 함수라는 기계가 10.5(cm)라는 제품을 생산한 것이다.

즉 함수는 판단의 대상이 되는 모든 개체들을 숫자로 표현할 수 있고, 어떤 현상을 이렇게 수치로 나타내면 구체적일 뿐 아니라, 누구나 쉽게 이해하고 비교할 수 있는 장점이 있다.

우리가 어떤 문제에 대한 판단을 내리는 과정에서, 판단의 기준을 정함에 있어서도, 객관적이든 또는 주관적이든, 이러한 수치화의 과정을 밟게 됨을 확인할 수 있다.

통계에서는 세상의 모든 현상들을 ‘한 개체의 현상’으로 보지 않고, 여러 개체들로 이뤄진 집단에 의해 나타나는 집단현상으로 간주하는데 ‘기성세대’, ‘신세대’, ‘부유층’ 등이 바로 이러한 집단이다. 통계용어로는 ‘모집단’이라 한다.

집단현상을 바르게 파악하기 위해서는, 무엇보다 먼저 대상이 되는 모집단의 생김새인 ‘분포’를 바르게 알아야 한다. 모집단의 분포를 알려면 하나의 숫자로는 모집단의 생김새를 제대로 설명할 수 없다. 예를 들어, 수원에 소재한 ‘△△고등학교’ 3학년 학생의 평균 성적이 75점이라면, 이 숫자가 무엇을 표현하고 있는지를 생각해 보자.

75점이라는 숫자만으로는 어떤 교육학적인 대책을 강구할 수 없다. 왜냐하면, 모집단 속에 성적이 75점보다 우수하거나 열등한 학생들이 많지만 그 숫자만으로는 우수하거나 열등한 학생이 얼마나 되는지 알 수 없기 때문이다.

때문에 각 개체들이 대표값을 중심으로 얼마나 퍼져있는가를 나타내는 산포도와, 대표값을 기준으로 볼 때 어느 쪽으로 치우쳐져 있는가를 나타내는 왜도 등의 값을 이용해 설명한다.

통계는 생산자의 의도에 의해 오염될 수 있다. 이러한 것을 ‘악용’이라고 한다. 또한, 통계는 그 의미를 바르게 알지 못하는 사람에 의해 왜곡되거나 잘못 이해될 수 있다. 이것을 ‘오용’이라고 한다. 또한, 통계가 마치 만병통치약이나 되는 듯이 아무 곳에나 인용을 하면 되는 줄 아는 사람이 많다. 이것을 ‘남용’이라고 한다.

이러한 통계의 악용이나 오·남용에 의해 통계에 대한 신뢰가 떨어질 뿐만 아니라, 통계를 이용하는 사람들의 입장에서는 예상치 못한 커다란 피해를 입는 경우도 있다. 그래서 통계 속에 들어 있는 의미를 바르게 파악할 수 있어야 한다. 그러기 위해서는 무엇보다 먼저, ‘통계’라는 숫자를 접할 때에는 반드시 모집단을 염두에 두어야 하고, 그 수치는 집단현상을 표현하는 값이라는 것을 잊어서는 안될 것이다.

© 경기일보(www.kyeonggi.com), 무단전재 및 수집, 재배포금지
댓글 댓글 운영규정