통계

[4월 데벨챌] 새빨간 거짓말, 통계 1주차

효쨩 2024. 4. 7. 16:58

 

데이터넥스트레벨 챌린지의 첫번째 시작은 바로!!!

대럴허프의 『새빨간 거짓말, 통계』

https://product.kyobobook.co.kr/detail/S000000879245

 

새빨간 거짓말, 통계 | 대럴 허프 - 교보문고

새빨간 거짓말, 통계 | 빌 게이츠, 두 번씩이나 강력 추천한 책!! 이 책은 1950년 이후 지금까지 출간된 최고의 책 중 하나다. 최고의 통찰이 유머러스하게 녹아 있는 책이다. _ 빌 게이츠 TED 강연

product.kyobobook.co.kr

 

그래도 통계공부를 한다고 학교 다닐 때부터 이런저런 통계, 빅데이터 관련 책을 많이 읽어왔었는데

이번 책은 처음 보는 책이어서 읽어보기 전부터 굉장히 궁금하구 두근두근했다 ! (책제목부터가 심상치 않아,,,🙃)

그럼 이제 간단하게 책에 대한 내용을 회고해봅시닷 - !!


 

📕 인상 깊었던 구절

아마도 이 기자는 이 기사의 뜻이 무엇인지를 알아볼 생각도 하지 않고 그저 회사의 보도자료를 무비판적으로
그대로 옮겨 쓴 것 같다. 어쩌면 이 친구는 독자들이란 그저 자기가 쓴 기사를 무비판적으로 읽는 사람이고,
그것으로 인해 무엇인가를 알게 되었다고 생각하는 멍청한 꿈이나 꾸는 사람들이라고 생각했던 모양이다.

 

이 부분을 읽고 나서 느낀 것은 기자의 무능력함이라기보단, 독자로서의 나 자신에 대한 고찰이었다.

항상 기사 내지는 인터넷에서 자료를 탐색할 때, 기재되어 있는 내용을 있는 그대로 받아들여왔던 것 같다.

하지만, Part 3 부분을 읽으면서 느꼈던 것은 통계적인 수치라고 해서 결코 숫자가 나타내는 것을 온전히 받아들이면 안되며,

제공자의 의도나 목적에 따라 편향되게 표현된 것이 아닌지를 끊임없이 의심해보아야 한다는 것이었다.

과연 책 제목 그대로 통계, 새빨간 거짓말이엇다 ...! 😯

 

 


 

 

📕 Part 1 - 언제나 의심스러운 여론조사

Part 1에서는 다양한 사례를 들어가면서 (예일대학 졸업생의 평균 소득, 미국 대통령 선거 결과 등)

통계적 수치의 왜곡된 이면을 보여주며 통계에서 그 중요성을 다루고 있다.

 

1️⃣ 표본의 대표성

표본 추출의 문제는 어느 분야의 통계든 가장 중요한 핵심이다.

그렇기 때문에 〈통계에 있어서 가장 중요한 것〉표본을 근거로 어떤 결론을 내랄 때

그 표본이 모집단 전체를 대표하는 것이라야 한다는 것이다.

 

2️⃣ 표본의 임의추출성

또한, 표본은 '임의추출'된 것이라야 한다.

즉 표본은 모집단으로부터 순전히 우연에 의해 추출되어야 한다.

이때, 임의추출인가 아닌가에 판정은 모집단 안에 있는 개체들이 표본에 선택될 기회가 동일한가

라는 질문을 해보는 것이다.

 

*모집단: 표본이 추출되는 전체

*표본: 모집단의 일부분

 

3️⃣ 층별 임의추출법

완벽하게 임의추출된 표본을 얻기 어려운 경우와 같이,

여론조사나 시장조사 등에서는 경제적인 대안으로 층별 임의추출법이라 불리는 표본을 사용한다.

층별 표본을 얻기 위해선 (이전에 알고 있는 비율)에 따라 몇 개의 그룹으로 나누어야 하는데,

비율에 관한 정보가 신뢰할 정도로 옳은가의 문제가 발생할 수 있다

 

*층별임의추출법(층화임의추출법): 모집단을 몇 개의 이질적인 층(stratum)으로 구분하여

각 층별로 임의추출법을 적용하는 방법

 


 

📕 Part 2 - 평균은 하나가 아니다

  • 산술평균값: 산술 평균은 주어진 수의 합을 수의 개수로 나눈 값으로, 자료값(전체변량)의 총합을 자료(변량)의 총개수로 나눈 값
  • 중앙값: 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값
  • 최빈값: 어떤 데이터 집합에서 가장 자주 나타나는 값으로, 가장 빈도가 높은 값

 

'마을 주민의 평균 키'를 나타낼 때는 평균값으로 산술평균을 사용해도 무방하다 (편차가 적기 때문에!)

그러나 '마을주민의 평균 연봉'을 나타낼 때 평균값으로 산술평균값을 사용하게 된다면 어디에도 비현실적인 숫자를 보게 될 것이다. (연봉은 편차가 매우 크기 때문에 분포도로 표현했을 때 그 모양이 매우 치우쳐지게 될 것)

 

 

 알아두면 쓸데있는 정규분포

 

무작위 표본추출을 통해 도출한 '확률 밀도 곡선'에 '극한을 적용해' 만든 것을 형태로 정립한 것으로,

그래프를 함수식으로 풀어쓰면 아래와 같다. (자세한 내용은 차후 블로그글에서 다뤄봅시다!)

* μ:   평균,  σ2 :분산

 

 


 

📕 Part 3 - 작은 숫자를 생략하여 사기치는 법

1️⃣ 표본의 크기에 따라 달라지는 값

시행 횟수가 충분히 커야만 여러 현상을 제대로 설명하거나 쓸모있는 예측을 할 수 있게 된다.

그렇다면 시행횟수는 얼마나 커야 할까?

→ 표본을 채택하게 되는 원래의 모집단이 얼마나 크고 얼마나 다양한가에 따라 답이 달라진다.

 

2️⃣ 속지 않는 방법 (유의수준)

  • 유의수준: 어떤 사실이 참임에도 불구하고, 거짓으로 잘못 판단할 확률

ex. 통계청의 발표에서 그 통계값이 정확하다고 할 수 있는 확률이 95%라는 보고 ▶ 유의수준 5%

자료의 분포 범위나 평균값으로부터의 편차를 알려주는 숫자

 

 


 

🏸 업무에 적용할 수 있는 POINT

데이터를 수집하는 단계에서 책에서 언급한 내용을 많이 적용해볼 수 있을 것 같다!

로그데이터나 구매 데이터처럼 쌓이고 수집되는 데이터가 아닌, 정성적인 평가가 필요한 데이터에서는 여론조사, 설문조사와 같은

방법이 필요할 수 밖에 없다. 이때, 설문자가 누구인지 설문대상의 범위가 어디까지인지, 모집단에서 비율을 어떻게 설정할지 등을

따져본다면 어쩌면 유의미한 결론을 가져올 수 있는 통계를 도출할 수도 있지 않을까?