📌 서적의 1~3 장을 읽고 독후감 남기기! 다소 말이 많아요.
📌 인용은 책의 본문 내용이며, 💭 는 저의 생각이에요.
서적링크(교보문고): https://product.kyobobook.co.kr/detail/S000001389951
🙋 데벨챌 참여 동기
수리와 통계 관련해 부족함을 느끼기 때문이 가장 컸다. 물론 이 책이 분포나 통계 기법을 이론적으로 가르치는 책은 아니라는 건 알고 있었다. 데이터를 다루는 사람뿐만 아니라 모든 사람들이 자기도 모르게 빠지는 오류에 대해서 설명하고 있다는 점에서 지금 하고 있는 딱딱한 이론서들과 달리 읽는 즐거움을 주는 책이 될 것 같은 개인적인 탐닉이 있었다.
그리고 데이터리안에서 하는 것에 참여를 해보고 싶다는 생각 때문도 컸었다. 데이터리안을 알게 된 지는 조금 되었으나 이런 챌린지도 한다는 것은 몰랐다! (다음 달 5월부터 SQL 실전반도 꼭 들을 예정! 벚꽃 피는 4월은 취준생에게 매우 잔인한 달이다.) 그리고 프로덕트 성장과 관련한 3월 세미나를 굉장히 재밌게 들었기 때문도 있다.
개인적으로 챌린지는 각자 다른 위치에서 각기 다른 방향으로 성장하는데, 어쩌다 같은 길에서 만나 모두 함께 나아가는 여정을 갖는 게스트하우스같은 곳이라는 생각이다. 모두가 서로를 응원 중.
1장 언제나 의심스러운 여론조사
서론
통계학이라는 비밀스러운 술어는 증거를 중요시하는 문화를 가진 현세에서 사람들을 선동하거나 혼란에 빠뜨리게 하며, 사물을 과장하거나 극도로 단순화하기 위해 자주 이용된다. 사회나 경제의 동향, 기업의 경영상태, 여론조사, 국제조사 등 방대한 데이터를 기록하는데 통계적 방법과 통계적 용어는 결코 없어서는 안 될 용어들이다. 그러나 그 용어를 올바르게 이해하고 정직하게 이해할 수 있는 대중들이 함께 하지 않는다면 그 결과는 황당한 말장난에 불과할 것이다.
p.21
표본조사의 결과가 그 기본이 된 표본보다도 더 정확할 수는 없을 것이다. 그러나 자료를 통계적 조작에 의해 몇 번이고 걸러서 그 결과가 소수점이 붙은 평균값으로 바뀔 때쯤 되면, 그 결과가 본래의 데이터와는 전혀 다름에도 불구하고 이상스럽게 맹목적인 신뢰감마저 들기 시작한다.
p.22
“표본에 내재한 왜곡만으로도 … 하였다는 주장 전체를 설명하기에 충분하다” - Leonard Engel (의학평론가)
통계에 있어서 가장 중요한 것은, 표본을 근거로 어떤 결론을 내릴 때 그 표본이 모집단 전체를 대표하는 것이라야 한다는 사실이다. 즉 왜곡의 원인이 되는 모든 것을 제거하고 난 표본이라야 한다는 것이다.
p.23 ‘왜곡 가능성에 대한 의심’
또 한 가지 꼭 알아두어야 할 일은, 표본이 왜곡되는 원인이 뚜렷하게 눈에 보일 수도 있지만 때로는 분명하지 않을 수도 있다는 점이다. 즉, 왜곡의 원인이 무엇인지 명확히 밝힐 수 없는 경우에도 어디에선가 왜곡될 가능성이 있다면 얻어진 결과에 대해 어느 정도의 의심을 품어 보아야 한다는 것이다.
💭 1장을 아우르는 대표적 예시라고 생각하는 부분.
1948년 미국 대통령 선거결과의 예시 (데이터 과학을 위한 통계에서도 언급되는 사례로 Literary Digest의 예측 실패와 반대로 George Gallup의 거의 정확한 예측)
p.25 ‘임의추출법’
표본은 ‘모집단’으로부터 순전히 우연에 의해 추출되어야 한다.
💭 그러나 이 마저도 추출되는 상황적 맥락이나 수집하는 조사원에 의해서도 모집단을 온전히 대표할 수는 없게 된다. 첫째로 응답자를 고르는 시간대나 응답자가 응답을 하는 시간에 따라서 응답자의 성격이 다양한 집단을 대표할 수 있을 만큼 다양성을 띠고 있지 않게 되어버리는 것이다. 둘째로 조사원에 의해 (임의가 아닌) 임의적으로 선택’되는’ 문제도 있으며, 셋째로 선택된 응답자가 조사원의 성질에 따라 다른 답을 할 수도 있다는 오류도 존재한다. 어쩌면 조사하는 단체의 속성이나 이름, 혹은 조사원의 질문 어조에 따라서도 다른 답을 하거나 다른 답이 될 수도 있는 오류 또한 있을 수 있다.
임의추출인가 아닌가의 판정은 (중략) 모집단 안에 있는 개체들이 표본에 선택될 기회가 동일한가-라는 질문을 해보는 것이다.
p.26 ‘층별 임의추출법’
완벽하게 임의추출된 표본이어야만 통계적 이론에 의해 그 결론을 신뢰할 수 있지만, (중략) 완벽한 표본을 얻기가 매우 힘들 뿐만 아니라 비용이 너무 많이 들기 때문에 대부분 실현할 수 없다. 때문에 (중략) 경제적인 대안으로 ‘층별 임의추출법’이라는 표본을 사용한다.
모집단을 이전에 알고 있는 비율에 따라 몇 개의 그룹으로 나누는데, (중략) 그 비율에 관한 정보가 과연 신뢰할 정도로 옳은가의 문제이다.
💭 응답자가 추출되고 추출된 응답자가 특정 질문에 응답을 하게 되는 상황, 그리고 그 응답 내용까지 수준이 총 3개로 나뉘기까지의 과정에서 이미 모집단을 대표할 수 있는 일반성을 잃어버리게 된다.
2장 평균은 하나가 아니다
p.37
평균값이라 하더라도 그것이 어떤 종류의 평균값인지 즉 산술평균값인지, 중앙값인지, 아니면 최빈값인지 이 중 어느 것을 말하는지 정확하게 알기 전에는 그 어떤 평균도 아무런 의미가 없으니까.
💭 산술평균값과 중앙값은 차이가 클 수록 값의 분포가 왜도를 띄고 특히나 그럴 경우 비교하는 평균의 기준이 확실하지 않으면 비교의 의미가 사라져 버린다.
p.45
그러므로 만일 당신이 평균급여라는 이름의 수치를 보았다면 항상 이런 질문부터 해야 한다. “어떤 종류의 평균값이오? 그 평균값을 게산할 때, 누구까지 포함했나요?”
💭 평균임금을 구하는 부분은 정확히 이익금을 알거나 계산에 참여한 사람이 아닌 이상 알기 어렵지 않을까 싶었다.
p.46
(통계 자료에 오차범위까지 제시된 상황에서) 통계청 사람들은 상당히 정확한 표본을 추출할 수 있을 정도의 기술과 예산도 가지고 있으니 말이다. 이들이 특별히 누구 편을 들어 자신의 잇속을 차릴 까닭도 없지 않은가. 그러나 우리가 보고 듣는 모든 통계 숫자가 전부 이렇게 좋은 조건 속에서 얻어지는 것도 아니며 또 그 수치가 정확한지 또는 부정확한지 판단할 수 있는 근거 자료까지는 첨부되지도 않는 것이 대부분이다. 우리는 다음 장에서 이 문제에 대하여 좀 더 논의해 볼 것이다.
3장 작은 숫자를 생략하여 사기 치는 법
p.53
동전 던지기를 실제로 해 보는 결과는 반반이 될 수도 있겠지만 그렇지 않을 수도 있다. 50대 50의 결과와는 동떨어진 매우 엉뚱한 결과를 얻었을 확률이 많다. (중략) 시행 횟수가 충분히 커야만 (50대 50과 같은) 여러 현상을 제대로 설명하거나 쓸모 있는 예측을 할 수 있게 된다.
그렇다면 시행 횟수는 얼마나 커야 될까? 표본을 채택하게 되는 원래의 모집단이 얼마나 크고 또 얼마나 다양한가에 따라 그 답이 달라진다. 때로는 그 표본의 크기를 전혀 예상할 수 없는 경우도 있다.
p.56
그렇다면 확실치도 않은 결론에 속지 않는 방법은 무엇일까? 어떤 통계숫자가 우연에 의해 나온 것이 아니라 실제로 그 무엇 때문에 발생하였을 확률이 어느 정도인지를 보여 주는 간단한 방법(유의판정법)이다. (중략) 유의수준이란 어떤 사실이 참임에도 불구하고 거짓으로 잘못 판단할 확률을 말한다.
대부분의 경우 5% 정도이면 충분하다. 때로는 1%의 유의수준을 요구하는 경우도 있는데, 이는 드러난 통계값이 실제값과 같을 확률이 99%란 뜻이다. 이 경우에는 ‘거의 확실하다’고 표현하기도 한다.
💭 통계를 공부하다 보면 p-value를 공부할 수밖에 없게 된다. 바로 p-value가 유의수준(5% 혹은 1% 등) 보다 작은 경우 귀무가설을 기각하고 대립가설을 채택한다는 개념에서…
p.61
게젤의 준거(Gesell’s norms)의 문제이다. ‘정상적인 것’을 ‘바람직한 것(옳은 것, 좋은 것)’과 혼동하는 데에서 사태가 더 악화되는 경우가 있다. 게젤 박사는 단지 자신이 관찰한 것을 사실대로 말했을 뿐인데, 책이나 기사를 통해 이를 접한 부모들이 성장과정에서 하루나 한 달 정도 늦은 어린 아기들을 열등하다고 착각하였기 때문에 사태가 악화된 것이다.
p.63
‘철의 경도를 3배나 강하게 하는 새로운 담금질 액체, 웨스팅하우스사 제품’ 은 새로운 담금질제를 쓰면 어떤 종류의 철이건 간에 처리 전에 비해 경도가 3배나 높아진다는 뜻인가? 아니면 지금까지의 어떤 철보다도 3배나 경도가 높은 철을 만들 수 있다는 것인가? 그렇지 않으면 도대체 무엇을 3배로 한다는 뜻인가?
p.64
‘오늘날, 전기 이용이 가능한(available) 미국 농가는 전체 농가의 4분의 3 이상입니다.’
💭 그래서 이용을 가능하여 실제 사용하고 있는 농가가 4분의 3 이상이라는 것인지, 전기 이용을 가능하게끔 인프라가 준비되어있으니 사용에 참여할 수 있는 농가가 4분의 3이상이라는 것인지 헷갈릴 수밖에 없으며 읽는 사람 마음대로 생각하게 둘 수도 있다는 점에서 정말(!) 나쁜 문장이다.
💭 예민한 문제를 다루거나 어떤 과학적 사실을 연구를 하는 데 있어서 주장이나 설명에 포함한 단어들에 대해서도 신중하고 명백하게 이야기하는 것이 필요하다는 것을 느꼈다.
p.68 그래프에 속지 마라
(x축엔 월이 있지만 y축이 무엇을 의미하는지 제대로 명시되어있지 않은 그래프를 소개한다)
이와 같이 중요한 숫자가 빠져 있을 때는 평균이든지 또는 그래프이든지 아니면 어떤 경향이든지 간에 이를 믿어서는 안 된다. 이에 대한 믿음을 갖는 것은 마치 평균온도만 조사하고 나서 캠핑 장소를 결정하려는 사람처럼 눈 뜬 장님과도 같다.
💭 숫자는 단위 즉 무엇에 대한 숫자인지를 가리키는 것과 항상 함께 쓰여야 의미가 있다고 배운 적이 있다. 마찬가지로, 변화하는 것은 변화의 정도도 함께 있어야 의미가 있다. 기온이라는 것은 시간에 따라 변화가 가능한 것이기 때문에 변화하는 것에 대해서는 변화하는 정도 즉 일교차 정보가 함께 있어야 의미가 있다.
이하는 1장까지 읽고 생각이 가득해져 열심히 썼던 글인데, 의외로 3장까지도 아우르는 생각들도 있어서 3장을 쓰고 붙이게 되었다.
🙆 그래서 이걸 묻는 의도가 뭐고, 해석은 어떻게 하시나요?
2000년대 학생시절의 나는 용돈벌이를 하겠다고 멤브레인, 패널인사이트 등 국내여론조사에서 설문조사를 이메일로 응답한 기억이 있다. 그렇게 10여 년을 설문을 응답하면서 느낀 것들이 여러 가지가 있었다. 설문조사라는 분야를 따로 배우지 않았어도 꽤 괜찮은 설문지를 만들 수 있을 정도로 일정한 패턴이나 문항형식도 알 수 있었고 말이다.
- 대가를 위한 허위 응답:
- 응답자의 demographic 정보를 입력하라고 대대적으로 홍보하기 전에는 이메일을 받고 나서 응답하는 과정 초반의 응답에 따라서 조사자로 선택되거나 탈락되거나 했다.그렇다면 응답을 하여 댓가를 받기 위해 허위로 응답하는 응답자가 있을 텐데?
- 허위로 응답한 결과에 의해 표본의 인구통계정보도 조작될 것이고 각 문항의 결과도 조작될 텐데? 그렇다면 그런 사람들을 걸러내기 위한 문항들이 있는 설문에서는 그렇지 않은 설문보다 믿을만한 결과를 얻었을까?
- 이메일을 받은 응답자 자체: 응하는 사람들은 어떤 사람들인가?
- 나와 같이 어린 사람들인가?
- 인터넷과 친한 사람들일까?
- 시간이 많은 사람들인가?
- 작은 돈이라도 궁한 사람들인가?
- 질문의 의도: 이 질문을 하는 이유는 무엇일까?
- 단순히 점유율 같은 것을 보기 위해 다른 제품(서비스)과 비교하기 위한 질문인가, 아니면 긍정적 응답률이 높은 타제품(서비스)을 벤치마킹하기 위한 걸까?
- 이 사람들이 그런 제품(서비스)을 내놓은 이유는, 혹은 그런 광고를 한 이유는 브랜드의 이런 부분들을 어필하기 위했던 것이구나. (아직 내놓지 않은 제품(서비스, 광고)을 물어볼 경우) 이 사람들은 이것들로 어떤 부분들이 어필되길 원하는구나. 그 질문으로, 그들이 어떤 액션을 하기 위한 근거로 사용했는지 여부가 궁금한데 그럼 그 제품(서비스)을 찾아볼까?
- 질문 흐름 설계: 아까 그 질문이 이 질문으로 이어지는구나. 그렇다면 이 질문이 다음 질문으로 어떤 식으로 이어지겠구나. (한 파트가 끝나면) 그렇게 이어지는 이유는 예(아니요)로 응답한 응답자들의 응답을 보기 위한 것이구나.
- 그렇다면 이렇게 쪼개고 쪼개서 보는 과정에서 그들이 목표(타깃)로 하는 응답자는 어떤 사람들일까?
- 그 진짜 타겟층 응답자는 몇 퍼센트나 될까?
- 결과의 해석: 숫자나 점수 등 산술이 가능한 응답으로 답하는 경우 이것을 어떻게 사용할까?
- 점수는 0점부터 5점 만점으로 점수를 선택하는 것과 1점부터 5점 만점으로 점수를 택하는 것과 꽤 다르지 않을까?
- 응답한 사람들의 그룹별로 평균값을 내어 사용할까?
- 전체 응답자들의 응답 중 가장 많이 나온 것(최빈값)을 그들의 최종 점수로 할까?
설문조사는 어떤 설문에 참여하든 내용 자체보다는 이런 부분들이 재미있었다. 질문하는 사람들과 응답하는 사람들의 머릿속을 추측해 보는 것 말이다. 이러한 재미는 이 학생에게 다른 부분으로 영향을 주기 시작했는데, 바로 ‘의심’이다. 어쩌면, 좋아했던 검은콩 우유에 검은콩이 검은콩 추출물로 0.02% 들어가는 것을 보고 검은콩 우유를 더 이상 사 먹지 않은 한 초등학생 그의 ‘의심’에, 이런 설문조사의 재미가 물을 부어 잭의 콩나무 자라듯 자라난 것일지도 모른다.
한 장면의 단면만 보고서는 어떤 상황인지 정확히 알 수 없음을 꼬집는 이야기는 예시를 꼽는 게 옹색해 보일 정도로 많은 사례가 있다. 그러나, 미국 메릴랜드 대학교의 Ronald Yaros 교수(LinkedIn)는 말했다. "일반적인 사람은 하나의 글이나 정보에 26초 정도만 사용한다."
통계, 그 술어를 통해 어떤 숫자의 결과를 이용하는 마케팅은 엄청나다. 카테고리 판매율 1위라고 뱃지를 달아놓고, 이는 사실 24시간도 아닌 어느 날 11시 51분 당시 잠깐이었다던가, 판매량 초당 수십 개가 팔린다고 하나 판매량/n의 n이 방금 전 예시처럼 잠깐 사이인 경우도 있다. 또 어느 기준에서 1위여서 잘 팔리는 것이라고 홍보하는 건지 혼란을 주는 경우도 있다. 이 경우들에는 통계에 관한 짤막한 설명을 아주 작은 글씨로 적어두는데, 심지어 정확히 무엇에 대해 1위 인지도 안 적은 제품들도 있으며, 자사몰 기준 가장 잘 나가는 제품이라는 이유로 1위를 붙여놓기도 했는데… 🤦 들여다보는 고객은 오히려 실망하여 쪼잔한 브랜드라는 이미지를 얻을 수도 있음에도 사용하는 이유는 그만큼 많은 사람들이 세부사항에 관심이 없기 때문이라는 것이다. 바쁘고 집중이 어려운 현대인은 읽지말라고 적어둔 작은 글씨는 당연하며, 읽으라고 적어둔 글씨마저 흘려읽기 마련이다.
🤷 무책임한 ‘통계’ 오남용
언론이나 캠페인(광고를 포함한)에서는 이목을 끌기위해 다소 자극적으로 다양한 통계 자료를 사용하는데 그 통계 자료의 작은 글씨에 주목했다. 지상파 메인 뉴스 프로그램에서 방송되는 그래프의 통계자료 응답자가 겨우 1천 명이라던지, 응답률이 5%라던지 하는 부분들 말이다. TV 바로 앞에 서서 눈을 게슴츠레 떠서 보아도 픽셀이 깨져 글씨가 뭉개질 정도로 작고 흐릿한 그 글씨들은 말하고 있었다. 이 응답자들은 무작위로 돌리는 전화로 응답자가 추출되었으며 그 응답자들의 응답률은 5%에 불과하며, 인구 5천만 중 1천 명(0.002%)이 과연 성실하게 응답을 끝까지 마무리했을지는 자기도 모른다고 말이다.
응답한 사람이 적을수록 편향될 가능성은 커지는데, 심각한 경우 수 백명도 채 되지 않는 사람들에게 응답을 받고서 자료라고 방송하는 경우들도 있었으니… 그렇게 끝까지 응답한 사람들이 어떤 사람들인지도 우리는 상세히 알 길이 없다. 거짓 응답을 하면 그만이니까!
응답한 사람들의 성별이나 나이대, 지역과 소득 수준처럼 '계층'이 충분히 인구통계학적으로 근거를 가진 비율에 의해 추출되었는가 조차 확실하지 않다.(이러한 부분을 부모님께 말씀드리자 ‘정말?’하고 놀라시던 모습을 보았다. 작은 글씨까지 신경 쓰기엔 바쁜 어른들에게 잘못된 -혹은 맥락상 잘못 사용한- 정보를 "진실" 마냥 알리는 방송들을 본 나는 일찍이 언론에 대한 불신을 갖게 되었던 것 같다.)
인류에 대한 애정과 믿음을 끌어올려(~!) 그들 모두가 양심상 성실히 임하였다고 가정해 보자.
그러나 객관적으로 수치화할 수 없는 선택지가 문제로 떠오른다. 이런 선택지는 정말 많다.
‘매우 그런’것과 ‘조금 그런’것, 그리고 그 중간의 ‘그렇다’는 어떻게 얼마나 다른가? 누군가에게는 100 중 100이어야 ‘매우’ 그런 것이지만 누군가에게는 100중 80만 넘어도 ‘매우’ 그런 것 일 수 있다. 마찬가지로 수치화되어있지만 객관적으로 같지는 않은 선택지도 문제이다. 열 단계로 정도를 나눈 응답 선택지 중, 누군가는 꽤 심하지만 8로 찍을 수도 있고 누군가는 심하지는 않으니 8로 선택할 수도 있다. 또, 문항에 따라서 ‘새우잠이 일상인 사람’과 ‘고개와 어깨 정도만 돌아 누워 자는 사람’은 둘 다 ‘똑같이’ 옆으로 자는 사람이 되어버리기도 한다.
사람마다 어휘에서 상상되는 이미지와 해당 어감의 세기는 다르며, 상세한 가이드 없이는 큰 차이가 있는 것조차도 일반화되어 중요한 디테일이 사라질 수 있다. (그래서 이 세상은 어학과 철학 같은 인문학을 배운 사람들의 견해가 꼭 필요하다고 생각하는 부분이기도 하다!)
- 한 데이터 포인트가 무결하다,
- 표본이 모집단을 대표할 수 있도록 잘 추출되었다,
- 집계를 산출(pivot)한 방식이 통계를 통해 알려고 하는(혹은 주장하려 하는) 것과 부합한다(결과가 주장하는 것을 옳게 뒷받침한다) 등
이런 것들을 무의식중에도 검토하는데 필요한 '데이터 리터러시'는, 통계가 사용된 이래로 우리 모두에게 요구되어 온 능력이었다. 그저 우리만 몰랐던 것일지도 모른다. 사용하는 사람과 이용되는 사람이 다른 상황, 마치 환경을 변화(라고 쓰고 보통은 오염이라고 부른다😢)시키는 인간과 그 변화한 환경이 자연스러운 것인 줄로만 알고 때아닌 이상기온에 깨어난 개구리가 동사하는 상황 처럼 보이기도 한다. 총선 때문에 다들 ‘%’가 붙는 숫자들에 관심이 많은 시기에 딱 맞는 책을 읽은 것 같아 묘한 기분이 들었다.
흐름에 따라 이 이야기를 안 쓸 수 없게 되었다! (저는 절대로 특정 정당이나 이념을 지지하는 글을 쓴게 아닙니다)
여담으로 통계를 공부하는 사람으로서를 넘어 일반 소시민으로서 슬픔을 느끼는 부분이 있다. 존경했던 교수님이 강의하시는 언론학부 수업을 들었었는데, (나의 성적은 그저 그랬지만🙈 다시 들을 수 있다면 제일 다시 듣고 싶은 강의이기도 하다.) 그 강의를 통해 통렬히 깨달은 게 있다.
뉴스에서 여러 사건 사고를 보여주는 것은 사람들에게 안도감을 느끼게 하여 자신의 삶은 꽤 괜찮은 삶이라고 만족하며 살아가도록 한다는 것이다. 뉴스에서는 정말 일어나서는 안 되는 사건들이 줄 지어 소개된다. 그리고 우리는 그런 뉴스들을 보며 스크린에 등장하는 사람들을 안타까워한다. 그리고 동시에, 오늘 저녁을 감사히 먹었고 인터뷰에서 울먹이고 있는 저 사람들처럼 화재가 나거나 가족을 잃거나 신체를 다치는 일은 없었기에 안도감을 느낀다.
그 일들은 사실 애초에, 뉴스에 줄 지어 소개될 만큼 일어날 확률이 그렇게 높지는 않고 ‘예외’적일 가능성이 높다. 새로운 정보나 알려야 하는 사실을 알리는 뉴스들도 있지만, 우리에게 ‘그런’ 기분을 지속적으로, 365일 매일같이 느끼게 해서 ‘누가’, ‘어떤 이득’을 얻는지 생각해 보는 게 그저 음모론자들의 망상이 아니라는 것 말이다. 그런 기분을 느끼게 하기 위해 맥락없는 통계 자료들까지 끌어모아 곳곳에 이용이 되고 있는 것을 보면 안타깝다. 왜곡과 거짓 선동에 대해서만 중죄를 묻는 홍길동이 필요한 세상이 아닌가 생각도 한다. 동에 번쩍 서에 번쩍광속으로 다녀도 너무나 바빠서 투표할 틈조차 없으실지도...
'Books > groups' 카테고리의 다른 글
[데벨챌3기] <새빨간 거짓말, 통계> part3 (0) | 2024.04.19 |
---|