📌 인용은 책의 본문 내용이며, 💭 는 저의 생각이에요.
📌 마지막 파트인 9, 10 파트 읽기!
서적링크(교보문고): https://product.kyobobook.co.kr/detail/S000001389951
9장 통계를 조작하는 법
이번 장에서는 통계, 숫자를 어떻게 교묘하게 이용하는지 여러 사례를 통해 알아보고 있다.
p.142
내 생각에는 통계자료의 왜곡과 조작이 언제나 전문 통계학자들의 손으로 이루어지는 것은 아니라고 생각한다. 통계학자의 책상 위에서 도출되는 순진한 숫자들이 영업 사원이나 광고 전문가, 언론의 기자들 또는 카피라이터들에 의해서 왜곡되고, 과장되고, 극단적으로 생략되며 임의로 선택되기 때문이다.
(중략) 그러나 누가 잘못을 저질렀건 간에, 무지가 그 면죄부 구실을 할 수는 없을 것이다. 신문이나 잡지에 자주 실리는 잘못된 도표는 사물을 과장되게 표현하여 센세이션을 일으킨 경우는 많아도 이를 축소하는 경우는 거의 보기 드물다. (중략) 통계의 잘못이 항상 어느 한 편에 치우쳐 나타난다면 그 원인을 사소한 실수나 사고의 탓으로만 돌릴 수는 없을 것이다.
💭 물론 '언제나'는 아니라고 말했듯, 통계학자가 결과를 해석하는 데에 있어서 어떤 의도를 가지고 있거나, 그가 살아왔던 방식/관념에 따라 왜곡될 수도, 과장될 수도 있으며 이것은 통계학자가 의식하고 있지 않은 상태에서도 일어날 수 있을 것이다.
p.144 색칠한 지도
(미국의 색이 칠해진 주는 정부 지출액이 이들 주의 총 소득과 맞먹는다는 의미) 이 지도에서 정부의 지출액을 표시하는 지역으로는 면적은 넓지만 인구밀도가 적기 때문에 상대적으로는 총소득이 낮은 주를 골랐다는 점에 있다. (중략) 색칠한 지도가 사람들을 오판시키는 것으로 악명이 높은 이유는 그것이 선전에 써먹는 속임수로는 새로운 수법이 아니라는 데 있다.
p. 148 적절하지 않은 평균값 규정
(두 조사에 따라 3,100 달러와 5,004 달러로 연간 평균 소득이 다르게 나타난 예시를 들며) 이 괴상한 통계 조작에는 두 가지 사실이 과장되어 있다.
- 평균값보다 작지만, 더 많은 정보를 얻을 수 있는 중앙값을 사용하지 아니함
- 한 가정의 소득이 가족 수에 비례한다고 가정함(4인 가구의 소득을, 미국인 개개인의 소득 총합계를 미국인구로 나누어 구한 1인당 소득X4 로 산정함)
💭 색칠한 지도는 정보를 생략하고 생략함에 따라 감춰지게 되는 경향을 갖고 있는 것으로 보인다. 표준편차가 함께 표기되지 않은 '산술평균'을 사용할 때 처럼 말이다. 특히 한 가정의 소득을 1인당 소득으로 구하는 예시는 어린 아이가 보아도 어이가 없을 방식이기도 하다. 하지만 통계자료와 함께 이렇게 구했다는 설명이 첨부되지 않는 한 문제점을 알기 어렵다는 것이 안타깝다.
p.152 백분율로 속이기
소수를 사용하면 정확하다는 인상을 주는 것처럼 백분율도 정확함이라는 향기를 뿌려 부정확함이라는 악취를 감춘다.
p.154 기준이 무엇인가
(임금은 5% 인상되었지만 이는 작년 겨울에 실시된 20% 임금 인하분의 1/4에 불과하다-는 인디애나폴리스 발 AP통신 기사) 이 인하율은 임금이 인하되기 전의 임금, 즉 노동자가 처음에 받고 있었던 임금을 토대로 계산된 데 비해서 인상률은 더 낮은 임금 즉 인하된 임금을 토대로 해서 계산된 것이었다.
💭 특히나 증감과 관련하여 백분율을 사용하는 경우 어느 것(어느 시점)을 기준으로 계산한 것인지 명시되어있지 않다면 의심해 보아야 한다. 임금의 경우 원래 임금이 1달러인 경우 20%인하하면 80센트인데, 80센트의 5%면 4센트이니 이는 인하된 임금 20센트의 1/4가 아니고 1/5이다- 고 계산한 부분은 자세히 보지 않으면 속기 쉬운 것이었다.
p.156
(그럴듯해 보이는 속임수 중에는 덧셈이 불가능한 것을 그냥 더해버리는 오류에서 비롯된 것들이 있다.) 미국자동차노동조합이 자신들의 월간지인 <앰뮤니션>지에서 파업이 일어날 때마다 상공회의소는 파업 때문에 하루에 수백만 달러의 손실을 가져온다고 선전해댄다. 그들은 노동자가 파업에 참가하지 않고 정상 근무를 하여 제작하는 자동차의 총 대수를 토대로 이를 계산한 것이다. 게다가 자동차 부품 공급자가 입은 손실을 더할 뿐만 아니라 자동차가 없기 때문에 지출해야하는 교통 요금과 영업상들이 입은 손실 등등 생각할 수 있는 모든 것을 덧붙여 계산한다.
💭 이는 바로 뒤에 이어지는 '백분율 더하기'라는 곳과 이어진다. 각각 세부적으로 따져보아야 한다는 점이다. 생각해보자.
1-1. "노동자가 파업에 참가하지 않고 정상 근무를 하여 제작하는 자동차의 총 대수를 토대로"로 구한다면 애저녁에 '이 회사는 당일 제작한 자동차를 당일 다 팔 수 있다'라는 가정이 필요하다.
1-2. 만약 다 팔 수 없다면 손실을 계산하는 총액에서 '당일 다 팔지 못한 자동차의 재고 창고비용'을 빼야할 것이다.
1-3. 그리고 자동차가 어떤 자동차들을 이야기하는 것인지도 분명해야 한다. 일반적인 사람들이 타는 세단이나 SUV를 포함하는지, 업무용 트럭 등(다량으로 판매계약이 이루어질 수 있는 기능적 차량)인지도 말이다. 모든 차종을 차처하고 스포츠카라면 주문이 들어와야 제작하는 경우가 많기 때문에 이 계산에는 합당하게 들어갈 수 있다고 생각한다.
2. 또한 부품 공급업자가 입은 손실이라 하면 이들이 팔지 못해서 생기는 저장 창고 비용 정도는 더할 수 있을 것이나, 마찬가지로 자동차 부품을 매일같이 생산해내는 것이 아니라면 파업이 몇 달 이상 장기화 되지 않는 한 입은 손실이라고 하기에는 어려울 것이다.
3-1. 그리고 자동차가 없기 때문에 지출해야하는 교통 요금에는 '자동차가 없어도 사는 사람들(애초에 살 의향이 없는 사람들)'의 교통 요금도 함께 들어가 있는지 확인해보아야 하며,
3-2. 이 교통 요금은 자동차를 구매하기로 예약하는 월간 평균 구매자들의 수와 그들이 구매계약을 한 뒤 자동차의 출고시점까지 평균적으로 기다리면서 지출하게되는 교통 요금을 제외하고, 파업으로 인해 연기되는 출고일만큼만 계산하여 넣어야 할 것이다.
4. 영업상들의 손실이라 하면 마찬가지로 1-1번처럼 당일 제작한 자동차를 당일 다 팔 수 있다, 우리는 이미 재고가 없어서 못파는 지경이다, 라는 가정이 있어야 이들이 차가 없어서 못파는 것으로 할 수 있다.
'백분율 더하기'에서 소개된 예시인 문제도 세부적으로 따지지 않고 숫자만 가지고 만들어내는 오류이다.
p.157
"책값은 인상되지만 저자의 수입은 그대로인 것은 책 제작비와 원료비의 상승 때문인 것 같다"며 어느 출판사의 경우 시설비와 생산비만도 과거 10년간 10~12%정도 상승했고, 원료비는 6~9%, 판매 및 광고비용을 10%나 올랐다. 이들의 합은 최저가 33%이고, 이보다 소규모의 출판사에서는 40% 가까이나 상승하였다고 하였다.
만약 동시에 상승하는 모든 백분율을 합쳐도 된다면 얼마든지 생각되는대로 인상률을 만들어 낼 수 있다.
예시로 만들어본 비용 테이블
비용 원인 | 원래 비용 | 변한 비용 | 인상률 | 인상된 값 |
시설비와 생산비 | 1000 | 1110 (▲11%) | 11 | 110 |
원료비 | 500 | 540 (▲8%) | 8 | 40 |
판매 및 광고비용 | 500 | 550 (▲10%) | 10 | 50 |
계 | 2000 | 2200 | 29 | 200 |
💭사람들을 물로 보고 있으니제대로 계산해보자.
인상률을 더하게 되면 29가 되어버린다.
그러나 인상된 총 값을 생각한다면 200 정도이다. 200은 처음의 비용에 비해 10%상승한 것이다. '이들의 합'을 만들어 구한다면 인상된 값들의 합을 구한다음 인상된 것을 구했어야 했다. 심지어 평균 인상률을 구한다면 9.67이 나온다.
너무한 예시도 있었는데, 잘못된 계산법을 풍자한 만화에 실린 내용이라 하였다. 평균 급여가 2.25$인 것으로 계산해내기 위해서 (통상근무 시급 1.5 + 초과근무 시간급 2.25 + 특별 초과근무 시간급 3.0)/3 하는 만화라는데, 이렇게 단순하지 않을 뿐이지 어디선가 지금도 흔하게 일어나고 있는 일일 것이라는 생각이 들었다.
(그외 제멋대로 숫자를 이용하는 상황)
- 순이익이 3%에서 6%로 인상되었다면(증가되었다면) 이윤이 3%p(백분율점) 오른 것으로는 말할 수 있으나, 100% 증가라고 말 할 수도 있다. (순이익의 %의 100% 증가...!)
- 백분위 수가 60인 학생들과 40인 학생들은 별 차이가 없을 가능성이 높다. 대부분의 경우 평균값 부근에 모이게 되며 그 분포는 정규분포와 비슷하기 때문이다. (중위수 주변의 68.27%의 학생들이 1표준편차만큼의 차이가 나는 정도이니까)
p.160
(같은 숫자로도 다른 그래프를 그리는 상황) 타임지에 게재된 그래프로 하나는 경영자 측에 유리하도록, 다른 하나는 노동자 측에 유리하도록 그린 그래프다.
- 한 그래프에는 1억 달러 단위의 눈금으로 임금과 이윤이 표시되어있고, 이 두 변량은 대략 비슷한 정도의 상승을 보여준다. 그러나 임금은 이윤의 약 6배 정도로 그려져 있다. 따라서 인플레이션의 압박은 임금에서 기인하는 것처럼 보인다.
- 이 그래프에 끼워넣은 다른 그래프에는 임금과 이윤의 변화를 백분율로 나타내고 있다. 임금을 나타내는 선은 비교적 평탄한데 비해서 이윤을 나타내는 선은 급상승하고 있다. 따라서 인플레이션의 주범은 이윤인 것처럼 보인다.
어느 쪽 결론을 택하든 그것은 당신의 자유이다. 그러나... 한 쪽만이 인플레이션의 원인이 될 수는 없다는 것을 알아차렸을 것이다. 때로는 이와 같이 논쟁의 핵심이 그래프로 표현된 것처럼 간단하지 않다는 것을 지적하는 것만으로도 상당한 도움이 될 때도 있다.
💭 종종 어느것이 맞고 틀리다라고 하기 어려울 때가 있다. 관점에 따라 다르게 보이는 문제에 대해서 바르게 해석하기 위해서는 다른 데이터를 사용하거나 시간 축을 더 길게 가져오는 등 방법은 다양하겠지만, 가장 중요한 것은 특정 입장으로 치우치지 않는 것이 아닐까란 생각을 했다.
p.163
(물가지수를 전년과 금년 가격 중 어떤 것을 기준으로 하느냐에 따라 물가가 상승한 것이기도 감소한 것이기도 되는 상황에서 기하평균을 사용하면 물가가 내리지고 오르지도 않은 예시를 설명) 기하평균이란 것은 산술평균과는 약간 다른 평균이지만, 산술평균과 마찬가지로 합법적인 평균값으로 떄에 따라서는 매우 유용하게 여러 사실을 제공하는 평균값이기도 하다.
통계의 기초는 수학이지만 그 실제 내용은 과학이면서 동시에 예술이기도 하다. 주어진 범위 내에서 여러가지 조작이나 왜곡이 가능하기 때문이다. 따라서 때때로 통계학자들은 어떤 사실을 설명하기 위해서 주관적으로 판단하여 자신에게 알맞은 방법을 선택해야만 한다. (중략) 학문적인 연구를 하는 학자도-본인 자신은 의식하지 못할 수 있지만- 자신의 가치 판단과 나름대로의 생각이란 것이 있어 자신의 이해에 무관심할 수는 없다.
기하평균 formula (왜째서인지 처음 썼던 뒤로 래이텍스가 말을 듣지 않는다.)
$$ \mathbf{GM} = (\mathrm{X_1}+\mathrm{X_2}+\mathrm{X_3}+\cdots+\mathrm{X_n})^{1/n} $$
10장 통계의 속임수를 피하는 다섯 가지 열쇠
p.169 ►누가 발표했는가? 출처를 캐 봐야 한다.
유리한 데이터만 골라 쓰고 불리한 데이터는 묵살했을 지도 모른다. 측정 단위를 뒤바꾸어 놓는 것도... 비교를 할 때 기준 연도를 자신에게 유리하게 바꿔 치는 것도... 중앙값을 사용해야 함에도 불구하고 산술평균값을 사용하면서 그저 막연하게 평균이란 말로 어물쩍 넘어가는 경우를 조심해야 한다.
고의가 아니라 하더라도 무의식적으로 사용된 왜곡도 찾아내야 한다.
누가 그런 통계숫자를 만들었는가를 찾아내기 위해서는 데이터를 적어도 다시 한번 잘 검토해 볼 필요가 잇다. 그 '누구'란 바로 영국의 작가 Stephen Pottter가 말한 바와 같이 '권위라는 이름(OK name)'으로 불리는 유명인사들의 이름 밑에 숨겨져 있을지도 모르기 때문이다. (중략) 권위있는 이름이 인용되어 있을 때는 그 권위자가 그 이야기와 관련되어 있을 뿐만 아니라 그 사실을 지지하고 있는지도 확인하여 볼 필요가 있다.
💭 검증의 목표, 검증인의 이해관계 여부를 확인해야한다.
누가 발표했는지에 따라 다를 수 있는 쉬운 예로 앞의 노조와 경영진 사이에 인플레이션의 원인이 무엇인가라고 했을 때의 그래프가 떠오른다. 또한 권위라는 이름 하에 나도 속고(귀찮음을 핑계로 속아넘어가드리는)있는 것들도 떠올랐다. 검증인의 이해관계는 커녕 해당 연구의 진위여부도 확인하지 않은 채(따져보기 전까지는 존재하는지 아닌지도 모르는데) 넘어가는 경향이 있는 것이다. 다만 '철썩같이' 믿는다기 보다 '그런가보다'라고 생각한다. 그리고 '실제로 그게 가능한 일인가?', '과학적으로 성립이 될만한 일인가?' 에 대해 따로 생각해보긴 하지만, 이 조차 내가 알고있는 아주 작은 지식과 그로 만들어진 세계 안에서만 결론지을 수 있으며 그마저도 확실하지 않다.
p.172 ►어떤 방법으로 알게 되었는지 조사 방법에 주의해야 한다.
(<Chicago Journal of Commerce>지가 1200개의 큰 회사에 질문을 돌렸다고 했으나, 그중 14%만이 회답을 했고 86%는 답하지 않았으며 이 저널은 회답한 14%의 표본만으로 조사 결과를 내놓았다.) 표본의 왜곡 여부에 대해서도 그 증거를 찾아볼 필요가 있다. 표본의 추출 방법이 부적당했던 것은 아니었는지 또는 위의 경우처럼 조사하는 과정에서 나온 몇 개 안되는 표본을 그대로 사용한 것은 아닌지 따질 필요가 있다. 그리고 이 책 처음에 말한 것처럼 그 표본은 신뢰할 만한 결론을 얻기에 충분히 큰가의 여부도 따질 필요가 있다.
상관관계에 대해서도 그 상관관계가 정말 의미 있는 것으로 결론지을 만큼 표본의 크기가 큰지, 그리고 또 어떤 유의한 결론을 내릴 만큼 충분히 많은 사례가 있었는지를 물어보아야 한다.
💭 이 문제는 우리 실생활에서 자주 볼 수 있다. 앞서 챌린지 part1에서도 심란한 마음에 적었던 그! 설문조사 말이다. 이미 데이터가 편향된 데이터일 수 있는 예시를 찾아보다가 괜찮은 예시를 찾게 되었다. 이 부분에 대해서 하단에서 다룰 예정!
(링크: 10명 중 6명 "올해는 장거리 해외여행 고려"…여기어때 조사)
p.173 ►빠진 데이터는 없는지 숨겨진 자료를 찾아 보아야 한다.
표본의 크기가 얼마인지 항상 알려 주지는 않는다. 이런 숫자가 빠져 있다면, 특히 그 출처가 중요한 관심사라면, 그 통계나 조사 전체에 대하여 의심해 볼 필요가 있다. 마찬가지로 신뢰도에 관한 자료-예컨대 확률 오차나 표준편차 등-가 빠져있는 상관관계는 심각하게 여길 필요가 없다.
산술 평균값과 중앙값의 차이가 클 것으로 예상되는 경우에는 편차가 명시되어 있지 않은 평균값에 대하여 특별히 주의할 필요가 있다.
비교할 다른 숫자가 빠져있기 때문에 아무런 의미가 없는 숫자들이 많다.
(중략) 때때로 백분율만 발표하고 실제 숫자는 빠져있는 경우도 있는데, 이것도 일종의 속임수이다.
지수(指數)를 알고 있다 하더라도 그 지수 외에 무엇이 생략되어 있는가를 찾아봐야 한다. 무엇을 기준으로 정하느냐에 따라 왜곡된 통계숫자를 만들어 낼 수 있기 때문이다.
(암으로 인한 사망자 수가 크게 증가했다는 보고- 이전에는 암이어도 부검을 더 많이하게 된 오늘날에 비해 암 진단이 적었기 때문에 비교적 적었던 예시)
💭 이전에 다루었던 여러 예시들을 아우르는 중요한 장이다.
(1) 숫자 자체가 의미를 갖기 위해서는 어느정도의 신뢰도를 가질 만큼의 표본크기를 가져야하며, (백분율도 같은 맥락)
(2) 편차나 비교할만한 다른 자료가 없을 경우 주의해야 한다.
(3) 조사와 관련하여 상황적 배경 또한 함께 해석되어야 한다.
통계 공부를 하면서 감사하게 들었던 분의 강의에서 강조하셨던 부분이 이것이다. 숫자는 단위(기준, 척도)와 함께할 때 의미가 있다고. 280는 발 사이즈로는 큰 숫자이지만 토익 점수로서는 아주 낮은 숫자이다. 척도는 비교하기 위해 존재한다.
p.178 ►내용이 뒤바뀐 것은 아닐지 쟁점 바꿔치기에 주의해야 한다.
(목욕 횟수 응답과 관련하여) "여성보다 더 자주 목욕하는 영국 남성"이라는 재미있는 제목을 달아서 이 조사의 결론을 정당화 하였다. (중략) 그런데 사실상 연구의 주제가 바뀐 것이 문제였다. 노동성 관리들이 정말로 알아낸 사실은 '얼마나 자주 목욕했는지'가 아니라 '얼마나 자주 목욕했다고 말했는지'라는 것이다.
사람들의 이야기-설사 그 자체는 충분히 객관적인 사실로 보이더라도-를 토대로 이끌어 낸 통계숫자에는 매우 이상한 결과가 나타나는 경우가 있다. (중국의 어느 지역 인구는 2800만 명이었는데 5년 후에는 1억 500만명으로 늘어남. 실제로는 거의 늘어나지 않았는데, 문제는 이 두 번에 걸친 인구조사의 목적에서 기인함. 첫 번째 인구조사의 목적은 과세와 징병에 있었고, 두 번째 것의 목적은 기아 구제를 위한 것이었음.)
p.182
'전후관계와 인과관계의 혼동 post hoc'이라는 논리적 오류도 겉보기에 쉽게 파악하기 힘든 주제를 바꿔치기하는 수법 중의 하나이다. 전자와 후자와의 관계가 원인과 결과라는 관계로 바뀐 것이다. (감소나 증가는 그저 경향일 뿐이며, 시기가 일치하는 것에 대해) 그 중의 어느 하나가 다른 것의 원인이 된다는 증거는 하나도 발견할 수 없었다.
(중략) 때로는 쟁점 바꿔치기가 의미론적 접근 방법에 의해 이루어지는 경우가 있다. <Business Week>지에... 회계사들은 잉여금이란 말은 '고약한' 단어라 결정짓고 회사의 대차대조표에서 이 말을 삭제할 것을 제안했다. 미국 회계사 협회 회계수속위원회는 이 제안에 따라 ... 그와 같은 술어를 '유보수입' 또는 '고정자산상각' 등으로 기재하도록 권고하고 있다.
(모 회사의 기록 갱신적 수익에 관해) 아마도 이사들은 한 주당 발생하는 이윤으로 나타내면 그리 큰 숫자로는 보이지 않을 터이니... 그쪽이 유리할 것으로 보아 언젠가는 주식액면의 분할 문제를 생각하고 있을지도 모른다.
💭 사람들이 실제로 벗고 욕실에 들어가 샤워기의 물을 틀고 5분 이상 샤워를 하는 것을 측정하는 기계라도 있었다면 정확한 값이 나왔겠지만, 이는 응답자가 의도하였든 아니든 거짓으로 응답할 수 있는 소지가 다분하다.
특히 7장, 이전 예시들 중 노조와 쟁의 중에 있는 인사담당 간부가 노동조합에 대해 반대 의견을 가지고 있는 종업원이 얼마나 되는지 알아보는 예시가 떠올랐다. 그들은 웬만하면 노동조합에 '불만'이 있을 것이다. 그러나 불만이 있다는 것만으로 '노동조합에 반대한다'라고도 바꿔치기 할 수 있다.
또한 이자를 매기는 (악질적) 방식과 의미론적 접근 방법은 관련 지식에 해박하지 않다면 분석 전문가여도 속기 쉬운 부분들이었는데, 읽으면서 울컥하기도 했다.
p.185 ►상식적으로 말이 되는 이야기인가 살펴봐야 한다. 석연치 않은 부분은 조사해라.
'상식적으로 말이 되는 이야기인가?'와 같은 질문은 통계숫자를 과대평가하지 않고 제대로 파악할 수 있게 해 주는 역할을 한다. (Rudolf Flash의 readability formula가 부조리함에 대하여 설명)
통계는 숫자라는 마술에 의해 사람들의 상식을 마비시켜버리는 까닭에 결코 사라지지 않는다.
(중략) 너무나 정확한 숫자도 상식에 맞지 않는 점이 있다. (소숫점이 있을 경우 정확해 보이게 만드는 효과가 있다.)
외삽법은 어떤 경향을 예측하는 상황에서 매우 유용한 방법이다. 그러나 ... 현재까지의 추세가 사실일지는 몰라도 미래에 대한 경향은 어디까지나 추측 이외에 아무 것도 아니라는 점이다. 그리고 또 이 경향 예측 속에는 '다른 상황이 변하지 않고', 또 '현재까지의 추세가 그냥 계속 된다'라는 가정이 은연중에 내포되어 있다. 그런데 사실은 바로 이 '여러 다른 사항들'이 실제로는 변동하는 것이 다반사이고, 또 그렇지 않다면 인생이란 정말 따분하기 짝이 없었을 것이다.
💭 정말 중요한 부분이다. "다른 상황도 같은 상태여야 하는" 부분은 이미 많은 곳에서 전제되고 있다. A/B 테스트에서도 관심인 부분을 제외하고는 모든 부분이 같아야 한다. 추세를 예측하는 것은 머신러닝 기법이 발전된 오늘날 상당히 많이 쓰이고 있다. 이곳 저곳에서 AI를 활용한 추천 시스템부터 심지어 40년 뒤 노인이 되었을 우리의 얼굴까지도 말이다. 추천 시스템이 한 사람의 경향을 '강화'하는 방향으로 쓰이고는 있긴 하지만, 이 또한 이 사람이 어떤 외부의 사건으로 인하여 추천된 서비스(제품, 콘텐츠 등)가 관심 밖이 될 수 있으며, 사람의 얼굴은 사람이 쓰는 것에 따라 달라진다는 (이미 체감하고있는) 것도 우리는 이미 익히 알고있다. 추측된 것은 보통 늙으면 특정 위치(이마나 눈, 코 옆)에 깊은 주름이 생기기 때문이며 우리가 정말 어떤 모습이 될지는 그것과 꽤 큰 오차가 있을 것이다. (회귀선을 그리거나 여러 머신러닝에서 이 오차를 줄이는 방향으로 학습시켜 가지만 그 오차 마저도 '그' 데이터이기 때문에 줄어들 뿐 또 다른 변인이 생겨날지는 아무도 모른다. 그 누가 모든 것을 통제할 수 있는가?)
👩💻 분석의 의미: 쪼개다
분석은 쪼개는 것이다. 경향만 보는 것은 누구나 한다. 그 경향안에 무엇이 있고 이 경향이 무엇을 의미하며 이 경향이 무엇과 영향을 주고받는지 연쇄적으로 사고하는 것이 필요하다. 반대로 신뢰할 만한 한지 생각해보는 것에도 의심을 '쪼개서' 하는 것이 필요하다고 생각한다.
위에서 다루었던 (링크: 10명 중 6명 "올해는 장거리 해외여행 고려"…여기어때 조사) 기사의 앞 문단과 마지막 문단을 인용했다.
27일 종합 여행·여가 플랫폼 여기어때가 진행한 설문조사에 따르면 올해 10명 중 6명(62.2%)은 미주, 유럽 등 장거리 여행을 고려하는 것으로 조사됐다. 일본, 베트남 등 근거리 여행지에 집중됐던 해외여행 수요가 미국, 캐나다 등 장거리로 뻗어갈 전망이다.
(중략) 이번 설문조사는 이번달 13일부터 18일까지 고객 경험 관리 플랫폼 ‘데이터스페이스’를 활용해 여기어때 앱 사용자 233명을 대상으로 진행했다.
기사의 제목도 그렇고, 첫 문단만 읽었을 때는 꽤 그럴듯하다. 꽤 많은 사람들이 미주나 유럽 처럼 먼 거리로 가려나보다-하는 생각에 동의한다. 그러나 마지막 문단에서 이야기한다. 고객 경험 관리 플랫폼 '데이터스페이스'를 활용해 여기어때 앱 사용자 233명을 대상으로 진행했다고 한다. 이 데이터나 조사가 잘못 되진 않았다. 거짓이라는 것도 아니다. 또한 여기어때나 여행사, 항공업계의 경우 편향같은 건 아무래도 상관없을 수 있을만큼 상당히 중요한 정보이다. 그러나, 일반인이 이 기사를 읽었을 때에는 내 주변 10명중 6명은 올해 장거리 해외여행을 가려나보다 싶을 것이다. 다들 꽤 여유롭게 사는 것 처럼 느껴질 정도이다.
이 기사를 보고 들었던 의심에 대해서 이야기해보려고 한다. (저는 해당 설문을 본 적이 없기 때문에 질문지에 대한 추측도 했습니다. 다만 기사 표면적으로 보이는 부분들에 대해서 의심가는 부분들을 짚으려고 합니다.)
큰 편향을 일으키는 부분을 보자. 이 설문조사는 여기어때 앱 사용자를 대상으로 조사했다는 점이다.
- 여행을 가기로 '생각한' 사람들로 치우칠 가능성 high: 여기어때는 기본적으로 국내 숙소 예약 플랫폼으로, 60여개의 해외 숙소 예약도 가능하다. 이말은 즉슨 여행을 갈 생각이 있는가 없는가로 나누었을 때 여행을 가려는(혹은 가려 고민하는) 사람들로 표본이 치우칠 가능성이 매우 높다고 생각했다. 여행지가 국내이든 해외이든 말이다. 모든 국민들을 대상으로 한 것이 아니기 때문에 표본집단이 매우 작고 이 표본들에서"는" 이런 경향을 띠고있다-는 것을 놓치면 안된다.
- 바램일 뿐 - 실제 action으로 이어질 가능성 low: 그러나 이 앱을 사용하는 앱 사용자 나이대를 고려해보자. (여기어때처럼 데이터 활용 많이하고있을 기업이기도 하고 설문을 바로 Analysis할 수 있도록 연결되어있는 데이터스페이스라는 플랫폼을 사용하였다고 하니까 층화표본추출은 당연히 잘 되었겠지만) 여기어때의 본질은 국내 숙박예약이다. 10년 기준으로 유저층을 자른다면 2-30대 젊은 사람들이 많을 것으로 생각된다. 체력도 시간도 있지만 돈이 없는 20대와 체력도 돈도 있지만 시간이 없는 (아니 심지어 결혼도 집도 포기하고있는!)30대가 응답자 중 많다면 장거리 여행을 가겠다는 것이 현실성이 그렇게 높지는 의심이 들 수 있는 부분이다. 가겠다보다 가고싶다에 가까워 진다.
- 추가적으로 '만약 간다면~'의 뉘앙스도 포함하고 있는 대목이 이 부분이다. "해당 여행지를 선택한 이유로 평소 가보고 싶었던 여행지라는 응답이 ‘64.8%’로 가장 많았고, 뒤이어 ‘22.8%’는 단거리는 이미 여행을 다녀와서라고 답했다." 이미 다녀와서 가는 것에도 이미 평소 가보고 싶었던 여행지라는 의미도 어느 정도 내포된다.
- 전망이라고 결론지을 만큼 계획이 확실한지 보려면: 그럼 정말 갈 예정인 사람들 중 몇 %의 사람들이 여기어때를 선택하는가? Agora, Airbnb, tripdotcom 등 많은 브랜드가 있다.
- 만약 여기어때 점유율이 높다면: 결론(장거리 여행이 기지개를 펼것으로 예상된다..?)에 대한 신뢰도가 올라가겠지만, 그렇지 않은 경우는 신뢰도가 낮아진다. (심지어 표본수도 정말 적다구요!)
- 만약 여기어때 점유율이 낮다면: 가본 사람들이라면 미주나 유럽을 고려하며 '여기어때' 앱에 왔을 가능성은 적다는 의미이다. 추가적으로 처음 가보는 사람들은 아마 '여기어때'가 아니라 '하나투어'를 찾았을 가능성이 높다고 생각한다. (해외 여행을 가는데에 숙소앱을 사용하여 숙소를 따로 예약해서 가는 사람들은 해외행 여행이 처음이 아닐 가능성이 있다.)
- 이런 부분들을 해결하기 위해서 여행을 확실하게 계획하고 있는지에 대한 여부를 물어보고 응답을 이어가도록 했을 것이라 생각한다.
- 또한 해외 숙소 카테고리를 n번 이상 찾아봤거나 관련 이벤트, 아티클등을 조회한 유저들과 그렇지 않은 유저들을 적당한 비율로 나누어 표집했을것이라 생각한다.
(2) 기사에서 황당한 대목은 바로 이 부분이다. '고려한다'와 '선호한다'를 혼동하여 썼던 부분이다. 실제 설문 조사에서는 해외 여행을 고려한다기보다 해외로 나간다면 어디로 갈 것인가로 물었을 것 같다는 추측까지 든다. 이는 엄연히 느낌이 다르다. 그 여행지를 '고려한다'는 여행이라는 event가 이미 계획된 상황에서 행선지를 선택하는 것에 가깝고, '선호한다'는 갈 수 있다면(정해진 event가 없음에도) 그곳에 가고 싶다는 의미에 가깝게 느껴진다.
여행을 한 번도 안간 사람보다 한 번이라도 다녀온 사람이 더 다니는 경향이 있다면(실제로 내 주변은 그렇다) 단거리를 이미 다녀온 사람들(약 22%)이 선택한 선택지만 업계 동향으로 사용할 수 있을 정도의 신뢰도를 가지지 않을까 예상해본다.
이렇게 읽고 쓰고 하는데 주당 4-6시간 정도씩 걸렸던 것 같다. 의미가 깊은 시간이었고 더 적어두고 싶은 생각들이 많아서 더 첨삭할 예정이다. 이렇게 좋은 책을 함께 읽을 수 있게 챌린지를 열어주신 데이터리안 관련자 분들께 감사의 마음을 표한다.
'Books > groups' 카테고리의 다른 글
[데벨챌3기] <새빨간 거짓말, 통계> part1 (4) | 2024.04.07 |
---|