[박한우의 미래칼럼] 대선 여론조사의 허위교란 변수와 빅데이터
[박한우의 미래칼럼] 대선 여론조사의 허위교란 변수와 빅데이터
  • 승인 2022.01.19 20:20
이 기사를 공유합니다

박한우 영남대 교수, 빅로컬빅펄스Lab 디렉터
대통령 선거가 얼마 남지 않았다. 여론조사 결과가 있지만, 당선자를 확실하게 예측한 자료는 찾아보기 힘들다. 여론조사 회사가 2자 혹은 3자 대결처럼 후보들을 더하거나 빼면서 지지율 차이를 보여주는 것이 유행이다. 여론조사가 피자 한 판을 여러 조각으로 나누는 것처럼, 이미 정해진 100% 안에서 지지율 증감을 설명한다.

여론조사는 선거 통계학의 핵심이다. 1930년대부터 전화기를 통해 유권자에게 정치적 성향과 지지 후보를 묻는 것이 과학적 절차의 시작이었다. 연구자들은 사람들이 언급한 정치인을 숫자로 바꾸어 호의적 태도를 측정했다. 최근 여론조사가 선거 예측에서 실패하는 횟수가 많아질수록 전문가들이 결과 해석에서 ‘원인’ ‘효과’ ‘영향’ 등의 용어 사용을 오히려 줄이고 있다. 평론가들은 수시로 변하는 지지율에 대해 어떤 요인이 영향을 미쳤는지에 대해 인과적 표현을 의도적으로 회피하는 듯하다. 그 대신에 인과성과 유사한 의미를 지닌 용어인 상관이나 패턴 등을 자주 사용하고 있다.

미겔에르난(M. Hernan)은 2018년에 ‘C-단어: 과학적 완곡어법은 관찰 데이터로부터의 인과적 추론을 개선하지 않는다’(The C-Word: Scientific Euphemisms Do Not Improve Causal Inference From Observational Data)라는 논문을 출판했다. 에르난은 인과적 추론은 과학적 분석의 핵심 과제이기 때문에 ‘연관’이나 ‘연결’ 같은 애매한 용어들을 사용하는 것이 눈살을 찌푸리게 한다고 밝히고 있다. 연관성은 인과관계가 아니기 때문에, ‘원인’이라는 용어를 명시적으로 사용하는 것이 관측 연구의 질을 향상시키기 위해 필요하다고 주장한다.

에르난의 지적에도 불구하고, 평론가들은 인과적 경로와 효과에 대해 구체적으로 언급하기를 왜 주저하고 있는가? 그들은 왜 완곡적 표현과 외교적 어법으로 여론조사 데이터로부터의 인과적 결론을 이리저리 피해 가면서 과학적 질문의 모호성과 데이터 분석 및 결과 해석의 오류를 증가시키는가? 여론조사가 처한 상황과 맥락 및 이면을 이해하면 그 답은 자연스럽게 나온다.

과거 유권자들은 여론조사를 받으면 조사에 선택된 사실을 영광스럽게 느끼며 자신의 생각을 진실하게 답했다. 여론조사가 난무하면서 이제는 사람들이 전화가 오면 귀찮고 짜증나서 끊어 버리거나 거짓된 답을 한다. 당내 경선에 민심을 반영한다며 여론조사를 포함하는 것에 대해서, 특정 후보가 역선택 오류를 주장하는 것도 이런 이유 때문이다.

잘못된 데이터를 투입하면 잘못된 결과가 나온다. 여론조사의 성별, 연령별, 지역별 응답자 수와 신뢰구간 및 통계기법의 정확성이 아니라 데이터의 품질이 담보되지 않는 것이다. 인과적 영향을 추정하는 데 기본적 단계인 입력 데이터의 모호성은 선거 결과에 영향을 미치는 허위적(spurious), 교란적(confounding) 변수들의 확인 과정에서 혼란이 발생할 수밖에 없게 한다.

허위변수는 예를 들어 아이스크림 판매량이 증가하면 범죄율이 높아진다는 인과관계를 설정하자. 독립변수는 아이스크림 매출이 되며, 종속변수는 범죄 발생 빈도가 된다. 허위변수는 아이스크림과 범죄 사이에 실제로 인과관계가 없으나 있는 것처럼 보이게, 두 변수 모두에 영향을 미치는 변수이다. 무더위가 이에 해당될 수 있다. 더워지면 아이스크림 판매량이 많아지고 범죄를 저지르는 것처럼 추론하게 만든다.

교란변수는 두 명의 선생님이 서로 다른 교재 A와 B를 채택해 강의한 후에 학생들의 성적 향상을 측정하는 상황을 보자. 독립변수는 교재이고 종속변수는 성적이다. 만약 A 교재를 채택한 학생들의 성적이 오르게 되면, A의 효과로 판단할 수 있다. 하지만 성적 개선의 이유는 A 때문일 수도 있지만, 담당 선생님의 강의기법이 영향을 미쳤을 가능성도 높다. 즉 강의기법은 교란변수로서 교재와 성적이라는 두 변수 모두에 영향을 미치나, 교재와 성적 사이에도 인과관계가 존재할 수 있다.

여론조사 데이터의 신뢰성이 담보된다면 허위변수와 교란변수를 구분하고 당선자 예측에 더 가까워질 수 있다. 유권자들의 ‘입’에만 의존한 ‘허위적’ 응답이 아닌 진심이 담긴 반응을 얻기 위한 각별한 노력이 필요한 시점이다. 선거 결과에 미치는 원인을 확인하고 그 인과성의 존재 여부와 인과적 관계의 크기를 실제보다 크거나 작은 것으로 보이게 하는 허위변수와 교란변수를 찾아야 한다.

컴퓨터 회사인 IBM이 여론통계 소프트웨어인 SPSS를 2009년에 인수하였다. IBM은 다양한 종류의 빅데이터를 대량으로 수집하여 사회현상 분석과 마케팅 캠페인 및 도시문제 해결 과정에서 SPSS와 복합적으로 활용하고 있다. 이처럼 전통적 여론조사에 빅데이터를 체계적으로 활용한다면 대선 후보들의 인기도와 유권자 집단의 태도를 과학적으로 측정할 수 있다. 본질적으로 대화형 매체의 속성을 지닌 소셜 미디어의 특성상 허위이거나 강요된 응답을 배제하고 여론을 드러내는 실질적 데이터를 수집할 수 있다. 전화기에 의존하는 여론조사에 비교하면, 빅데이터는 다양한 종류의 데이터 수집 기법이 존재한다. 그리고 여론조사에 소셜 데이터를 보완하면 허위교란 변수를 식별하여 정교하고 과학적 분석이 가능할 수 있다. 빅데이터를 활용하여 여론조사 문제점을 보완하여 사회조사를 업그레이드해야 하는 시점이다.
  • 대구광역시 동구 동부로94(신천 3동 283-8)
  • 대표전화 : 053-424-0004
  • 팩스 : 053-426-6644
  • 제호 : 대구신문
  • 등록번호 : 대구 가 00003호 (일간)
  • 등록일 : 1996-09-06
  • 인터넷신문등록번호: 대구, 아00442
  • 발행·편집인 : 김상섭
  • 청소년보호책임자 : 배수경
  • 대구신문 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2024 대구신문. All rights reserved. mail to micbae@idaegu.co.kr
ND소프트
많이 본 기사
영상뉴스
SNS에서도 대구신문의
뉴스를 받아보세요
최신기사