

[WT논평] The end of the era of statistics

By Eric Wilson (columnist) What this past year has taught me more than anything is this: You can learn a lot about statistics from politics; and second, both are misunderstood.

It has been an interesting year in politics, polling and statistics. In talking to most people, one would get the impression all three are broken. If one were to believe the polls, Brexit would not have happened and Donald Trump would not be the 45th president of the United States.

Does this mean all polls are broken, or we are signaling the end of the era of statistics? It is highly probable that the answer is no, and I contend that Big Data and a statistically driven society is not dead, it is just not yet fully understood. So why do we keep getting it so wrong?

One major flaw may be that society is myopically focused on or obsessed with causation instead of correlation. The problem is that causation may be able to answer the question of “why” at a particular point in time, but it doesn’t always cleanly translate into what may occur in the future.

Another issue may be that people don’t think anymore and their opinions change with their moods.

When it comes to the results of polling and sampling, we are not only seeing an unprecedented speed of change but also the sheer magnitude of change that can occur from poll to poll.

So what lessons can be learned? Politics and statistics can be huge.

Given the computing power available today, we now have extremely large sets of data that can be analyzed computationally to reveal patterns, trends and associations. With Big Data it may no longer be necessary to sample the population since we may have access to the entire population.

최근 여론조사가 부정확해진 원인

에릭 윌슨(미국 칼럼니스트)

지난해 내가 배운 가장 큰 교훈은 사람들이 정치로부터, 통계에 관해 많이 배울 수 있고 둘 다 잘못 이해되고 있다는 것이다.

작년은 정치와 여론조사 및 통계에서 흥미로운 한 해였다. 대부분의 사람들과 얘기해 보면 세 가지 모두 고장 났다는 인상을 받게 된다. 만약 사람들이 여론조사를 믿는다면 브렉시트는 발생하지 않았을 것이고 도널드 트럼프는 제45대 미국 대통령이 아니어야 한다.

이것은 모든 여론조사가 고장 나거나 혹은 우리가 통계의 시대가 끝났다는 신호를 보내는 것을 의미할까. 대답은 노(no)일 개연성이 매우 높으며 필자는 빅 데이터와 통계적으로 작동되는 사회가 죽지 않았으며, 다만 아직까지 완전히 이해되지 않았을 뿐이라고 주장하는 바이다. 그렇다면 우리는 왜 그것을 계속 그처럼 잘못 이해하는 것일까.

한 가지 큰 결함은, 아마도 사회가 상관관계보다 인과관계에 근시안적으로 초점을 맞추거나 집착하는 것일지도 모른다. 인과관계는 특정한 시점에서 ‘왜’란 질문에 대답을 할 수 있을지 모르나 미래에 무엇이 발생할 것인가를 깔끔하게 표현하지 않는 것이 문제다.

사람들이 더 이상 생각을 하지 않고 기분에 따라 견해가 바뀐다는 현실이 또 다른 문제일 가능성이 있다.

여론조사 및 견본추출의 각종 결과에 관한 한, 우리는 전례 없는 변화의 속도를 못 볼 뿐만 아니라 여론조사마다 일어날 수 있는 변화의 순수한 규모 또한 보지 못한다.

그렇다면 무슨 교훈을 배울 수 있을까. 정치와 통계는 매우 클 수 있다.

오늘날 이용 가능한 전자계산의 위력을 감안할 때, 우리는 지금 패턴과 추세 및 연관성을 밝히기 위해서 컴퓨터로 분석이 가능한 극도로 방대한 여러 가지 데이터 집단을 갖고 있다. 빅 데이터의 경우 어쩌면 우리는 전체 인구에 접근하여 이용할 수 있으므로 인구 견본을 추출할 필요가 더 이상 없을지도 모른다.

역주=오성환 외신전문위원 suhwo@segye.com

