You can make anything
by writing

C.S.Lewis

by 여행하는 기획자 Apr 12. 2025

부자벳 우리를 속이고 있지

차트가 부자벳의 의사결정을 조종하는 여러 가지 트릭

부자벳 우리를 속이고 있다.


이전에 이야기했듯 나의 박사 예심은 망했다. 심리적 충격이 매우 심했지만 시간이 지나 무뎌졌다. 어쩌면 아기를 키우는 과정에서 워낙 정신이 없어 심리적 타격감이 줄어들었다. 박사 예심이 끝나고 나를 심사했던 심사위원들의 논문을 초기부터 최근까지 다 읽어보았다. 대체 심사위원들은 어떻게 연구를 하고 있는 것인지 알아보기 위해 차근차근 읽어 나갔고 그 과정은 큰 공부가 되었다. 특히 나도 데이터 시각화를 담당하는 과정에서 아래 Bar chart bias 분석은 매우 흥미로웠다. 나도 편향성에 대한 연구를 해볼까?라는 생각이 들 정도였다.


Bar chart bias

부자벳 우리를 속이고 있지


막대부자벳는 정말 많이 사용되는 대표적인 데이터 차트이다. 내가 3년 동안 매월 몇 번 글을 썼나를 시각화를 해보니 아래와 같은 막대차트가 나왔다. (흠 이 차트를 보니 2025년에 생각과 분석을 덜했구나...라는 반성이 생긴다. 역시 데이터는 거짓말을 하지 않는다.)


부자벳

이렇게 막대부자벳로 볼 때 평균 내가 어느 정도 글을 쓴 것일까? 사람들은 이 부자벳를 본 순간 막대기의 가운데를 어림잡아 생각한다. 대략 2.5개 정도 썼겠지? 이렇게 어림잡아 생각을 하게 되는 것이다. 그런데 과연 실제 평균값은 어디에 있을까?


부자벳


실제 내 눈으로 비교했을 때보다 더 높은 3.2가 나의 월별 평균값이었다. 왜 막대차트에서 이런 오차가 발생할까? 데이터 시각화는 데이터를 직관적으로 보여주기 위해서 하는 것인데, 왜 더 오해의 소지가 발생하고 있는 것일까?


그 이유는 우리의 뇌는 전체 평균을 보기보단 개별적인 막대의 넓이나 길이를 먼저 집중하기 때문이다. 아마 이 부자벳를 보면 가장 높은 길이의 막대나 낮은 길이의 막대가 먼저 눈에 들어올 것이다.


또 우리의 뇌는 숫자가 아닌 면적을 먼저 보게 된다. 이 부자벳를 보면 좌측에 있는 숫자에 집중하게 되는 것이 아니라 가장 먼저 눈에 들어오는 면적을 눈여겨본다. 우리 뇌의 구조 때문에 면적들의 평균 균형점을 직관적이고 정확하게 파악하는 것이 어렵다.


부자벳


이 부자벳는 똑같이 3을 가리키고 있지만 A차트는 면적이 넓고, B차트는 면적이 좁다. 하지만 인간은 면적을 먼저 주목해서 보기 때문에 자연스럽게 A차트가 더 큰 숫자를 가리킬 거라 착각하는 형태이다.


또 막대부자벳는 색이 칠해진 채 꽉 채워져 있고, 박스처럼 보이니까 무의식 중에 뭔가 담겨있는 물건처럼 인식을 하게 된다. 막대가 바닥부터 채워져 있는 모습을 보고 이 박스의 중간즈음이 평균일 거라 생각을 하는 것이다. '여러 막대기의 중간값이 막연히 평균이겠지.'이렇게 생각을 하지만 실제 평균은 모든 값의 합을 개수로 나눈 것이니 시각적인 중심점과 일치하기가 어려운 경우가 많다.


그럼 이런 편향성을 어떻게 하면 없앨 수 있을까?

일단 논문을 살펴보면 점 부자벳보다 막대부자벳에서 더 편향이 자주 발생한다고 한다. 그래서 간단하고 쉽다고 막대부자벳를 무조건 사용하는 것이 아니라 단순하게 비교할 때만 한정해서 막대부자벳를 사용하는 것이 필요하다.


막대부자벳의 길이 차이가 클수록 더 편향이 쉽게 발생한다고 한다. 해결할 수 있는 방법은 누적 막대부자벳차트를 사용하거나 혹은 사전에 막대부자벳가 편향이 발생할 수 있다는 점, 혹은 이 차트를 활용하는 의도를 명확하게 전달한다면 편향성을 줄일 수 있다고 한다.




나도 고차원 데이터 시각화를 담당하면서 시각화의 위력을 새삼 느끼고 있다. 복잡한 숫자를 시각화하면서 패턴을 직관적으로 보거나 경향을 빨리 알아차릴 수 있다. 한편으론 부자벳 뇌의 구조적인 이유로 데이터 시각화를 잘못 이해할 수도 있어 주의가 필요하다고 요즘 많이 느끼고 있다.


인간의 뇌는 빠르게 면적, 색깔, 형태를 인지하도록 진화했지만 이러한 특성이 때론 편향을 만들어낸다. 효과적으로 데이터를 보여주려면 결국 인간이 어떻게 인지하는지를 이해하고, 이를 고려해 오해를 최소화하는 것이 필요하다. 그저 화려한 데이터 시각화가 아니라 데이터가 이야기하는 진실을 왜곡하지 않고 보여주는 방향으로 고민을 해야겠다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari