14일 글로벌빅데이터연구소(소장 김다솜)는 트위터, 인스타그램, 페이스북, 카카오스토리 등 4개 채널을 대상으로 관심지역의 '양대 정당' 후보 이름이 들어간 포스팅수를 집계했다.
집계 시점은 3월1일부터이지만 두 후보 모두 공천 확정된 날이 이보다 늦을 경우에는 확정된 날부터 집계했다.
동작을 이수진 후보의 공천 확정일이 3월4일이므로 동작을 빅데이터 정보량은 그날 부터 4월13일까지이며 대구 수성갑 주호영 후보의 경우 공천 확정일은 3월6일이므로 그날부터 이달 13일까지의 빅데이터 정보량을 집계했다.
빅데이터 정보량 분석 대상 선거구 후보는 서울 광진을의 더불어민주당(이하 민주당) 고민정 후보와 미래통합당(이하 통합당) 오세훈 후보, 동작을의 민주당 이수진 후보와 통합당 나경원 후보, 강남갑의 민주당 김성곤 후보와 통합당 태구민(태영호 키워드 포함) 후보, 대구 수성갑의 민주당 김부겸 후보와 통합당의 주호영 후보 등이다.
두 후보간 점유율 등 빅데이터 정보량을 집계한 결과 광진을에서는 고민정 후보가 4327건으로 57.05%(소숫점 세자릿수 이하는 반올림, 이하 동일), 오세훈 후보가 3258건으로 42.95%의 정보량 점유율을 보였다.
동작을에서는 나경원 후보가 4883건 57.49%, 이수진 후보가 3611건으로 42.51%를 기록, 나경원 후보의 정보량이 15%P 가까이 많았다.
강남갑에서는 태구민 후보가 2509건 70.22%, 김성곤 후보가 1064건 29.78%로 SNS에서는 태구민 후보가 김성곤 후보보다 2배이상 많이 언급됐다.
대구 수성구갑에서는 김부겸 후보가 1431건 64.26%, 주호영 후보가 796건 35.74%의 정보량 점유율을 보였다.
참고로 빅데이터 정보량은 SNS상 각 후보가 언급된 '포스팅' 수 또는 '게시물' 숫자를 집계한 것으로 각 후보에 대한 지지 및 반대 여부 등 SNS의 내용은 전혀 고려하지 않은 것이므로 여론 조사와는 다른 흐름으로 나타날수 있다.
또 특정 이슈가 있을 경우에는 특정 후보의 정보량이 과다하게 높게 나타나는 경우가 있음을 감안해야 한다.
한편 SNS 포스팅을 대상으로 후보를 언급한 글들의 감성어를 살펴봤다.
분석 채널과 집계기간은 정보량 집계와 같다.
정치관련 SNS는 지지 여부와는 관련없이 거친 단어와 문구들이 포함된 경우가 많아 긍정률은 매우 낮고 부정률은 높게 나타나는 경향이 있음을 유념해야 한다.
광진을 고민정 후보는 긍정률이 4.83%, 부정률이 24.83%로 나타난데 비해 오세훈 후보의 긍정률은 3.35%, 부정률은 40.02%였다.
동작을 이수진 후보의 긍정률은 4.54%, 부정률은 25.45%였으며 나경원 후보의 경우 긍정률은 3.26%, 부정률은 43.99%였다.
강남갑 김성곤 후보는 긍정률 6.0% 부정률 28.4%였으며 태구민 후보는 긍정률 2.1% 부정률 52.2%다.
대구 수성갑 김부겸 후보는 긍정률 3.91%, 부정률 24.95%, 주호영 후보는 긍정률 2.39%, 부정률 27.76%였다.
결과적으로 민주당 후보들이 통합당 후보들에 비해 긍정률은 살짝 높고 부정률은 더 낮은 모양새를 보이고 있다.
참고로 포스팅 글에 '예쁘다 좋다 만족한다 최고 웃다 잘한다' 등의 단어가 있거나 더 많으면 긍정글로 분류되고 '나쁘다 화난다 불만족 울다 짜증 못한다' 등의 단어가 있거나 더 많으면 부정글로 분류된다.
주의할 것은 후보의 포스팅글에 긍정어나 부정어가 포함돼있더라도 그 감성어가 반드시 해당 후보를 겨냥하거나 지칭한 것이라고는 할수 없다.
예컨대 같은 당 다른 후보의 막말 등으로 인해 어느 후보의 글에 '우연히' 함께 포스팅돼 있는 경우도 부정글로 분류되기 때문에 감성어는 단순하게 참고 자료로만 살펴봐야 한다.
실제로 미국 도날드 트럼프 대통령은 지난 대선 당시 빅데이터 정보 감성어 분석에서 부정률이 높았음에도 불구하고 정보량에 앞서면서 대통령에 당선된 바 있다.
한국에서의 정보량과 감성어 간 상관관계가 이번 총선에서 어떻게 나타날지 귀추가 주목되고 있다.
김수아 빅데이터뉴스 기자 news@thebigdata.co.kr
<저작권자 © 빅데이터뉴스, 무단 전재 및 재배포 금지>