노출, 클릭, 전환, 설치, 조회, 좋아요, 팔로우, 방문, 구매, 금액, ROI, ROAS...
우리는 하루에 수많은 데이터와 그래프를 보기도 하고 만들기도 합니다. 그리고 이 데이터를 기반으로 많은 결정을 내리는데요.
데이터를 제대로 읽는 것은 마케터와 기획자에게 중요하지만, 애석하게도 회사 또는 사수가 친절하게 알려주는 사항은 아닙니다.
보기 좋은 그래프와 결과 값에 현혹되지 않고 데이터를 정확하게 읽고 만드는 데 도움이 되었으면 하여
데이터에 익숙하지 않은 분들이 알고 있으면 좋을, 데이터 읽는 기본적인 방법을 소개해 드립니다.
1편 : 데이터 소스의 중요성
트렌드, 업종, 타깃 등을 분석한 리포트에는 기본적으로 데이터의 소스가 명시되어 있습니다. 분석 기준을 정확하게 명시한 리포트도 있고, 작게 기재한 리포트도 있는데요. 기준이 눈에 잘 보이지 않더라도 어떤 데이터를 분석한 자료인지 데이터 소스를 꼭 먼저 확인해야 합니다.
어떤 데이터인지 확인해보세요!
데이터의 양이 얼마나 되는지
데이터의 분포는 어떻게 되어있는지
언제, 어디의 데이터인지
리서치 업체 3곳에서 대한민국 국민의 짜장면 vs 짬뽕 선호도 조사를 했습니다.
(아래의 데이터는 예시를 위해 가상으로 만들었습니다)
좌측 그래프를 보면 짜장면을 선호하는 비율이 A와 C 리서치가 62%로 동일했고, B 업체는 약간 낮은 60%이었는데요. 며칠 뒤, 같은 응답자에게 다시 선호도를 물었더니 7명의 응답자가 짜장면에서 짬뽕으로 선택을 바꿔 우측과 같이 선호도 비중이 바뀌었습니다. A 리서치는 짜장면보다 짬뽕의 선호도가 더 높게 나왔고, B 리서치는 짜장면의 선호도가 58%로 하락, C 리서치는 이전 수치와 같았는데 왜 이런 결과가 나온 걸까요? 이유는 응답자 수가 달랐기 때문입니다.
분석에 사용하는 데이터양이 적을수록 작은 변화가 데이터의 결과에 큰 영향을 주게 됩니다. 응답자 몇 명이, 클릭 몇 건이, 전환 몇 개로 데이터가 바뀐다면 데이터로 효과를 검증하고 트렌드를 파악하는 마케터가 인사이트를 찾아 마케팅 방향을 결정하는데 어려움을 줄 수 있는 것은 당연하겠죠. 그래서 데이터를 보실 때 첫째로 전체 데이터의 모수(규모)가 어느 정도인지 체크해야 합니다.
데이터의 규모를 확인했다면 자연스럽게 따라오는 것이 분포입니다. 우리나라의 연령별 인구수 비중은 아래와 같습니다.
(행정안전부, 주민등록 인구통계 2020.8월 기준)
전체인구의 40%가 50대 이상이며, 40대 이상은 무려 56%로 확인되는데요, 위의 분포를 보니 조금 의아했던 아래 기사 제목이 이해됩니다.
30대인 저와 제 지인들은 대부분 인스타그램을 이용하기 때문에 인스타그램 이용자 수가 가장 많을 것으로 예상했지만, 우리나라 인구는 40대 이상이 많으므로 40대 이상의 주 이용 SNS가 전체 데이터에도 영향을 주었습니다. 만약 20대나 30대의 응답자가 더 많았다면 위의 데이터는 당연히 바뀌었겠죠.
특히, 한정된 응답자로 분석하는 표본 데이터는 응답자 한명 한명의 의견이 결과에 크게 반영될 수 있어 마케터는 데이터의 분포에 맞춰 데이터를 해석하고 마케팅에 활용해도 될지를 결정해야 합니다.
“응답자의 90%가 카카오 라이언 아이템 보유”
1만 명에게 설문 조사하여 위와 같은 결과가 나왔다고 가정해보겠습니다. 만약 A로 구성된 응답자라면 “라인언은 국민 캐릭터” 라고 해석할 수 있지만, 응답자의 분포가 B와 같다면 국민 캐릭터로 해석하는 것은 무리가 있겠죠. C의 분포라면 어떨까요, 여성에게 라이언의 인기가 큰 것으로 판단하여 뷰티 브랜드에 라이언 콜라보레이션 마케팅을 제안할 수 있는 데이터이지만, 면도기 브랜드에 제안하기에는 맞지 않는 데이터입니다.
자료 서치 중, 내 업종과 타깃에 딱 맞는 데이터를 찾았습니다. 데이터의 인사이트를 보니 좋은 마케팅 아이디어도 떠오르는데요, 이럴 때 놓칠 수 있는 것이 데이터 소스의 기간과 지역 체크입니다.
리포트를 보다 보면 데이터의 기간이 빠져 있거나, 최근에 작성한 리포트임에도 불구하고 2~3년 전의 데이터로 분석한 내용을 발견할 때가 있는데요. 코로나19 팬데믹 이전과 이후의 트렌드는 너무나도 빠르게 바뀌고 있어 내용이 아무리 좋더라도 지금의 마케팅에 활용하는 것은 한 번 더 고려해야 합니다.
(데이터 기준: 에이스카운터, 등산화 총 유입수 약 24,000 / 캠핑용품 유입 수 약 56,000 / 연도별 월 최다 유입수를 100으로 설정하여 상대적인 추이를 확인)
2019년과 2020년의 등산화와 캠핑용품 키워드 유입수를 비교한 데이터입니다.
‘등산화’ 키워드 유입수는 날씨가 선선해지는 9월에 가장 높았던 2019년과 다르게 2020년에는 7월에 최고 유입수를 기록했습니다. 코로나19 확진자 수가 낮아지면서 외부 나들이가 늘은 것으로 보입니다. ‘캠핑용품’은 여름철에 유입수가 많이 상승한 2019년과 다르게 2020년은 3월부터 상승하여 높은 유입수를 계속 유지하고 있어, 거리두기 여행이 가능한 캠핑의 탐색이 상승한 것을 보여주고 있습니다.
(관련 기사 : '500만 육박' 캠핑족 겨냥한 유통업계 , 한국경제 , 2020-9-16)
그래프가 보여주듯, 최근 트렌드는 시즌보다 코로나19의 확진 추이의 영향이 더 크므로 데이터의 기간을 꼭 확인해야 합니다. 같은 맥락으로 나라, 지역마다 구성원의 특징이 다르고 발생하는 이슈가 다르기 때문에 어떤 한정된 지역을 대상으로 한 데이터인지 체크하시기 바랍니다.