Part 1: Log 검증 첫걸음
Data Analyst

빅데이터 관련 자료

Part 1: Log 검증 첫걸음

carpe08 2024. 4. 16. 17:18
320x100
320x100

안녕하세요! 데이텀 팀 데이터분석가 박상욱입니다.

현재 제가 하는 업무는 web/App log 분석 관련해서 진행하고 있습니다.

제가 다룰 주제는 'Web/App log 데이터를 사용하여 Google Analytics KPI 이관'이며, 이번글에서는 Google Analytics와 수집된 로그 지표의 비교분석에 대해 이야기 하도록 하겠습니다.

먼저 Web/App Log와 Google Analytics가 무엇인지 간단히 살펴보겠습니다.

Web/App Log분석(웹/앱 로그 분석)이란?

 

유저가 웹 또는 앱 서비스를 이용할 때, 어떤 유저가 어느 페이지에 접속하여 얼마나 오랫동안 머물렀는 지 등의 log 데이터를 수집하여 마케팅에 필요로하는 지표들을 중심으로 분석하는 것입니다.

\유저 A가 사이트 페이지에 접속하여 상품을 조회하고 마음에 드는 상품을 구매하여 완료하는 것까지 모든 고객의 행위 로그는 기록이 됩니다. 한 유저 당 수십에서 수백개의 로그가 쌓이게 됩니다. 이러한 방대한 로그 데이터를 가지고, 중요한 인사이트를 얻을 수 있습니다. 예를 들어 회원가입 페이지에 접속한 유저가 1,400명이며, 회원가입이 최종적으로 완료된 로그 기록은 200명일 때, 회원가입 페이지에 접속한 유저의 약 14.3% 만 회원가입에 성공하였고, 나머지 유저의 85.7% 는 이탈했음을 알 수 있습니다. 또한, 회원가입 과정에서 유저에게 불편한 사항들이 있거나 무엇인가 문제가 있다는 정보를 얻게 되며, 이에 대해 개선이 필요하다고 파악할 수 있습니다. 사용자의 이탈률은 줄이고, 잠재 고객을 정확히 예측하고 효과적인 구매 촉진을 위한 행위 분석을 진행하기 위해서는 로그 분석이 필수적 입니다.

Google Analytics(구글 애널리틱스,GA)란?

 

마케팅 분야에서 일하고 있다면 적어도 한번쯤은 Google Analytics에 대해 들어보았을 것입니다. Google Analytics는 줄여서 GA로 표기하며, Google에서 무료로 제공하는 웹 로그분석 Tool입니다. GA는 사용자 수, 사용자의 유입 출처(Google 광고, Facebook) 등)를 확인할 수 있고, 행동(이탈률, 세션당 페이지 수, 전환 등)을 파악하기 위해 사용됩니다. 이를 통해 얻은 인사이트는 이탈률을 줄이고, 더 많은 전환율과 트랙픽을 이끌수 있도록 개선하는데 많은 도움을 줍니다.

그래서 이렇게 좋은 Google Analytics는 어떠한 단점이 있길래 제거를 할까?

1. Scalability

2. Accuracy

Google Analytics의 숫자는 과연 정확하다고 할 수 있을까? GA에서 데이터 샘플링은 세션을 사용하는 기간당 속성 값 에서의 세션이 500K를 넘어가게 되있을 때 발생합니다. 만일, 해당 기간동안, 발생한 세션이 490K라면, 이 속성에 포함되어 있는 데이터는 샘플링 하지 않습니다. 이처럼 데이터 양이 많아짐에 따라 샘플링으로 넘어가기 때문에 기본으로 제공하는 Default Reports가 아니라면 Segement 적용, Filter적용, Custom Report 등 보고서의 정확도가 낮아지게 될 것입니다.

3. Availability

Google Analytics 가 모든 지표를 확인할 수 있는 만능 Tool은 아닙니다. 상품의 unique한 값, 개인 식별 정보 등과 같이 Google Analytics에서 볼 수 없는 정보가 많습니다. 특히 Google 은 개인 정보와 관련된 정책은 엄격하게 다루고 있어  개인식별정보와 관련된 데이터를 Google Analytics에서 취급하게 된다면, 수집한 시간대의 모든 데이터를 삭제할 수 있는 권한을 가지고 있습니다. 이렇듯, Google Analytics로 유저의 행동 분석을 고도화 하기에는 지표들이 부족하고, Deep Dive 할 수 없는 환경입니다.

이러한 이유로 저희는 작업 효율 개선 및 비용을 절감하고자 최종적으로 Google Analytics를 제거하려고 합니다.

Log 검증

1. GA 지표들 파악

여러가지 지표들이 있지만, 그 중 저는 GA의 Home의 대표 지표들을 파악해 Notion에 정리하였습니다.

2. Logging Tool

Logging 분석을 진행하면서 편하다고 느낀 Tool을 소개하겠습니다. Window의 경우 Fiddler , Mac의 경우 Proxyman 이 사용하면서 가장 편하고 유용합니다. 그 외 추가로 wisetracker 가 있습니다. 저는 Mac을 사용하고 있기 때문에 Proxyman을 사용하여 웹 디버깅을 시작하였습니다.

 

간단히 소개하자면 세 가지 부분으로 설계가 되어있습니다.

  • 1. Source List (왼쪽): 모든 앱과 도메인이 나열
  • 2. Flow List (오른쪽 상단) : 선택한 소스의 모든 흐름
  • 3. Flow Content (오른쪽 하단): 모든 요청 / 응답 콘텐츠를 확인

3. Log 검증

앱을 분석하기 위해  http://api.0000 만 URL 필터를 설정하고, Get이 아닌 Post Method 필터를 설정 합니다.

만약, 특정 앱의 홈에서 남성 카테고리를 클릭할 경우

Proxyman에서는 Flow List와 Flow Content에 로그 데이터가 남게 되는 것을 확인할 수 있습니다.

이 로그 데이터에는 JSON 형식으로 유저 ID, Session 정보, Device 정보, Event 정보 등 파악 할 수 있습니다. 이처럼 유저가 웹 서비스에 접속해 특정 화면을 보거나 행위를 할때, 설계된 스키마대로 로그 데이터가 쌓이게 됩니다. 실제 수집된 로그는 아래와 같습니다.

 

퍼널 분석(Funnel Anaylsis)

이렇게 쌓인 로그 데이터를 가지고 고객 분석을 위한 하나의 마케팅 전략인 퍼널 분석을 해보겠습니다.

퍼널 분석(Funnel Anaylsis) : 고객이 유입되고 전환에 이르기까지 주요 단계를 수치로 확인하는 분석

즉, 퍼널 분석은 유입된 고객이 전환에 이르기까지의 모든 여정을 흐름대로 파악하여 어떤 단계에서 고객이 많이 이탈하는지를 알아보는 분석입니다. Web 또는 App을 개선할 때 퍼널 분석을 자주 사용하며,  이탈률이 가장 큰 곳'을 우선시하여 개선을 합니다. 이를 웹 로그를 추출해보도록 하겠습니다.

 

고객이 방문하여 로그인을 진행하고, 원하는 상품을 장바구니에 담아 주문을 클릭해 최종적인 구매가 완료된 과정을 나타내 보았습니다. 로그인에서 상품을 장바구니 담는데 가장 이탈률이 심하였고, 주문을 하여 최종적인 구매가 완료가 되는 과정도 많은 이탈률이 보입니다.

Google Analytics vs Redash 지표 비교

특정 일자 기준으로 고객이 최종적인 주문 완료 페이지를 본 페이지 뷰 수는 2,937 명임을 알 수 있습니다.

그런데 Google Analytics와 비교를 해보면 확실하게 페이지 뷰 수가 차이가 있습니다.

 

Google Analytics는 완전히 정확한 데이터 정보가 아니며, 신뢰할 수 있는 데이터 정보는 아님을 알 수 있습니다.

다음 글에서는 Google Analytics를 최종적으로 제거하기 위해 지표들을 Redash를 통해 나타내고자 합니다. 감사합니다.

 

320x100
320x100