일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- leetcode
- 데이터리안
- SQL고득점KIT
- 셀프조인
- sql문풀
- 활성사용자수
- 문풀
- 코테후기
- 데벨챌
- 시간함수
- 데이터리안넥스트레벨챌린지
- 프로그래머스
- 코테준비
- 위키독스
- join
- 서브쿼리
- mysql
- 파이썬
- 프로그래머스문풀
- 파이썬문풀
- 티스토리챌린지
- SQL
- leetcode문풀
- 데이터리안실전반
- 그로스해킹
- sql50
- with절
- 오블완
- levle1
- 데이터분석
- Today
- Total
꿈은 데이터분석가, 취미는 계획
[그로스 해킹] 데이터 파이프 라인, ABT(5장,6장) 본문
1. 데이터 파이프 라인 만들기
서비스 로그와 행동 로그
[서비스 로그]
가입,예약,결제 등의 하나의 트랙잭션이 완료되면 각각에 대한 서비스 로그가 남음
회원가입, 구매 등의 서비스 로그는 필수적으로 관리하여 해당 데이터를 쌓고 활용하는 데는 대부분 큰 문제가 없음
모든 변경분을 다 쌓을지 최종 수정본만 남길지, 분석용 데이터베이스를 실시간 스트리밍으로 적재할지, 일 배치로 적재할지 정도만 고려해도 충분
[행동 로그]
트랙잭션에 이르기까지 사용자가 서비스에서 하는 액션에 대한 로그를 의미
특정 상품을 클릭하거나 검색하거나 배너를 스와이프 하는 등의 액션이 예시
양도 많고 설계 과정에서의 자유도가 높아 수집이나 활용이 까다로운 편
필수적으로 관리하지 않아도 문제가 발생하지 않음, 정리되지 않아 방치되는 경우가 많다
평소에는 서비스 로그만 보는데 특정 퍼널의 전환율 하락 원인 파악을 위해 행동 로그를 확인한 적이 있다.이때 로그에 대한 정리 장표를 보고도 이해하기 잘 어려웠다...! 퍼널을 직접 타보면서 어떤 로그인지 하나하나 확인하면서 이해했다.
이벤트와 속성
상품을 클릭했다는 단순 이벤트 집계만을 생각했는데, 이 경우 어떤 행동을 얼만큼 하는지만 알 수 있고
어떤 사용자가, 어떤 것에 대해 행동을 했는지는 알 수 없게 된다.
여기에 사용자 속성이나 이벤트 속성이 있어야 사용자와 제품에 대한 인사이트를 얻을 수 있다.
단편적으로 생각하지 말고, 내가 알고 싶은 것이 무엇인지를 항상 고민하는 태도가 필요할 것 같다.
2. 성장실험: A / B 테스트
A/B테스트 설계 및 유의점
[통제변수]
- 실험 집단 / 통제 집단 모두에서 동등한 조건을 가져야 하는 변수를 의미
- 독립변수는 아니지만 종속변수에 영향을 미칠 수 있는 제 3의 변수
- A/B테스트 경험이 풍부하지 않으면 통제변수를 제대로 설정하지 않아
실험 집단과 통제 집단을 잘못 나누는 경우가 흔히 발생함
통제변수에 대한 개념이 이해되지 않아, 찾아보니 성별이나 연령처럼 종속변수에 영향을 미칠 수 있는 변수를 의미한다.
ABT자체가 독립변수에 따른 종속변수의 영향을 측정하는 것이니 확실히 쉽게 놓칠 수 있는 부분을 것 같다.
A/B테스트 설계 및 유의점
[통제변수]
- 실험 집단 / 통제 집단 모두에서 동등한 조건을 가져야 하는 변수를 의미
- 독립변수는 아니지만 종속변수에 영향을 미칠 수 있는 제 3의 변수
- A/B테스트 경험이 풍부하지 않으면 통제변수를 제대로 설정하지 않아
실험 집단과 통제 집단을 잘못 나누는 경우가 흔히 발생함
통제변수에 대한 개념이 이해되지 않아, 찾아보니 성별이나 연령처럼 종속변수에 영향을 미칠 수 있는 변수를 의미한다.
확실히 독립변수와 종속변수 설정에만 신경쓰다가 놓칠 수 있을 것 같다...!
`랜덤추출`은통제 변수가 잘 관리된 것을 전제로 모든 표본이 동일한 확률을 가진 상태에서 뽑는 무작위 추출(통제 변수가 잘 관리되지 않았다면 랜덤 추출이x)
회원번호를 홀/짝으로 나누는 것
⇒ 실제로 랜덤 추출되지 않을 가능성 있음
⇒ 가입경로 통제변수가 고려되지x(친구 초대 유입 사용자가 짝수에 많았 다면 짝수 가입자의 전환율이 더 높을 수 있음)
제 3의 변수가 종속 변수에 영향을 미칠 수 있다고 판단된다면 이를 통제 변수에 포함하여 샘플링 과정에 반영
⇒ 종속변수에 미치는 영향을 차단해야 함
추출의 과정만 랜덤하면 된다고 생각했는데, 책의 예시 처럼 다양한 통제변수를 고려하는 것을 꼭 챙겨야겠다!
테스트 비용과 크기
표본의 크기가 커지면 p값은 낮아지는 특성이 있어, 실험집단의 규모가 매우 크다면 p값이 가지는 의미가 왜곡될 수 있음
p값이 충분히 낮아도 집단 간 차이 자체가 미미하다면 실질적으로는 사업적 관점에서 의미가 없는 경우도 많음
ex) 통제조건 → 구매전환율 3%, 실험조건 → 구매전환율 3.5%, p<0.01(99% 유의수준에서 통계적으로 의미있는 결과)
- DAU가 1천명, ARPPU가 1만원으로 가정
⇒ B조건이 되면 일 5만원(1,000*0.005*10,000)의 추가 매출이 발생
- DAU가 100만명, ARPPU가 1만원으로 가정
⇒ B조건이 되면 일 5천만원(1,000,000*0.005*10,000)의 추가 매출이 발생
- 테스트 자체의 결과로 얻어지는 p값 외에 실험이 실질적으로 효과를 미치는 크기나 영향력을 고려해서 판단해야 함
ABT를 하게 되면, 어떤 것이 win인지에만 초점을 맞추고 생각했는데 그것이 가져올 효과가 얼마만큼인지는 생각해보지 않았다...!
사용자 & 도메인에 대한 지식
다음 질문에 대해 고민하고 답을 찾아보면서 담당하는 서비스 도메인에 대해 깊이 있게 이해하고 있어야 함
우리 서비스는 어떤 카테고리에 속해 있고, 경쟁자는 누구인가?
그 카테고리에 속한 서비스들은 어떤 특성이 있는가?
우리는 어떻게 돈을 벌고 있는가?
우리 서비스와 관련된 법이나 규제는 어떠한가?
우리 서비스 및 관련 카테고리는 지난 10년간 어떻게 발전해 왔는가?
마지막으로 위 질문에 대해 답하는 과정이 꼭 필요할 것 같다.
최근 사수분과 업무에 대한 논의 시 지표에 대한 이해를 위해서는 전체적인 이해도가 높아져야 한다고 말씀하셨다.
그러기 위해서는 위 질문에 대한 답, 그리고 우리팀의 대시보드 지표 외에도 마케팅 지표나 산업의 흐름을 이해하는 것이 필요할 것 같다.
마지막으로, 책을 그리고 업무를 하면서 드는 생각은 "단편적"으로 보면 안된다는 것이다.
다방면으로 고민하고 실행해 보는 과정이 필요하며,이를 통한 레슨런이 쌓이면서 그로스 되는 것이다.
특히 지금 나에게 중요한 것은 1개의 결과를 만드는데 집중했던 방식을 버리고,
실험을 통해 검증하고 이를 통해 또 다시 실험하는 적극적인 태도가 필요한 것 같다.
'DATA > 데이터_책' 카테고리의 다른 글
[그로스 해킹] 저자와의 북토크(데이터 리안) (0) | 2024.12.08 |
---|---|
[그로스 해킹] AARRR, 지표의 이해, 북극성지표(3~4장) (2) | 2024.11.17 |
[그로스 해킹] 그로스 해킹의 개념과 전제조건 + AARRR(1~3장) (8) | 2024.11.10 |
그로스해킹 책 리뷰 (0) | 2024.05.12 |