그로스해킹에서의 A/B test : 그룹간 성과지표의 유의미한 차이 판단

🚀 Growth

그로스해킹에서의 A/B test : 그룹간 성과지표의 유의미한 차이 판단

fiftyline 2025. 6. 10. 15:29

그룹(A/B)간 성과지표(CTR, CR, CPA, RPV, Bounce Rate)의 차이가 유의미한지 판단하기 위한 A/B test

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
import statsmodels.formula.api as smf

# A/B 테스트 데이터 하드코딩 (Group 데이터를 직접 입력)
data = {
    "Group": ["A", "A", "A", "A", "A", "B", "B", "B", "B", "B"],
    "Visitors": [1000, 1200, 1100, 1150, 1300, 1050, 1250, 1400, 1350, 1280],
    "Clicks": [80, 100, 85, 90, 110, 105, 120, 130, 140, 125],
    "Conversions": [50, 55, 53, 60, 65, 70, 75, 80, 85, 90],
    "Revenue": [5000, 5500, 5300, 6000, 6500, 7000, 7500, 8000, 8500, 9000],
    "Bounce": [400, 420, 410, 430, 450, 390, 400, 420, 410, 430],
    "Ad_Cost": [2500, 2600, 2700, 2800, 2900, 2400, 2550, 2700, 2850, 3000]
}

df = pd.DataFrame(data)

# Group 변수를 범주형 데이터로 변환 (FutureWarning 방지)
df["Group"] = df["Group"].astype("category")

# 성과 지표 계산
df["CTR"] = df["Clicks"] / df["Visitors"]
df["CR"] = df["Conversions"] / df["Visitors"]
df["CPA"] = df["Ad_Cost"] / df["Conversions"]
df["RPV"] = df["Revenue"] / df["Visitors"]
df["Bounce_Rate"] = df["Bounce"] / df["Visitors"]

# A/B 그룹별 평균 비교 (observed=True 추가하여 FutureWarning 방지)
summary = df.groupby("Group", observed=True)[["CTR", "CR", "CPA", "RPV", "Bounce_Rate"]].mean()
print(summary)

# ANOVA 분석 함수
def perform_anova(metric):
    model = smf.ols(f"{metric} ~ C(Group)", data=df).fit()  # C(Group) 사용하여 범주형 변수로 처리
    anova_table = sm.stats.anova_lm(model, typ=2)
    return anova_table

metrics = ["CTR", "CR", "CPA", "RPV", "Bounce_Rate"]
anova_results = {metric: perform_anova(metric) for metric in metrics}

# ANOVA 결과 출력 (iloc[0] 사용하여 FutureWarning 방지)
for metric, result in anova_results.items():
    print(f"\n{metric} ANOVA 결과:\n", result)
    p_value = result["PR(>F)"].iloc[0]  # FutureWarning 해결
    if p_value < 0.05:
        print(f"{metric}에서 A/B 그룹 간 차이가 유의미함 (p-value: {p_value:.4f})")
    else:
        print(f"{metric}에서 A/B 그룹 간 차이가 유의미하지 않음 (p-value: {p_value:.4f})")

# 성과 지표 시각화
fig, axes = plt.subplots(1, 5, figsize=(20, 4))
for i, metric in enumerate(metrics):
    axes[i].bar(summary.index, summary[metric], color=['blue', 'orange'])
    axes[i].set_title(metric)
    axes[i].set_xlabel("Group")
    axes[i].set_ylabel(metric)

plt.tight_layout()
plt.show()

Group	CTR	CR	CPA	RPV	Bounce_Rate
A	0.080696	0.049238	47.899635	4.923781	0.368559
B	0.098043	0.063417	33.779692	6.341700	0.326214

CTR ANOVA 결과:

	sum_sq	df	F	PR(>F)
C(Group)	0.000752	1.0	55.963648	0.000071
Residual	0.000108	8.0	NaN	NaN

CTR에서 A/B 그룹 간 차이가 유의미함 (p-value: 0.0001)