A/B Testing

Chan Lee 2024. 10. 29. 05:43

A/B testing is a type of experiment in Data Science that compare values of sampled individuals in Group A with values of sampled individuals in Group B.

Q. Do the two sets of values come from the same underlying distribution?

예를 들어, 대한민국의 A 지역에서 샘플링을 통해 측정한 평균 신장이 165cm, B 지역에서는 170cm라고 해보겠습니다. (observed statistic)

여기서, A와 B 지역의 평균 신장 차이가 same underlying distribution (대한민국 전체 신장 분포) 에서 비롯된 것으로 판단이 되는지를 고려할 수 있습니다.

If the result is not statistically significant (i.e. less than p-value cutoff), then we reject the null hypothesis that the average height of A is equal to B.

즉, A와 B에서 관측된 평균 신장의 차이가 확률적으로 관측될 수 있는지 (우연으로 관측된 것인지), 아니면 사실상 확률적으로 불가능한지 (p-value 가 cutoff보다 낮은지) 를 판단할 수 있습니다.

Sometimes, random permutation technique is applied on A/B testing.

우리는 Categorical Value의 차이가 원하는 test statistic에 영향을 주는지를 확인하고 싶을 때가 있습니다.

예를 들어, 임신 기간 중 어머니의 흡연 여부에 따른 신생아의 신장 차이를 확인하려고 하는 상황을 생각해봅시다.

흡연 여부 (True or False) 에 따른 신장의 평균을 구하고, 두 값 사이의 거리를 측정하여 이를 test statistic으로 삼겠습니다.

만약, 흡연 여부가 신생아의 신장에 영향이 없다면, 흡연 여부는 신생아의 신장에 영향을 주는 요소가 아니기 때문에 True인 집단과 Falsed인 집단의 평균 신장 분포에 유의미한 차이가 존재하면 안됩니다.

이럴 때, 우리는 categorical label, 이 경우에는 흡연 여부에 해당하는 값들을 랜덤하게 섞어줍니다 (without replacement)

이를 우리가 random permutation 이라고 부릅니다.

어차피 해당 레이블은 영향이 존재하지 않기 때문에, permutation을 하든 안하든 test statistic은 동일 (유사)하게 측정되어야 하겠죠?

즉, random permutation을 다회 반복하여 측정된 distribution에서 초기 observed statistic의 값의 p-value를 확인함으로써 statistical signifcance에 대한 판단을 내릴 수 있겠습니다.

더 자세한 내용은 UC Berkeley Data 8 Course의 무료 제공되는 인터넷 자료에서 찾아볼 수 있습니다.

https://inferentialthinking.com/chapters/12/1/AB_Testing.html

저작자표시 (새창열림)