MAB (Multi-Armed Bandit) 테스트 소개

👍

핵클 MAB를 통해서 프로모션, 추천 알고리즘 등을 쉽게 최적화 해보세요

MAB (Multi-Armed Bandit) 란?

한정된 리소스(시간, 트래픽)를 갖고 여러 개의 테스트 그룹 중 가장 좋은 그룹을 선택 하는 것입니다. 예를 들어, 여러 개의 슬롯 머신 중 어떤 머신에 돈을 걸어야 할지 결정하는 상황을 생각해볼 수 있습니다. 이 때 MAB 알고리즘은 각 선택 사항에 대한 보상을 평가하고, 최적의 선택을 위해 시간이 지남에 따라 보상 정보를 활용하여 개별 머신의 선택 비율을 조정합니다. 이를 통해 알고리즘이 점차 더 나은 선택을 찾아내고 최대한의 보상을 얻을 수 있도록 도와줍니다. 이는 전통적인 A/B테스트 보다 성공 지표를 명시적으로 최적화 해주고 빠른 의사결정을 할 수 있게 해주기 때문에 온라인 광고, 클릭율 최적화, 추천 알고리즘 최적화 등 다양한 분야에서 활용됩니다.

MAB와 A/B 테스트는 어떻게 다른가요?

  1. A/B 테스트는 일정 기간 동안 여러 목표 지표와 이들의 통계 값인 p-value 또는 Bayesian 확률을 수집해 분석(해석)과정을 거쳐 의사 결정을 내리는데, MAB는 한가지 성공 지표 (전환율, CTR 등) 를 최대화하는 것에만 관심이 있어 이를 극대화 하기 위해 트래픽을 자동으로 조정하므로 분석(해석) 과정이 없습니다. MAB의 주요 목표는 "어떤 테스트 그룹이 가장 큰 보상( = 성공 지표 최적화)을 보여줍니까?"라고 답하는 것입니다.

  2. MAB의 경우 통제 그룹이 필요 없습니다. 그렇기 때문에 p-value와 같은 통계 값 또는 A 그룹 보다 우수할 확률을 제공하지 않습니다.

  3. MAB는 변경 사항이 영구적이지 않은, 짧고 일시적인 경험을 위한 전환을 극대화하는 데 적합합니다(ex. 프로모션 제안, 헤드라인 테스트, 웨비나 등록 페이지 등). 또는 검색 및 추천 로직 같은 알고리즘 테스트와 같이 지속적인 최적화가 필요한 경우 활용하는 것을 추천합니다.

핵클의 MAB는 어떤 알고리즘을 활용하나요?

MAB 알고리즘으로는 Thompson Sampling (Bayesian) 방법을 채택하고 있습니다. MAB가 시작된 이후 n시간 동안에는 여러 개의 테스트 그룹에 트래픽을 균등 분배하고, 이후 1시간 주기로 Thompson Sampling 알고리즘을 사용하여 각 테스트 그룹이 가장 우수한 테스트 그룹일 확률을 추정하고, 해당하는 비율 만큼 트래픽을 할당합니다. 만약 3개의 테스트 그룹 A, B, C가 있고 각 그룹이 가장 우수할 확률이 70%, 20%, 10% 일 때 해당 하는 비율 만큼 개별 그룹에 트래픽을 할당 합니다.

▶︎ MAB 테스트 생성방법 알아보기: MAB 테스트 생성하기