본문 바로가기
데이터과학/업계 이야기

모형의 성능 지표 : 누적 이익 및 Lyft 차트

by 경성현 2021. 2. 25.

towardsdatascience.com/meaningful-metrics-cumulative-gains-and-lyft-charts-7aac02fc5c14

 

Meaningful Metrics: Cumulative Gains and Lyft Charts

Nowadays, all major companies rely heavily on their data science capabilities. Business data units are becoming larger and more…

towardsdatascience.com

최근 많은 기업에서 데이터 사이언스 조직에 크게 의존하고 있습니다. 분석의 복잡성과 다양성 측면에서 비즈니스 데이터 단위는 점점 더 커지고 정교 해지고 있습니다. 그러나 데이터 과학 솔루션을 현실문제를 해결하는 비즈니스에 적용했을때 성공 여부는 결과의 해석 가능성에 크게 좌우됩니다. 개발된 모델이 뛰어난 정확도 점수를 제공하더라도 다양한 비즈니스 이해 관계자의 요구에 맞지 않으면 무시 될 수 있습니다.

[이미지](miro.medium.com/max/700/1*KwJ0tV3csPzsqbVI57NX0g.jpeg)

 ROC AUC 점수는 비 기술적인 관리자에게는 굉장히 추상적인 개념이기 때문에 비즈니스 적용을 위한 모형의 성능을 판단하기에 충분한 정보가 아닙니다. 후자의 이유 때문에 모든 분석가가 모델의 결과를 설명 할 때 고려해야 할 두 가지 의미있는 메트릭인 누적 이득(accumulative gain) 및 리프트 차트(lyft curve)를 살펴보겠습니다.

통신 업계에서 고객 이탈 사례 연구의 예를 보여 드리겠습니다. 통신 회사가 고객의 20%에게 한 달 동안 무제한 데이터 사용을 제공하여 고객 이탈률을 최소화하기로 결정한 비즈니스 시나리오를 상상해보십시오. 관리자 중 한 명이 프로모션이 편향되지 않도록 5번째로 주문한 고객에게 선물을 보낼 것을 제안합니다. 누군가가이 마케팅 프로모션을 위해 더 나은 전략을 제안하지 않는 한 결정은 거의 끝났습니다.

고객의 샘플 데이터 (raffisahakyan의 GitHub에서 액세스 할 수 있음)가 있으면이 프로모션이 시작되기 전에 고객 이탈을 예측하는 RandomForestClassifier 모델을 구축하기로 결정했습니다. 그런 다음 데이터를 전처리하고, 불필요한 열을 제거하고, 다중 공선 성을 제거하고 시각화합니다. 마지막 단계에서는 GridSearchCV를 사용한 모델 학습 및 최적화. 참고로 이 글은 모델 최적화에 있는것이 아니라 누적 이익 및 Lyft 차트를 그리는 방법에 관한 것임을 잊지 말아주세요.

이를 위해 누적 이득과 리프트 곡선을 제시합니다. 누적 이득 곡선은 모델의 성능을 평가하고 결과를 무작위 선택과 비교하는 평가 곡선입니다. 모델에 따라 타겟이 될 확률이 가장 높은 인구의 일정 비율을 고려할 때 도달 한 타겟의 비율을 보여줍니다. 파이썬에서는 우리를 위해 플롯을 만들 scikitplot 라이브러리가 제공됩니다.