본문 바로가기

데이터과학/업계 이야기20

추천시스템: 컨텐츠 기반 필터링 컨텐츠 기반 필터링이란? 컨텐츠 기반 필터링은 사용자가 과거에 경험했던 아이템 중 비슷한 아이템을 현재 시점에서 추천하는 것입니다. Information Retrieval과 Machine Learning의 중간 지점 정도라고 생각할 수 있습니다. 즉, 컨텐츠 기반 추천시스템은 정보(아이템)를 찾는 과정과 과거 정보를 활용해서 유저의 성향을 배우는 문제라고 볼 수 있습니다. 아래 그림에서 볼 수 있듯이, 협업필터링과는 개념이 다릅니다. 가령, 웹사이트, 블로그, 뉴스를 구독하고 있는 고객에서 비슷한 컨텐츠의 게시글(item)을 찾아서 추천해 주는 모델을 생각해 보시면 됩니다. 하지만, 컨텐츠 기반 추천시스템은 계속 편향적으로 유저에게 아이템을 추천하는 경우가 많으니 모형을 개발할때 주의해야 합니다. 컨텐츠.. 2020. 12. 18.
인공지능(Artificial Intelligence)의 4가지 유형 이번 포스팅은 미국 미시간 주립 대학교의 Ared Nintze 교수가 Cloud & Computing에 기고한 글을 변역한 것입니다. 원문을 여기를 통해서 읽어보실 수 있습니다. 인공 지능 최신 연구에 따르면 지각 능력과 지능을 갖춘 기계가 완성되기까지 오랜시간이 걸리지 않을 것 같습니다. 기계는 언어 명령을 이해하고, 그림을 구별하고, 자동차를 운전하고 게임을 우리보다 더 잘합니다. 2016년 백악관 보고서에 따르면 인공지능의 미래에 대해 일부 회의적인 견해를 가지고 있습니다. 향후 20년 동안 기계는 "인간과 비슷하거나 그 이상으로 광범위하게 적용 가능한 지능을 보여주지 않을 것"이라고 말합니다. 하지만 앞으로 몇 년 동안 "기계는 더 많은 분야에서 인간 수준의 성능에 도달하고 더 많은 작업에서 인간.. 2020. 12. 13.
시계열 데이터 분석 및 예측을 위한 완벽한 가이드 금융 시장의 추세 또는 전기 소비량을 예측하는 모델에서 시간은 중요한 요소입니다. 예를 들어, 전기 생산량이나 전기 요금을 조정하기 위해 하루 중 어느 시간에 전력 소비가 가장 많을지 예측하는 것은 생각해 볼 수 있습니다. 시계열은 단순히 시간 순서로 정렬된 일련의 데이터 포인트입니다. 시계열 모형에서 시간 정보는 독립 변수이며 최종 목표는 일반적으로 미래를 예측하는 것입니다. 시계열 데이터를 다룰때 다음의 두가지를 중요하게 고려해야 합니다. 시계열의 안정성(by examining stationary test) 시계열의 주기적인 변동성을 의미하는 계정성(seasonality) 오차항의 자기상관(by examining Durbin-Watson statistics) 이번 포스팅에서는 시계열의 다양한 특성과 .. 2020. 12. 11.
코호트 retention을 통한 고객 고객평생가치 (LTV) 추정 이번 포스팅은 고객의 lifetime 가치를 추정하는 2부작 시리즈의 1부입니다. 이 글에서는 2부에서 Python 코호트 분석 예제를 설명하기 위해 필요한 개념석 수준의 고객평생가치(lifetime value, LTV) 추정 방법을 설명합니다. 왜 LTV가 필요할까요? 고객 획득 비용(customer acquisition costs, CAC)에 대한 벤치 마크를 만들고, 고객을 비교하는 데에는 두 가지 이유가 있습니다. LTV를 추정하기 위해 이탈 또는 retention을 사용하는 것에 대해 설명하는 여러 이론들의 핵심 아이디어는 동일하지만 계산 방식은 크게 다릅니다. 따라서, 어떤 분석가는 이번 포스팅을 읽으면 이익을 얻을 수도 있습니다. 하지만 이번 포스팅의 주요 목표는 과거 보유 데이터를 사용하여.. 2020. 11. 14.
Deep Few-Shot 이상탐지 라벨이 정의된 몇 개의 anomaly 예제를 활용하는 이상탐지 수행 일반적으로 기존의 이상탐지 기법은 레이블 있는 anomaly 테이터가 부족하기 때문에 비지도 학습 (완전히 레이블이 지정되지 않은 데이터에 대해 학습 됨) 또는 반지도 학습 (배타적으로 레이블이 지정된 정상 데이터에 대해 학습 됨)을 이용했습니다. 결과적으로 실제 많은 이상탐지 애플리케이션은 레이블 정보가 있다 하더라도 이와 같은 사전 지식이 탐지 기술에 지렛대 역할을 하지 못합니다. 이렇게 제한된 labeled anomalies 정보는 배포 된 감지 시스템(예 : 성공적으로 감지 된 네트워크 침입 기록 몇 개)에서 비롯되거나 고객이보고하고 은행에서 확인한 소수의 사기성 신용 카드 거래와 같은 사용자로부터 발생할 수 있습니다. 매우 적은.. 2020. 11. 11.
디지털 광고에서 데이터 과학자의 역할 디지털 마케팅은 마케팅 전반에 결쳐서 중요한 역할을 하고 있습니다. 수년에 걸쳐 광고 분야를 선점했던 신문 및 잡지와 같은 인쇄물 형태는 디지털 플랫폼의 등장과 함께 점유율이 크게 감소했습니다. 요즘 디지털 미디어를 통한 광고비 지출은 텔레비전 광고와 비슷한 수준이지만 성장률을 훨씬 가파르게 증가하고 있습니다. 2018년 디지털 광고의 성장률은 12 %, 텔레비전은 0.5 %입니다. 이러한 변화하는 행동은 두 가지 주요 요인으로 설명 할 수 있습니다. 현대인들은 디지털 매체를 통해 소비하는 시간이 증가하고 있으며, 특정 그룹을 타켓팅 할 수 있는 디지털 마케팅만의 장점을 들 수 있습니다. 후자는 효과적인 캠페인을 제공하기 위해이 매체에서 수집 및 분석되는 방대한 양의 데이터 분석을 통해 가능해졌습니다. .. 2020. 11. 11.
728x90