본문 바로가기

데이터과학7

데이터 분석가와 데이터 과학자: 차이점과 연결점 우리가 살고 있는 디지털 시대에서는 하루에 약 2.5퀸틸리언 바이트의 데이터가 생성되고 있습니다. 이러한 상황에서 데이터 분석과 데이터 과학은 정보의 홍수를 관리하고 이해하는 데 매우 중요한 역할을 하고 있습니다. 인공지능 분야가 급격하게 발전할 수 있었던데는 "공유" 문화가 큰 역할을 했습니다. 내가 개발한 모델을 공개된 저장소에 공유하고, 다른 사람의 시행착오로 개발된 이러한 인공지능 기술 위에 나만의 인공지능 모델을 개발하는 방식으로 계속해서 새로운 기술이 쏟아져 나오고 있습니다. 이러한 시기에 많은 기업에서 데이터 분석과와 데이터 과학자의 경계가 점점 희미해 지고 있는 것은 사실이지만, 목적과 방법론에서 명확하게 구분됩니다. 인공지능 제품 매니저로서, 이 두 분야 간의 차이점을 이해하고 이를 잘 .. 2023. 11. 19.
금융에서의 딥러닝 (개요) 이 기사는 Re-work Deep Learning Summit에서 발표된 내용을 요약했습니다. 해당 발표에서는 금융 모델이 실패하는 이유와 딥러닝이 그 격차를 어떻게 메울 수 있는지 설명했습니다. 더 나아가 금융 분야의 딥 러닝에 대한 세 가지 사용 사례와 이러한 모델의 우수성에 대한 증거를 제시했습니다. 금융이 가장 계산 집약적인 분야인 반면, 금융에서 널리 사용되는 모델은 감독 및 비지도 모델, 상태 기반 모델, 계량 경제 모델 또는 심지어 확률 적 모델까지도 과잉 피팅, 휴리스틱 및 열악한 문제로 인해 손상됩니다. 금융 영역은 매우 복잡하고 비선형적이며 서로 영향을 미치는 수많은 요인이 있기 때문입니다. 이를 해결하기 위해 이미지 인식, 음성 인식, 그리고 감정 분석 분야에서 입증된 딥러닝 연구를 .. 2021. 2. 14.
Prophet을 이용한 주가 예측 Prophet는 비선형 추세가 연도 별, 주별, 일별, 계절 성과, 그리고 휴일 효과에 반영할 수 있는 시계열 모형입니다. 계절적 효과가 강하고 여러 시즌의 과거 데이터가 있는 시계열에서 가장 잘 작동합니다. Prophet은 누락된 데이터와 추세 변화에 강하며 일반적으로 이상 값을 잘 처리합니다. Prophet은 Facebook의 핵심 데이터 사이언스팀에서 출시한 오픈 소스 소프트웨어입니다. CRAN 및 PyPI에서 다운로드 할 수 있습니다. 예측은 조직의 업무 계획, 목표 설정, 그리고 이상 탐지에 활용할 수 있는 데이터 사이언스 과제입니다. 하지만, 이러한 중요성에도 불구하고 신뢰할만한 고품질의 예측을 생성하는 것은 매우 어려운 일입니다. 또한, 시계열 모델링에 대한 전문 지식이 있는 분석가가 많지 .. 2021. 1. 4.
SQL 쿼리, 파이썬 Pandas로 한다면? Pandas는 데이터 분석을 위한 파이썬 라이브러리입니다. SQL은 관계형 데이터베이스를 처리하는데 사용되는 프로그래밍 언어입니다. 공통점은 Pandas와 SQL이 모두 테이블 형식 데이터(즉, 테이블이 행과 열로 구성됨)에서 작동한다는 것입니다. Pandas와 SQL은 모두 테이블 형식 데이터를 처리하므로 둘 중 하나를 사용하여 유사한 작업 또는 쿼리 업무를 수행 할 수 있습니다. 이번 포스팅에서는 Pandas 구문으로 SQL 쿼리를 다시 작성해 보겠습니다. 따라서 두 가지 모두를 위한 실용적인 가이드가 될 것입니다. 15개의 행과 4개의 열로 구성되어 있는 SQL 테이블과 Pandas 데이터 프레임이 있습니다. 처음 5개 행을 표시해 보겠습니다. mysql> select * from items lim.. 2021. 1. 3.
코호트 retention을 통한 고객 고객평생가치 (LTV) 추정 이번 포스팅은 고객의 lifetime 가치를 추정하는 2부작 시리즈의 1부입니다. 이 글에서는 2부에서 Python 코호트 분석 예제를 설명하기 위해 필요한 개념석 수준의 고객평생가치(lifetime value, LTV) 추정 방법을 설명합니다. 왜 LTV가 필요할까요? 고객 획득 비용(customer acquisition costs, CAC)에 대한 벤치 마크를 만들고, 고객을 비교하는 데에는 두 가지 이유가 있습니다. LTV를 추정하기 위해 이탈 또는 retention을 사용하는 것에 대해 설명하는 여러 이론들의 핵심 아이디어는 동일하지만 계산 방식은 크게 다릅니다. 따라서, 어떤 분석가는 이번 포스팅을 읽으면 이익을 얻을 수도 있습니다. 하지만 이번 포스팅의 주요 목표는 과거 보유 데이터를 사용하여.. 2020. 11. 14.
디지털 광고에서 데이터 과학자의 역할 디지털 마케팅은 마케팅 전반에 결쳐서 중요한 역할을 하고 있습니다. 수년에 걸쳐 광고 분야를 선점했던 신문 및 잡지와 같은 인쇄물 형태는 디지털 플랫폼의 등장과 함께 점유율이 크게 감소했습니다. 요즘 디지털 미디어를 통한 광고비 지출은 텔레비전 광고와 비슷한 수준이지만 성장률을 훨씬 가파르게 증가하고 있습니다. 2018년 디지털 광고의 성장률은 12 %, 텔레비전은 0.5 %입니다. 이러한 변화하는 행동은 두 가지 주요 요인으로 설명 할 수 있습니다. 현대인들은 디지털 매체를 통해 소비하는 시간이 증가하고 있으며, 특정 그룹을 타켓팅 할 수 있는 디지털 마케팅만의 장점을 들 수 있습니다. 후자는 효과적인 캠페인을 제공하기 위해이 매체에서 수집 및 분석되는 방대한 양의 데이터 분석을 통해 가능해졌습니다. .. 2020. 11. 11.
728x90