데이터과학6 금융에서의 딥러닝 (개요) 이 기사는 Re-work Deep Learning Summit에서 발표된 내용을 요약했습니다. 해당 발표에서는 금융 모델이 실패하는 이유와 딥러닝이 그 격차를 어떻게 메울 수 있는지 설명했습니다. 더 나아가 금융 분야의 딥 러닝에 대한 세 가지 사용 사례와 이러한 모델의 우수성에 대한 증거를 제시했습니다. 금융이 가장 계산 집약적인 분야인 반면, 금융에서 널리 사용되는 모델은 감독 및 비지도 모델, 상태 기반 모델, 계량 경제 모델 또는 심지어 확률 적 모델까지도 과잉 피팅, 휴리스틱 및 열악한 문제로 인해 손상됩니다. 금융 영역은 매우 복잡하고 비선형적이며 서로 영향을 미치는 수많은 요인이 있기 때문입니다. 이를 해결하기 위해 이미지 인식, 음성 인식, 그리고 감정 분석 분야에서 입증된 딥러닝 연구를 .. 2021. 2. 14. Prophet을 이용한 주가 예측 Prophet는 비선형 추세가 연도 별, 주별, 일별, 계절 성과, 그리고 휴일 효과에 반영할 수 있는 시계열 모형입니다. 계절적 효과가 강하고 여러 시즌의 과거 데이터가 있는 시계열에서 가장 잘 작동합니다. Prophet은 누락된 데이터와 추세 변화에 강하며 일반적으로 이상 값을 잘 처리합니다. Prophet은 Facebook의 핵심 데이터 사이언스팀에서 출시한 오픈 소스 소프트웨어입니다. CRAN 및 PyPI에서 다운로드 할 수 있습니다. 예측은 조직의 업무 계획, 목표 설정, 그리고 이상 탐지에 활용할 수 있는 데이터 사이언스 과제입니다. 하지만, 이러한 중요성에도 불구하고 신뢰할만한 고품질의 예측을 생성하는 것은 매우 어려운 일입니다. 또한, 시계열 모델링에 대한 전문 지식이 있는 분석가가 많지 .. 2021. 1. 4. SQL 쿼리, 파이썬 Pandas로 한다면? Pandas는 데이터 분석을 위한 파이썬 라이브러리입니다. SQL은 관계형 데이터베이스를 처리하는데 사용되는 프로그래밍 언어입니다. 공통점은 Pandas와 SQL이 모두 테이블 형식 데이터(즉, 테이블이 행과 열로 구성됨)에서 작동한다는 것입니다. Pandas와 SQL은 모두 테이블 형식 데이터를 처리하므로 둘 중 하나를 사용하여 유사한 작업 또는 쿼리 업무를 수행 할 수 있습니다. 이번 포스팅에서는 Pandas 구문으로 SQL 쿼리를 다시 작성해 보겠습니다. 따라서 두 가지 모두를 위한 실용적인 가이드가 될 것입니다. 15개의 행과 4개의 열로 구성되어 있는 SQL 테이블과 Pandas 데이터 프레임이 있습니다. 처음 5개 행을 표시해 보겠습니다. mysql> select * from items lim.. 2021. 1. 3. 코호트 retention을 통한 고객 고객평생가치 (LTV) 추정 이번 포스팅은 고객의 lifetime 가치를 추정하는 2부작 시리즈의 1부입니다. 이 글에서는 2부에서 Python 코호트 분석 예제를 설명하기 위해 필요한 개념석 수준의 고객평생가치(lifetime value, LTV) 추정 방법을 설명합니다. 왜 LTV가 필요할까요? 고객 획득 비용(customer acquisition costs, CAC)에 대한 벤치 마크를 만들고, 고객을 비교하는 데에는 두 가지 이유가 있습니다. LTV를 추정하기 위해 이탈 또는 retention을 사용하는 것에 대해 설명하는 여러 이론들의 핵심 아이디어는 동일하지만 계산 방식은 크게 다릅니다. 따라서, 어떤 분석가는 이번 포스팅을 읽으면 이익을 얻을 수도 있습니다. 하지만 이번 포스팅의 주요 목표는 과거 보유 데이터를 사용하여.. 2020. 11. 14. 디지털 광고에서 데이터 과학자의 역할 디지털 마케팅은 마케팅 전반에 결쳐서 중요한 역할을 하고 있습니다. 수년에 걸쳐 광고 분야를 선점했던 신문 및 잡지와 같은 인쇄물 형태는 디지털 플랫폼의 등장과 함께 점유율이 크게 감소했습니다. 요즘 디지털 미디어를 통한 광고비 지출은 텔레비전 광고와 비슷한 수준이지만 성장률을 훨씬 가파르게 증가하고 있습니다. 2018년 디지털 광고의 성장률은 12 %, 텔레비전은 0.5 %입니다. 이러한 변화하는 행동은 두 가지 주요 요인으로 설명 할 수 있습니다. 현대인들은 디지털 매체를 통해 소비하는 시간이 증가하고 있으며, 특정 그룹을 타켓팅 할 수 있는 디지털 마케팅만의 장점을 들 수 있습니다. 후자는 효과적인 캠페인을 제공하기 위해이 매체에서 수집 및 분석되는 방대한 양의 데이터 분석을 통해 가능해졌습니다. .. 2020. 11. 11. 실리콘 밸리에서도 주목받고 있는 토폴로지 데이터 분석 Slideshare를 통해서 토폴로지 데이터 분석(Topological Data Analysis, TDA)에 대한 발표 자료를 2014년 4월에 공유했다. 슬라이드 쉐어에서는 나의 슬라이드를 본 사람들이 어떤 경로로 찾아왔는지에 대한 정보와 어느나라 사람들이 주요하게 관심을 갖고 있는지의 여부를 자동으로 분석해주는 기능이 있어서 한번 살펴봤다.한국 사람중에 나의 슬라이드를 본 사람들은 대부분 얼굴책 등에서 내가 공유한 것을 보고 링크를 타고 온 사람들이라고 생각된다. 하지만 미국이나 독일에서 슬라이드를 본 사람은 분명히 검색을 통해서 나의 토폴로지 데이터 분석 슬라이드를 찾았을 것이다. 또한, 아래 그림 중에서 국가별로 슬라이드를 '본 사람 수'의 그래프에서도 볼 수 있듯이 토폴로지 분석은 미국, 독일,.. 2015. 3. 18. 이전 1 다음 728x90