본문 바로가기

데이터과학/데이터 분석 실습39

AWS SageMaker를 이용해서 모델 빌드, 배포, 예측하기 이번 블로그에서는 SageMaker에 대해 짧고 간단하게 소개해 드리겠습니다. AWS SageMaker 란? Amazon SageMaker는 {jupyter 노트북 환경과 동일하지만 클라우드에 있는} 클라우드 머신 러닝 플랫폼으로, 사용자가 프로덕션 준비 호스팅 환경에서 머신 러닝 모델을 구축, 교육, 튜닝, 그리고 배포를 쉽게 할 수 있는 도구 입니다. AWS SageMaker의 장점 뛰어난 확장성 빠른 학습 시간 가동 시간 유지 — 프로세스가 중단없이 계속 실행됩니다. 높은 데이터 보안 SageMaker를 사용한 기계 학습 SageMaker에는 (교육용으로 널리 알려진) 최적화된 ML 알고리즘이 많이 내장되어 있습니다. 이런 내장 알고리즘을 이용하여 모델을 구축하려면 데이터가 필요합니다. 교육 데이터.. 2021. 1. 19.
Prophet을 이용한 주가 예측 Prophet는 비선형 추세가 연도 별, 주별, 일별, 계절 성과, 그리고 휴일 효과에 반영할 수 있는 시계열 모형입니다. 계절적 효과가 강하고 여러 시즌의 과거 데이터가 있는 시계열에서 가장 잘 작동합니다. Prophet은 누락된 데이터와 추세 변화에 강하며 일반적으로 이상 값을 잘 처리합니다. Prophet은 Facebook의 핵심 데이터 사이언스팀에서 출시한 오픈 소스 소프트웨어입니다. CRAN 및 PyPI에서 다운로드 할 수 있습니다. 예측은 조직의 업무 계획, 목표 설정, 그리고 이상 탐지에 활용할 수 있는 데이터 사이언스 과제입니다. 하지만, 이러한 중요성에도 불구하고 신뢰할만한 고품질의 예측을 생성하는 것은 매우 어려운 일입니다. 또한, 시계열 모델링에 대한 전문 지식이 있는 분석가가 많지 .. 2021. 1. 4.
SQL 쿼리, 파이썬 Pandas로 한다면? Pandas는 데이터 분석을 위한 파이썬 라이브러리입니다. SQL은 관계형 데이터베이스를 처리하는데 사용되는 프로그래밍 언어입니다. 공통점은 Pandas와 SQL이 모두 테이블 형식 데이터(즉, 테이블이 행과 열로 구성됨)에서 작동한다는 것입니다. Pandas와 SQL은 모두 테이블 형식 데이터를 처리하므로 둘 중 하나를 사용하여 유사한 작업 또는 쿼리 업무를 수행 할 수 있습니다. 이번 포스팅에서는 Pandas 구문으로 SQL 쿼리를 다시 작성해 보겠습니다. 따라서 두 가지 모두를 위한 실용적인 가이드가 될 것입니다. 15개의 행과 4개의 열로 구성되어 있는 SQL 테이블과 Pandas 데이터 프레임이 있습니다. 처음 5개 행을 표시해 보겠습니다. mysql> select * from items lim.. 2021. 1. 3.
실제 강도 지수를 이용한 알고리즘 트레이딩 (feat. 파이썬) 「 투자자들이 많이 사용하는 지표는 아니지만, TSI는 기술 분석에 유용한 지표 중 하나입니다. 」 실제 강도 지수란? 실제 강도 지수(TSI)는 William Blau가 제안한 모멘텀 오실레이터입니다. William은 당시 인기 있었던 Stocks & Commodities Magazine에 TSI 대해 기고했습니다. William의 설명에 따르면 다른 오실레이터와 마찬가지로 TSI는 거래 신호를 식별하는 데 사용할 수 있습니다. TSI는 잠재적인 과매도 또는 과매수 수준을 식별하는 데 사용합니다. 어떤 투자자는 TSI를 사용하여 중심선 교차점을 찾는 반면, 다른 투자자는 강세 및 약세 다이버전스를 식별하는 데 사용합니다. TSI를 통해서 총 세 개의 선을 차트에 그릴 수 있습니다. 수평선(Equilib.. 2020. 12. 31.
스토캐스틱 지표를 이용한 알고리즘 투자전략 (feat. 파이썬) 스토캐스틱(Stochastic Oscillator)를 이용하여 투자전략을 세우는 방법에 대해서 설명드리겠습니다. 시장 움직임에 대한 스토캐스틱 지표의 민감도는 지표 생성 기간을 조정하거나 결과의 이동 평균을 취함으로써 줄일 수 있습니다. 스토캐스틱 지표는 0–100 범위의 값을 사용하여 과매 수 및 과매도 거래 신호를 생성하는 데 사용됩니다. 스토캐스틱 지표는 주로 차트의 추세를 파악하는 방법으로 최근 N일간의 최고가와 최저가의 범위 내에서 현재 가격의 위치를 백분율로 표시한 지표입니다. 스토캐스틱 지표는 Fast와 Slow 두가지가 있고, 각각의 %K, %D를 구합니다. Fast 지표는 주가에 너무 민감하게 반응하기 때문에 아주 짧은 주기의 단타를 하시는 활용하시면 좋고, 보통은 Slow 지표를 매매에.. 2020. 12. 30.
시계열 안정성 테스트 - ADF and KPSS 테스트 (feat. 파이썬) 앞서 시계열 데이터 분석 및 예측을 위한 완벽 가이드에서 시계열 데이터 분석에 있어 데이터의 안정성(Stationary)을 확인하는 것이 중요함을 소개해 드렸습니다. 이번에는 파이썬으로 ADF (Augmented Dickey-Fuller) 테스트와 KPSS (Kwiatkowski–Phillips–Schmidt–Shin) 테스트를 수행하는 방법에 대해서 설명해 드리겠습니다. 라이브러리 Import import pandas as pd import matplotlib.pyplot as plt plt.style.use('fivethirtyeight') 시계열 데이터는 야후 파이낸스에서 가져오겠습니다. 만약 yfinance 라이브러리가 설치가 안되었다면, 아래의 명령어를 통해서 설치해 주세요. !pip insta.. 2020. 12. 25.
728x90