본문 바로가기

Python6

[pyspark] GraphFrames 다루기 GraphFrames 생성하기 Vertex와 Edge DataFrames을 이용하여 GraphFrames를 만들 수 있습니다. Vertex DataFrame은 그래프의 각 Vertex에 대해 고유한 ID를 지정하는 "id"라는 특수 열이 포함되어야 합니다. Edge DataFrame은 "src"(source vertex ID of edge) 및 "dst"(destination vertex ID of edge)라는 두 개의 특수 열이 포함되어야 합니다. 두 DataFrame에는 임의의 다른 column을 포함할 수 있으며, 이러한 항목들은 edge 및 vertex의 속성을 나타낼 수 있습니다. GraphFrame은 edge 정보만을 포함하는 DataFrame을 통해서도 구성할 수도 있습니다. 이렇게 구성하.. 2022. 6. 7.
기계 학습 기반의 신용평가 모형 개발과 신용 점수 계산 신용 점수는 사람들의 신용도를 측정하여 숫자로 표현한 것입니다. 은행은 일반적으로 신용 신청에 대한 의사 결정을 위해 이 점수를 활용합니다. 이 블로그에서는 고객의 신용도를 측정하기 위해 가장 인기 있고 가장 간단한 신용 점수 형식인 표준 스코어 카드를 Python (Pandas, Sklearn)을 사용하여 개발하는 방법에 대해 설명하겠습니다. 프로젝트 동기 오늘날 신용도는 개인을 얼마나 신뢰할 수 있는지 나타내는 지표로 간주되기 때문에 모든 사람에게 매우 중요합니다. 다양한 상황에서 서비스 공급자는 먼저 고객의 신용을 평가한 다음 서비스 제공 여부를 결정합니다. 그러나 전체 개인 포트폴리오를 확인하고 신용 보고서를 수동으로 생성하려면 시간이 많이 걸립니다. 따라서 신용을 점수로 계산하면 시간을 절약하고.. 2021. 1. 20.
Prophet을 이용한 주가 예측 Prophet는 비선형 추세가 연도 별, 주별, 일별, 계절 성과, 그리고 휴일 효과에 반영할 수 있는 시계열 모형입니다. 계절적 효과가 강하고 여러 시즌의 과거 데이터가 있는 시계열에서 가장 잘 작동합니다. Prophet은 누락된 데이터와 추세 변화에 강하며 일반적으로 이상 값을 잘 처리합니다. Prophet은 Facebook의 핵심 데이터 사이언스팀에서 출시한 오픈 소스 소프트웨어입니다. CRAN 및 PyPI에서 다운로드 할 수 있습니다. 예측은 조직의 업무 계획, 목표 설정, 그리고 이상 탐지에 활용할 수 있는 데이터 사이언스 과제입니다. 하지만, 이러한 중요성에도 불구하고 신뢰할만한 고품질의 예측을 생성하는 것은 매우 어려운 일입니다. 또한, 시계열 모델링에 대한 전문 지식이 있는 분석가가 많지 .. 2021. 1. 4.
SQL 쿼리, 파이썬 Pandas로 한다면? Pandas는 데이터 분석을 위한 파이썬 라이브러리입니다. SQL은 관계형 데이터베이스를 처리하는데 사용되는 프로그래밍 언어입니다. 공통점은 Pandas와 SQL이 모두 테이블 형식 데이터(즉, 테이블이 행과 열로 구성됨)에서 작동한다는 것입니다. Pandas와 SQL은 모두 테이블 형식 데이터를 처리하므로 둘 중 하나를 사용하여 유사한 작업 또는 쿼리 업무를 수행 할 수 있습니다. 이번 포스팅에서는 Pandas 구문으로 SQL 쿼리를 다시 작성해 보겠습니다. 따라서 두 가지 모두를 위한 실용적인 가이드가 될 것입니다. 15개의 행과 4개의 열로 구성되어 있는 SQL 테이블과 Pandas 데이터 프레임이 있습니다. 처음 5개 행을 표시해 보겠습니다. mysql> select * from items lim.. 2021. 1. 3.
시계열 안정성 테스트 - ADF and KPSS 테스트 (feat. 파이썬) 앞서 시계열 데이터 분석 및 예측을 위한 완벽 가이드에서 시계열 데이터 분석에 있어 데이터의 안정성(Stationary)을 확인하는 것이 중요함을 소개해 드렸습니다. 이번에는 파이썬으로 ADF (Augmented Dickey-Fuller) 테스트와 KPSS (Kwiatkowski–Phillips–Schmidt–Shin) 테스트를 수행하는 방법에 대해서 설명해 드리겠습니다. 라이브러리 Import import pandas as pd import matplotlib.pyplot as plt plt.style.use('fivethirtyeight') 시계열 데이터는 야후 파이낸스에서 가져오겠습니다. 만약 yfinance 라이브러리가 설치가 안되었다면, 아래의 명령어를 통해서 설치해 주세요. !pip insta.. 2020. 12. 25.
유니코드 변환 파이썬 프로그램 - convert to unicode (python program) 파이썬에서 한글을 다루다 보면, 인코딩에 대한 이슈를 그냥 지나칠 수 없다. 파이썬의 장점은 methods의 입력 데이터 형식을 지정하지 않아도 된다는 것이다. C/C++에 익숙했던 분들은 아주 생소하게 느껴질 수 있는 부분이다. 가령 덧셈 함수를 만든다고 하면, def sum(a,b): return a+b 로 간단하게 할 수 있다. 여기서 a, b는 정수, 실수 모두 가능하게 된다. 하지만, a와 b가 리스트list 또는 사전dict 형태의 데이터라면 어떻게 처리해야 할까? 리스트 형식의 데이터라면, 각 i 번째 element끼리 더해서 결과를 반환하도록 하면되고, 사전 형식의 데이터라면, 같은 key 값을 갖는 데이터끼리 더해서 결과를 반환하도록 하면 될 것이다. 이제 원래 이슈로 돌아가서, 입력 데.. 2013. 12. 16.