일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 교차검증
- cpu
- 파이썬
- 도커이미지
- oracle
- 도커
- postgre
- Jupyter
- 시계열
- docker
- GridSearchCV
- Memory
- 머신러닝
- pgadmin
- 복구
- Linux
- sqldeveloper
- SQL
- GPU
- LOG
- psycopg2
- 리눅스
- 연결
- TensorFlow
- 쿼리
- jupyternotebook
- Docker image
- psql
- Python
- 오라클
- Today
- Total
목록Programming/Machine Learning (12)
areum

일원 분산 분석 정의 ANOVA(분석분석)은 '세 집단 또는 그 이상의 집단 간의 평균 차이가 유의미한가'를 확인하기 위해 사용하는 분석 방법입니다. 그중 일원 분산 분석은 하나의 다른 척도를 가지고 보는 것을 일원 분산 분석이라고 합니다. 파이썬에서 One-way ANOVA 분석은 scipy.stats이나 statsmodel 라이브러리를 이용해서 할 수 있습니다. (statsmodel라이브러리가 좀 더 많고 규격화된 정보를 제공합니다.) iris데이터로 일원 분산 분석 해보기 1. 필요한 라이브러리 및 패키지 불러오기 & 데이터 불러오기 import pandas as pd from statsmodels.formula.api import ols from statsmodels.stats.anova impo..

선형 회귀 정의 선형회귀란 종속 변수 Y와 1개 이상의 독립변수 X와의 선형 상관관계를 모델링하는 회귀분석 기법입니다. 독립변수의 개수가 1개인 경우 단순 선형 회귀라고 하며, 독립변수가 2개 이상인 경우는 다중 선형 회귀라고 합니다. 오늘 분석할 내용은 독립변수가 1개인 단순 선형 회귀입니다. 연령별 혈압 예측하기 1. 기본적으로 사용하는 패키지와 CSV파일을 불러옵니다. (CSV파일의 출처는 제공해드리지 못하는점 양해부탁드립니다 ㅠ) from sklearn.linear_model import LinearRegression import pandas as pd import numpy as np from sklearn.datasets import make_regression import statsmodel..
중요한 파라미터는 ❗ 를 표시해 두었습니다. (저는 표시한 파라미터들 위주로 많이 사용하며, 다른 파라미터들은 많이 손대지 않는거같아요 !) 파라미터 종류 내용 changepoint_prior_scale ❗❗ [default] = 0.05 0.05 : 추세에 유연하게 반영 seasonality_prior_scale ❗❗ [default] = 10.0 계절성 반영 강도 (높을수록 민감) holidays_prior_scale ❗❗ [default] = 10.0 holiday 효과를 얼마나 반영할지 조절 (클수록 holiday효과가 강함.) add_country_holidays(country_name='KR') 으로 한국의 휴일을 반영 seasonality_mode ❗ [default] = 10.0 'addt..

[목차] 로지스틱 회귀 정의 시그모이드 함수 Odds(오즈 또는 승산) 및 Odds Ratio(오즈비 또는 승산비) Logit 1. 로지스틱 회귀 정의 로지스틱 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0 or 1 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해 주는 지도 학습 알고리즘입니다. 예를 들어, 스팸 메일 판단(스팸 or 정상), 제품 불량 여부(정상 or 불량) 등의 사례가 있습니다. 2. 시그모이드 함수 (Sigmoid Function) 로지스틱 회귀에서는 확률을 0에서 1 사이의 커브 모양으로 나타내야 하는데, 이걸 가능하게 하는 하는 것이 시그모이드 함수입니다. 위에서 구한 log-odds를 Sigmoid 함수에 넣어서 0부터 1 사이의 값으로 변..

Prophet에 대한 간단한 설명 페이스북이 만든 시계열 예측 라이브러리입니다. Prophet 모델의 주요 구성요소는 Trend, Seasonality, Holiday입니다. y(t)=g(t)+s(t)+h(t)+ϵi (g=Trend, s=Seasonality, h=Holiday ) 월 별로 평균기온을 분석하여 예측하기 1. Prophet library 및 데이터를 불러온다. from fbprophet import Prophet import matplotlib.pyplot as plt #시각화를 위한 설치 import matplotlib.font_manager as fm # 한글 폰트 import matplotlib #시각화를 위한 설치 import os, warnings import pandas as p..

로지스틱 회귀 정의 LogisticRegression은 데이터가 어떤 범주에 속할 확률을 0과 1 사이의 값으로 예측하고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해 주는 지도학습 알고리즘입니다. 로지스틱 함수는 시그모이드 함수에 속하는 함수입니다. Sigmoid Function은 그래프로 나타내면 "S"자 모양으로 곡선이 나타납니다. 로지스틱 함수의 그래프는 Sigmoid 함수의 S자 모형을 따릅니다. 자세한 설명은 아래 블로그를 통해 말씀드리겠습니다. 2023.03.23 - [Programming/Machine Learning] - [ML] 로지스틱 회귀 개념 정리 [ML] 로지스틱 회귀 개념 정리 [목차] 로지스틱 회귀 정의 시그모이드 함수 Odds(오즈 또는 승산) 및 Odds..

K-평균 군집분석 정의 군집 수만큼(k개) 초기값을 지정하고, 각 데이터를 가까운 초기값에 할당하여 군집을 형성한 뒤, 각 군집의 평균을 재계산하여 초기값을 갱신. 갱신된 값에 대해 위의 할당과정을 반복하여 k개의 최동군집을 형성. K-Means algorithm 사용하여 분석하기 1. 필요한 라이브러리 및 예제 csv파일을 불러옵니다. import matplotlib.pyplot as plt #시각화를 위한 설치 import matplotlib.font_manager as fm # 한글 폰트 import matplotlib #시각화를 위한 설치 import os, warnings import pandas as pd #구조 변경 및 결합을 하기 위한 설치 import seaborn as sns #시각화를..

연관 규칙 분석 정의 연관규칙분석(Association Rule Analysis)이란 경영학에서 장바구니 분석(Market Basket Analysis)이라고도 합니다. A라는 상품을 구매한 후 B상품을 구매했을 때, 서로 연관성이 있다고 하면 A->B라는 일련의 규칙들이 생성되는 알고리즘입니다. 특정 상품 구매 시 이와 연관성 높은 상품을 추천할 수 있습니다. 연관규칙의 평가에는 '지지도, 신뢰도, 향상도' 라는 3가지 척도가 사용됩니다. 지지도(support) 전체 거래 중 A와 B가 동시에 포함된 거래의 확율. ex) A를 빵, B를 우유라고 하면 빵 -> 버터의 지지도 = ( 빵과 버터를 동시에 구매한 거래 수 ) / ( 전체 거래 수) 신뢰도(confidence) A를 구매했을 때, 추가로 B를..

ARIMA에 대한 간단한 설명 ARIMA(AutoRegressive Integrated Moving Average)는 자기 회귀 모델(AR)과 이동 평균 모델(MA)과 데이터의 정상성을 확보하기 위한 차분(I)을 합친 모델 ARIMA모델은 AR , I, MA의 차수를 정해야 하는데 이는 ARIMA(p, d, q)로 나타낸다. AR의 차수는 p, I의 차수는 d, MA의 차수는 q로 표시한다. ARIMA(1,1,0) 일 경우 AR(1)와 I(1)를 합친 모델이라는 의미이다. * 월 별 평균기온 분석하여 예측하기 1. 기본 library를 불러온다. ( 아래는 제가 많이 쓰는 library들이라 매번 분석할 때마다 아래 코드는 실행하고 분석해요 ! ) import matplotlib.pyplot as plt..
GridSearchCV 간단한 정의 GridSearchCV란 사용자가 직접 모델의 하이퍼 파라미터 값을 리스트로 작성하여 경우의 수마다 예측 성능을 측정하여 비교하면서 최적의 하이퍼 파라미터 값을 찾는 기법입니다. from sklearn.model_selection import GridSearchCV # 아래 params는 랜덤포레스트 파라미터로 실행하였습니다. # list로 작성할 수 있지만 아래와 같이 작성해주면 훨씬 더 많은 범위의 파라미터 튜닝이 가능합니다. params = {'n_estimators' : list(range(50,400,10)),'max_depth' : list(range(4,20,15)), 'min_samples_leaf' : list(range(4,20,1)),'min_sam..