'Programming' 카테고리의 글 목록

250x250

Notice

Recent Posts

Recent Comments

Link

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Programming (24)

areum

[SAS] PROC SQL - SAS에서 SQL문으로 조회하기

SAS에서도 SQL코드로 데이터를 조회하거나 JOIN 등 다양한 작업을 할 수 있습니다. 코드는 다음과 같습니다. proc sql; {SQL문 작성}; --따옴표 필수 !! run; quit; # work라이브러리에 있는 경우 앞에 라이브러리를 작성하지 않아도 됩니다. proc sql; select indi_dscm_no from t20_c_0517_v_visit_1; run; quit; # work가 아닌 다른 라이브러리(store)에 있는 경우 앞에 라이브러리를 작성하지 않아도 됩니다. proc sql; select indi_dscm_no from store.t20_c_0517_v_visit_1; run; quit;

Programming/SAS 2024. 1. 11. 11:07

[Python] datetime 활용하기

1. 날짜 데이터로 변환하기(to_datetime) 2. 날짜/시간/시/분으로 추출하기 3. 날짜/시간/시/분으로 변경하기 4. 날짜 추출하기(between) 1. 날짜 데이터로 변환하기 (to_datetime) 데이터는 제가 임의로 만든 날짜 데이터입니다. 아래 코드를 실행하면 df['date']=pd.to_datetime(df['date']) 2. 날짜/시간/시/분으로 추출하기 각각의 날짜, 시간, 시, 분만 따로 추출할 수 있습니다. # 날짜 추출하기 df['short_date']=df['date'].dt.date # 시간 추출하기 df['time']=df['date'].dt.time # 시 추출하기 df['hour']=df['date'].dt.hour # 분 추출하기 df['min']=df['da..

Programming/Python 2023. 4. 12. 14:10

[NLP] 형태소 분석하기(feat. KoNLPy)

Okt이용하여 형태소 분석해 보기 ( 형태소 빈도 측정) 1. 기본세팅 from collections import Counter import numpy as np import pandas as pd from tqdm import tqdm # konlpy from konlpy.tag import Okt okt = Okt() # 데이터 불러오기 df = pd.read_csv('/content/ratings_train.txt',sep='\t') # 데이터 양이 너무 많아 200행까지만 실행해보았습니다. df=df.iloc[0:200,0:2] 2. Okt이용하여 형태소 나눠주기 sentences = [] for cp in tqdm(df.document.dropna()): sentences.append(okt.p..

Programming/NLP 2023. 3. 30. 16:17

[NLP] 텍스트 카테고리 분류하는 방법

파이썬으로 텍스트 카테고리 분류해보기 1. 기본 세팅 데이터는 https://github.com/e9t/nsmc에서 받을 수 있습니다. (위 데이터는 네이버 영화 평점 데이터입니다.) import pandas as pd import numpy as np from tqdm import tqdm # 시각화 import matplotlib.pyplot as plt df = pd.read_csv('/content/ratings_train.txt',sep='\t') # 데이터 양이 너무 많아 200행까지만 실행해보았습니다. df=df.iloc[0:200,0:2] 2. 긍정/부정/중립의 키워드 지정 후 카테고리화 하였습니다. 긍정과 부정의 키워드는 제가 임의로 작성한 키워드 입니다. # 긍정 키워드 pos_word..

Programming/NLP 2023. 3. 29. 16:26

[NLP] 텍스트 Emoji(이모티콘) 제거하는 방법

텍스트 Emoji(이모티콘) 제거하는 방법 1. dataframe의 예시를 만들어 test 해보았습니다. # 기본 데이터 from pandas import DataFrame raw_data = {'user_id': [1, 2, 3, 4], 'chat': ['apple😊😇', 'grape🧡💛💚💙💜', 'banana', 'cherry']} df = DataFrame(raw_data) 2. 이모티콘 제거 함수 생성 import emoji from tqdm import tqdm def remove_emoji(df): for i in tqdm(df.index): df.loc[i, 'chat'] = emoji.replace_emoji(df.loc[i, 'chat'], replace='') return df

Programming/NLP 2023. 3. 29. 13:59

[ML] One-way ANOVA(일원 분산 분석)

일원 분산 분석 정의 ANOVA(분석분석)은 '세 집단 또는 그 이상의 집단 간의 평균 차이가 유의미한가'를 확인하기 위해 사용하는 분석 방법입니다. 그중 일원 분산 분석은 하나의 다른 척도를 가지고 보는 것을 일원 분산 분석이라고 합니다. 파이썬에서 One-way ANOVA 분석은 scipy.stats이나 statsmodel 라이브러리를 이용해서 할 수 있습니다. (statsmodel라이브러리가 좀 더 많고 규격화된 정보를 제공합니다.) iris데이터로 일원 분산 분석 해보기 1. 필요한 라이브러리 및 패키지 불러오기 & 데이터 불러오기 import pandas as pd from statsmodels.formula.api import ols from statsmodels.stats.anova impo..

Programming/Machine Learning 2023. 3. 24. 16:22

[ML] Linear Regression(선형 회귀)

선형 회귀 정의 선형회귀란 종속 변수 Y와 1개 이상의 독립변수 X와의 선형 상관관계를 모델링하는 회귀분석 기법입니다. 독립변수의 개수가 1개인 경우 단순 선형 회귀라고 하며, 독립변수가 2개 이상인 경우는 다중 선형 회귀라고 합니다. 오늘 분석할 내용은 독립변수가 1개인 단순 선형 회귀입니다. 연령별 혈압 예측하기 1. 기본적으로 사용하는 패키지와 CSV파일을 불러옵니다. (CSV파일의 출처는 제공해드리지 못하는점 양해부탁드립니다 ㅠ) from sklearn.linear_model import LinearRegression import pandas as pd import numpy as np from sklearn.datasets import make_regression import statsmodel..

Programming/Machine Learning 2023. 3. 24. 10:27

[시계열 분석] Prophet 파라미터 정리

중요한 파라미터는 ❗ 를 표시해 두었습니다. (저는 표시한 파라미터들 위주로 많이 사용하며, 다른 파라미터들은 많이 손대지 않는거같아요 !) 파라미터 종류 내용 changepoint_prior_scale ❗❗ [default] = 0.05 0.05 : 추세에 유연하게 반영 seasonality_prior_scale ❗❗ [default] = 10.0 계절성 반영 강도 (높을수록 민감) holidays_prior_scale ❗❗ [default] = 10.0 holiday 효과를 얼마나 반영할지 조절 (클수록 holiday효과가 강함.) add_country_holidays(country_name='KR') 으로 한국의 휴일을 반영 seasonality_mode ❗ [default] = 10.0 'addt..

Programming/Machine Learning 2023. 3. 23. 14:20

[ML] 로지스틱 회귀 개념 정리

[목차] 로지스틱 회귀 정의 시그모이드 함수 Odds(오즈 또는 승산) 및 Odds Ratio(오즈비 또는 승산비) Logit 1. 로지스틱 회귀 정의 로지스틱 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0 or 1 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해 주는 지도 학습 알고리즘입니다. 예를 들어, 스팸 메일 판단(스팸 or 정상), 제품 불량 여부(정상 or 불량) 등의 사례가 있습니다. 2. 시그모이드 함수 (Sigmoid Function) 로지스틱 회귀에서는 확률을 0에서 1 사이의 커브 모양으로 나타내야 하는데, 이걸 가능하게 하는 하는 것이 시그모이드 함수입니다. 위에서 구한 log-odds를 Sigmoid 함수에 넣어서 0부터 1 사이의 값으로 변..

Programming/Machine Learning 2023. 3. 23. 13:19

[시계열 분석] Prophet을 이용한 기온 예측

Prophet에 대한 간단한 설명 페이스북이 만든 시계열 예측 라이브러리입니다. Prophet 모델의 주요 구성요소는 Trend, Seasonality, Holiday입니다. y(t)=g(t)+s(t)+h(t)+ϵi (g=Trend, s=Seasonality, h=Holiday ) 월 별로 평균기온을 분석하여 예측하기 1. Prophet library 및 데이터를 불러온다. from fbprophet import Prophet import matplotlib.pyplot as plt #시각화를 위한 설치 import matplotlib.font_manager as fm # 한글 폰트 import matplotlib #시각화를 위한 설치 import os, warnings import pandas as p..

Programming/Machine Learning 2023. 3. 22. 15:37

이전 Prev 1 2 3 Next 다음

목록Programming (24)

areum

티스토리툴바