일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 파이썬
- 도커
- Linux
- Memory
- GPU
- LOG
- 도커이미지
- SQL
- 머신러닝
- psycopg2
- 오라클
- GridSearchCV
- oracle
- psql
- 교차검증
- 시계열
- cpu
- 복구
- Python
- jupyternotebook
- Jupyter
- sqldeveloper
- postgre
- Docker image
- TensorFlow
- pgadmin
- docker
- 연결
- 리눅스
- 쿼리
- Today
- Total
목록Programming/NLP (3)
areum

Okt이용하여 형태소 분석해 보기 ( 형태소 빈도 측정) 1. 기본세팅 from collections import Counter import numpy as np import pandas as pd from tqdm import tqdm # konlpy from konlpy.tag import Okt okt = Okt() # 데이터 불러오기 df = pd.read_csv('/content/ratings_train.txt',sep='\t') # 데이터 양이 너무 많아 200행까지만 실행해보았습니다. df=df.iloc[0:200,0:2] 2. Okt이용하여 형태소 나눠주기 sentences = [] for cp in tqdm(df.document.dropna()): sentences.append(okt.p..

파이썬으로 텍스트 카테고리 분류해보기 1. 기본 세팅 데이터는 https://github.com/e9t/nsmc에서 받을 수 있습니다. (위 데이터는 네이버 영화 평점 데이터입니다.) import pandas as pd import numpy as np from tqdm import tqdm # 시각화 import matplotlib.pyplot as plt df = pd.read_csv('/content/ratings_train.txt',sep='\t') # 데이터 양이 너무 많아 200행까지만 실행해보았습니다. df=df.iloc[0:200,0:2] 2. 긍정/부정/중립의 키워드 지정 후 카테고리화 하였습니다. 긍정과 부정의 키워드는 제가 임의로 작성한 키워드 입니다. # 긍정 키워드 pos_word..

텍스트 Emoji(이모티콘) 제거하는 방법 1. dataframe의 예시를 만들어 test 해보았습니다. # 기본 데이터 from pandas import DataFrame raw_data = {'user_id': [1, 2, 3, 4], 'chat': ['apple😊😇', 'grape🧡💛💚💙💜', 'banana', 'cherry']} df = DataFrame(raw_data) 2. 이모티콘 제거 함수 생성 import emoji from tqdm import tqdm def remove_emoji(df): for i in tqdm(df.index): df.loc[i, 'chat'] = emoji.replace_emoji(df.loc[i, 'chat'], replace='') return df