'Programming/NLP' 카테고리의 글 목록

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Programming/NLP (3)

areum

[NLP] 형태소 분석하기(feat. KoNLPy)

Okt이용하여 형태소 분석해 보기 ( 형태소 빈도 측정) 1. 기본세팅 from collections import Counter import numpy as np import pandas as pd from tqdm import tqdm # konlpy from konlpy.tag import Okt okt = Okt() # 데이터 불러오기 df = pd.read_csv('/content/ratings_train.txt',sep='\t') # 데이터 양이 너무 많아 200행까지만 실행해보았습니다. df=df.iloc[0:200,0:2] 2. Okt이용하여 형태소 나눠주기 sentences = [] for cp in tqdm(df.document.dropna()): sentences.append(okt.p..

Programming/NLP 2023. 3. 30. 16:17

[NLP] 텍스트 카테고리 분류하는 방법

파이썬으로 텍스트 카테고리 분류해보기 1. 기본 세팅 데이터는 https://github.com/e9t/nsmc에서 받을 수 있습니다. (위 데이터는 네이버 영화 평점 데이터입니다.) import pandas as pd import numpy as np from tqdm import tqdm # 시각화 import matplotlib.pyplot as plt df = pd.read_csv('/content/ratings_train.txt',sep='\t') # 데이터 양이 너무 많아 200행까지만 실행해보았습니다. df=df.iloc[0:200,0:2] 2. 긍정/부정/중립의 키워드 지정 후 카테고리화 하였습니다. 긍정과 부정의 키워드는 제가 임의로 작성한 키워드 입니다. # 긍정 키워드 pos_word..

Programming/NLP 2023. 3. 29. 16:26

[NLP] 텍스트 Emoji(이모티콘) 제거하는 방법

텍스트 Emoji(이모티콘) 제거하는 방법 1. dataframe의 예시를 만들어 test 해보았습니다. # 기본 데이터 from pandas import DataFrame raw_data = {'user_id': [1, 2, 3, 4], 'chat': ['apple😊😇', 'grape🧡💛💚💙💜', 'banana', 'cherry']} df = DataFrame(raw_data) 2. 이모티콘 제거 함수 생성 import emoji from tqdm import tqdm def remove_emoji(df): for i in tqdm(df.index): df.loc[i, 'chat'] = emoji.replace_emoji(df.loc[i, 'chat'], replace='') return df

Programming/NLP 2023. 3. 29. 13:59

이전 Prev 1 Next 다음

목록Programming/NLP (3)

areum

티스토리툴바