본문 바로가기

감성분석

'HelloTalk' 앱 리뷰 감성분석 | Sentiment Analysis using NRC Emotion Lexicon and GoEmotions Dataset [Part 2] 이번에는 다양한 데이터셋과 기술을 사용하여 감성 분석을 수행할 것입니다. 목표는 텍스트에서 감정적 톤을 파악하고, 리부 데이터 안에서 가장 많은 영향을 주는 감정과 토픽을 파악하는 것입니다. 이를 위해 4가지 실험을 수행하였습니다.실험 설정실험 1: 토픽 가중치실험 2:  NRC Emotion Lexicon  점수 + 토픽 가중치실험 3: GoEmotions 점수 + 토픽 가중치실험 4: NRC Emotion Lexicon 점수 + GoEmotions scores + 토픽 가중치저번에 데이터 전처리가 이미 완료된 데이터셋을 사용하였습니다: 이제 리뷰 점수를 바탕으로 감정 레이블을 지정하고, 긍정(1)과 부정(0)으로 표시하며, 중립(3) 점수는 제거했습니다. # Label encoding and labe.. 더보기
'HelloTalk' 앱 리뷰 토픽모델링 | Topic Modeling LDA [Part 1] 오늘은 제 논문의 연구에 대해서 말씀드리겠습니다. HelloTalk 언어 교환 앱의 리뷰를 분석했습니다. 연구 절차는 다음과 같아요. 이 글에 이 스텝들을 설명하려고 하겠습니다~ 이 글에 데이터 수집, 전처리 그리고 토픽모델링 부분에 대해서 만 이야기 하겠습니다.  1. 데이터 수집 [Data Collection]데이터를 google-play-scraper 패키지를 사용하여 Google Play Store의 HelloTalk 앱 리뷰를 크롤링하여 수집했습니다.df = pd.read_csv('hellotalk.csv') 2. 데이터 전처리 [Data Pre-processing] 데이터 정리 및 전처리:불용어, 테그 이모지 제거def remove_emojis(text): return emoji.repl.. 더보기
감성분석 Sentiment Analysis - [Amazon Sales Data] 감성 분석(Sentiment Analysis)은 텍스트에 나온 감정을 분석하는 자연어 처리(NLP)의 접근 방식입니다. 오늘 rating별로 리뷰를 positive/negative으로 나누어서 분석을 진행할것이고, 그 후에 모델링으로 성능을 평가 하도록 하겠습니다.  1. Importing libraries import pandas as pdimport numpy as npfrom cleantext import cleanfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfVectorizerimport collectionsimport matplotlib.pyplot .. 더보기