본문 바로가기

텍스트마이닝

쿠팡 앱 리뷰 토픽모델링 분석 안녕하세요! 이번 글에서는 쿠팡 앱 리뷰 분석 프로젝트에 대해 이야기해 보겠습니다. 텍스트 마이닝에 관심을 가지게 된 이후로 주로 영어 텍스트를 활용한 프로젝트를 진행해 왔습니다. 제 모국어인 터키어나 유창하게 구사하는 한국어보다 비교했을 때 영어는 텍스트 마이닝 과정에서 훨씬 편하게 느껴져서 그랬어요.대한외국인으로서 한국어에 대한 큰 관심을 가지고 있는 저는, 한국어 텍스트 마이닝 과정이 어떤지, 어떤 점이 다른지를 궁금하여 한번 도전해보고 싶어서 프로젝트 진행하였습니다! 한국어 토큰화 프로세스를 위해 KoNLPy 패키지의 문서 자료를 자세히 살펴보았고, 관련 블로그도 많이 읽었습니다. 그 후, 프로젝트 필요에 맞게 조정하여 토픽 모델링을 진행하게 되었습니다. 프로젝트 가이드라인은 다음과 같습니다:1.. 더보기
4차 산업혁명 동향: 채용 공고 분석 이 연구는 싱가포르, 말레이시아, 필리핀, 인도네시아의 채용 공고에서 4차 산업혁명(4IR) 동향을 분석하고, 키워드 빈도 분석과 다양한 그래프 설정을 통해 결과를 시각화했습니다. 결과는 싱가포르가 4IR 기술에 대한 강한 의지를 보이며 두드러진 위치를 차지하고 있음을 강조합니다. 말레이시아와 필리핀도 4IR 관련 역량에 적극 참여하고 있지만, 인도네시아는 4IR 기술을 채용 시장에 통합하는 초기 단계에 있는 것으로 보입니다. 이러한 결과는 동남아시아의 4IR 동향을 이해하고 미래의 고용 패턴을 예측하는 데 도움을 줍니다. 우선 데이터 전처리 작업은 다음과 같습니다:1. 가장 많은 채용 공고가 있는 10개 역할에 따라 데이터셋 필터링2. 결측값 확인3. 중복 데이터 확인4. Stopword list 확장.. 더보기
BERTopic과 인과분석: 정신 건강 문제에 영향을 미치는 요인 탐색 이 연구에서는 BERTopic과 인과 발견 분석을 결합하여 정신 건강에 영향을 미치는 요인들을 체계적으로 분석하고자 하였습니다. 이는 데이터 기반으로 특정 주제가 정신 건강 문제와 어떻게 연관되는지 이해하려는 시도입니다.데이터셋 Kaggle에서 수집한 27977개의 텍스트 데이터 사용다양한 정신 건강 문제를 겪고 있는 개인들의 표현과 감정을 포함함두 개의 열로 구성되어 있음. 첫 번째 열은 텍스트 데이터, 두 번째 열은 해당 텍스트가 정신 건강 문제와 관련이 있는지를 나타내는 레이블 (레이블이 1이면 관련 있음, 0이면 관련 없음)연구절차연구 절차는 다음과 같습니다. 먼저 데이터 전처리(Data Pre-processing)를 통해 데이터를 정리한 후, BERTopic 모델을 사용하여 토픽을 추출합니다. .. 더보기
'HelloTalk' 앱 리뷰 감성분석 | Sentiment Analysis using NRC Emotion Lexicon and GoEmotions Dataset [Part 2] 이번에는 다양한 데이터셋과 기술을 사용하여 감성 분석을 수행할 것입니다. 목표는 텍스트에서 감정적 톤을 파악하고, 리부 데이터 안에서 가장 많은 영향을 주는 감정과 토픽을 파악하는 것입니다. 이를 위해 4가지 실험을 수행하였습니다.실험 설정실험 1: 토픽 가중치실험 2:  NRC Emotion Lexicon  점수 + 토픽 가중치실험 3: GoEmotions 점수 + 토픽 가중치실험 4: NRC Emotion Lexicon 점수 + GoEmotions scores + 토픽 가중치저번에 데이터 전처리가 이미 완료된 데이터셋을 사용하였습니다: 이제 리뷰 점수를 바탕으로 감정 레이블을 지정하고, 긍정(1)과 부정(0)으로 표시하며, 중립(3) 점수는 제거했습니다. # Label encoding and labe.. 더보기
'HelloTalk' 앱 리뷰 토픽모델링 | Topic Modeling LDA [Part 1] 오늘은 제 논문의 연구에 대해서 말씀드리겠습니다. HelloTalk 언어 교환 앱의 리뷰를 분석했습니다. 연구 절차는 다음과 같아요. 이 글에 이 스텝들을 설명하려고 하겠습니다~ 이 글에 데이터 수집, 전처리 그리고 토픽모델링 부분에 대해서 만 이야기 하겠습니다.  1. 데이터 수집 [Data Collection]데이터를 google-play-scraper 패키지를 사용하여 Google Play Store의 HelloTalk 앱 리뷰를 크롤링하여 수집했습니다.df = pd.read_csv('hellotalk.csv') 2. 데이터 전처리 [Data Pre-processing] 데이터 정리 및 전처리:불용어, 테그 이모지 제거def remove_emojis(text): return emoji.repl.. 더보기
감성분석 Sentiment Analysis - [Amazon Sales Data] 감성 분석(Sentiment Analysis)은 텍스트에 나온 감정을 분석하는 자연어 처리(NLP)의 접근 방식입니다. 오늘 rating별로 리뷰를 positive/negative으로 나누어서 분석을 진행할것이고, 그 후에 모델링으로 성능을 평가 하도록 하겠습니다.  1. Importing libraries import pandas as pdimport numpy as npfrom cleantext import cleanfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfVectorizerimport collectionsimport matplotlib.pyplot .. 더보기