본문 바로가기

토픽모델링

쿠팡 앱 리뷰 토픽모델링 분석 안녕하세요! 이번 글에서는 쿠팡 앱 리뷰 분석 프로젝트에 대해 이야기해 보겠습니다. 텍스트 마이닝에 관심을 가지게 된 이후로 주로 영어 텍스트를 활용한 프로젝트를 진행해 왔습니다. 제 모국어인 터키어나 유창하게 구사하는 한국어보다 비교했을 때 영어는 텍스트 마이닝 과정에서 훨씬 편하게 느껴져서 그랬어요.대한외국인으로서 한국어에 대한 큰 관심을 가지고 있는 저는, 한국어 텍스트 마이닝 과정이 어떤지, 어떤 점이 다른지를 궁금하여 한번 도전해보고 싶어서 프로젝트 진행하였습니다! 한국어 토큰화 프로세스를 위해 KoNLPy 패키지의 문서 자료를 자세히 살펴보았고, 관련 블로그도 많이 읽었습니다. 그 후, 프로젝트 필요에 맞게 조정하여 토픽 모델링을 진행하게 되었습니다. 프로젝트 가이드라인은 다음과 같습니다:1.. 더보기
BERTopic과 인과분석: 정신 건강 문제에 영향을 미치는 요인 탐색 이 연구에서는 BERTopic과 인과 발견 분석을 결합하여 정신 건강에 영향을 미치는 요인들을 체계적으로 분석하고자 하였습니다. 이는 데이터 기반으로 특정 주제가 정신 건강 문제와 어떻게 연관되는지 이해하려는 시도입니다.데이터셋 Kaggle에서 수집한 27977개의 텍스트 데이터 사용다양한 정신 건강 문제를 겪고 있는 개인들의 표현과 감정을 포함함두 개의 열로 구성되어 있음. 첫 번째 열은 텍스트 데이터, 두 번째 열은 해당 텍스트가 정신 건강 문제와 관련이 있는지를 나타내는 레이블 (레이블이 1이면 관련 있음, 0이면 관련 없음)연구절차연구 절차는 다음과 같습니다. 먼저 데이터 전처리(Data Pre-processing)를 통해 데이터를 정리한 후, BERTopic 모델을 사용하여 토픽을 추출합니다. .. 더보기
'HelloTalk' 앱 리뷰 토픽모델링 | Topic Modeling LDA [Part 1] 오늘은 제 논문의 연구에 대해서 말씀드리겠습니다. HelloTalk 언어 교환 앱의 리뷰를 분석했습니다. 연구 절차는 다음과 같아요. 이 글에 이 스텝들을 설명하려고 하겠습니다~ 이 글에 데이터 수집, 전처리 그리고 토픽모델링 부분에 대해서 만 이야기 하겠습니다.  1. 데이터 수집 [Data Collection]데이터를 google-play-scraper 패키지를 사용하여 Google Play Store의 HelloTalk 앱 리뷰를 크롤링하여 수집했습니다.df = pd.read_csv('hellotalk.csv') 2. 데이터 전처리 [Data Pre-processing] 데이터 정리 및 전처리:불용어, 테그 이모지 제거def remove_emojis(text): return emoji.repl.. 더보기