LDA 썸네일형 리스트형 쿠팡 앱 리뷰 토픽모델링 분석 안녕하세요! 이번 글에서는 쿠팡 앱 리뷰 분석 프로젝트에 대해 이야기해 보겠습니다. 텍스트 마이닝에 관심을 가지게 된 이후로 주로 영어 텍스트를 활용한 프로젝트를 진행해 왔습니다. 제 모국어인 터키어나 유창하게 구사하는 한국어보다 비교했을 때 영어는 텍스트 마이닝 과정에서 훨씬 편하게 느껴져서 그랬어요.대한외국인으로서 한국어에 대한 큰 관심을 가지고 있는 저는, 한국어 텍스트 마이닝 과정이 어떤지, 어떤 점이 다른지를 궁금하여 한번 도전해보고 싶어서 프로젝트 진행하였습니다! 한국어 토큰화 프로세스를 위해 KoNLPy 패키지의 문서 자료를 자세히 살펴보았고, 관련 블로그도 많이 읽었습니다. 그 후, 프로젝트 필요에 맞게 조정하여 토픽 모델링을 진행하게 되었습니다. 프로젝트 가이드라인은 다음과 같습니다:1.. 더보기 'HelloTalk' 앱 리뷰 토픽모델링 | Topic Modeling LDA [Part 1] 오늘은 제 논문의 연구에 대해서 말씀드리겠습니다. HelloTalk 언어 교환 앱의 리뷰를 분석했습니다. 연구 절차는 다음과 같아요. 이 글에 이 스텝들을 설명하려고 하겠습니다~ 이 글에 데이터 수집, 전처리 그리고 토픽모델링 부분에 대해서 만 이야기 하겠습니다. 1. 데이터 수집 [Data Collection]데이터를 google-play-scraper 패키지를 사용하여 Google Play Store의 HelloTalk 앱 리뷰를 크롤링하여 수집했습니다.df = pd.read_csv('hellotalk.csv') 2. 데이터 전처리 [Data Pre-processing] 데이터 정리 및 전처리:불용어, 테그 이모지 제거def remove_emojis(text): return emoji.repl.. 더보기 이전 1 다음