텍스트마이닝 썸네일형 리스트형 쿠팡 앱 리뷰 토픽모델링 분석 안녕하세요! 이번 글에서는 쿠팡 앱 리뷰 분석 프로젝트에 대해 이야기해 보겠습니다. 텍스트 마이닝에 관심을 가지게 된 이후로 주로 영어 텍스트를 활용한 프로젝트를 진행해 왔습니다. 제 모국어인 터키어나 유창하게 구사하는 한국어보다 비교했을 때 영어는 텍스트 마이닝 과정에서 훨씬 편하게 느껴져서 그랬어요.대한외국인으로서 한국어에 대한 큰 관심을 가지고 있는 저는, 한국어 텍스트 마이닝 과정이 어떤지, 어떤 점이 다른지를 궁금하여 한번 도전해보고 싶어서 프로젝트 진행하였습니다! 한국어 토큰화 프로세스를 위해 KoNLPy 패키지의 문서 자료를 자세히 살펴보았고, 관련 블로그도 많이 읽었습니다. 그 후, 프로젝트 필요에 맞게 조정하여 토픽 모델링을 진행하게 되었습니다. 프로젝트 가이드라인은 다음과 같습니다:1.. 더보기 4차 산업혁명 동향: 채용 공고 분석 이 연구는 싱가포르, 말레이시아, 필리핀, 인도네시아의 채용 공고에서 4차 산업혁명(4IR) 동향을 분석하고, 키워드 빈도 분석과 다양한 그래프 설정을 통해 결과를 시각화했습니다. 결과는 싱가포르가 4IR 기술에 대한 강한 의지를 보이며 두드러진 위치를 차지하고 있음을 강조합니다. 말레이시아와 필리핀도 4IR 관련 역량에 적극 참여하고 있지만, 인도네시아는 4IR 기술을 채용 시장에 통합하는 초기 단계에 있는 것으로 보입니다. 이러한 결과는 동남아시아의 4IR 동향을 이해하고 미래의 고용 패턴을 예측하는 데 도움을 줍니다. 우선 데이터 전처리 작업은 다음과 같습니다:1. 가장 많은 채용 공고가 있는 10개 역할에 따라 데이터셋 필터링2. 결측값 확인3. 중복 데이터 확인4. Stopword list 확장.. 더보기 BERTopic과 인과분석: 정신 건강 문제에 영향을 미치는 요인 탐색 이 연구에서는 BERTopic과 인과 발견 분석을 결합하여 정신 건강에 영향을 미치는 요인들을 체계적으로 분석하고자 하였습니다. 이는 데이터 기반으로 특정 주제가 정신 건강 문제와 어떻게 연관되는지 이해하려는 시도입니다.데이터셋 Kaggle에서 수집한 27977개의 텍스트 데이터 사용다양한 정신 건강 문제를 겪고 있는 개인들의 표현과 감정을 포함함두 개의 열로 구성되어 있음. 첫 번째 열은 텍스트 데이터, 두 번째 열은 해당 텍스트가 정신 건강 문제와 관련이 있는지를 나타내는 레이블 (레이블이 1이면 관련 있음, 0이면 관련 없음)연구절차연구 절차는 다음과 같습니다. 먼저 데이터 전처리(Data Pre-processing)를 통해 데이터를 정리한 후, BERTopic 모델을 사용하여 토픽을 추출합니다. .. 더보기 'HelloTalk' 앱 리뷰 감성분석 | Sentiment Analysis using NRC Emotion Lexicon and GoEmotions Dataset [Part 2] 이번에는 다양한 데이터셋과 기술을 사용하여 감성 분석을 수행할 것입니다. 목표는 텍스트에서 감정적 톤을 파악하고, 리부 데이터 안에서 가장 많은 영향을 주는 감정과 토픽을 파악하는 것입니다. 이를 위해 4가지 실험을 수행하였습니다.실험 설정실험 1: 토픽 가중치실험 2: NRC Emotion Lexicon 점수 + 토픽 가중치실험 3: GoEmotions 점수 + 토픽 가중치실험 4: NRC Emotion Lexicon 점수 + GoEmotions scores + 토픽 가중치저번에 데이터 전처리가 이미 완료된 데이터셋을 사용하였습니다: 이제 리뷰 점수를 바탕으로 감정 레이블을 지정하고, 긍정(1)과 부정(0)으로 표시하며, 중립(3) 점수는 제거했습니다. # Label encoding and labe.. 더보기 kinda 자기소개? 안녕하세요! 마이라고 합니다~! 저는 터키사람입니다! 현재 한국에서 경영정보학 석사 과정을 이수 중입니다. 학부는 컴퓨터 공학을 전공하여 졸업했습니다. 학부 시절에도 이미 한국에서 석사를 이수하고 싶은 생각이 있었습니다. 컴퓨터 공학을 전공하면서 너무 다양한 분야에 관심이 있어서 정확히 어떤 분야에 집중해야 할지 고민이 많았습니다. 코로나가 발생하여 졸업하려던 시기에는 혼자서 온라인 강의를 통해 데이터 분석에 대해 공부를 시작했습니다. 여러 프로젝트를 진행하면서 재미를 느끼고, 데이터 분석가로의 꿈을 키웠습니다. 비즈니스에 대한 이해도를 높이고 데이터 분석 기술을 강화하고자, 경영정보학과 석사 과정을 선택했습니다. 텍스트 마이닝과 빅데이터 분석에 더 많은 관심을 갖게 되었으며, 프로젝트를 진행할 때마다.. 더보기 이전 1 다음