본문 바로가기

데이터크롤링

Beautiful Soup: 웹 크롤링의 시작 안녕하세요~~ 오늘은 Beautiful Soup을 사용해 웹사이트 데이터를 크롤링하는 방법에 대해서 이야기해볼게요! 제가 크롤링할 웹사이트는 ISRI라는 Information Systems 관련 모델과 구성 요소 정보가 있는 웹사이트입니다. 이 정보를 데이터프레임으로 정리하여 CSV 파일로 저장할 예정입니다. https://isri.sciencesphere.org/index.php?o=constructs 👉🏻 크롤링할 링크입니다. 이 링크에 다양한 construct들이 나열된 목록이 있습니다. 이 목록에 있는 각 construct의 링크에 들어가서 해당 construct의 이름, 정의, 이론/모델, 참조 정보들을 추출할 예정입니다. 그리고 이 데이터를 데이터프레임에 추가할거예요.  # import l.. 더보기
쿠팡 앱 리뷰 토픽모델링 분석 안녕하세요! 이번 글에서는 쿠팡 앱 리뷰 분석 프로젝트에 대해 이야기해 보겠습니다. 텍스트 마이닝에 관심을 가지게 된 이후로 주로 영어 텍스트를 활용한 프로젝트를 진행해 왔습니다. 제 모국어인 터키어나 유창하게 구사하는 한국어보다 비교했을 때 영어는 텍스트 마이닝 과정에서 훨씬 편하게 느껴져서 그랬어요.대한외국인으로서 한국어에 대한 큰 관심을 가지고 있는 저는, 한국어 텍스트 마이닝 과정이 어떤지, 어떤 점이 다른지를 궁금하여 한번 도전해보고 싶어서 프로젝트 진행하였습니다! 한국어 토큰화 프로세스를 위해 KoNLPy 패키지의 문서 자료를 자세히 살펴보았고, 관련 블로그도 많이 읽었습니다. 그 후, 프로젝트 필요에 맞게 조정하여 토픽 모델링을 진행하게 되었습니다. 프로젝트 가이드라인은 다음과 같습니다:1.. 더보기