본문 바로가기

전체 글

CarSales 프로젝트 SQL 분석[Part 1] 안녕하세요! 이번 프로젝트는 CarSales 데이터를 사용하여 SQL 쿼리와 파이썬을 활용한 분석을 진행하는 프로젝트입니다. 차량 판매 데이터는 여러 변수들, 예를 들어 차량 가격, 연식, 주행 거리, 연료 종류, 차체 형태 등의 정보를 포함하고 있습니다. 이러한 데이터들을 분석하여 유용한 인사이트를 도출하고, 이를 시각적으로 표현하는 것이 주요 목표입니다. 이 프로젝트의 첫 번째 단계에서는 SQL을 이용해 데이터를 로딩하고, 여러 테이블을 생성한 후, 다양한 분석 쿼리를 실행하여 데이터의 특성을 파악합니다. 또한, 데이터 분석 후에는 Tableau를 사용해 시각화를 진행하여 더욱 직관적으로 분석 결과를 전달하고자 합니다. 이 글에서는 첫 번째 단계인 데이터 로딩과 SQL 쿼리 실행, 그리고 Tablea.. 더보기
Beautiful Soup: 웹 크롤링의 시작 안녕하세요~~ 오늘은 Beautiful Soup을 사용해 웹사이트 데이터를 크롤링하는 방법에 대해서 이야기해볼게요! 제가 크롤링할 웹사이트는 ISRI라는 Information Systems 관련 모델과 구성 요소 정보가 있는 웹사이트입니다. 이 정보를 데이터프레임으로 정리하여 CSV 파일로 저장할 예정입니다. https://isri.sciencesphere.org/index.php?o=constructs 👉🏻 크롤링할 링크입니다. 이 링크에 다양한 construct들이 나열된 목록이 있습니다. 이 목록에 있는 각 construct의 링크에 들어가서 해당 construct의 이름, 정의, 이론/모델, 참조 정보들을 추출할 예정입니다. 그리고 이 데이터를 데이터프레임에 추가할거예요.  # import l.. 더보기
고객 데이터 클러스터링: K-Means, Agglomerative Clustering, PCA를 통한 분석 오늘은 "클러스터링"에 대해 다루어보겠습니다. 클러스터링은 데이터를 비슷한 그룹으로 나누는 작업인데요, K-Means와 Agglomerative Clustering을 사용해 고객 데이터를 클러스터링하고, PCA 기법을 통해 결과를 개선하겠습니다. > Kaggle에서 제공하는 고객 데이터를 사용했어요~import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScalerimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.preprocessing import LabelEncoderimport seaborn as snsfrom matplotlib import colorsf.. 더보기
Streamlit으로 Llama3 모델 챗봇 만들기 최근에 LLM(Large Language Models)이 큰 주목을 받고 있죠. 저도 이 분야에 관심이 생겨, 여러 자료를 찾아보고 공부하다 보니 생각보다 정말 깊이 있고 복잡한 개념들이 많더라고요! 하지만 "시작이 반"이라는 말도 있듯이, 배움의 첫 단계로 모델을 다운받아 간단한 챗봇을 만들어보기로 했어요. 😊 앞으로 차근차근 더 깊이 공부하며 성장할 계획입니다! Streamlit이란?Streamlit은 머신러닝 및 데이터 과학 웹 애플리케이션을 빠르고 쉽게 구축하고 공유할 수 있도록 해주는 무료 오픈 소스 프레임워크입니다. 저도 이번 프로젝트를 통해 처음으로 Streamlit을 접했는데, 정말 유용한 도구라는 걸 깨달았어요. 웹 애플리케이션뿐 아니라, 자신의 포트폴리오나 개인 웹사이트 등을 만드는 .. 더보기
서울 자전거 대여 수요 이해하기: 머신러닝 접근법 [회귀분석] 안녕하세요!오늘은 서울 공공 자전거 데이터를 활용하여 회귀 분석을 통해 자전거 대여 수를 예측하는 프로젝트를 진행하겠습니다. 서울은 자전거 대여 시스템을 통해 시민들에게 편리한 교통 수단을 제공하고 있으며, 이 데이터는 자전거 대여의 패턴과 영향을 미치는 다양한 요인을 이해하는 데 도움을 줄 것입니다. 분석을 시작하기 전에 몇 가지 중요한 요소를 그래픽으로 보여드리겠습니다. 그 후, 자전거 대여 수를 세 가지 다른 머신러닝 알고리즘을 사용하여 실험하고 성능을 비교하겠습니다. 마지막으로, 가장 좋은 성능을 보인 알고리즘의 특징 중요도를 분석하여 자전거 대여 수에 영향을 미치는 가장 중요한 요소들을 이해하려고 합니다. 그럼 바로 시작하시지오~! 데이터: import pandas as pdimport nump.. 더보기
래피드마이너에서 커스텀 오퍼레이터 저장하는 방법 안녕하세요,이번에 이전 글에서 설명한 커스텀 오퍼레이터를 어떻게 저장하고 확장 기능으로 사용할 수 있는지를 설명하겠습니다. 먼저, 커스텀 오퍼레이터를 저장하기 위해 필요한 단계를 살펴보겠습니다. 이전 글에서는 LightGBM 오퍼레이터를 생성하고 프로세스에서 테스트했습니다. 저장할 때는 오퍼레이터만 저장하므로 다른 오퍼레이터들은 제거해야 합니다. 또한, 입력 포트(input port)와 출력 포트(output port)가 연결되어 있어야 한다는 점에 주의해야 합니다. 오퍼레이터에 입력과 출력이 필요하기 때문입니다. 커스텀 오퍼레이터로 저장하기 위해서는 먼저 커스텀 오퍼레이터 패키지를 다운로드해야 합니다. 그러므로 먼저 이 패키지를 다운로드하겠습니다.  클릭한 후에는 다음과 같은 화면이 나타납니다. 여기에.. 더보기
래피드마이너에서 파이썬 러너를 활용한 머신러닝 알고리즘 커스텀 오퍼레이터 만들기 안녕하세요,이번 블로그에서는 RapidMiner에서 Python Learner를 사용하여 원하는 모델의 커스텀 오퍼레이터를 만드는 방법에 대해 알려드리겠습니다. 다운로드 후에, 오퍼레이터 창에서 이제 파이썬 관련 오퍼레이터들을 확인할 수 있습니다. 우리가 만들 모델 머신러닝 모델 오퍼레이터이기 때문에, Python Learner 오퍼레이터를 선택해야 합니다. 오늘 만들 오퍼레이터는 LightGBM 모델 오퍼레이터입니다. 이 LightGBM 오퍼레이터를 만드는 주된 목적은, 이후에 다양한 데이터셋에 대해 반복해서 사용할 수 있도록 하는 것입니다. 즉, 데이터를 매번 수동으로 전처리하고 모델에 맞추는 작업을 생략하고, 이 오퍼레이터를 사용하여 데이터를 자동으로 학습시키고, 예측을 할 수 있게 됩니다. 우선 .. 더보기
쿠팡 앱 리뷰 토픽모델링 분석 안녕하세요! 이번 글에서는 쿠팡 앱 리뷰 분석 프로젝트에 대해 이야기해 보겠습니다. 텍스트 마이닝에 관심을 가지게 된 이후로 주로 영어 텍스트를 활용한 프로젝트를 진행해 왔습니다. 제 모국어인 터키어나 유창하게 구사하는 한국어보다 비교했을 때 영어는 텍스트 마이닝 과정에서 훨씬 편하게 느껴져서 그랬어요.대한외국인으로서 한국어에 대한 큰 관심을 가지고 있는 저는, 한국어 텍스트 마이닝 과정이 어떤지, 어떤 점이 다른지를 궁금하여 한번 도전해보고 싶어서 프로젝트 진행하였습니다! 한국어 토큰화 프로세스를 위해 KoNLPy 패키지의 문서 자료를 자세히 살펴보았고, 관련 블로그도 많이 읽었습니다. 그 후, 프로젝트 필요에 맞게 조정하여 토픽 모델링을 진행하게 되었습니다. 프로젝트 가이드라인은 다음과 같습니다:1.. 더보기