본문 바로가기

오블완

CarSales 프로젝트 SQL 분석[Part 1] 안녕하세요! 이번 프로젝트는 CarSales 데이터를 사용하여 SQL 쿼리와 파이썬을 활용한 분석을 진행하는 프로젝트입니다. 차량 판매 데이터는 여러 변수들, 예를 들어 차량 가격, 연식, 주행 거리, 연료 종류, 차체 형태 등의 정보를 포함하고 있습니다. 이러한 데이터들을 분석하여 유용한 인사이트를 도출하고, 이를 시각적으로 표현하는 것이 주요 목표입니다. 이 프로젝트의 첫 번째 단계에서는 SQL을 이용해 데이터를 로딩하고, 여러 테이블을 생성한 후, 다양한 분석 쿼리를 실행하여 데이터의 특성을 파악합니다. 또한, 데이터 분석 후에는 Tableau를 사용해 시각화를 진행하여 더욱 직관적으로 분석 결과를 전달하고자 합니다. 이 글에서는 첫 번째 단계인 데이터 로딩과 SQL 쿼리 실행, 그리고 Tablea.. 더보기
Beautiful Soup: 웹 크롤링의 시작 안녕하세요~~ 오늘은 Beautiful Soup을 사용해 웹사이트 데이터를 크롤링하는 방법에 대해서 이야기해볼게요! 제가 크롤링할 웹사이트는 ISRI라는 Information Systems 관련 모델과 구성 요소 정보가 있는 웹사이트입니다. 이 정보를 데이터프레임으로 정리하여 CSV 파일로 저장할 예정입니다. https://isri.sciencesphere.org/index.php?o=constructs 👉🏻 크롤링할 링크입니다. 이 링크에 다양한 construct들이 나열된 목록이 있습니다. 이 목록에 있는 각 construct의 링크에 들어가서 해당 construct의 이름, 정의, 이론/모델, 참조 정보들을 추출할 예정입니다. 그리고 이 데이터를 데이터프레임에 추가할거예요.  # import l.. 더보기
고객 데이터 클러스터링: K-Means, Agglomerative Clustering, PCA를 통한 분석 오늘은 "클러스터링"에 대해 다루어보겠습니다. 클러스터링은 데이터를 비슷한 그룹으로 나누는 작업인데요, K-Means와 Agglomerative Clustering을 사용해 고객 데이터를 클러스터링하고, PCA 기법을 통해 결과를 개선하겠습니다. > Kaggle에서 제공하는 고객 데이터를 사용했어요~import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScalerimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.preprocessing import LabelEncoderimport seaborn as snsfrom matplotlib import colorsf.. 더보기