일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- LDA
- RapidMiner
- causalanalysis
- llma
- 올라마
- 커스텀오퍼레이터
- 오블완
- 머신러닝
- 래피드마이너
- 티스토리챌린지
- 텍스트마이닝
- nrcemotionlexicon
- pythonlearner
- 채용공고분석
- agglomerative clustering
- customeoperator
- GoEmotions
- htmltags
- featureimportance
- 데이터
- 데이터크롤링
- sentimentanalysis
- 인과분석
- 데이터분석
- 토픽모델링
- datacrawling
- 감성분석
- customoperator
- 통계개념
- 파이썬러너
- Today
- Total
목록분류 전체보기 (15)
마이와 텍스트마이닝

데이터에 대한 이해를 높이기 위해 통계 함수와 그 분석은 매우 중요한 역할을 합니다. 또한 머신러닝 알고리즘에서도 필수적으로 사용되며, 중요한 기반이 됩니다. 이번 글에서는 파이썬을 이용해 기본적인 통계 기법들을 살펴보겠습니다. 이러한 기법들은 EDA(탐색적 데이터 분석) 과정에서도 자주 활용됩니다. 먼저 데이터를 불러오겠습니다. Kaggle에서 다운로드한 customer churn 데이터입니다.https://www.kaggle.com/datasets/muhammadshahidazeem/customer-churn-dataset Customer Churn DatasetPredict Customer's Retentionwww.kaggle.com import pandas as pdimport numpy as ..

안녕하세요! 이번 프로젝트는 CarSales 데이터를 사용하여 SQL 쿼리와 파이썬을 활용한 분석을 진행하는 프로젝트입니다. 차량 판매 데이터는 여러 변수들, 예를 들어 차량 가격, 연식, 주행 거리, 연료 종류, 차체 형태 등의 정보를 포함하고 있습니다. 이러한 데이터들을 분석하여 유용한 인사이트를 도출하고, 이를 시각적으로 표현하는 것이 주요 목표입니다. 이 프로젝트의 첫 번째 단계에서는 SQL을 이용해 데이터를 로딩하고, 여러 테이블을 생성한 후, 다양한 분석 쿼리를 실행하여 데이터의 특성을 파악합니다. 또한, 데이터 분석 후에는 Tableau를 사용해 시각화를 진행하여 더욱 직관적으로 분석 결과를 전달하고자 합니다. 이 글에서는 첫 번째 단계인 데이터 로딩과 SQL 쿼리 실행, 그리고 Tablea..

안녕하세요~~ 오늘은 Beautiful Soup을 사용해 웹사이트 데이터를 크롤링하는 방법에 대해서 이야기해볼게요! 제가 크롤링할 웹사이트는 ISRI라는 Information Systems 관련 모델과 구성 요소 정보가 있는 웹사이트입니다. 이 정보를 데이터프레임으로 정리하여 CSV 파일로 저장할 예정입니다. https://isri.sciencesphere.org/index.php?o=constructs 👉🏻 크롤링할 링크입니다. 이 링크에 다양한 construct들이 나열된 목록이 있습니다. 이 목록에 있는 각 construct의 링크에 들어가서 해당 construct의 이름, 정의, 이론/모델, 참조 정보들을 추출할 예정입니다. 그리고 이 데이터를 데이터프레임에 추가할거예요. # import l..

오늘은 "클러스터링"에 대해 다루어보겠습니다. 클러스터링은 데이터를 비슷한 그룹으로 나누는 작업인데요, K-Means와 Agglomerative Clustering을 사용해 고객 데이터를 클러스터링하고, PCA 기법을 통해 결과를 개선하겠습니다. > Kaggle에서 제공하는 고객 데이터를 사용했어요~import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScalerimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.preprocessing import LabelEncoderimport seaborn as snsfrom matplotlib import colorsf..

최근에 LLM(Large Language Models)이 큰 주목을 받고 있죠. 저도 이 분야에 관심이 생겨, 여러 자료를 찾아보고 공부하다 보니 생각보다 정말 깊이 있고 복잡한 개념들이 많더라고요! 하지만 "시작이 반"이라는 말도 있듯이, 배움의 첫 단계로 모델을 다운받아 간단한 챗봇을 만들어보기로 했어요. 😊 앞으로 차근차근 더 깊이 공부하며 성장할 계획입니다! Streamlit이란?Streamlit은 머신러닝 및 데이터 과학 웹 애플리케이션을 빠르고 쉽게 구축하고 공유할 수 있도록 해주는 무료 오픈 소스 프레임워크입니다. 저도 이번 프로젝트를 통해 처음으로 Streamlit을 접했는데, 정말 유용한 도구라는 걸 깨달았어요. 웹 애플리케이션뿐 아니라, 자신의 포트폴리오나 개인 웹사이트 등을 만드는 ..

안녕하세요!오늘은 서울 공공 자전거 데이터를 활용하여 회귀 분석을 통해 자전거 대여 수를 예측하는 프로젝트를 진행하겠습니다. 서울은 자전거 대여 시스템을 통해 시민들에게 편리한 교통 수단을 제공하고 있으며, 이 데이터는 자전거 대여의 패턴과 영향을 미치는 다양한 요인을 이해하는 데 도움을 줄 것입니다. 분석을 시작하기 전에 몇 가지 중요한 요소를 그래픽으로 보여드리겠습니다. 그 후, 자전거 대여 수를 세 가지 다른 머신러닝 알고리즘을 사용하여 실험하고 성능을 비교하겠습니다. 마지막으로, 가장 좋은 성능을 보인 알고리즘의 특징 중요도를 분석하여 자전거 대여 수에 영향을 미치는 가장 중요한 요소들을 이해하려고 합니다. 그럼 바로 시작하시지오~! 데이터: import pandas as pdimport nump..

안녕하세요,이번에 이전 글에서 설명한 커스텀 오퍼레이터를 어떻게 저장하고 확장 기능으로 사용할 수 있는지를 설명하겠습니다. 먼저, 커스텀 오퍼레이터를 저장하기 위해 필요한 단계를 살펴보겠습니다. 이전 글에서는 LightGBM 오퍼레이터를 생성하고 프로세스에서 테스트했습니다. 저장할 때는 오퍼레이터만 저장하므로 다른 오퍼레이터들은 제거해야 합니다. 또한, 입력 포트(input port)와 출력 포트(output port)가 연결되어 있어야 한다는 점에 주의해야 합니다. 오퍼레이터에 입력과 출력이 필요하기 때문입니다. 커스텀 오퍼레이터로 저장하기 위해서는 먼저 커스텀 오퍼레이터 패키지를 다운로드해야 합니다. 그러므로 먼저 이 패키지를 다운로드하겠습니다. 클릭한 후에는 다음과 같은 화면이 나타납니다. 여기에..

안녕하세요,이번 블로그에서는 RapidMiner에서 Python Learner를 사용하여 원하는 모델의 커스텀 오퍼레이터를 만드는 방법에 대해 알려드리겠습니다. 다운로드 후에, 오퍼레이터 창에서 이제 파이썬 관련 오퍼레이터들을 확인할 수 있습니다. 우리가 만들 모델 머신러닝 모델 오퍼레이터이기 때문에, Python Learner 오퍼레이터를 선택해야 합니다. 오늘 만들 오퍼레이터는 LightGBM 모델 오퍼레이터입니다. 이 LightGBM 오퍼레이터를 만드는 주된 목적은, 이후에 다양한 데이터셋에 대해 반복해서 사용할 수 있도록 하는 것입니다. 즉, 데이터를 매번 수동으로 전처리하고 모델에 맞추는 작업을 생략하고, 이 오퍼레이터를 사용하여 데이터를 자동으로 학습시키고, 예측을 할 수 있게 됩니다. 우선 ..