728x90

🐍 Python/🐍 데이터 분석 10

파이썬으로 영화 추천 시스템 만들기: 상관계수 & 코사인 유사도 기반 추천(구글 코랩)

영화 추천 시스템 강의이 강의에서는 상관계수 기반 추천 시스템과 코사인 유사도 기반 추천 시스템을 단계별로 구현하는 방법을 학습한다. 실습을 통해 데이터를 로드하고 전처리한 후, 추천 알고리즘을 적용하는 과정을 수행할 것이다.1. 환경 설정 및 데이터 로드1.1 데이터 파일 업로드구글 코랩을 사용하여 movie_title.csv와 movie_review.csv 파일을 업로드한다.from google.colab import files# 사용자가 파일을 업로드할 수 있도록 요청uploaded = files.upload()1.2 데이터 읽기데이터를 pandas를 사용하여 읽어온다.import pandas as pd# CSV 파일을 데이터프레임으로 읽어오기movies = pd.read_csv("movie_tit..

범주형 데이터를 숫자로 변환하는 방법: One-Hot Encoding 완벽 가이드

2025.02.09 - [🐍 Python] - LabelEncoder란? 머신러닝에서 범주형 데이터를 숫자로 변환하는 방법 LabelEncoder란? 머신러닝에서 범주형 데이터를 숫자로 변환하는 방법🔹 1. LabelEncoder란?LabelEncoder는 범주형(카테고리형) 데이터를 숫자로 변환하는 기법입니다.머신러닝 모델은 문자열 데이터를 직접 이해할 수 없기 때문에, 문자 데이터를 숫자로 변환해야 합니다boohoday.comOne-Hot Encoding(원-핫 인코딩)은 머신러닝에서 범주형 데이터를 숫자로 변환하는 필수적인 방법입니다.LabelEncoder와 어떤 차이가 있을까? 언제 One-Hot Encoding을 써야 할까?이 글에서 초보자도 쉽게 이해할 수 있도록 개념부터 실습 코드까지 완..

LabelEncoder란? 머신러닝에서 범주형 데이터를 숫자로 변환하는 방법

🔹 1. LabelEncoder란?LabelEncoder는 범주형(카테고리형) 데이터를 숫자로 변환하는 기법입니다.머신러닝 모델은 문자열 데이터를 직접 이해할 수 없기 때문에, 문자 데이터를 숫자로 변환해야 합니다.예를 들어, "Male", "Female" 같은 성별 데이터를 0, 1과 같은 숫자로 변환할 수 있습니다.📌 LabelEncoder 적용 전 ID Gender Smoker 1MaleYes2FemaleNo3MaleNo 📌 LabelEncoder 적용 후 ID Gender (Encoded) Smoker (Encoded) 111200310✅ 이제 머신러닝 모델이 숫자로 변환된 데이터를 학습할 수 있습니다! 왜 레이블 인코딩이 필요할까?머신러닝 모델은 숫자 데이터만 이해할 수 있기 때문입..

Python 데이터 분석 & 머신러닝 파이프라인으로 보험 데이터 예측하기

🔹 1. 파이프라인이란? 초보자도 쉽게 이해하는 개념✅ 파이프라인(Pipeline)이란?파이프라인(Pipeline)은 데이터를 여러 단계로 나눠 자동으로 처리하는 기술입니다.예를 들어, 보험 청구 금액을 예측하는 모델을 만든다고 할 때, 다음과 같은 과정이 필요합니다. 1️⃣ 데이터 수집: CSV 파일에서 데이터를 불러옴2️⃣ 데이터 전처리: 결측값 처리, 불필요한 컬럼 삭제3️⃣ 특징 엔지니어링: 데이터 변환, 스케일링, 원-핫 인코딩4️⃣ 머신러닝 모델 학습: Random Forest, XGBoost 등 모델 훈련5️⃣ 예측 및 평가: 모델을 테스트하고 정확도 평가🔥 이 모든 단계를 자동으로 수행하는 것이 "파이프라인"입니다!반복적인 작업을 줄이고, 실수를 방지하며, 쉽게 모델을 개선할 수 있도록..

파이썬 그래프 관련 함수 정리 (Matplotlib 중심)

파이썬에서 그래프를 그릴 때 많이 사용하는 Matplotlib의 주요 함수들을 정리하였습니다. 특히, 선 스타일, 색상, 굵기, 마커 등을 조절하는 방법을 보기 쉽게 정리했습니다. 📊✨1️⃣ 그래프의 선(Line) 관련 옵션옵션설명예제color선 색상 지정plt.plot(x, y, color='red')linewidth / lw선 굵기 지정plt.plot(x, y, linewidth=2)linestyle / ls선 스타일 변경plt.plot(x, y, linestyle='--')alpha투명도 설정 (0~1)plt.plot(x, y, alpha=0.5)label범례(Label) 추가plt.plot(x, y, label="그래프")📌 선 스타일 종류'-' : 실선 (기본값)'--' : 점선'-.' : ..

파이썬 플롯(Python Plot) 완벽 가이드

데이터 분석에서 중요한 것은 단순한 숫자보다 시각화(Visualization)입니다. 파이썬에서는 다양한 라이브러리를 사용하여 데이터를 시각적으로 표현할 수 있으며, 대표적인 도구로는 Matplotlib, Seaborn, Plotly 등이 있습니다이 글에서는 파이썬에서 플롯을 생성하는 방법을 알아보고, 여러 가지 그래프 유형과 활용 방법을 예제와 함께 설명하겠습니다. 1️⃣ 파이썬에서 플롯(Plot)이란?플롯(Plot)은 데이터를 그래프로 표현하는 것을 의미합니다. 이를 통해 숫자 데이터의 패턴을 쉽게 이해하고, 데이터 간의 관계를 파악할 수 있습니다. 📌 파이썬에서 플롯을 그리는 주요 라이브러리:Matplotlib: 기본적인 그래프 라이브러리Seaborn: Matplotlib 기반의 고급 시각화 라이..

파이썬 기초 : 데이터 결합(조인)하는 방법

데이터 분석을 하다 보면 서로 다른 데이터셋을 합쳐야 하는 경우가 많습니다. 이때 SQL의 JOIN과 유사한 개념을 파이썬에서도 사용할 수 있습니다. 이번 글에서는 파이썬에서 데이터 결합(조인)하는 방법을 초보자도 쉽게 이해할 수 있도록 설명하고, SQL 조인과의 차이점도 비교해보겠습니다.1. 파이썬에서 데이터 조인이란? 파이썬에서 데이터 조인은 두 개 이상의 데이터프레임을 특정 기준(키, key)에 따라 합치는 과정을 의미합니다. 주로 pandas 라이브러리를 사용하여 데이터프레임을 병합(merge)하거나 결합(concatenate)할 수 있습니다.SQL에서의 JOIN과 매우 유사하지만, 문법과 방식에서 차이가 있습니다.2. SQL JOIN과 파이썬 pandas JOIN의 비교 비교 항목 SQL JO..

파이썬 기초 : 판다스 실습 | 데이터 분석

문제를 보고 실습 하기 방법 1DataFrame 생성 후 직접 추가pd.DataFrame()을 사용하여 비어 있는 DataFrame 객체를 생성합니다.이후, 데이터를 열(column) 단위로 추가하여 완성합니다. 방법2딕셔너리로 DataFrame 생성각 열(column)을 딕셔너리의 키(key), 데이터(값)를 리스트로 구성하여 한 번에 DataFrame을 생성할 수 있습니다. 데이터의 평균 구하기numeric_only는 Pandas의 집계 함수(aggregation functions)에서 사용되는 매개변수로, 데이터프레임에서 숫자 데이터만 처리할지 여부를 지정하는 역할을 합니다. 데이터의 NaN 을 평균으로 채우기 데이터 분석 문제   테이터의 행과 열 확인 하기 데이터 상위 5개 목록만 확인하기 테이..

파이썬 기초 : Pandas(판다스) DataFrame과 Series, 빌트인 함수

Pandas란?Pandas는 Python에서 데이터 분석과 조작을 위한 가장 인기 있는 라이브러리 중 하나입니다. 데이터 처리를 단순화하고 효율적으로 수행할 수 있도록 설계된 도구로, **표 형식의 데이터(스프레드시트처럼)**를 다루기에 최적화되어 있습니다.주로 DataFrame과 Series라는 두 가지 주요 데이터 구조를 기반으로 작동하며, 데이터를 정리, 분석, 변환, 시각화할 때 사용됩니다.Pandas의 특징쉽고 직관적인 데이터 조작데이터의 필터링, 정렬, 병합, 그룹화 등을 간단히 처리할 수 있습니다.다양한 데이터 포맷 지원CSV, Excel, SQL, JSON, HTML 등의 파일 포맷을 읽고 쓸 수 있습니다.고성능 데이터 처리NumPy를 기반으로 최적화되어 대규모 데이터 처리에 적합합니다.강..

파이썬 기초 : NumPy 연산을 효율적으로 처리하기 위한 라이브러리

NumPy란?NumPy(NumPy: Numerical Python)는 Python에서 수치 연산을 효율적으로 처리하기 위한 라이브러리입니다. 특히, 다차원 배열 객체 ndarray를 사용해 대규모 데이터 처리를 간단하고 빠르게 수행할 수 있습니다. 또한, 배열 및 행렬 연산, 선형대수, 푸리에 변환, 난수 생성 등의 기능을 제공합니다.  NumPy 설치pip install numpyNumPy의 핵심 요소1. ndarray: 다차원 배열 객체NumPy의 핵심 데이터 구조로, 리스트와 유사하지만 크기가 고정되고 동일한 데이터 타입만 저장 가능합니다.import numpy as np# 1D 배열arr1 = np.array([1, 2, 3])# 2D 배열arr2 = np.array([[1, 2], [3, 4]]..

728x90
반응형