728x90

데이터분석 3

K-Means Clustering 실습 및 이론 정리

K-Means Clustering은 비지도 학습(Unsupervised Learning)의 대표적인 기법으로, 데이터를 군집화하여 비슷한 특성을 가진 데이터를 묶는 데 사용됩니다. 이 알고리즘은 특히 고객 데이터를 분석하거나 특정 패턴을 찾을 때 유용하며, 실습 과정을 통해 데이터 군집화를 직접 수행해볼 수 있습니다.K-Means Clustering의 원리초기 중심점 설정: K값(클러스터 개수)을 설정하고, 초기 중심점을 랜덤으로 선택합니다.클러스터 할당: 각 데이터 포인트에 대해 가장 가까운 중심점에 해당하는 클러스터로 할당합니다. 거리는 일반적으로 유클리드 거리(Euclidean Distance)로 계산됩니다.중심점 업데이트: 각 클러스터에 속한 데이터의 평균을 계산하여 새로운 중심점을 설정합니다.반..

디시전 트리(Decision Tree) 개념과 데이터 분할

데이터를 분류하는 첫 번째 선데이터를 효과적으로 분류하기 위해 우리는 특정 기준을 설정하고 이를 바탕으로 데이터를 나눠야 합니다. 디시전 트리는 이러한 분류 과정을 시각적으로 표현하는 가장 직관적인 방법 중 하나입니다.우리는 데이터를 분류할 때, 가장 먼저 첫 번째 분할 기준을 결정해야 합니다. 예를 들어, 아래와 같은 데이터가 있다고 가정해 봅시다.특정 데이터의 값을 기준으로 그룹을 나눈다.첫 번째 기준을 설정하여 데이터를 상위 그룹과 하위 그룹으로 분할한다.이제 이 과정을 단계별로 살펴보겠습니다.첫 번째 선: 데이터의 첫 번째 분할먼저, 데이터를 분석하여 어떤 기준으로 분할할 것인지 결정해야 합니다. 일반적으로 Y축 값(예: 특정 값이 60보다 큰가 작은가?)**을 기준으로 데이터를 나누어볼 수 있습..

파이썬 기초 : 데이터 결합(조인)하는 방법

데이터 분석을 하다 보면 서로 다른 데이터셋을 합쳐야 하는 경우가 많습니다. 이때 SQL의 JOIN과 유사한 개념을 파이썬에서도 사용할 수 있습니다. 이번 글에서는 파이썬에서 데이터 결합(조인)하는 방법을 초보자도 쉽게 이해할 수 있도록 설명하고, SQL 조인과의 차이점도 비교해보겠습니다.1. 파이썬에서 데이터 조인이란? 파이썬에서 데이터 조인은 두 개 이상의 데이터프레임을 특정 기준(키, key)에 따라 합치는 과정을 의미합니다. 주로 pandas 라이브러리를 사용하여 데이터프레임을 병합(merge)하거나 결합(concatenate)할 수 있습니다.SQL에서의 JOIN과 매우 유사하지만, 문법과 방식에서 차이가 있습니다.2. SQL JOIN과 파이썬 pandas JOIN의 비교 비교 항목 SQL JO..

728x90
반응형