-
파이썬 기초 : 판다스 실습 | 데이터 분석🐍 Python 2025. 1. 22. 16:45728x90
문제를 보고 실습 하기
방법 1
DataFrame 생성 후 직접 추가
pd.DataFrame()을 사용하여 비어 있는 DataFrame 객체를 생성합니다.
이후, 데이터를 열(column) 단위로 추가하여 완성합니다.
방법2
딕셔너리로 DataFrame 생성
각 열(column)을 딕셔너리의 키(key), 데이터(값)를 리스트로 구성하여 한 번에 DataFrame을 생성할 수 있습니다.
데이터의 평균 구하기
numeric_only는 Pandas의 집계 함수(aggregation functions)에서 사용되는 매개변수로, 데이터프레임에서 숫자 데이터만 처리할지 여부를 지정하는 역할을 합니다.
데이터의 NaN 을 평균으로 채우기
데이터 분석 문제
테이터의 행과 열 확인 하기
데이터 상위 5개 목록만 확인하기
테이터 하위 5개 목록만 확인하기
전체적인 통계 내용 확인하기
데이터의 컬럼별 설명 확인
인덱스 기준으로 정렬 하기
컬럼 기준으로 정렬 해보기
카테고리컬 데이터(Categorical Data)
중복된 데이터가 있는 것을 카테고리컬(categorycal) 데이터 라고 한다.
중복된 컬럼별 중복된 벨류 확인 하기
중복된 데이터는 몇개인가요?
이 회사는 각 년도별로 지급한 연봉은 얼마인가?
SQL 에서 그룹 바이 를 사용 했듯이 파이썬에서도 그룹 바이를 사용 가능 하다.
groupby() 를 하는 경우 묶을 그룹이 2개 이상일 경우 리스트로 만들어 줘야 한다.
groupby의 작동 원리
- **groupby**는 특정 열(column) 또는 열들의 조합을 기준으로 데이터를 그룹화합니다.
- 하나의 열로 그룹화: 단일 열을 기준으로 데이터를 그룹화합니다.
총 합과 평균을 같이 보고 싶은 경우에는 .agg() 함수를 사용 하면 된다.
Pandas의 agg() 함수는 데이터프레임이나 시리즈에 대해 여러 가지 집계 함수(합계, 평균 등)를 동시에 적용할 수 있도록 도와주는 함수입니다.
- 데이터를 그룹화(groupby)하거나 특정 열에 대해 다양한 통계량을 계산할 때 사용됩니다.
- 집계(aggregation) 작업을 편리하게 처리할 수 있도록 설계되었습니다.
728x90'🐍 Python' 카테고리의 다른 글
파이썬 플롯(Python Plot) 완벽 가이드 (0) 2025.01.24 파이썬 기초 : 데이터 결합(조인)하는 방법 (0) 2025.01.23 파이썬 기초 : Pandas(판다스) DataFrame과 Series, 빌트인 함수 (0) 2025.01.21 파이썬 기초 : NumPy 연산을 효율적으로 처리하기 위한 라이브러리 (0) 2025.01.21 파이썬 기초 : Functions(함수), Lambda Expressions(람다 표현식) (0) 2025.01.21