# Pandas 모듈: 데이터 분석의 핵심 도구 Pandas는 파이썬에서 데이터 분석을 위한 가장 강력하고 인기 있는 라이브러리 중 하나입니다. 특히, **데이터프레임(DataFrame)**이라는 2차원 표 형태의 데이터 구조를 제공하여 데이터를 효율적으로 관리하고 분석할 수 있도록 돕습니다. * 데이터 구조: Series와 DataFrame이라는 직관적인 자료 구조를 제공하여 데이터를 쉽게 다룰 수 있습니다. * 데이터 처리: 데이터 읽기, 쓰기, 선택, 필터링, 변형, 집계 등 다양한 데이터 처리 기능을 제공합니다. * 데이터 분석: 그룹화, 병합, 시각화 등 데이터 분석에 필요한 기능을 제공합니다. * 다양한 데이터 형식 지원: CSV, Excel, SQL 데이터베이스 등 다양한 형식의 데이터를 읽고 쓸 수 있습니다. * NumPy와의 연동: NumPy와의 연동을 통해 고성능 수치 계산을 수행할 수 있습니다. * Matplotlib와의 연동: Matplotlib과의 연동을 통해 데이터 시각화를 쉽게 수행할 수 있습니다. ```python import pandas as pd # 데이터 생성 data = {'이름': ['홍길동', '김철수', '박영희'], '나이': [30, 25, 28], '성별': ['남', '남', '여']} df = pd.DataFrame(data) # 데이터 출력 print(df) # 특정 열 선택 print(df['이름']) # 조건에 맞는 데이터 추출 print(df[df['나이'] > 25]) # 그룹화 grouped = df.groupby('성별') print(grouped.mean()) # 시각화 (Matplotlib과 함께 사용) import matplotlib.pyplot as plt df.plot(kind='bar') plt.show() ``` ## 기본 개념 * Series: 1차원 배열과 유사하며, 각 요소에 인덱스가 부여된 자료 구조입니다. * DataFrame: 표 형태의 2차원 데이터를 나타내는 자료 구조입니다. 행과 열로 구성되어 있으며, 각 열은 Series로 구성됩니다. ## 주요 기능 * 데이터 읽기/쓰기: 다양한 형식의 파일(CSV, Excel, SQL 등)을 읽고 쓸 수 있습니다. * 데이터 선택: 행, 열, 조건에 맞는 데이터를 선택할 수 있습니다. * 데이터 변형: 데이터를 정렬, 필터링, 그룹화, 합계, 평균 등 다양한 방식으로 변형할 수 있습니다. * 결측치 처리: 결측치를 찾아내고 처리하는 기능을 제공합니다. * 데이터 병합: 여러 데이터프레임을 합칠 수 있습니다. ## 활용 분야 * 데이터 분석: 대용량 데이터를 분석하고 시각화하여 인사이트를 도출합니다. * 데이터 전처리: 머신 러닝 모델에 사용하기 위한 데이터를 정제하고 가공합니다. * 금융 데이터 분석: 주식 시장 데이터, 금융 데이터 분석에 활용됩니다. * 과학 데이터 분석: 과학 실험 데이터 분석에 활용됩니다.