pandas

  • Python 프로그래밍 언어를 기반으로 구축된 데이터 분석 및 조작 도구(오픈 소스).
  • 홈페이지 : https://pandas.pydata.org/

위 홈페이지의 문서를 보며 정리한 내용입니다.

1. 설치

  • pip install pandas
  • 코랩(colab)에서는 기본적으로 pandas 라이브러리를 지원.
import pandas as pd

passenger = {"이름" : ["홍길동", "이순신", "콩순이"],
             "나이" : [22, 35, 58], 
             "성별" : ["남", "남", "여"],
             }
#print(passenger['name'][0])
df = pd.DataFrame(data = passenger)
df

image

2. pandas 데이터 구조

image

  • Data Frame의 각 열(column)은 Series 입니다.
  • Series가 모여 Data Frame이 됩니다.
df['나이']

#series_temp = df['나이']
#print(type(series_temp))

image

  • Data Frame의 각 열을 선택할 때, 대괄호[]를 사용.
  • 각 열의 데이터 타입이 Series라는 것을 확인할 수 있습니다.
ages = pd.Series([22,35,58], name='나이')
ages

image

  • series : 단열 열이므로 열 레이블이 없고, 행 라벨이 있음.
  • int64 : 정수형 데이터 타입

3. Data Frame 또는 Series를 이용한 작업

  • mas() : 최대값을 출력
df['나이'].max()
ages.max()
import pandas as pd

passenger = {"이름" : ["홍길동", "이순신", "콩순이"],
             "나이" : [22, 35, 58], 
             "성별" : ["남", "남", "여"],
             }
#print(passenger['나이'][0])
df = pd.DataFrame(data = passenger)
df.describe()

image

  • count : 열의 개수
  • mean : 평균
  • std : 표준편차
  • min : 최소값
  • max : 최대값
  • 25% / 50% / 75% : 백분위수의 각 지점, 분포를 반영해 평균을 보완하는 목적으로 사용.
  • 25% : 하위 백분위수
  • 75% : 상위 백분위수
  • 50% : 중위수

4. 정리

  • pandas 패키지 : import pandas as pd
  • pandas의 데이터 테이블 : DataFrame
  • DataFrame의 각 열(컬럼 : column)은 Series
  • DataFrame 또는 Series에 메소드(max(), min() 등)를 적용 가능.

카테고리:

업데이트:

댓글남기기