[pandas] pandas 기초(1)
pandas
- Python 프로그래밍 언어를 기반으로 구축된 데이터 분석 및 조작 도구(오픈 소스).
- 홈페이지 : https://pandas.pydata.org/
위 홈페이지의 문서를 보며 정리한 내용입니다.
1. 설치
pip install pandas
- 코랩(colab)에서는 기본적으로 pandas 라이브러리를 지원.
import pandas as pd
passenger = {"이름" : ["홍길동", "이순신", "콩순이"],
"나이" : [22, 35, 58],
"성별" : ["남", "남", "여"],
}
#print(passenger['name'][0])
df = pd.DataFrame(data = passenger)
df
2. pandas 데이터 구조
- Data Frame의 각 열(column)은 Series 입니다.
- Series가 모여 Data Frame이 됩니다.
df['나이']
#series_temp = df['나이']
#print(type(series_temp))
- Data Frame의 각 열을 선택할 때, 대괄호[]를 사용.
- 각 열의 데이터 타입이 Series라는 것을 확인할 수 있습니다.
ages = pd.Series([22,35,58], name='나이')
ages
- series : 단열 열이므로 열 레이블이 없고, 행 라벨이 있음.
- int64 : 정수형 데이터 타입
3. Data Frame 또는 Series를 이용한 작업
- mas() : 최대값을 출력
df['나이'].max()
ages.max()
import pandas as pd
passenger = {"이름" : ["홍길동", "이순신", "콩순이"],
"나이" : [22, 35, 58],
"성별" : ["남", "남", "여"],
}
#print(passenger['나이'][0])
df = pd.DataFrame(data = passenger)
df.describe()
- count : 열의 개수
- mean : 평균
- std : 표준편차
- min : 최소값
- max : 최대값
- 25% / 50% / 75% : 백분위수의 각 지점, 분포를 반영해 평균을 보완하는 목적으로 사용.
- 25% : 하위 백분위수
- 75% : 상위 백분위수
- 50% : 중위수
4. 정리
- pandas 패키지 :
import pandas as pd
- pandas의 데이터 테이블 :
DataFrame
- DataFrame의 각 열(컬럼 : column)은 Series
- DataFrame 또는 Series에 메소드(max(), min() 등)를 적용 가능.
댓글남기기