DataFrame은 Data Analysis, Machine Learning 등.. data변형을 위해 가장 많이 사용되는 데이터 타입으로
Series가 1차원 데이터라면 DataFrame은 행과 열이 있는 2차원으로 확대된 버젼이다.
2차원이기 때문에 인덱스가 row, column으로 구성이 되는데 여기서 row는 각 개별 데이터를, column은 개별 속성을 의미한다.
우선 pandas를 부르고 DataFrame을 불러오자 실습으로 사용할 데이터는 kaggle에 있는 타이타닉 데이터이다.
import pandas as pd
train_data = pd.read_csv('./train.csv')
train_data
여기서 사용한 read_csv()
함수는 추후 다루도록 하고 우선 데이터를 한 눈에 보기 어렵기 때문에 head
함수와 tail
함수를 사용해 데이터를 파악해보겠다.
head함수는 앞으로 우리가 DataFrame으로 data를 보게 되면 십중팔구 대부분의 상황에서 가장 처음으로 사용하게 될 함수이다.
- head
, tail
함수로 데이터 간단하게 보기
# <in>
train_data = pd.read_csv('./train.csv')
train_data.head(n = 3)
train_data.tail(n = 8)
# <out>
출력된 DataFrame을 보면 데이터가 row 890개 여러 개의 column으로 이루어져 있다는 것을 파악할 수 있다.
DataFrame의 data를 더 파헤쳐 보자.
- dataframe 데이터 파악하기
shape
함수 속성 (row, column)describe
함수 - 숫자형 데이터의 통계치 계산info
함수 - 데이터 타입, 각 아이템의 개수 등 출력
shape
# <in>
train_data.shape
말그대로 shape
함수는 DataFrame의 모양을 알려준다. 앞이 row, 뒤가 column이다.
이 DataFrame은 891행 12열 행렬 구조인 셈이다.
describe()
# <in>
train_data.describe()
describe()
함수는 dataframe의 기본통계를 해준다.
info()
# <in>
train_data.info()
info()
함수는 DataFrame 내 data들의 타입, 각 items의 개수를 제공해준다.
다음엔 DataFrame의 구조와 index, column에 대해서 공부해보자.
'python > pandas' 카테고리의 다른 글
8. pandas DataFrame 생성하기 (0) | 2023.02.18 |
---|---|
7. pandas DataFrame - index, column의 이해 (0) | 2023.02.17 |
5. pandas Series 슬라이싱 (0) | 2023.02.17 |
4. pandas Series - boolean selection (0) | 2023.02.17 |
3. pandas Series 연산 (0) | 2023.02.17 |