python/pandas

6. pandas DataFrame - 데이터 살펴보기

Abokadoh 2023. 2. 17. 17:59

DataFrame은 Data Analysis, Machine Learning 등.. data변형을 위해 가장 많이 사용되는 데이터 타입으로

 

Series가 1차원 데이터라면 DataFrame은 행과 열이 있는 2차원으로 확대된 버젼이다.

 

2차원이기 때문에 인덱스가 row, column으로 구성이 되는데 여기서 row는 각 개별 데이터를, column은 개별 속성을 의미한다.

 

우선 pandas를 부르고 DataFrame을 불러오자 실습으로 사용할 데이터는 kaggle에 있는 타이타닉 데이터이다.

import pandas as pd

train_data = pd.read_csv('./train.csv')
train_data

여기서 사용한 read_csv()함수는 추후 다루도록 하고 우선 데이터를 한 눈에 보기 어렵기 때문에 head함수와 tail함수를 사용해 데이터를 파악해보겠다.

 

head함수는 앞으로 우리가 DataFrame으로 data를 보게 되면 십중팔구 대부분의 상황에서 가장 처음으로 사용하게 될 함수이다.

- head, tail 함수로 데이터 간단하게 보기

# <in>
train_data = pd.read_csv('./train.csv')
train_data.head(n = 3)
train_data.tail(n = 8)


# <out>

출력된 DataFrame을 보면 데이터가 row 890개 여러 개의 column으로 이루어져 있다는 것을 파악할 수 있다.

DataFrame의 data를 더 파헤쳐 보자.

 

- dataframe 데이터 파악하기

  • shape함수 속성 (row, column)
  • describe 함수 - 숫자형 데이터의 통계치 계산
  • info 함수 - 데이터 타입, 각 아이템의 개수 등 출력

 

shape

# <in>
train_data.shape

말그대로 shape함수는 DataFrame의 모양을 알려준다. 앞이 row, 뒤가 column이다.

이 DataFrame은 891행 12열 행렬 구조인 셈이다.

describe()

# <in>
train_data.describe()

describe()함수는 dataframe의 기본통계를 해준다.

 

 

 

info()

# <in>
train_data.info()

info() 함수는 DataFrame 내 data들의 타입, 각 items의 개수를 제공해준다.

다음엔 DataFrame의 구조와 index, column에 대해서 공부해보자.