python/pandas

7. pandas DataFrame - index, column의 이해

Abokadoh 2023. 2. 17. 18:10
# <in>
import pandas as pd

train_data = pd.read_scv('/train.csv')
train_data.head()

지금 head로 DataFrame을 열었을 때, 가장 왼쪽에 보이는 숫자가 index number이다. 

 

인덱스(index)란.

  • index 속성 , 절대로 중복이 있을 수 없음
  • 각 아이템을 특정할 수 있는 고유의 값을 저장
  • 복잡한 데이터의 경우, 멀티 인덱스로 표현 가능
# <in>
train_data.index


# <out>
RangeIndex(start=0, stop=891, step=1)

 

컬럼(column)이란.

  • columns 속성
  • 각각의 특성(feature)을 나타내는 곳이다. (id, Sex, Ticket Number ...)
  • 복잡한 데이터의 경우, 멀티 컬럼으로 표현 가능
# <in>
train_data.columns


# <out>
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

 

 인덱스는 여러 특성들은 가진 A를 특정하는 고유값이고, 그 고유값들이 가진 특성 나열을 컬럼이라고 생각하자.