python/pandas
7. pandas DataFrame - index, column의 이해
Abokadoh
2023. 2. 17. 18:10
# <in>
import pandas as pd
train_data = pd.read_scv('/train.csv')
train_data.head()
지금 head로 DataFrame을 열었을 때, 가장 왼쪽에 보이는 숫자가 index number이다.
인덱스(index)란.
- index 속성 , 절대로 중복이 있을 수 없음
- 각 아이템을 특정할 수 있는 고유의 값을 저장
- 복잡한 데이터의 경우, 멀티 인덱스로 표현 가능
# <in>
train_data.index
# <out>
RangeIndex(start=0, stop=891, step=1)
컬럼(column)이란.
- columns 속성
- 각각의 특성(feature)을 나타내는 곳이다. (id, Sex, Ticket Number ...)
- 복잡한 데이터의 경우, 멀티 컬럼으로 표현 가능
# <in>
train_data.columns
# <out>
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
dtype='object')
인덱스는 여러 특성들은 가진 A를 특정하는 고유값이고, 그 고유값들이 가진 특성 나열을 컬럼이라고 생각하자.