DataFrame은 Data Analysis, Machine Learning 등.. data변형을 위해 가장 많이 사용되는 데이터 타입으로 Series가 1차원 데이터라면 DataFrame은 행과 열이 있는 2차원으로 확대된 버젼이다. 2차원이기 때문에 인덱스가 row, column으로 구성이 되는데 여기서 row는 각 개별 데이터를, column은 개별 속성을 의미한다. 우선 pandas를 부르고 DataFrame을 불러오자 실습으로 사용할 데이터는 kaggle에 있는 타이타닉 데이터이다. import pandas as pd train_data = pd.read_csv('./train.csv') train_data 여기서 사용한 read_csv()함수는 추후 다루도록 하고 우선 데이터를 한 눈에 보기 ..
pandas Series 의 마지막 시간이다. pandas Series는 이어 공부할 DataFrame에서도 사용되는 개념이기 때문에 잘 익혀보도록 하자. import numpy as np import pandas as pd 우선 간단하게 pandas Series를 만들어보자. # s = pd.Series(np.arange(100,105),['a',b','c','d','e']) s # a 100 b 101 c 102 d 103 e 104 dtype: int64 지난 시간에 공부했지만, 값을 바꾸기 위해선 Series의 인덱스 명만 알면 된다. 또한 값이 없는 경우 해당 인덱스와 값이 추가되는 것도 배웠다. 인덱스 'a' 의 value가 바뀌었고 인덱스 'k'와 그 값이 추가 되었다. drop()함수를 사..
pandas series를 이용해 boolean selection을 공부해보자. 다행히 이는 numpy에서 boolean과 크게 다른 점이 없다. import numpy as np import pandas as pd - Boolean selection boolean Series가 []와 함께 사용되면 True 값에 해당하는 값만 새로 반환되는 Series객체에 포함됨 다중(multiple)조건의 경우, &(and), |(or)를 사용하여 연결 가능하다. # s = pd.Series(np.arange(10), np.arange(10)+1) s # 1 0 2 1 3 2 4 3 5 4 6 5 7 6 8 7 9 8 10 9 dtype: int64 # s > 5 # 1 False 2 False 3 False 4 ..
import numpy as np import pandas as pd Series size, shape, unique, count, value_counts 함수 size : 개수 반환 shape : 튜플형태로 shape반환 unique: 유일한 값만 ndarray로 반환 count : NaN을 제외한 개수를 반환 (존재하는 값만) mean: NaN을 제외한 평균 value_counts: NaN을 제외하고 각 값들의 빈도를 반환 Series에 이러한 함수들이 있다는 것 정도로 알아두되, value_counts 함수가 어떻게 돌아가는지에 대해서는 알아두는 것이 좋을 것 같다. 우선 하나의 Series를 만들어보자. # s = pd.Series([1, 1, 2, 1, 2, 2, 2, 1, 1, 3, 3, 4,..
1. Series란 Series란 pandas의 기본 객체 중 하나로 numpy의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원의 배열을 나타낸다. index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스를 생성하고, 지정할 경우 명시적으로 지정된 Index를 사용한다. import numpy as np import pandas as pd - data만 사용한 Series 생성 우선 Series를 data로만 생성해보자. # s1 = pd.Series([1, 2, 3]) # series의 value가 1, 2, 3 s1 # 0 1 1 2 2 3 dtype: int64 Series의 index가 default로 0부터 자동 생성되는 것을 확인할 수 있다. 이번엔 Ser..