python/pandas

python/pandas

14. pandas DataFrame column간 상관관계

1. 상관관계 상관관계란 데이터 간 단순 관계를 설명하는 데 유용하다. 예를 들어 캠핑지가 있는 야영지의 데이터 집합을 확인한다고 가정해보자. 야영지의 고도와 여름의 평균 최고 기온 간에 관계가 있는지 확인해보면, 상관관계가 있는 표본에서는 이 두 가지 변수를 비교했을 때 고도가 증가함에 따라 온도가 떨어지는 선형 관계를 찾을 수 있을 것이다. (음의 상관관계) 상관관계 수치는 0에 근접할수록 선형 관계가 약해진다고 본다.(상관관계 없음) 두 변수 간 양의 상관관계가 있으면 상관계수는 양의 값, 음의 상관관계에서는 음의 값을 갖는다. 상관계수는 (-1 , 1 ) 사이의 결과이며 인과관계를 의미하진 않는다. pandas에도 상관관계를 쉽게 구할 수 있도록 도와주는 함수가 있는데 바로 corr함수이다. - ..

python/pandas

13. pandas DataFrame - column 추가, 삭제

새로운 컬럼을 추가하는 일은 굉장히 빈번하게 벌어지는 일이며, 개념적으론 새로운 변수를 DataFrame에 추가한다는 의미일 것이다. DataFrame의 column을 추가해보자. - (1) DataFrame column 추가하기 우선 DataFrame을 불러오고 # import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() 다른 패키지와 마찬가지로 대괄호[ ]연산을 사용하여 추가할 수 있다. # train_data['Age_double'] = train_data['Age'] * 2 train_data.head() DataFrame의 맨 오른쪽에 새로운 col이 추가된 것을 확인할 수 있다. 기존의 column들 사이에 새로..

python/pandas

12. pandas - DataFrame boolean Selection

DataFrame에서 boolean값을 통해 해당되는 값만을 추출하는 방법에 대해 공부해보자. boolean selection으로 row를 선택하는 방법은 numpy에서와 동일한 방식이다. 우선 head()를 통해 DataFrame을 살펴보자. import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() - DataFrame boolean Selection 30대이면서 1등석에 탄 사람을 선택해보자. age >= 30, Pclass = 1인 조건을 찾으면 될 것이다. age_ = (train_data['Age'] >= 30) & (train_data['Age'] < 40) class_ = train_data['Pclass'] ..

python/pandas

11. pandas DataFrame -row, slicing(loc, iloc)

앞에서 DataFrame에서 대괄호 연산이 그 값을 column명으로 받는다는 것에 대해 공부했다. 때문에 DataFrame에서는 row을 불러오기 위해 loc, iloc 속성을 사용해야 한다. 그 전에 DataFrame에서의 slicing에 대해 알아보자. DataFrame에서는 [] 대괄호 연산자가 column을 선택하지만, slicing을 하면 row레벨을 그대로 지원한다. # import numpy as np import pandas as pd train_data = pd.read_csv('./train.csv') train_data[7:10] 대괄호 연산이 slicing의 경우 column이 아닌 row를 지원하는 것을 확인할 수 있다. 이제 본격적으로 row을 선택해 명시된 row만을 출력하는..

python/pandas

10. pandas - DataFrame의 [column] 선택 출력

우리가 데이터 분석을 할 때 데이터의 전체가 아닌 특정 column이나 row만을 필요로 하는 경우가 있다. 이런 경우의 선택적으로 column을 출력하는 방법에 대해 공부해보자. # import pandas as pd # data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data train_data = pd.read_csv('./train.csv') train_data.head() 우선 DataFrame을 불러왔다. 우리가 앞에서 배운 numpy와 python list의 경우 대괄호 연산을 하면 이를 index access로 보는데 DataFrame에서는 이것을 index가 아닌 column으로 본다. # import pandas as pd..

python/pandas

9. pandas DataFrame - csv 파일로부터 DataFrame 생성

데이터분석을 위해 DataFrame을 생성하는 가장 일반적인 방법은 csv파일로부터 생성하는 방법이다. 데이터 소스로부터 추출된 csv(comma separated values) 파일로부터 DataFrame을 생성해보자. csv파일을 불러오는 함수로 pandas.read_csv()가 있다. 실습에 사용할 csv 파일은 kaggle에서 가져온 타이타닉 data이다. 우선 csv파일을 그냥 열어보자. csv파일의 경우 엑셀과도 호환이 되기 때문에 엑셀에서도 열 수 있다. scv파일 상단에 보이는 id,name,age 등을은 데이터의 header로 header는 존재할 수도 존재하지 않을 수도 있다. 이 경우 상단에 있는 header text는 데이터가 아닌 데이터의 변수명으로 이 데이터는 header가 있는..

python/pandas

8. pandas DataFrame 생성하기

대부분의 상황에서 우리가 DataFrame을 만드는 일은 없을 것이다. 웬만하면 csv파일로 불러오거나 외부의 소스를 활용할 것이기 때문이다. 하지만 DataFrame을 이해할 겸, 혹은 추후에 간단한 DataFrame을 직접 만들어 테스트용으로 사용할 수도 있기 때문에 생성하는 방법은 간략히만 공부해 보도록 하자. 우선 pandas를 불러주고 import pandas as pd DataFrame을 만드는 방법은 dict로 부터 혹은 series로 부터 두 가지다. 우선 dict로 만들어보자. - dictionary로부터 DataFrame 생성하기 dict의 key가 column이 된다. # data = {'a' : 100, 'b' : 200, 'c' : 300} pd.DataFrame(data, ind..

python/pandas

7. pandas DataFrame - index, column의 이해

# import pandas as pd train_data = pd.read_scv('/train.csv') train_data.head() 지금 head로 DataFrame을 열었을 때, 가장 왼쪽에 보이는 숫자가 index number이다. 인덱스(index)란. index 속성 , 절대로 중복이 있을 수 없음 각 아이템을 특정할 수 있는 고유의 값을 저장 복잡한 데이터의 경우, 멀티 인덱스로 표현 가능 # train_data.index # RangeIndex(start=0, stop=891, step=1) 컬럼(column)이란. columns 속성 각각의 특성(feature)을 나타내는 곳이다. (id, Sex, Ticket Number ...) 복잡한 데이터의 경우, 멀티 컬럼으로 표현 가능 #..

Abokadoh
'python/pandas' 카테고리의 글 목록 (2 Page)