전체 글

어서오세요. Data science | statistic
R/Exploratory data analysis

R for Data Science::transformation2 ; grouped

- summarise() summarise()는 data frame을 한 행으로 축소한다. library(dplyr) library(nycflights13) summarise(flights, delay = mean(dep_delay, na.rm = TRUE)) - group_by() summarise()함수는 group_by()와 함께 사용했을 때 유용하다. 그 사례를 보며 학습해보겠다. by_day % summarise( count = n(), dist = mean(distance, na.rm = TRUE), delay = mean(arr_delay, na.rm = TRUE) ) %>% filter(count > 20, dest != 'HNL') 앞에서는 코드를 연결하기 위해 3번의 객체화가 있었지만 ..

R

R programming Error : context[[1L]]에서 다음과 같은 에러가 발생했습니다:첨자의 허용 범위를 벗어났습니다

context[[1L]]에서 다음과 같은 에러가 발생했습니다:첨자의 허용 범위를 벗어났습니다. R script에 타이핑을 할 때 갑자기 'context[[1L]]에서 다음과 같은 에러가 발생했습니다:첨자의 허용 범위를 벗어났습니다.' 의 상황을 경험할 수 있다. 사용하는 데이터를 가지고있는 패키지가 열려 있지 않아 발생하는 것으로 확인된다. 나의 경우는 nycflights13 library의 flights데이터를 사용하고 있었는데 해당 라이브러리를 열지 않아 발생했던 것이였다. 라이브러리를 불러오니 더이상 에러가 발생하지 않는다~!

R/Exploratory data analysis

R for Data Science::transformation

tibble이란 tibble은 data frame이지만, tidyverse에서 더 잘 작동되도록 수정되었다. library(nycflights13) library(tidyverse) head(flights) int는 정수 dbl은 복소수 또는 실수 chr은 string vector, string dttm은 날짜-시간(날짜 + 시간) lgl은 논리, 논리벡터 fctr은 범주형 변수 date는 날짜 를 나타낸다. dplyr의 대표적인 함수 6개를 알아보자. filter() 값으로 관측값을 선택하는 함수. arrange() 행을 재정렬 select() 이름으로 변수를 선택 mutate() 새로운 변수 생성 summarise() 여러 값을 하나의 요약으로 축소 이러한 함수는 모두 각 함수의 범위를 전체 데이터 ..

R

R programming Error : file(out, "wt")

요런 에러가 이유없이 생길 때가 있다. tempdir() dir.create(tempdir()) 이제 오류가 발생하지 않는다.

R/Exploratory data analysis

R for Data Science::scales 2

1. Date-time position scales date_breaks 인자를 이용해 그래프의 눈금을 연,월,주,일,시간,분 단위로 마크할 수 있다. 실습을 통해 공부해보자. date_base

R/Exploratory data analysis

ggplot2::Position scales and axes

1. Limits ggplot(mpg, aes(displ, hwy)) + geom_point() + facet_wrap(vars(years)) 이전에 공부한 내용에서 위의 코드로 displ과 hwy의 관계를 연도별로 Facet하여 볼 수 있었다. 하지만 우리에게 1999년 데이터가 불필요한 데이터라면? library(dplyr) mpg_99 % filter(year == 1999) mpg_08 % filter(year == 2008) base_99

R/Exploratory data analysis

ggplot2::geom fuctions

이번 chpt에서는 ggplot의 여러 가지 geom functions에 대해서 알아보자. library(ggplot2) df

R/Exploratory data analysis

ggplot2:: geom_graphs

ggplot(mpg, aes(drv, hwy)) + geom_point() geom_point로 그래프를 그렸을 때. 실제 관측값의 개수와는 다르게 데이터가 겹쳐서 원치 않는 방향으로의 정보를 전달해야 하는 상황이 발생할 수 있다. 이럴 때 사용할 수 있는 boxplot과 jittered 그래프를 그려보자. 1. geom_jitter() ggplot(mpg, aes(drv, hwy)) + geom_jitter() jitter 그래프를 사용하면 plot 그래프와는 다르게 같은 값의 데이터를 넓게 퍼트려주어 동일값의 데이터를 한 눈에 확인할 수 있게 한다. 분산시키는 패턴은 매번 다르게 적용되는 것으로 확인된다. jitter와 비슷한 정보를 제공하는 boxplot 그래프도 있다. 사실 jitter보다는 bo..

Abokadoh
Abokadoh