R Programming

정보, 기타오류 해결)

RStudio 한글이 깨질 때 ? ??, ㅁㅁ, on mac

다른 사람이 작업한 작업물을 받았을 때, 이렇게 한글이 깨져서 나오는 경우가 있다. 보통 인코더 문제라고만 생각하고 Tools -> Code -> Saving -> Defalut test encoding:에서 UTF-8로 설정해주면 되는걸로만 생각했다. 근데 위에 방법으로 설정을 변경해도 한글 깨짐 현상이 해결되지 않는 경우가 있따. 그런 경우엔... 조기서 reopen with Encoding을 눌러준다. 조기서 아래에 Show all encodings를 누른다. EUC-KR을 찾고 OK 해결완료. 추가로.. File -> Reopen with Encoding이 탭에 안보이는 경우가 있는데 이럴땐.. Help에서 Reopen with Encoding을 검색하면 들어갈 수 이따. 굿

R/Exploratory data analysis

R for Data Science:: Relational data

우리는 많은 data table을 가질 수 있고, 특정한 질문의 답을 하기 위해서 그것들을 결합할 수 있어야 한다. data table이 individual data인 경우가 아닌 관계형 데이터(relational data)일 때, 우리는 두 데이터 table을 합치는 방법을 알고 있어야 한다. library(tidyverse) library(nycflights13) print(airlines) print(airports) print(planes) print(weather) airlines 데이터는 항공사의 풀네임과 약식 이름을 제공해준다. airports 데이터는 faa airport code로 식별되는 각 공항들의 정보를 제공한다. planes 데이터는 tailnum으로 식별되는 각 항공기별 정보를 ..

R/Exploratory data analysis

R for Data Science:: tidy data

1. tidyverse tidy data를 다루기 앞서 tidyverse 패키지를 열어보자. dplyr, ggplot2와 모든 tidyverse 내의 패키지들은 tidy data로 잘 작동하도록 설계됐다. 그렇다면 무엇을 tidy data라 하는가? Tidy data는 세 가지 기본 원칙을 따른다. 변수는 열로 정리되어야 합니다: 각 변수(예: 나이, 성별, 소득)는 데이터 집합의 열에 대응. 열은 변수의 유형에 따라 명확하게 정의되어야 한다. 관측치는 행으로 정리되어야 한다. 각 관측치(예: 개별 사람, 제품, 도시)는 데이터 집합의 행에 대응한다. 각 행은 고유한 식별자를 가지며, 다른 관측치와 구분될 수 있어야 한다. 측정값은 셀에 저장되어야 한다. 데이터 집합의 각 셀은 하나의 측정값을 포함해야 ..

R/Exploratory data analysis

R for Data Science::tibbles and data import

1. tibble ? tibble은 dataframe이라고 할 수 있다. 데이터프레임을 여러 과정에서 유리하도록 수정한 것이다. 기존에 df에서 as_tibble()로 변환이 가능하다. library(tidyverse) as_tibble(iris) 그렇다면 tibble과 dataframe은 어떠한 것이 다른가? 살펴보도록 하겠다. 우선 tibble은 직전에 정의했던 변수로 새로운 변수를 정의하는 것이 가능하다. 이게 뭔 소린지 모르겠다면 예제 코드로 이해해 보자! tibble( x = 1:5, y = 1, z = x ^ 2 + y ) 이렇게 직전에 정의한 x, y를 이용하여 z변수를 정의할 수 있다는 말이다. 이게 data frame에서는 안되냐고? data.frame( x = 1:5, y = 1, z ..

R

R programming ; locale setting(message transaction)

뭘 잘못건드렸는지 R에서 warning message같은게 한글로 나타나고 있다. 이러면 당장은 좋은데 이후에 검색을 할 때 검색이 곤란해지는 경우가 있다. 왜냐면 구글링은 영어로하는게 정보가 많기 때문, 그래서 다시 영어로 바꿔보도록 하겠다. 매우 간단. R console 창이 있다. script아님 거따가 system("defaults write org.R-project.R force.LANG en_US.UTF-8") 요걸 복붙해서 써주면 댄다. 끝.

R/Exploratory data analysis

R for Data Science::transformation2 ; grouped

- summarise() summarise()는 data frame을 한 행으로 축소한다. library(dplyr) library(nycflights13) summarise(flights, delay = mean(dep_delay, na.rm = TRUE)) - group_by() summarise()함수는 group_by()와 함께 사용했을 때 유용하다. 그 사례를 보며 학습해보겠다. by_day % summarise( count = n(), dist = mean(distance, na.rm = TRUE), delay = mean(arr_delay, na.rm = TRUE) ) %>% filter(count > 20, dest != 'HNL') 앞에서는 코드를 연결하기 위해 3번의 객체화가 있었지만 ..

R/Exploratory data analysis

R for Data Science::scales 2

1. Date-time position scales date_breaks 인자를 이용해 그래프의 눈금을 연,월,주,일,시간,분 단위로 마크할 수 있다. 실습을 통해 공부해보자. date_base

R/Exploratory data analysis

ggplot2:: geom_smooth()

ggplot의 geom_smooth()에 대해서 알아보자. geom_smooth()는 geom()함수를 사용한 시각화에서 데이터의 양이 많아서 overplotting이 발생할 때 패턴을 볼 수 있도록 smooth한 line을 제공해 데이터의 특성이나 분포를 보다 더 잘 이해할 수 있도록 돕는다. 코드를 통해 이게 무슨 말인지 이해해보자. 1. geom_smooth() ggplot(mpg, aes(displ, hwy)) + geom_point() geom_smooth() geom_smooth()의 method argument에 대해서 알아보자. ggplot(mpg, aes(displ, hwy)) + geom_point() + geom_smooth(method = 'lm') 여기서 method 인자를 따로 ..

Abokadoh
'R Programming' 태그의 글 목록