본문 바로가기
728x90
728x90

data전처리15

R ) 결측치 확인 및 처리 NA in r -1 안녕하세요 오늘은 결측치 처리에 대해 공부한것을 기록하려고 합니다. 결측치를 처리하는 방법은 실제값 채워넣기, 단순대체, NA data제거, 다중대체가 있습니다. data의 column별 결측 비율에 대해 알아보겠습니다. test 2022. 4. 18.
R ) gather(), spread() 함수 알아보기 피벗, 언피벗 feat. long type, wide type in r 안녕하세요 오늘은 data를 long type, wide type으로 변경하는것에 대해 공부한 것을 기록하려고 합니다. data의 long type은 gather(long type)함수로 실행을 합니다 반대로 wide type은 spread(wide type)함수로 실행을 합니다. 해당 함수는 tidyr패키지에 있습니다. gapminde패키지의 gapminder data set을 사용하려고 합니다. install.packages("gapminder") library(gapminder) gapminder country는 나라, continent는 대륙, year은 년도, lifeexp는 수명, pop는 인구, gdppercap는 1인당 gdp입니다. 해당 data는 long type의 data이고 이를이용.. 2022. 4. 15.
R ) 2개의 data set을 합치는 join 함수 알아보기 in r 안녕하세요 오늘은 join에 대해 공부한걸 기록하려고 합니다. join은 dplyr 패키지에 있는 함수 입니다. data1 2022. 4. 14.
R ) map() 함수 알아보기 column별 같은 함수 적용 in r 안녕하세요 오늘은 map함수에 대해 공부한것을 기록하려고 합니다. map()함수는 sapply()함수의 대안이 되고 함수의 이름이 직관적이고 dataframe으로 반환을 할 수 있습니다. sapply()는 실행 결과로 벡터 또는 행렬로 반환합니다. map()함수는 purrr패키지에 있으므로 purrr패키지를 설치하고 사용해야합니다. map(.x, .f, ...)의 인자를 갖고 있습니다. library(purrr) test map(.x=test,.f=mean) map함수도 그냥 사용하면 list형태로 반환을 합니다 하지만 map_df()함수를 사용하면 데이터프레임으로 반환이 가능합니다. map_df(.x=test,.f=mean) a 2022. 4. 13.
728x90
728x90