본문 바로가기
빅데이터분석기사

빅분기 ) 빅분기 3회 실기 기출 풀어보기 작업형1유형 with R

by C.Mond 2023. 7. 23.
728x90
728x90

Q1.

1. 캘리포니아 집값 데이터의 특정 컬럼의 결측값을 제거한 후, 처음부터 순서대로 70%를 추출하여 특정변수의 1Q값을 구하라 (어떤 컬럼인지 몰라 total_bedrooms로 하겠습니다)

https://c-mond.tistory.com/entry/%EB%B9%85%EB%B6%84%EA%B8%B0-%EB%B9%85%EB%B6%84%EA%B8%B0-1%ED%9A%8C-%EC%8B%A4%EA%B8%B0-%EA%B8%B0%EC%B6%9C-%ED%92%80%EC%96%B4%EB%B3%B4%EA%B8%B0-%EC%9E%91%EC%97%85%ED%98%951%EC%9C%A0%ED%98%95-with-R

 

빅분기 ) 빅분기 2회 실기 기출 풀어보기 작업형1유형 with R

Q1. 보스턴 데이터의 crim 컬럼 top10 중 10번째 crim 값으로 1~10위의 crim 값을 변경 후 AGE 변수값이 80이상인 행의 crim의 평균을 산출해라 solution ) 문제를 보면 어려워 하지말고 한스텝 한스텝씩 진행

c-mond.tistory.com

data는 위 글에 있습니다.

 

###data를 불러옵니다

df <- read.csv("housing.csv")
df

 

###NA가 있는 컬럼을 확인 합니다
apply(df,2,function(x){
  sum(is.na(x))
})

###NA를 제거하고 나머지 부분을 info에 할당 합니다
info <- df$total_bedrooms[!is.na(df$total_bedrooms)]

 

###앞에서 70%값만 들고온뒤 사분위수를 구해줍니다
info_0.7 <- info[1:(length(info)*0.7)]
quantile(info_0.7)

 

answer)

294

 

 

 

 

 

2. 타이타닉 데이터 각 열의 결측치 비율을 확인 한 후, 결측율이 가장 높은 변수 명을 추출해라.  

캐글 url 주소: https://www.kaggle.com/c/2019-1st-ml-month-with-kakr/overview

 

2019 1st ML month with KaKR | Kaggle

 

www.kaggle.com

###data를 들고옵니다.

df <- read.csv("train.csv")
df

###결측치를 확인합니다
apply(df,2,function(x){
  sum(is.na(x))
})

 

 

 

answer ) 

Age

728x90
728x90

댓글