본문 바로가기
R

R ) 독학 :: 변수간 상관성 알아보기 cor.test() in r

by C.Mond 2022. 6. 3.
728x90
728x90

안녕하세요 변수간 상관관계에 대해 공부한것을 기록하려고 합니다.

 

상관성 분석에서 볼 수 있는 상관계수의 특징은

 

  • 두변수간에 선형 관계가 있는지의 정도를 나타낸 지표입니다.
  • -1~1사이의 값을 가집니다.
  • -1,1에 가까울수록 두변수의 선형관계가 크다고 봅니다.
  • 두변수간 직선의 관계가 있는지 판단하는 기준은 상관계수가 아니라 상관분석을 실행한 결과로 보이는 유의확률입니다.
  • 두변수가 강한 상관관계가 있다고 해서 두변수간 인과관계가 존재하는것은 아닙니다.
  • 어느것이 원인이고 결과인지는 배경지식에따라 달라질 수 있습니다.

 

cor.test()함수를 이용해 상관성검정을 진행해보겠습니다.

iris data를 이용해 Sepal.Width와 나머지 Species를 제외한 Column들의 상관성 검정을 해보겠습니다.

test <- iris[,1:4]
test

for(i in 1:length(colnames(test))){
result <- cor.test(iris[,i],iris$Sepal.Width)
colnames(test)[i]
result$p.value
df <- data.frame(colname=colnames(test)[i], p.value=result$p.value, estimate=result$estimate)
df_list[[i]] <- df
}
df_list
rbindlist(df_list)

위 결과를 보면 p.value가 0.05보다 낮은 column은 Sepal.Width, Petal.Length, Petal.Width가 상관성이 있다고 분석이 됐습니다.

 

상관계수도 보면 -0.42, -0.36으로 꽤 높은 상관성이 있다고 나오는데 차트를 보게 되면

위 처럼 나온다..

 

해당 차트를 봤을때 음의 상관관계에 있다고 보이지는 않는것 같다.....

Species를 추가 하여 분석을 해보아야할것 같다.

728x90
728x90

댓글