728x90
728x90
안녕하세요 변수간 상관관계에 대해 공부한것을 기록하려고 합니다.
상관성 분석에서 볼 수 있는 상관계수의 특징은
- 두변수간에 선형 관계가 있는지의 정도를 나타낸 지표입니다.
- -1~1사이의 값을 가집니다.
- -1,1에 가까울수록 두변수의 선형관계가 크다고 봅니다.
- 두변수간 직선의 관계가 있는지 판단하는 기준은 상관계수가 아니라 상관분석을 실행한 결과로 보이는 유의확률입니다.
- 두변수가 강한 상관관계가 있다고 해서 두변수간 인과관계가 존재하는것은 아닙니다.
- 어느것이 원인이고 결과인지는 배경지식에따라 달라질 수 있습니다.
cor.test()함수를 이용해 상관성검정을 진행해보겠습니다.
iris data를 이용해 Sepal.Width와 나머지 Species를 제외한 Column들의 상관성 검정을 해보겠습니다.
test <- iris[,1:4]
test
for(i in 1:length(colnames(test))){
result <- cor.test(iris[,i],iris$Sepal.Width)
colnames(test)[i]
result$p.value
df <- data.frame(colname=colnames(test)[i], p.value=result$p.value, estimate=result$estimate)
df_list[[i]] <- df
}
df_list
rbindlist(df_list)
위 결과를 보면 p.value가 0.05보다 낮은 column은 Sepal.Width, Petal.Length, Petal.Width가 상관성이 있다고 분석이 됐습니다.
상관계수도 보면 -0.42, -0.36으로 꽤 높은 상관성이 있다고 나오는데 차트를 보게 되면
위 처럼 나온다..
해당 차트를 봤을때 음의 상관관계에 있다고 보이지는 않는것 같다.....
Species를 추가 하여 분석을 해보아야할것 같다.
728x90
728x90
'R' 카테고리의 다른 글
R ) 피벗, 언피벗 해보기 dcast, melt in r (1) | 2022.08.20 |
---|---|
R ) assign, get함수 알아보기 문자열을 객체로 사용하고 불러오기 in r (0) | 2022.08.19 |
R ) 독학 :: 산점도 알아보기 scatter plot (1) | 2022.05.08 |
R ) 독학 :: data 시각화 ggplot2 히스토그램 (histogram), 박스 플랏(boxplot) in r -2 플랏 겹치기 플랏 옵션 multi plot, plot option (0) | 2022.05.05 |
R ) 독학 :: Randomforest 반복 수행 하여 plot으로 최적 model 찾기 in r (1) | 2022.05.05 |
댓글