본문 바로가기
R

R ) 독학 :: 정규성 검정, 공분산, 상관계수 in r cov, cor, shapiro.test, ad.test

by C.Mond 2022. 4. 29.
728x90
728x90

오늘은 정규성 검정, 공분산, 상관계수를 알아보고 기록하려고 합니다.

 

정규성 검정 : dataset의 분포가 정규분포를 따르는지 확인하는 검정방법이다.

 

install.packages("nortest")
library(nortest)
set.seed(1);test<- rnorm(n=5000,mean=172.4,sd=5.7)
shapiro.test(test)
set.seed(1);test1<- rnorm(n=10000,mean=172.4,sd=5.7)
ad.test(test1)

5000개 이하의 data에서는 shapiro.test(), 사피로 테스트를사용하고 5000개를 초과하면 ad.test(), 앤더슨 달링 테스트를사용한다.

귀무가설은 정규성을 만족한다.

대립가설은 정규성을 만족하지 않는다 입니다.

p-value가 0.05보다 크므로 귀무가설을 채택합니다.

만약 p-value가 0.05보다 작다면 귀무가설을 기각하고 대립가설을 채택합니다.

 

공분산 : 두개의 데이터에 대한 상관정도를 나타냄, 어떤 data가 증가할 때 다른 데이터도 함께 증가하는지 여부를 판단할 수 있음

  • x증가할 때 y 증가하면 양의 값을 가짐
  • x증가할 때 y 감소하면 음의 값을 가짐
  • x, y의 척도가 다를 수 있으므로 데이터간 상관관계 방향만 알 수 있음
cov(x=iris$Sepal.Length,y = iris$Sepal.Width,use = "complete.obs")

cov(x=iris[1:4],use = "complete.obs")

complete.obs는 결측값을 없애기 위해 씁니다 na.rm와 유사한 기능

행렬이나 dataframe을 넣으면 공분산 행렬을 반환한다

 

상관계수 : 공분산을 각 데이터의 표준편차로 나눈 값이다, 두개의 데이터간 상관관계의 방향과 강도를 함께 알 수 있다.

  • 상관계수는 -1~1의 값을 가진다.
  • 1에 가까울수록 양의 상관관계를 가지며 -1에 가까울수로 음의 상관관계를 가진다.
  • 0에 가까울수록 관계가 없다고 볼 수 있다.
cor(x=iris$Sepal.Length,y = iris$Sepal.Width,use = "complete.obs")
cor(x=iris[1:4],use = "complete.obs")

위와 같이 볼 수 있습니다.

728x90
728x90

댓글