728x90
728x90
오늘은 정규성 검정, 공분산, 상관계수를 알아보고 기록하려고 합니다.
정규성 검정 : dataset의 분포가 정규분포를 따르는지 확인하는 검정방법이다.
install.packages("nortest")
library(nortest)
set.seed(1);test<- rnorm(n=5000,mean=172.4,sd=5.7)
shapiro.test(test)
set.seed(1);test1<- rnorm(n=10000,mean=172.4,sd=5.7)
ad.test(test1)
5000개 이하의 data에서는 shapiro.test(), 사피로 테스트를사용하고 5000개를 초과하면 ad.test(), 앤더슨 달링 테스트를사용한다.
귀무가설은 정규성을 만족한다.
대립가설은 정규성을 만족하지 않는다 입니다.
p-value가 0.05보다 크므로 귀무가설을 채택합니다.
만약 p-value가 0.05보다 작다면 귀무가설을 기각하고 대립가설을 채택합니다.
공분산 : 두개의 데이터에 대한 상관정도를 나타냄, 어떤 data가 증가할 때 다른 데이터도 함께 증가하는지 여부를 판단할 수 있음
- x증가할 때 y 증가하면 양의 값을 가짐
- x증가할 때 y 감소하면 음의 값을 가짐
- x, y의 척도가 다를 수 있으므로 데이터간 상관관계 방향만 알 수 있음
cov(x=iris$Sepal.Length,y = iris$Sepal.Width,use = "complete.obs")
cov(x=iris[1:4],use = "complete.obs")
complete.obs는 결측값을 없애기 위해 씁니다 na.rm와 유사한 기능
행렬이나 dataframe을 넣으면 공분산 행렬을 반환한다
상관계수 : 공분산을 각 데이터의 표준편차로 나눈 값이다, 두개의 데이터간 상관관계의 방향과 강도를 함께 알 수 있다.
- 상관계수는 -1~1의 값을 가진다.
- 1에 가까울수록 양의 상관관계를 가지며 -1에 가까울수로 음의 상관관계를 가진다.
- 0에 가까울수록 관계가 없다고 볼 수 있다.
cor(x=iris$Sepal.Length,y = iris$Sepal.Width,use = "complete.obs")
cor(x=iris[1:4],use = "complete.obs")
위와 같이 볼 수 있습니다.
728x90
728x90
'R' 카테고리의 다른 글
R ) ::독학 dataset 나누기 7:3, 6:2:2 in r (0) | 2022.05.03 |
---|---|
R ) 독학 :: data 시각화 ggplot2 히스토그램(histogram), 박스플랏 (box plot) (0) | 2022.04.29 |
R ) 독학 :: 통계 값 알아보기-3 분산, 표준편차, 중위수절대편차, 왜도, 첨도 mad,skewness, kurtosis, var, sd (0) | 2022.04.27 |
R ) 독학 :: 통계 값 알아보기-2 최빈값, 범위, 최대값, 최소값, 분위수, 사분위수 in r feat. Mode, range, max, min, qutile, IQR (0) | 2022.04.26 |
R ) 통계 값 알아보기 in r feat. mean, median, trim (0) | 2022.04.25 |
댓글