본문 바로가기
728x90
728x90

분류 전체보기150

R ) 독학 :: 변수간 상관성 알아보기 cor.test() in r 안녕하세요 변수간 상관관계에 대해 공부한것을 기록하려고 합니다. 상관성 분석에서 볼 수 있는 상관계수의 특징은 두변수간에 선형 관계가 있는지의 정도를 나타낸 지표입니다. -1~1사이의 값을 가집니다. -1,1에 가까울수록 두변수의 선형관계가 크다고 봅니다. 두변수간 직선의 관계가 있는지 판단하는 기준은 상관계수가 아니라 상관분석을 실행한 결과로 보이는 유의확률입니다. 두변수가 강한 상관관계가 있다고 해서 두변수간 인과관계가 존재하는것은 아닙니다. 어느것이 원인이고 결과인지는 배경지식에따라 달라질 수 있습니다. cor.test()함수를 이용해 상관성검정을 진행해보겠습니다. iris data를 이용해 Sepal.Width와 나머지 Species를 제외한 Column들의 상관성 검정을 해보겠습니다. test 2022. 6. 3.
R ) 독학 :: 산점도 알아보기 scatter plot 산점도 그리는것에 대해 공부한것을 기록하려고 합니다. ggplot(data=iris, aes(x=Sepal.Length, y=Sepal.Width,color=Species))+ geom_point(shape=17, size=3)+ ggtitle("Scatter Sepal_Length,Width")+ geom_text(aes(label=Species, size=2, vjust=-1, hjust=0)) 위와 같이 코드를 작성하면 Species별로 색을 나눠 입힐 수 있습니다. 또한 scatter plot에 있는 point의 모양도 바꿀 수 있습니다. 모양은 아래와 같이 정할 수 있습니다. ggplot(data=iris, aes(x=Sepal.Length, y=Sepal.Width,shape=Species,c.. 2022. 5. 8.
R ) 독학 :: data 시각화 ggplot2 히스토그램 (histogram), 박스 플랏(boxplot) in r -2 플랏 겹치기 플랏 옵션 multi plot, plot option 시각화 공부를 하다가 참고 할만한걸 찾아서 올려놓아보려고 합니다. my_df % select(value) %>% ggplot(aes(x="", y = value)) + geom_boxplot(fill = "lightblue", color = "black") + coord_flip() + theme_classic() + xlab("") + theme(axis.text.y=element_blank(), axis.ticks.y=element_blank()) my_df %>% select(id, value) %>% ggplot() + geom_histogram(aes(x = value, y = (..count..)/sum(..count..)), position = "identity", binwidth = 1, .. 2022. 5. 5.
R ) 독학 :: Randomforest 반복 수행 하여 plot으로 최적 model 찾기 in r 랜덤포레스트 기법을 이용해 반복수행하는 코드를 만들어 보려고 합니다. 랜덤포레스트 인자중 ntree인자를 바꿔가면서 모델을 만들어보고 가장 좋은 모델은 무엇인지 보려고 합니다. randomforest함수에 다양한 인자가 있지만 모두 무엇을 뜻하는지 알고싶은데 알기가 힘드네요;;ㅠ ntree인자와 mtry인자 밖에 모르겠습니다..;; ntree는 트리의 개수를 몇개 만들지, mtry는 사용하는 feature의 개수를 몇개로 할지 정하는 인자 인것 같습니다. ntree는 다양하게 바꿔서 사용하는것 같은데 mtry는 모델링에 사용하는 column의 제곱근 개수만큼 보통 지정해 주는것 같습니다. irisdata를 이용해 ntree의 개수를 바꿔가면서 모델을 만들고 predict값과 real값의 상관계수를 이용해.. 2022. 5. 5.
728x90
728x90