본문 바로가기
728x90
728x90

통계값3

R ) 독학 :: 통계 값 알아보기-3 분산, 표준편차, 중위수절대편차, 왜도, 첨도 mad,skewness, kurtosis, var, sd 통계 공부한것을 기록하는 3번째 입니다. 분산 : 관측값이 평균으로부터 떨어져 있는 크기의 평균을 의미합니다. data가 평균으로부터 퍼져있는 정도를 알 수 있습니다. var(iris$Sepal.Length) 표준편차 : 분산의 양의 제곱근입니다. 분산은 편차 제곱합의 평균이므로 원래 데이터와 척도가 다르다 그래서 data의 퍼진정도를 파악할때는 분산보다 표준편차로 보는게 더 좋다. sd(iris$Sepal.Length) 중위수절대편차 : 개별 관측값에서 중위수를 뺀 편차의 절대값에 대한 중위수에 상수를 곱한것 표준편차보다 강력한 통계량으로 사용 (평균의 영향을 덜받아서 인가...?) abs(iris$Sepal.Length-med) %>% median()*1.4826 mad(iris$Sepal.Lengt.. 2022. 4. 27.
R ) 통계 값 알아보기 in r feat. mean, median, trim 오늘은 통계값에 대해 공부한것을 기록하려고 합니다. 기술 통계는 데이터의 주요 특징을 파악할때 사용되는 통계 기법입니다. 대표값 : 평균, 절사평균, 중위수, 최빈값 분포 : 범위, 백분위수, 사분위수, 사분범위, 분산, 표준편차, 중위수절대편차, 왜도, 첨도 등 상관관계 : 공분산, 상관계수 시각화 : 도수분포표, 히스토그램, 박스플랏, 산점도, 막대그래프 등등 평균 mean(x,na.rm,trim) mean(iris$Sepal.Length,na.rm=T,trim=0) 절사평균 : 데이터의 양극단 일부를 제외한 평균 mean(iris$Sepal.Length,na.rm=T,trim=0.1) mean(sort(iris$Sepal.Length)[16:135]) 양옆의 10%를 제외한 data를 이용해 값을 .. 2022. 4. 25.
R ) 통계값 column추가 하기 in r 안녕하세요~ R을 이용해서 Data table에 있는 Data의 통계값 column을 입력하는 방법을 알아보려고 합니다. Data는 R의 기본 Data set인 iris를 사용하도록 하겠습니다. 먼저 통계값 중 Species별로 max값을 구해 column을 추가해보도록 하겠습니다. 여기서는 group_by를이용해 data table의 통계값을 구하고 inner join을 하는 방법과 data table을 이용해 추가하는 방법을 알아보려고 합니다. data table을 이용하면 더욱 간단한 코드로 통계값을 column으로 추가할 수 있습니다. head(iris) irisgroup % group_by(Species) %>% summarise(Sepal.Length_max=max(Sepal.Length), .. 2022. 3. 30.
728x90
728x90