본문 바로가기
728x90
728x90

빅데이터분석19

python ) 그룹별 계산하기 groupby in python 데이터 처리를 하다보면 그룹별로 data를 처리해야할때가 있습니다 이때 groupby를 사용하면 쉽게 정리할 수 있습니다.import pandas as pdimport numpy as np# 카테고리 값을 위한 리스트 생성categories = ['A', 'B', 'C']# 데이터프레임 생성df = pd.DataFrame({    'Category1': np.random.choice(categories, 20),    'Category2': np.random.choice(categories, 20),    'Category3': np.random.choice(categories, 20),    'Value1': np.random.randint(1, 100, 20),    'Value2': np.rando.. 2024. 5. 26.
python ) 데이터 프레임 정렬하기 .sort_values() 파이썬에서 데이터 프레임을 정렬하는 방법을 알아보겠습니다. 간단하게 sort_values() 메서드를 사용해서 구현할 수 있습니다.import pandas as pdimport numpy as np# 카테고리 값을 위한 리스트 생성categories = ['A', 'B', 'C']# 데이터프레임 생성df = pd.DataFrame({    'Category1': np.random.choice(categories, 20),    'Category2': np.random.choice(categories, 20),    'Category3': np.random.choice(categories, 20),    'Value1': np.random.randint(1, 100, 20),    'Value2': np... 2024. 5. 26.
R ) 일정 비율로 data 나누기 feat. creatdatapartition() data를 train, test set으로 나누고 싶을때 각 범주별 일정 비율로 나누는 방법에 대해 적어보려고 합니다. caret library에 있습니다 createDataPartition(iris$Species,times=4,p=0.7,list=F) creatdatapartition()함수를 이용하면 위 처럼 범주의 비율에 맞추어 data의 인덱스를 나눠줍니다 이후에 train, test set으로 나누어 사용하면 됩니다. 인자를 하나씩 보자면 가장앞은 나누고자 하는 범주형 data times는 몇개로 할건지 p는 비율을 어떻게 할건지 list는 반환하는 모양을 정하게 됩니다 T를 넣으면 list형으로 반환을 합니다 2023. 12. 17.
R ) group_by에 사용자 정의 함수 사용하기 in R data를 다루다보면 data frame에서 그룹별로 summarise를하거나 계산을 해야하는 경우가 있습니다 이때 사용자 정의함수를 이용해 계산을 해줄수도 있습니다. 간단하게 iris data를 이용해 한번 보겠습니다. func % group_by(Species) %>% summarise(value=func(Sepal.Length,Petal.Length)) 이런식으로 사용자정의 함수를 이용해 그룹별로 계산을 해줄 수 있습니다 2023. 11. 13.
728x90
728x90