본문 바로가기
728x90
728x90

Data Analysis28

python ) 그룹별 계산하기 groupby in python 데이터 처리를 하다보면 그룹별로 data를 처리해야할때가 있습니다 이때 groupby를 사용하면 쉽게 정리할 수 있습니다.import pandas as pdimport numpy as np# 카테고리 값을 위한 리스트 생성categories = ['A', 'B', 'C']# 데이터프레임 생성df = pd.DataFrame({    'Category1': np.random.choice(categories, 20),    'Category2': np.random.choice(categories, 20),    'Category3': np.random.choice(categories, 20),    'Value1': np.random.randint(1, 100, 20),    'Value2': np.rando.. 2024. 5. 26.
python ) 데이터 프레임 정렬하기 .sort_values() 파이썬에서 데이터 프레임을 정렬하는 방법을 알아보겠습니다. 간단하게 sort_values() 메서드를 사용해서 구현할 수 있습니다.import pandas as pdimport numpy as np# 카테고리 값을 위한 리스트 생성categories = ['A', 'B', 'C']# 데이터프레임 생성df = pd.DataFrame({    'Category1': np.random.choice(categories, 20),    'Category2': np.random.choice(categories, 20),    'Category3': np.random.choice(categories, 20),    'Value1': np.random.randint(1, 100, 20),    'Value2': np... 2024. 5. 26.
R ) 일정 비율로 data 나누기 feat. creatdatapartition() data를 train, test set으로 나누고 싶을때 각 범주별 일정 비율로 나누는 방법에 대해 적어보려고 합니다. caret library에 있습니다 createDataPartition(iris$Species,times=4,p=0.7,list=F) creatdatapartition()함수를 이용하면 위 처럼 범주의 비율에 맞추어 data의 인덱스를 나눠줍니다 이후에 train, test set으로 나누어 사용하면 됩니다. 인자를 하나씩 보자면 가장앞은 나누고자 하는 범주형 data times는 몇개로 할건지 p는 비율을 어떻게 할건지 list는 반환하는 모양을 정하게 됩니다 T를 넣으면 list형으로 반환을 합니다 2023. 12. 17.
R ) 원핫 인코딩 하기 in r (one-hot encoding) R에서 원핫인코딩 one hot encoding하는법에 대해 알아보려고 합니다 library(fastDummies) # 더미 변수 생성 encoded_data 2023. 12. 12.
728x90
728x90