본문 바로가기
728x90
728x90

데이터분석22

Python) DataFrame에 column추가하기 .insert in python dataframe에 column을 추가하는 법을 적어보려고 합니다. R에서 mutate와 비슷하게 쓸 수 있는것 같습니다. 함수는 insert 함수를 쓰면 됩니다. df.insert(loc, column, value, allow_duplicates=False) 위와 같은 인자를 갖고 있습니다. loc 컬럼 위치 column 컬럼 이름 value 넣을 값 dupli 중복허용 여부 입니다. 예제와 함께 보겠습니다. 위 dataframe에 열을 추가해 보겠습니다. 원하는 위치를 0으로 잡고 새로운 column을 추가해보았습니다. 여기서 인덱스 대신 column명을 이용해 원하는 column의 앞뒤에 column을 추가해 보겠습니다. 위치자리를 조금 손봐주면 만들 수 있습니다. 위처럼 np.where를 이용해 .. 2023. 3. 11.
R ) do.call 이용해서 cbindlist만들기 feat. rbindlist in r 안녕하세요 오늘은 rbindlist 함수처럼 동작하는 cbindlist를 만들어보겠습니다 rbindlist라는 함수는 존재하지만.. 찾아보니 cbindlist라는 함수는 존재하지 않는것 같습니다.. 그래서 비슷하게 동작하는 코드를 작성해보려고 합니다. 먼저 rbindlist함수는 list에 있는 data frame을 rbind해주는 함수 입니다. 아래를 보면 iris_list 2023. 3. 8.
R ) data frame 전체 group별 summarise구하기 summarise_all in r 안녕하세요 오늘은 summarise_all함수에 대해 공부해보려합니다. group_by를 통해 통계값을 알아보고 싶을때 보통 group_by -> summarise 함수를 써서 구하는데 이 경우 선택한 column만 통계값을 구하게 됩니다 이와는 다르게 전체 column에 대해 통계값을 구하고 싶을때 summarise_all을 사용하면 됩니다. 예제를 통해 보도록 하겠습니다. df % as.data.table() df %>% group_by(Species) %>% summarise(mean=mean(Sepal.Length)) %>% as.data.table() summarise를 쓰면 위처럼 내가 선택한 column에 대해서만 통계값을 구합니다. 하지만 summarise_all을 사용하면 아래와 같이 한.. 2023. 3. 8.
R ) 병렬처리, 병렬함수 mclapply 알아보기 in r R에서 병렬처리 함수인 mclapply에 관해 알아보려고 합니다. mclapply는 코드를 처리할때 병렬로 처리하여 코드 처리시간을 단축 시킬 수 있는 코드입니다. 해당함수는 윈도우에서는 사용하지 못하는것으로 알고있고 mac이나 linux에서 사용할 수 있는 것으로 알고 있습니다. parallel 패키지에 있는 함수 입니다. mclapply(X=설정값,mc.cores=설정값,FUN=설정값) 의 인자를 갖고 있습니다. mc.cores에는 detectCores() 함수로 사용가능한 core수를 확인하고 적당한 값을 넣어주면 됩니다. 모든 core를 입력하면 다른 작업을 못 할 수도 있으므로 1~2개 작은 core를 사용하는것이 좋은것 같습니다. for문과 비교하여 얼마나 빠른지 확인해 보도록 하겠습니다. 먼.. 2022. 11. 15.
728x90
728x90