데이콘 : 2024 생명연구자원 AI활용 경진대회 : 인공지능 활용 부문

에서 받아온 데이터들 중 test.csv와 train.csv를 데이터 전처리 해보는 시간을 가졌다.


/* 
두 데이터프레임 train_df, test_df에서 모든 값이 'WT'인 열들을 찾고,
두 데이터프레임에서 동시에 모든 값이 'WT'인 열을 확인
 */
train_wt_columns = train_df.columns[(train_df == 'WT').all()].tolist()
test_wt_columns = test_df.columns[(test_df == 'WT').all()].tolist()

print('데이터셋에서 값이 모두 WT인 열 개수')
print('trainSet: ', len(train_wt_columns))
print('testSet: ', len(test_wt_columns))

/*
두 데이터셋에서 공통으로 'WT'인 열 찾기, 찾았다면 그 열 이름을 리스트에 추가 및 카운터 +1
*/
cnt = 0
both_wt_columns = []
for gene in train_wt_columns:
  if gene in test_wt_columns:
    both_wt_columns.append(gene)
    cnt += 1

print('두 데이터셋에서 값이 모두 WT인 열 개수:', cnt)
both_wt_columns

데이터 전처리 초기 작업은

  1. 두 개의 데이터프레임(train_df, test_df)에서 각각 모든 값이 ‘WT’ 인 열을 찾음
  2. 두 데이터프레임에서 공통으로 모든 값이 ‘WT’ 인 열의 개수와 또 어떤 열들인지 찾음

이렇게 진행되었다.

이후, gene의 THYM이 가장 큰 비율을 차지함을 확인하고 이를 처리하도록했다.

image.png

image.png

image.png

matrix의 sequence를 바꿔주는 작업을 진행하며 마무리하였다.