오늘은 대회 참여하는 사람들이 전처리를 강조하여
우리도 전처리를 좀 해야할 것 같아서.
전처리를 좀 더 어떻게 해야할 수 있는지에 대한 생각을 더 해봤다.
이번에 한 내용은 train 데이터에서 단백질 변형이 일어났을 때
특이한 상황이 있는지를 확인하였다.
확인결과
이렇게 필터를 ID별로 씌웠을 때 특정 변형이 일어났을 때 SUBCLASS가 정해지는 것을 볼 수 있었다.
이를 진행하기 위해 사용한 코드는 다음과 같다.
duplicates_train = train_df_melted[train_df_melted.duplicated(subset=['gene', 'value'], keep=False) &
(train_df_melted['value'] != 'WT')]
# 결과 출력
print("중복된 gene과 value를 가진 행:")
print(duplicates_train)
# value 기준으로 내림차순 정렬
df_sorted_by_value_desc = duplicates_train.sort_values(by='gene', ascending=False)
# CSV 파일로 저장
df_sorted_by_value_desc.to_csv('./sorted_duplicates_train.csv', index=False)
print("CSV 파일이 저장되었습니다: sorted_duplicates_train.csv")
sorted_duplicates_train (1).csv
다음과 같은 ID가 더 있는지 확인하고, 이를 반영하여 로직을 새로 추가하는 작업을 진행하여 한다.
그리고 서로 다른 카테고리가 있다고 해서 찾는 방법을 생각해보았는데, 어떻게 진행해야 되는지 잘 모르겠다.