조현우 | Notion

오늘은 대회 참여하는 사람들이 전처리를 강조하여

우리도 전처리를 좀 해야할 것 같아서.

전처리를 좀 더 어떻게 해야할 수 있는지에 대한 생각을 더 해봤다.

이번에 한 내용은 train 데이터에서 단백질 변형이 일어났을 때

특이한 상황이 있는지를 확인하였다.

확인결과

이렇게 필터를 ID별로 씌웠을 때 특정 변형이 일어났을 때 SUBCLASS가 정해지는 것을 볼 수 있었다.

이를 진행하기 위해 사용한 코드는 다음과 같다.

duplicates_train = train_df_melted[train_df_melted.duplicated(subset=['gene', 'value'], keep=False) & 
                           (train_df_melted['value'] != 'WT')]
# 결과 출력
print("중복된 gene과 value를 가진 행:")
print(duplicates_train)

# value 기준으로 내림차순 정렬
df_sorted_by_value_desc = duplicates_train.sort_values(by='gene', ascending=False)

# CSV 파일로 저장
df_sorted_by_value_desc.to_csv('./sorted_duplicates_train.csv', index=False)
print("CSV 파일이 저장되었습니다: sorted_duplicates_train.csv")

sorted_duplicates_train (1).csv

다음과 같은 ID가 더 있는지 확인하고, 이를 반영하여 로직을 새로 추가하는 작업을 진행하여 한다.

그리고 서로 다른 카테고리가 있다고 해서 찾는 방법을 생각해보았는데, 어떻게 진행해야 되는지 잘 모르겠다.