오늘은 데이터 전처리에 대해서 공부했다.

하지만 우리가 가진 데이터는 일반적인 숫자형 데이터가 아니었다.

그래서 우리는 이것을 어떻게 학습 가능한 데이터로 만들지에 대하여 공부했다.

일단 WT라는 값이 변이 없음 이라는 뜻을 알아내고 결측치들로만 이루어진 열을 학습 대상에서 제외했다.

WT로만 이루어진 행에 대해서는 WT 값만 가짐 = 변이 없음 이므로

정상 데이터로 학습될 것이라 판단하여 남겨놓고 추후에 이것을 어떠한 값으로 명명하여 학습할것이다.

처음에 단백질 시퀀스가 뭔지 이해해야 할 것 같아서 단백질 시퀀스를 벡터로 만드는 어떤 논문을 봤는데 읽어보다 보니 우리가 하는 내용이 아닌 것 같아서 다른 것을 참고했다.

image.png

이번 시간엔 결측치 삭제 및 melt를 이용하여 데이터를 정렬하고 세팅하였고, 이제 다음시간부터는 단백질 시퀀스의 내용이 어떤 것을 의미하고 이것을 어떻게 학습하면 좋을지에 대해서 고민해볼 예정이다.

정말큰일이지만 잘해보겠다.