오늘은 자료를 정리했다
오늘의 목표는 유전자 변이 데이터셋에서 'KIPAN' 서브클래스에 속하는 표본들의 유전자 변이를 분석하는 것이었다. 주어진 데이터셋은 수천 개의 열을 가진 큰 테이블 형식으로, 각 행은 하나의 샘플을 나타내며, 다양한 유전자에 대한 변이 상태('WT' 또는 다른 변이)를 포함하고 있다.
먼저, Pandas 라이브러리를 사용하여 데이터를 로드하고 'SUBCLASS' 열에서 'KIPAN' 값에 해당하는 행만을 필터링했다. 이렇게 필터링된 데이터에서 'ID'와 'SUBCLASS'를 제외한 모든 유전자 열을 대상으로 'WT'가 아닌 값들의 비율을 계산하기로 했다.
열별로 'WT'가 아닌 값을 카운트하고 전체 행 수로 나누어 각 유전자 변이의 비율을 구했다. 계산 결과, 몇몇 유전자는 상대적으로 높은 변이 비율을 보였고, 이는 향후 연구나 치료 개발에 중요한 정보가 될 수 있음을 시사했다.
이어서, 결과를 시각화하기로 했다. Matplotlib를 이용해 파이 차트를 그려 각 유전자에서 'WT'가 아닌 비율을 도식화했다. 이 차트는 각 유전자의 변이가 얼마나 자주 발생하는지 한눈에 보여 주었는데 생각보다 많은 유전자에 변이가 일어나서 완전 복잡해졌다.
앞으로의 나날이 걱정된다.