Project/드림학기제_Machine Learning 암 발병률 예측

결론

진성01 2022. 7. 11. 12:01

1. 고찰

 

생물정보학이 수행하는 역할은 크게 두 가지로 분류할 수 있다. 먼저 첫 번째 역할은 생물학 연구에 필요한 데이터 저장 기술이나 데이터 분석 방법을 개발하는 것이다. 두 번째 역할은 다형 데이터를 분석함으로써 질병의 진단과 치료에 중요한 역할을 하는 표지(marker)를 찾아내거나, 생물체 전반에 대한 통합적인 이해를 제시하는 것이다. 지금까지 질병에 걸린 환자들의 여러가지 데이터들을 수집하여 진단에 중요한 역할을 하는 표지를 찾아냈다. 더 나아가 생물학적 데이터(유전자, 대사체 등)만으로 질병을 진단하는 알고리즘을 설계하였다.

 

그 결과 이진 분류기 기준 정확도 90% 이상의 유의미한 결과들을 도출해 냈으며 feature importance를 이용하여 해당 진단 기준의 중요한 인자를 산출할 수 있었다. 이러한 진단 모델과 주요 인자 산출은 비단 대사체, 유전자 발현량에서만 유의미한 것이 아니라 다른 생물학적 데이터도 사용할 수 있으며 분석하고자 하는 질병과 연관된 생물학적 데이터를 획득할 수 있다면 해당 질병의 진단 모델을 구축할 수 있다.

 

유전자나 대사체 발현양과 같은 모든 생물학적 데이터들은 생명 활동을 설명하는 여러 가지 방법 중 하나일 뿐이다. 따라서 데이터가 점점 다양해지고 방대해질수록 생물정보학의 중요성이 대두될 것이다. 따라서 데이터의 정교한 분석 뿐만 아니라, 생명 활동 전반에 대한 이해를 바탕으로 데이터에 접근하는 것이 중요하다. 본 프로젝트를 진행하며, 그저 데이터들을 수집하여 알고리즘을 설계한 것이 아닌, Random Forest로 나온 중요 feature들의 생물학적 의미를 상기하며 시스템적인 관점에서 결과를 해석하고자 했다. 이러한 노력을 통해 의미를 가지지 않는 방대한 데이터를 모으고 분석하여 유의미한 결론까지 도달할 수 있었다.

 

본 논문에서는 대사체의 농도, 유전자의 발현량 등 정형 데이터만을 이용해서 모델을 구현하였으나 실제 축적되는 데이터는 정형 데이터 이외에도 이미지, 음성, 시계열 데이터 등 여러 종류의 데이터가 축적된다. 정형 데이터에서는 부스팅, 배깅과 같은 앙상블 모델이 주로 활용되지만 이미지의 경우 CNN, 음성, 시계열의 경우 RNN 과 같이 딥러닝 기반의 모델이 좋은 성능을 나타낸다. 따라서 추후 여러 종류의 생물정보학 데이터를 인공지능 모델을 이용해서 접근하는 시도가 필요해 보인다.

 

2. 결론  

본 프로젝트에서는 여러 생물학적 데이터를 가공하고 분석하여 인공지능 모델에 적용할 수 있도록 전처리하고, 모델을 구현하여 실제 환자와 일반인을 구분할 수 있는 진단 모델을 구현하였다. 또한 결정 트리 기반 모델의 변수 중요도 산출 알고리즘을 이용하여 특정 질병과 특정 유전자 및 대사체 사이의 상관 관계를 시각화하여 확인하였다. 대부분의 모델에서 높은 성능을 나타내는 것을 확인할 수 있었으며 이는 생물정보학 데이터가 축적됨에 따라 진단, 분석 등 여러 분야에 데이터과학적 기법이 응용될 수 있다는 점을 시사하였다.