Project/드림학기제_Machine Learning 암 발병률 예측

1. 드림학기제_암 발병률 예측 프로그램(with 생물정보학) Intro

진성01 2022. 5. 9. 01:59

-프로젝트 목표

 

Machine Learning, Deep Learning 알고리즘을 이용한 암 발병률 예측 프로그램

 

-기획 이유

  • 암을 발병시키는 근본적인 요인은 DNA mutation이다. 이를 통해 나타나는 대사체 농도의 변화 혹은 DNA의 발현량 변화가 암 발병과 연관이 있을 수도 있고, 암 발병을 인지할 수 있는 중요한 지표가 될 수 있다. 따라서 암 발병률 예측 프로그램을 이용하여 특정 암이 어떤 특정 대사체의 농도, DNA 발현량 사이에 연관이 있는 지 찾는다.
  • 암 진단을 위해서는 들어가는 시간적, 비용적 소모가 크다. 따라서 기존 진단 방법보다 정확도는 낮지만, 더욱 쉽게 검사할 수 있는 프로그램을 구현한다.
  • 특정 암 발병에 큰 연관성이 있는 유전체를 찾는다면, 아직 암이 발병하지 않은 환자도 유전체 분석과 해당 프로그램을 통하여 앞으로 어떤 암이 발병될 확률이 높은지 미리 알 수 있다.

 

 

-세부 프로젝트 내용

 

  • 머신러닝, 딥러닝 모델 구현을 위한 기초 통계학 스터디
  • 머신러닝, 딥러닝 알고리즘 스터디
  • 스터디 내용을 바탕으로 암 발병률 예측 프로그램 구현

-암 예측 프로그램 개요

  • 유전체, DNA 발현량, 대사체 농도 등의 feature값을 가지고 특정 암 발병의 여부를 label로 하는 데이터셋을 이용한다.
  • SVM, RandomForest, XGBoost, MLP 등 다양한 알고리즘을 이용하여 해당 프로그램 개발에 가장 적합한 알고리즘을 이용한다.

 

 

-일정

주차 목표
1~2주차 기초 통계학 스터디
3주차 데이터 크롤링 스터디
4주차 Pandas, Numpy 스터디
5주차 ML 알고리즘 스터디(SVM, DecisionTree, RandomForest, Bayse Classification 등)
6주차 교차 검증 스터디
7주차 MLP, CNN 스터디
8주차 중간 보고 간담회
9~10주차 데이터 수집하기 및 알고리즘 리뷰
11주차 데이터 분석 및 Augmentation
12주차 데이터 전처리
13주차 SVM, RandomForest 모델 구현
14주차 교차검증 코드 구현
15주차 XGBoost, MLP 코드 구현
16주차 기말 보고 발표회

1~8주차: 통계학, 생물정보학, ML-DL 스터디

9~16주차: 프로그램 구현