-프로젝트 목표
Machine Learning, Deep Learning 알고리즘을 이용한 암 발병률 예측 프로그램
-기획 이유
- 암을 발병시키는 근본적인 요인은 DNA mutation이다. 이를 통해 나타나는 대사체 농도의 변화 혹은 DNA의 발현량 변화가 암 발병과 연관이 있을 수도 있고, 암 발병을 인지할 수 있는 중요한 지표가 될 수 있다. 따라서 암 발병률 예측 프로그램을 이용하여 특정 암이 어떤 특정 대사체의 농도, DNA 발현량 사이에 연관이 있는 지 찾는다.
- 암 진단을 위해서는 들어가는 시간적, 비용적 소모가 크다. 따라서 기존 진단 방법보다 정확도는 낮지만, 더욱 쉽게 검사할 수 있는 프로그램을 구현한다.
- 특정 암 발병에 큰 연관성이 있는 유전체를 찾는다면, 아직 암이 발병하지 않은 환자도 유전체 분석과 해당 프로그램을 통하여 앞으로 어떤 암이 발병될 확률이 높은지 미리 알 수 있다.
-세부 프로젝트 내용
- 머신러닝, 딥러닝 모델 구현을 위한 기초 통계학 스터디
- 머신러닝, 딥러닝 알고리즘 스터디
- 스터디 내용을 바탕으로 암 발병률 예측 프로그램 구현
-암 예측 프로그램 개요
- 유전체, DNA 발현량, 대사체 농도 등의 feature값을 가지고 특정 암 발병의 여부를 label로 하는 데이터셋을 이용한다.
- SVM, RandomForest, XGBoost, MLP 등 다양한 알고리즘을 이용하여 해당 프로그램 개발에 가장 적합한 알고리즘을 이용한다.
-일정
주차 | 목표 |
1~2주차 | 기초 통계학 스터디 |
3주차 | 데이터 크롤링 스터디 |
4주차 | Pandas, Numpy 스터디 |
5주차 | ML 알고리즘 스터디(SVM, DecisionTree, RandomForest, Bayse Classification 등) |
6주차 | 교차 검증 스터디 |
7주차 | MLP, CNN 스터디 |
8주차 | 중간 보고 간담회 |
9~10주차 | 데이터 수집하기 및 알고리즘 리뷰 |
11주차 | 데이터 분석 및 Augmentation |
12주차 | 데이터 전처리 |
13주차 | SVM, RandomForest 모델 구현 |
14주차 | 교차검증 코드 구현 |
15주차 | XGBoost, MLP 코드 구현 |
16주차 | 기말 보고 발표회 |
1~8주차: 통계학, 생물정보학, ML-DL 스터디
9~16주차: 프로그램 구현
'Project > 드림학기제_Machine Learning 암 발병률 예측' 카테고리의 다른 글
대장암 혈액 진단 (0) | 2022.07.11 |
---|---|
신장 질환 진단 모델 (0) | 2022.07.11 |
대장암 진단 모델 (0) | 2022.07.11 |
전립선암 진단 모델 (0) | 2022.07.11 |
프로젝트 개요 및 이론적 배경 (0) | 2022.07.11 |