Project/드림학기제_Machine Learning 암 발병률 예측

대장암 혈액 진단

진성01 2022. 7. 11. 12:00

1)Data 준비

 

NCBI에서 제공하는 오픈소스 microarray 데이터셋으로 진행하였다(GSE164191). 이 데이터셋은 정상인 62, 대장암에 걸린 환자 59명의 혈액 액체 생검 마이크로 어레이 결과이다. 이 연구에서 GPL570 microarray chip사용하였으며, 54676 probe를 통해 암 세포에서 어떤 유전자가 발현되는지 알 수 있다.

 

2) 알고리즘 설계

 

NCBI 데이터 다운 시 필요한 전치 행렬, 필요 없는 column 제거, 오버 샘플링 등의 전처리를 마치고, 레이블링을 진행하였다.

 

NCBI에서 확인한 결과 62번째 데이터까지 일반인, 그 이후로는 환자의 데이터이므로 해당 내용에 맞게 레이블링을 진행하였다.

 

 

랜덤 포레스트 모델을 이용하여 성능 지표를 확인한 결과, 88%의 정확도를 나타냈다. 이를 이용하여 feature importance를 추출해 보았다.

다음과 같이 상위 20개 피처를 확인할 수 있었다. 여러 번의 시행 결과 가장 높은 값을 띄는 피처를 이용하여 시각화 하였다.

 

‘244679_at’의 유전자 발현량 그래프이다. x축이 유전자, y축이 데이터의 개수이며, 왼쪽 그래프가 일반인, 오른쪽이 환자 데이터이다. 일반인 데이터의 경우 평균 600의 정규분포 그래프이며, 환자 데이터의 경우 평균 300의 정규분포 그래프이다. 두 그래프가 완전히 다른 양상을 띄고 근소하게 겹치는 부분이 있는 것을 확인할 수 있다.

 

다음으로 ‘222018_at’ 유전자의 발현량 그래프이다. 일반인 데이터는 평균 1300의 정규분포 그래프이고, 환자 데이터는 평균 800의 정규분포 데이터이다. 이전 유전자와 마찬가지로 완전히 다른 양상을 띄는 그래프가 나타났으며 근소하게 겹치는 부분이 나타났다.

 

이번 목표는 상용화가 가능한 진단 프로세스를 만드는 것이다. Column이 수 만개일 경우 모두 입력하는 데 어려움이 있으므로 feature importance 추출 결과 상위 20개의 피처만 학습에 이용하여 분류기를 생성하였다. 20개의 유전자 발현량 값만 입력해주면 출력 결과를 확인할 수 있다.

 

최종적으로 성능이 뛰어난 분류기를 만들기 위해서 LightGBM을 이용하였다. 결정 트리의 개수는 1000, 학습률 0.05로 설정하였다. 결과는 모든 테스트셋을 정확하게 맞추어 정확도 100%가 산출되었다. 물론 테스트셋의 수량이 적기 때문에 값이 튈 수 있지만 랜덤 포레스트 모델보다 좋은 결과를 나타낸 것을 확인할 수 있었고, 실제 진단이 필요한 상황에서 임시로 테스트할 수 있을 정도의 성능을 나타냈다.

 

3) 생물학적 분석

 

위에서 Microarray 결과만으로 중요 feature들을 뽑았다. feature들이 실제로 생물학적으로는 어떤 의미를 가지고 있는지 분석하였다.

 

- 222018_at feature : 면역학적으로 중요한 유전자로 NACA protein을 발현하는 유전자중 하나이다. 리보솜에서 나오는 초기 폴리펩타이드 도메인에 결합하는 역할이다. NACA가 고갈되면 신호 펩티드가 없어 소포체로 잘못 이동될 수 있다. 뼈에서 발현되며 산성 활성화제와 함께 전사 보조 활성화제 역할을 수행한다.

 

- 244679_at feature : OLIG1(Oligodendrocyte) transcription factor 1 probe id이다. (단백질 코딩 유전자) DNA 결합 전사 인자 활성화를 돕고 RNA중합효소에 의한 신경세포 분화 및 전사 조절에 관여할 것으로 예상된다. RNA 폴리머라제 II 특이적 및 RNA 폴리머라제 II cis-조절 영역 서열 특이적 DNA 결합 활성을 가능하게 할 것으로 예상된다.

 

- 229141_at: : WDR33 probe id이다. 세포 프로세싱과 apoptosis, 세포 주기 조절 및 유전자 조절에 관여한다. 정소에서 가장 많이 발현되며 핵안에 프로틴이 존재한다. DNA재조합에 관여하며 cytodifferentiation에 관여한다.

 

-     204506_at: : Calcineurin subunit B type 1 probe id이다.

 

- 214119_s_at: : FKBP1A probe id이다. 면역 조절 및 단백질 폴딩 및 트래피킹을 포함하는 기본 세포 과정에서 역할을 하는 면역필린 단백질의 일부이다. TGF-베타 수용체를 비롯한 여러 세포내 신호 전달 단백질과 상호작용한다.(TGF-베타:자가면역질환 관련 단백질) 상동 유전자의 결실은 좌심실 심근의 비압축으로 알려진 선천성 심장 장애를 유발한다.

 

- 224635_s_at: : BIRC6 probe id이다. 단백질 코딩 유전자입니다. BIRC6과 관련된 질병에는 뇌암 및 정신 분열증이 있다. 암에서 ALK에 의한 신호 전달 및 RAF/MAP 키나제 캐스케이드가 있다. ALK 유전자는 역형성 림프종 키나아제라는 단백을 형성하는데 이 단백질은 세포 성장을 조절한다. 이 유전자가 재조합된 여부와 재배열 상태 그리고 종양 조직에서 변형된 상태에 따라 암의 여부가 판정된다.

 

- 228077_at: : MRI1 probe id이다. 단백질 코딩 유전자이다. MRI1와 관련된 질병에는 영아 간질 증후군, 간질 등이 있다.

 

대장암에 걸린 환자의 혈액 microarray결과에서 중요 feature를 뽑았을 때, 세포주기와 관련된 인자들이 나타났다. 암은 계속적으로 분열을 해야 하므로 세포주기와 관련된 여러 pathway가 많이 활성화된다. 암세포에서는 AKT pathway MAPK pathway와 같은 세포 증식과 관련 있는 경로가 활성화되어, 세포주기에 관련 있는 유전자들의 발현이 유도된다.  BIRC6MAPK 신호전달경로를 활성화시켜 세포주기를 조절한다. Calcineurin subunit B type 1NEAT와 같은 MAPK 하위 전사 인자의 인산화를 유도하여, 세포 증식을 유도한다. OLIGI는 전사 인자로 세포주기조절에 연관되어 있다.

암세포는 지속적으로 증식을 하는 것과 더불어 세포자연사(apoptosis)가 일어나지 않도록 하는 여러 인자들을 발현시킨다. NACα는 anti-apoptotic factor이므로, NACA의 발현양이 많을수록 세포는 apoptosis가 일어나지 않는다.  마찬가지로 WDR33anti-apoptotic factor로 많이 발현될수록 종양발생이 유도된다.

암은 처음 발병한 곳으로부터 다른 곳으로 전이가 된다. FKBP1ATGF-베타 신호전달과 밀접한 연관이 있는데, TGF-베타는 암의 전이를 유도하는 인자이다. 전이가 가능하기 위해서는 암이 중간엽 세포로 transition (EMT)이 되는데, MRI1는 이를 유도하는 인자이다.

대장암에 걸린 환자의 혈액에서도 암에 관련된 여러 인자들이 중요 feature로 뽑혔다. 이들은 암의 marker로 사용하여 암 진단을 하는 모델은 생물학적으로도 큰 의의가 있다.

'Project > 드림학기제_Machine Learning 암 발병률 예측' 카테고리의 다른 글

결론  (0) 2022.07.11
신장 질환 진단 모델  (0) 2022.07.11
대장암 진단 모델  (0) 2022.07.11
전립선암 진단 모델  (0) 2022.07.11
프로젝트 개요 및 이론적 배경  (0) 2022.07.11