1990년대 인간 유전체 프로젝트 (Human Genome Project) 이후 염기나 단백질의 서열을 자동으로 분석할 수 있는 각종기기(DNA Sequencer, DNA Microarray 등)들의 획기적인 발전으로 생물학적 정보의 양은 기하급수적으로 증가하였다. 여러 방법론을 사용하여 생명현상 정보를 얻어내 이를 분석하는 생물정보학이 대두되고 있다.
질병은 여러 유전자나 대사체와 연관되어 있다. 특정한 질병에 걸린 사람은 그와 관련된 유전자나 대사체의 발현양이 높게 나타난다. 따라서 유전자나 대사체로 사람의 질병을 해석할 수 있다면, 여러 질병의 진단과 치료에 큰 기여를 할 수 있을 것이다. 따라서 본 프로젝트에서는 머신 러닝, 딥러닝 기법을 이용하여 여러 생물정보학적 데이터를 처리해 여러 질병들을 빠르게 진단할 수 있는 알고리즘을 제시하고자 한다. 본 프로젝트에서 구축한 질병 진단 모델은 다음과 같다.
1) NCBI에서 제공하는 Microarray dataset을 이용하여 전립선암과 대장암 진단 모델을 각각 구축한다. 암은 세포주기가 조절되지 않아 지속적으로 세포분열을 하고, 주변 조직에 침투하여 정상 세포를 죽이는 질병이다. 따라서 암세포에서는 세포주기와 관련된 유전자들이 과다 발현된다. 정상인과 환자의 데이터를 학습시켜 각 암들의 유의미한 features(유전자)를 뽑아내, 이를 바탕으로 암 진단 모델을 제작한다.
2) 유전자 발현양 뿐만 아니라 대사체 발현양으로도 질병을 진단할 수 있는지 확인하기 위하여, 서울대학교 임상약리학과에서 제공받은 신장병 환자의 대사체 데이터(HPLC-MS/MS)로 학습을 진행한다. 신장 질환은 대사증후군과 밀접한 연관이 있으므로, 신장병에 걸린 환자들은 특정 대사체가 높게 발현될 것으로 예상되며, 실제 학습을 진행한 결과 대사체 발현양 양상으로도 신장병 진단이 가능하다.
3) 1)에서 사용한 데이터는 각 조직에 있는 세포를 얻어 microarray를 한 것이다 (조직생검). 그러나 본프로젝트의 목적은 질병의 진단이므로, 조직을 채취한 데이터로 만든 모델은 진단키트를 위한 모델로는 적합하지 않다고 판단하였다. 우리가 구축한 알고리즘을 더 유의미하게 활용하기 위해서, 얻기 쉬운 혈액을 이용한 데이터를 얻어 질병 진단 모델을 제작하고자 한다. 따라서 대장암에 걸린 환자의 혈액으로 microarray를 한 결과를 통해 대장암 진단이 가능한 지 알고리즘을 설계한다.
질병을 치료하는데 가장 중요한 것은 빠르고 정확한 진단이다. 본 프로젝트는 다양한 생물학적 데이터를 통해 질병을 진단할 수 있는 알고리즘을 설계하여, 실제 질병 진단으로도 응용할 수 있다는 의의가 있다.
이론적 배경
생물정보학이라는 용어는 1970 년 Paulien Hogeweg 와 Ben Hesper 가 처음 사용한 말로, 사상 최초의 생물학적 서열 데이터가 공유되기 시작하면서 만들어졌다. 생물정보학은 생물학적 데이터를 저장, 검색, 구성하고 분석하는 데 생물공학 IT를 사용하는 분야를 일컫는다. 유전체 서열(genome sequencing) 프로젝트와 같은 연구에서 엄청난 양의 데이터가 생성되었는데, 그 결과 생물학 분야의 난제는 대부분 컴퓨팅 쪽 문제로 바뀌게 되었다. 고도의 학제간 연구인 이 분야에는 응용 수학, 인포매틱스, 통계, 컴퓨터 과학, 인공지능, 화학과 생화학 등 여러 학문의 지식이 관련된다. 생물정보학은 현대 생물학과 의학에서 데이터 관리에 필수적이다. 무수히 많은 응용 분야와 연구 분야가 있어 다양하게 적용할 수 있다. 그 예로는 서열 분석, 단백질 구조 예측, 유전체 주석, 비교유전체학, 의료 및 신약 개발, 폐기물 처리, 생물공학 등이 있다.
2) 분자생물학 중심원리
중심원리란 염색체 DNA로부터 RNA가 전사 되고, RNA는 세포질로 이동하여 그곳에서 단백질 내의 아미노산 배열을 결정한다. 화살표는 유전 정보의 이동 방향을 나타낸다. DNA를 둘러싸고 있는 화살표는 DNA가 자가 복제를 할 수 있음을 나타낸다. 이후 DNA 주형에 의해 RNA의 합성(전사, transcription)이 지시되고, 단백질의 합성(번역, translation)은 전사 과정을 거쳐 형성된 RNA 주형에 의해 지시된다. 세포 활동은 주로 RNA와 단백질이 담당하는데, 세포는 환경에 따라 여러 RNA와 단백질을 발현한다. 따라서 이들을 통해 세포의 상태를 알 수 있다.
3) Microarray
마이크로어레이(microarray)는 대규모 유전형 분석을 하기 위해 고안된 기술로, 핵산 조각들이 결합할 수 있는 DNA 탐지자(probe)를 유리 슬라이드의 특정한 위치(spot)에 고정시켜놓은 형태이다. 탐지자들은 대개 oligonucleotide(cDNA의 형태)으로, DNA나 RNA 조각들이 상보적으로 결합하도록 되어 있다. Microarray는 크게 spotted microarray와 oligonucleotide array기법으로 나뉘는데, 본 프로젝트에서 이용한 데이터들은 주로 oligonucleotide array기법을 이용한 것이다. 이 기법에서는 탐식자가 광화학적으로 칩에서 직접 생성되기 때문에 클로닝이나 spotting, PCR 과정이 필요 없다. 매우 높은 밀도로 수 십만 개의 탐식자를 부착할 수 있고, 탐식자의 염기서열(25bp)도 정확히 알고 있다.
mRNA를 다시 reverse transcription 시켜서 DNA로 만든 것을 cDNA라고 일컫는다. 실험자들은 cDNA로 microarray를 진행한다. cDNA를 probe에 부착시키고 일련의 과정을 거치면 형광이 띤다. 형광을 많이 뜰수록 그 유전자 발현이 많이 되었다는 뜻이다. 중심원리에서 세포는 세포 활동을 하기 위해서DNA로부터 mRNA를 전사한다. 어떤 mRNA가 전사가 많이 되었나, 즉 어떤 유전자 발현양이 높게 나타나는 지에 따라서 세포의 상태를 알 수 있다. 만약 세포 주기를 지속하는 유전자(STAT3, RB 등)의 mRNA 발현양이 높다면 이 세포는 암세포라고 볼 수 있다. 따라서 Microarray 로 전반적인 유전자 발현양을 확인할 수 있다.
4) 대사체와 HPLC-MS/MS
대사체란 생체 내 대사 분자의 총체를 의미한다. 대사 산물을 생체 내에서 대사의 결과로 얻어지는 물질이다. 대사체의 예로는 소화과정에서 발생하는 펩타이드 분자나 탄수화물, 알코올 대사 과정에서 발생하는 아세트알데하이드 등이 있다. 생체 내 대사체를 연구하기 위해서는 체내 대사체를 추출해야 하고, 추출한 대사체를 측정해야한다. 대사체는 주로 혈액이나 소변 등에서 얻을 수 있다. 이렇게 얻은 대사체는 NMR이나 MS/MS와 같은 분석기기로 분석해야한다.
대사체 분야에서는 데이터베이스가 잘 구축된 MS/MS를 주로 사용한다. MS/MS란 질량분석기의 한종류이다. 질량분석기는 시료를 이온화 시켜서 mass to charge ratio를 측정하는 기기이다. 그중에서도 MS/MS는 대사체를 절편화 시켜서 더 자세히 분석을 가능케 하는 기기이다. MS/MS에는 주로 LC, HPLC, GC와 같은 chromatography를 연결시켜 사용하는데, 이는 대사체 분석에 있어서, 분류를 통한 특정 대사체를 선별하는 과정이 필요하기 때문이다.
'Project > 드림학기제_Machine Learning 암 발병률 예측' 카테고리의 다른 글
대장암 혈액 진단 (0) | 2022.07.11 |
---|---|
신장 질환 진단 모델 (0) | 2022.07.11 |
대장암 진단 모델 (0) | 2022.07.11 |
전립선암 진단 모델 (0) | 2022.07.11 |
1. 드림학기제_암 발병률 예측 프로그램(with 생물정보학) Intro (0) | 2022.05.09 |