본문 바로가기
데이터과학/출판된 논문 소개

토폴로지 데이터 분석을 이용한 섬망의 하위그룹 발견

by 경성현 2016. 11. 23.

최근 미국 식품의약청(FDA)는 Personalized Medicine의 중요성을 강조하고 있는 추세다. 같은 병명의 질병을 가졌다고 할지라도 사람마다 유전적인 특징이 다를 수가 있고, 생물학적으로 약물에 반응하는 정도가 모두 다르기 때문에다. 이에 따라 함께 강조되고 있는 것이 환자들을 아형에 따라 하위그룹으로 나누는 "Phenotypic Subgrouping"이다. 

Subgrouping을 위해 사용할 수 있는 비지도 기계 학습(Unsupervised Machine Learning) 방법은 여러가지가 있을 수 있지만, 질환을 범주화 하기에는 어려움이 있다. 이제 새롭게 등장한 것이 토폴로지 데이터 분석(Topological Data Analysis, TDA)이다. TDA는 일종에 Partial Clustering 방법으로 질병이 Spectrum 형태로 분포하는 경우에, 매우 유용하게 적용할 수 있는 클러스터링 방법이다.

토폴로지 데이터 분석에서 Input Features를 선택하는 방법은 많이 있지만, 이번 연구에서는 로지스틱 회귀분석을 이용해서 수술후 섬망 발생에 영향을 미치는 위험인자를 우선적으로 찾아냈다. 이렇게 찾아낸 위험인자는 노인 인지기능 평가 지수(MMSE), 심경증, 성실성, 수술시 마취의 종류이다. 이 4개의 특징 변수의 Principal Component를 찾아내서, 이를 Mapper의 filter metric으로 사용했다. 아래 그래프에서 노드의 색깔은 filter metric이다. Mapper에 input으로 사용된 distance metric으로는 L2-distance를 사용했고, 클러스터링 알고리즘으로는 single-linkage dendrogram을 적용했다. 

분석 결과로 생성된 Topology of patient-patient networks에 여러 임상 변인들을 mapping해보니, 섬망의 하위 그룹이 2개 정도로 나눠지는 것을 발견했다. 하나의 섬망 그룹은 인지기능 평가지수가 낮으면서 수술시에 부분마취를 했던 환자그룹(G1)이고, 또 다른 섬망 그룹은 인지기능 평가점수는 보통이지만, 신경증 지수가 매우 높고, 성실성 점수가 낮으며 수술시에 전신마취를 했던 환자 그룹(G2)임을 밝혔다.

재미있는 것은 로지스틱 회귀 분석에서는 혈액내 단백질 총량이나 알부민 수치가 섬망의 위험인자가 아닌것으로 나타났지만, 이 두 변인을 Patient-patient network에 Mapping 했더니, 섬망이 발생한 그룹에도 단백질과 알부민 수치가 낮은 것으로 나타났다. 이 두 수치가 환자의 영양상태와 관련 있음 고려했을때, 수술 전에 환자의 영양 상태가 섬망 발생에 영향을 미칠 수 있음을 밝힌 셈이다. 이는 같은 데이터에 로지스텍 회귀분석을 적용했을때는 발견할 수 없던 결과로, TDA 연구의 중요성이 강조되는 부분이다.

본 연구는 2016년 11월에 BMC Psychiatry 학술지에 게제되었다.
저널 바로가기: https://bmcpsychiatry.biomedcentral.com/articles/10.1186/s12888-016-1079-z