'데이터 과학'에 해당되는 글 9건

  1. Contrasts in Neuroimaging Data Anlaysis
  2. Topological Data Analysis with R, (토폴로지 데이터 분석) (5)
  3. Slice Timing Correction
  4. smoothness estimation in SPM and AFNI (2)
  5. AFNI에서 ROI 만들기.
  6. TCI & Functional Modular Organisation 논문 수락 후기 (4)
  7. Data Analysis (3): Flip Neuroimaging Data
  8. Data Analysis (2): Graph Theoretical Analysis in R
  9. Data Analysis (1): Neuroimaging Data loading using SPM8 toolbox (11)

SPM 등의 뇌영상 데이터 분석 툴을 이용한 뇌영상 데이터의 분석은 기본적으로 각 복셀의 영상에 할당된 데이터 값을 일반 선형 모델 (General Linear Model, GLM)을 이용하여 모델링하고, 실제 데이터와 모델이 얼마나 잘 맞는지 통계적으로 테스트 하는 것이다. 특정 복셀 $i$에 대해서 $Y_{i} = XB_i + E_i$로 모델링 했을때 $X$는 디자인 행렬이되고, 벡터 $B_i$는 분석을 통해서 추정되는 파라미터이며, $E_i$는 에러를 의미한다. 이때 contrast는 $c'B$를 통해서 계산된다. 뇌영상 데이터에서 $c$는 보통 행벡터(column vector)를 의미하고, $c$를 통해서 다양한 contrasts로 결과를 확인할 수 있다. 

벡터 $c$는 contrasts의 가중치를 의미하고, 확인하고자 하는 대부분의 contrast의 Null hypothesis는 $c'B=0$이다. 구체적으로 contrast 가중치를 구성하는 방법에 대해서 다음의 예를 통해서 설명하고자 한다.

위 그림과 같이 세 그룹에 대한 데이터가 있을때, 가장 먼저 생각해 볼 수 있는 통계 분석은 일원분산분석(Analysis of variance, ANOVA)이고 이때의 contrast는 F-contrast로 세 그룹 중 발생할 수 모든 차이를 보고자 할때는 다음과 같은 방법으로 만들 수 있다.

또는 결과는 동일하지만 다른 방법으로 표현하고 싶다면, 다음과 같은 방법도 가능하다.

이제 각 그룹간 차이를 보고자 한다면, 다음과 같은 방법으로 분석이 가능하다. 하지만 분석의 초점이 ANOVA에서 그룹간 차이가 나는 영역을 찾고 해당 영역 내에서 세 그룹간 값이 어떻게 되는지 통계적으로 분석하는 것이 목표라면, F-contrast의 결과로 나온 영역에 대해서 평균 Beta 값을 추출해서 SPSS 등에서 post-hoc 분석을 진행하는 것이 옳다. MATLAB에서 post-hoc 분석이 가능하다면 말리지는 않겠다. SPM에서 T-contrast는 다음과 같은 방법으로 만들 수 있다.

  • -1    1    0:  spm{T} contrast for sample2 > sample1

  •  1     0   -1:  spm{T} contrast for sample1 > sample3

  •  2   -1   -1:  spm{T} contrast for sample1 > (sample2 + sample3)

이제 confounding effect를 제어한 후에 그룹간 차이를 비교하는 분석을 생각해 보자. 이러한 분석을 공변량분석 (Analysis of Covariance, ANCOVA) 이라 불린다. 다음과 같은 데이터가 있다고 가정해 보자.


이제 공변량(covariate1)의 효과를 제거한 후에 두 그룹간의 차이를 비교하는 F-contrast를 생각해 보다. 다음과 같은 spm{F} contrast를 통해서 sample1과 sample2 간의 값의 차이를 비교할 수 있다.



신고
국가수리과학연구소에서 병역특례로 근무하는 동안 (2011-2014) 다양한 수학자들을 만나 수 있었습니다. 그 중에서 위상수학(Topology)를 공부하신 박사님과 한 팀에서 일을 할 수 있게 되었는데, 이때 처음으로 토폴로지 데이터 분석 (Topological Data Analysis, TDA)라는 방법을 알게 되었습니다.

토폴로지 데이터 분석의 핵심은 고차원 위상공간의 매니폴드에서 얻은 포인트 클라우드 데이터를 간단하게 추상화 하여 그래프의 형태로 표현하는 것입니다. Filtration에 의해서 샘플된 데이터는 Simplicies를 구성하기 위해 사용되고, 이거한 simplicies들을 선으로 연결하여 매니폴드를 추상화 합니다. 

또한, 대수적 토폴로지(Algebraic Topology)를 이용하면 여러 매니폴드로부터 대수적으로 동일한 해석을 주는 그룹을 찾을 수 있습니다. 가령, 다양한 차원의 매니폴드에서 홀Holes 의 갯수를 알고 있다면 매니폴드의 토폴로지를 특징화 할 수 있습니다. 가령 컵과 도너츠는 홀Hole이 하나라는 점에서 토폴로지가 같다고 할 수 있습니다. 이렇게 토폴로지가 같은 특성을 갖는 것을 호몰로지 그룹이라고 하는데, 고차원 데이터에서 이러한 호몰로지 그룹의 특성을 파악 한다면 다양한 분야의 사람들이 데이터에 대해서 새로운 시각을 얻을 수 있을 것입니다.

지금까지는 대수적 위상수학의 기본에 대한 것만 설명했습니다. 위상수학이 실제 데이터 분석 분야에서 혁명적인 진보를 이를 수 있었던 것은 ‘Persistent Homology’ 때문이 아닐까? 생각해 봅니다. Persistent 호몰로지 알고리즘은 토폴로지적인 불변량을 다양한 스케일에서 볼 수 있게 해 준다. 여기에서는 특정 스케일에서의 Hole의 갯수가 중요하기 보다는 Hole의 갯수가 동일하게 유지되는 스케일의 구간이 어디인지? 가 더 중요한 질문입니다. 

바코드 형태의 그래프는 호몰로지 그룹을 계산함과 동시에 시각화가 가능합니다.바코드 그래프에서 주요한 관심은 x축 선상에서 길게 유지되는 그래프입니다. Bar의 길이가 짧은 것은 대부분 토폴로지 잡음에 해당되는 경우 입니다. Bar의 길이가 길게 유지되는 bit이 데이터의 특징을 설명해 줄 수 있는 호몰로지 그룹입니다. 다음의 코드는 R의 phom packages를 이용하여 iris data의 바코드를 그려줍니다.

install.packages("phom") # phom 설치   library(phom) # phom 설치 확인 data = as.matrix(iris[,-5]) head(data) max_dim = 0 max_f = 1 irisInt0 = pHom(data, dimension=max_dim, # maximum dimension of persistent homology computed max_filtration_value=max_f, # maximum dimension of filtration complex mode="vr", # type of filtration complex metric="euclidean") plotBarcodeDiagram(irisInt0, max_dim, max_f, title="H0 Barcode plot of Iris Data")

위에 그림으로부터 3~4개 정도로 iris 데이터를 클러스터링 할 수 있을 것으로 생각할 수 있을 것이다. Filtration value가 0에서 1로 변하는 동안 계속해서 유지 되는 클러스터가 2개이고 0-0.7 동안 유지되는 바코드는 4개 정도이기 때문이다.


신고

Slice Timing Correction

하나의 3차원 뇌영상 데이터는 여러개의 단면영상(Slice Image)으로 구성되어 있다. 기능자기공명영상(functional magnetic resonance imaging, fMRI)의 경우에는 보통 매2초마다 하나의 3차원 볼륨 영상을 획득하게 된다. 다시 말해서 2초동안 여러개의 단면영상을 획득하게 되는데, 그중에서 제일 처음에 획득한 단면영상과 맨 마지막에 획득한 단면영상 간에는 최고 2초 정도의 시간 차이가 발생하게 된다. 이러한 시간 차이를 보정해 주는 것이 Slice timing correction이라 물리는 전처리 과정이다. SPM의 경우에 slice timing correction 을 적용하게 되면 'a'를 어두로 하는 새로운 뇌영상 파일이 생성된다.

단면영상의 순서(slice order)는 각 단면영상이 획득된 순서를 의미한다. 단면영상에서 순서로 정의해준 순서는 각 단면영상이 획득된 시간 순서를 의미한다. SPM에서 order of slices를 확인하기 위해서는 SPM Display에서 보고자 하는 뇌영상을 선택하고, cross-hairs를 z=1인 위치로 이동시키면 볼륨 영상의 첫번째 단면 영상을 가르키게 된다.

Slice timing 을 통해서 동일한 볼륨 영상 내에 서로 다른 시간에 획득된 단면 영상들이 마치 동일한 시간에 획득된 것 처럼 보정을 하게 된다. 보정 과정은 sinc-interpolation을 이용하고, 이것은 시계열 데이터를 lagging하는 효과를 낸다.

개념을 명확히 하기 위해서 예를 들어 설명해 보고자 한다. 가령 연속되는 단면 영상에 어떤 신경활동이 있다고 가정해 보자. A 단면영상의 값들은 t=0s에 획득되었고, B 단면영상의 값들은 t=1s에 획들되었다. 보정이 없다면 B 단면영상에 있는 혈류동역학 반응(hemodynamic response)은 사실상 B 영상이 획득되기 1초 전에 발생한 신호를의미한다. 이것을 보정하기 위해서는 B 단면영상에 있는 값들을 1초 전에 발생한 시점의 값들로 shifting 해야 한다.

Slice timing correction에서 중요한 점은 뇌영상 데이터를 획득한 순서를 명확히 알아야 한다는 것이다. 만약 잘 모른다면 뇌영상 획득에 도움을 준 방사선사 선생님들께 문의해서 영상 획득 순서를 숙지하고 있는 것이 좋다. 보통은 ascending (from bottom to top), descending (from top to bottom), interleaved (odd number slices and then even number slices)등의 순서로 획득된다.

지멘스Siemens MRI로부터 .ima 파일로 데이터를 저장했다면, MATLAB에서 다음과 같은 명령어로도 order of slice를 확인하는 것이 가능하다.

>>hdr = spm_dicom_headers(’dicom.ima’); >>slice_times = hdr.Private_0019_1029


이 경우 단면영상의 순서는 아래쪽으로부터 위쪽으로 증가하는 방향이다.


신고

Smoothness estimation은 MonteCarlo simulation을 위해서 반드시 필요한 과정입니다.

SPM으로 영상 데이터를 분석했다면, SPM.mat 파일의 Field 값을 확인함으로써 smoothness를 확인할 수 있습니다.

>>load SPM; % SPM 결과 파일이 저장된 폴더에서 실행 >>M = SPM.xVol.M; % 변환행렬 정보를 가져옴 >>VOX = abs(diag(M)); % 대각행렬 정보가 볼셀 사이즈 >>FWHM = SPM.xVol.FWHM; % FWHM in voxel unit >>FWHMmm = FWHM.*VOX(1:3)'; % FWHM in mm unit >>disp(FWHMmm); 

SPM에서 Gaussian random field theory를 기반으로 smoothness를 estimation하고, 이것은 spm_est_smoothness을 통해서 계산됩니다. 

위의 과정을 통해서 확인한 FWHMmm 정보는 AFNI의 3dFWHMx의 명령어를 통해서 estimation한 smoothness와 완전히 동일하지는 않지만, 비슷한 수준의 값이 나와야 합니다. AFNI가 설치되어 있다면 다음과 같이 실행해 보세요. 

~>3dFWHMx -mask mask.hdr -input ResMS.hdr % SPM 결과 파일이 저장된 폴더에서 실행

여기서 얻은 smoothness를 기반으로 MonteCarlo simulation을 시행하면, 이것이 AlphaSim-corrected p-value가 됩니다.

관련 글은 다음의 링크에서도 확인이 가능합니다.
https://www.jiscmail.ac.uk/cgi-bin/webadmin?A2=spm;bb3ad6d.1308

신고

AFNI에서 ROI 만들기.

기능 뇌영상 연구에서는 특정한 관심 영역(Region of Interest, ROI)를 설정하고, 해당 ROI에 대한 시계열 데이터를 추출해서 분석을 해야 하는 경우가 많이 있습니다. AFNI를 통해서 ROI를 그리는 방법에 대해서 잘 설명되어 있는 영문 포스트가 있어서 이곳에 한글로 옮깁니다.

Afni 프로그램은 리눅스나 매킨토시 계열의 컴퓨터에서 작동하는 프로그램으로, 프로그램을 설치하고 쉘Shell에서 PATH 설정을 제대로 했다면, @GetAfniBin 명령어를 통해서 Afni가 설치되어 있는 경로를 return 받을 수 있습니다. 

이제 중심 좌표의 위치가 (x=23,y=21,z=-6.5 in talairach coordinate)이고 반지름이 3mm인 왼쪽 hippocampus 영역의 일부 영역을 구Shpere 형태의 ROI로 만들고 싶다면, 다음의 명령어를 통해서 가능합니다.

3dcalc -a `@GetAfniBin`/TT_N27+tlrc.HEAD \

-prefix ShpereROI \

-expr 'step(3*3 - (x-23)*(x-23) - (y-21)*(y-21) - (z+6.5)*(z+6.5))'

아주 간단하죠?

TT_N27+tlrc는 Afni나 Caret 등에서 볼 수 있는 Talairach 표준 템플릿 입니다.


신고

뇌과학 분야에서 출판한 첫 논문이기에 꼭 후기를 남기고 싶었다. 
물리학 분야에서 첫 논문이 출판되었을때 후기를 썼던 것 처럼... 

논문의 Manuscript가 대략적으로 완성된 시점은 2012년 12월 쯤으로 기억한다. 데이터 획득부터, 뇌영상 데이터의 분석, 그리고 논문 작성의 전체 과정에 직접 참여했기 때문에 나에게 의미가 더욱 각별하게 느껴지는 논문이다. 이번 연구는 "기질Temperament에 따라서 뇌네트워크의 연결성이 다르게 나타나고 그로 인해서 서로 다른 모듈 구조를 갖는다"는 것을 주요 결과로 하고 있으며, 논문 초안의 제목은 <Functional and morphometric neural mechanism underlying personality differences: Introverts vs. Extraverts> 으로 정했다. 인성의 외향성은 기질의 위험회피 척도와 자극추구 척도로 구분하는 것이 무리일 수도 있다는 것은 어느정도 예상했고, 특히 성격심리학자들이 보기에는 완전 엉터리로 들릴 수도 있겠다는 생각도 했다. 그리고 이러한 나의 생각은 여러 관련 분야의 선생님들께 조언을 구하는 과정에서도 가장 많이 질문 받고 또 진지하게 토론했던 부분이었다. 뭐, 처음이니까 부족한 부분이 있기 마련이고 부족한 부분은 저널 리뷰어들의 질문에 답을 하는 과정에서 보충 될 수 있지 않을까? 라는 생각에 여러 선생님들께 조언 받은것은 따로 정리는 해 두었지만, 처음 논문을 투고 할때는 보완하지 않았다. 

논문을 투고하기 전에 연구 결과의 해석과 결과의 타당성에 대해 전문가들의 조언을 듣고 싶었다. 처음 논문을 준비할때 공동 저자로 참여한 연구자들은 대부분 물리/공학을 기반으로 뇌과학을 연구했던 분들이었기 때문에, 논문의 특성상 심리학이나 정신의학 분야에서 뇌과학을 연구하고 있는 분들의 조언이 꼭 필요하다고 생각했다. 제일 먼저 찾은 곳은 성신여대 심리학과에 계신 K교수님과 여러 대학원생 선생님들이었다. 발표를 듣고 난 후에 대부분 "선생님들의 반응은 방법론과 결과에 대해서는 재미있으나, 기질 및 성격 검사(Temperament and Character Inventory, TCI)에서 측정된 위험회피(Harm Avoidance, HA) 척도와 자극추구(Novelty Seeking, NS) 척도로 내성적인 성향의 사람과 외향적인 성향의 사람을 구분하는 것은 위험한것 같다. 이미 성격심리학자들이 내성/외향을 구분하기 위해 개발한 성격검사지가 있는데, 그것을 사용하지 않고 연구자 임의로 내성과 외향을 정의하는 것은 많은 reviewer들에게 공격 받을 것이다." 라는 조언을 해 주셨다. 이후에 고려대학교 심리학과와 연세대학교 정신건강의학과를 연달아 찾아다니며 발표를 했고 조언을 구했으며, 세부적인 측면에서는 차이가 있었지만 큰 맥락에서는 대부분 비슷한 조언을 해 주셨다. 위험회피 척도와 자극추구 척도가 음의 상관관계에 있고 이들 두개의 척도로 그룹을 나누었다면, 그룹지어진 결과 그대로 'high HA and low NS' 그룹과 'low HA and high NS' 그룹으로 나누는 것이 더 설득력 있는 연구결과가 될꺼라는 조언이 지배적이었다.

여러 선생님들께서 조언해주셨던  부분에 대해서 저널 리뷰어에게도 비슷한 조언을 받았고, 어떤 부분이 부족한지 어느정도는 미리 알고 있었기에 내용을 보충하는데 큰 어려움이 있거나 많은 시간이 들지는 않았다. 하지만 연구 논문의 서론 부분이나 토의Discussion을 작성하는 과정에서 심리학자나 정신의학 분야를 전공하신 선생님들의 적극적인 도움 없이는 논리에 헛점이 발생할 수도 있겠다는 생각에 정신과 의사 선생님을 공동 저자로 섭외했고 도움을 받았다. 그러나, 처음 초안을 너무 허술하게 잡았기 때문에 부족한 부분이 많을 수 밖에 없었기 때문에 두번이나 논문 게재를 거절 당했다. 그래도 우여곡절 끝에 Brain Research라는 저널에서 논문 게재를 허락 받았으니 얼마나 다행인지 모른다. NeuroImage에 투고했던 논문을 수정/보완하여 Brain Research에 재투고 했었는데 NeuroImage와 Brain Research 모두 NPRC consortium에 멤버로 들어있는 저널들이었기 때문에 서로 Reviewer's comments를 공유해줬고, 논문 수락 process도 빨랐던것 같다. 초기에 논문 제출할때와는 달리 최종적으로 수락된 논문의 제목은 <Functional network organizations of two contrasting temperament groups in dimensions of novelty seeking and harm avoidance> 이다.

연구 결과는 International Workshop in NeuroDynamics 2014 (July 14-17 2014, Castro-Urdiales, Spain) 학회에서 처음으로 소개되었고, 발표 자료는 Slideshare를 통해 공개했다. 뭐든 처음이 가장 어렵다고 한다. 내게도 이번 연구가 뇌과학 분야에서는 처음으로 출판하는 논문이었기에 많은 시행착오가 있었다. 하지만 이번 논문 게재를 바탕으로 현재 진행중인 ADHD 환자의 Topology와 뇌네트워크 분석관련 연구도 잘 정리해서 논문으로 완성하는 날을 생각하번 벌써부터 가슴이 뛴다.

이 글을 통해서 공동저자로서 함께 결과를 내주신 여러 선생님들과 도움을 주신 모든 분들께 다시한번 감사인사를 드립니다. ^.^


작성자: 뇌과학자 경성현

신고

병변Lesion이 있는 환자의 뇌영상을 분석할 때, 종종 영상의 좌-우를 반전Flip이 필요한 경우가 있습니다.

가령, Stroke으로 인해 운동영역에 손상을 입은 환자의 병변을 overlay 하는 연구를 진행한다고 했을때,

가장 좋은 방법은 병변이 한쪽으로 몰려 있는 환자들만을 피험자로 선정하여 연구를 진행하면 좋습니다.

하지만, 모든 뇌졸중 환자들이 천편일률적으로 오른쪽 대뇌 피질의 운동영역에 손상이 오지 않습니다.

어떤 환자는 왼쪽 운동영역에 손상이 오기도 하고, 어떤 환자는 오른쪽 운동영역에 손상이 오기도 합니다.

이럴때는, 피험자의 숫자가 적은 쪽의 뇌영상 데이터를 좌-우 Flip하여 병변이 한쪽인것처럼 맞춘 후에

통계분석을 하게 됩니다. 이러한 경우가 아니더라도, 뇌영상 데이터를 처리하는 과정에서 좌우가 바뀌어져 있다면,

올은 방향으로 전환해야 합니다. 모든 의료영상 데이터가 모두 마찬가지겠지만, 

뇌영상 데이터를 다룰때는 왼쪽과 오른쪽이 제대로 되어 있는지 꼭!! 확인한 후에 연구를 진행해야 합니다.


아래에 첨부된 파일은 임의의 뇌영상 데이터를 선택하고,

선택된 영상의 좌우를 반전시키는 프로그램입니다.

프로그램을 실행시키기 위해서는 우선, spm8의 path가 설정되어 있어야 합니다.

참고 Data Analysis (1): Neuroimaging Data loading using SPM8 toolbox


다음의 명령어를 통해서 뇌영상을 MATLAB workspace에 loading하게 되면,

>vin = spm_vol(fn); >IMG = spm_read_vols(vin);

IMG 변수는 3차원 볼륨 영상이 저장됩니다.

좌-우, 앞-뒤, 상-하 반전의 핵심은 

불러들인 뇌영상을 새로운 파일에 저장할때, 

다음과 같이 한쪽 방향의 데이터를 순서를 거꾸로 하여 저장하는 것입니다.

>spm_write_vol(vout, IMG(end:-1:1,:,:)); # 좌-우 flip >spm_write_vol(vout, IMG(:,end:-1:1,:)); # 앞-뒤 flip >spm_write_vol(vout, IMG(:,:,end:-1:1)); # 상-하 flip


좌-우 flip과 관련된 전체 MATLAB 프로그램은 

첨부된 파일을 참고하시면 도움이 될것 같습니다.

참고로 MATLAB에서 'end'라는 변수는 미리 지정되어 있는 변수로서,

어떤 행렬 또는 벡터형 데이터의 맨 마지막 데이터를 의미합니다.


작성자: 뇌과학자 경성현

filplr.m


신고

수학에서의 그래프 이론(Graph Theory)과 물리학에서의 복잡계 네트워크(Complex Network)는 관련 전공자가 아닌 분야의 사람들에게는 비슷하게 느껴집니다. 저 또한 수학자도 아니고 물리학자도 아니기에 그래프 이론과 복잡계 네트워크를 혼용해서 사용합니다. 두 학문 분야의 전문가들이 보시기에는 다른 학문이으로 생각되겠지만, 그래프 이론이나 복잡계 네트워크에서 발견된 연구 결과물을 활용하는 연구자들에게는 '그게 그거 아닌가?' 라는 생각이 들기 마련인 것 같습니다. 저 또한 그래프 이론과 복잡계 네트워크라는 용어를 구분하지 않고 혼용해서 사용합니다.

그래프는 '점'과 '선'의 집합으로 구성되어 있습니다. 그래프에서 노드와 노드가 어떻게 연결되어 있는냐에 따라서 community를 이루기도 하지요. 파이썬이나 매틀랩 등의 스크립트 프로그래밍 툴에서도 그래프를 분석하는 기능을 제공하지만, 본 강좌에서는 R의 igraph library를 이용한 데이터 분석 방법을 소개해 드리고자 합니다. R이 익숙하지 않으신 분들은 실습은 Rstudio에서 연습 하시면 좋을것 같습니다.

우선 igraph라는 라이브러리를 설치해야 합니다.

> install.packages("igraph") # igraph 설치   > library(igraph) # igraph 설치 확인

igraph 라이브러리가 잘 설치를 완료 했으면, 이제 간단한 그래프를 만들어 보겠습니다.

> G <- graph( c(1,2, 1,3, 2,3, 3,5), n=5) > G_und <- as.undirected(G) # 방향성이 없는 그래프 > G_dir <- as.directed(G) # 방향성이 있는 그래프

위에서 생성한 그래프는 5개의 점(node or vertex)이 있고, 점을 있는 선은 총 4개가 있습니다. 정말 그렇게 생성되었는지 확인해 봅시다.

> V(G_und) # 노드가 5개인지 확인.

Vertex sequence:  [1] 1 2 3 4 5

> E(G_und) # 선이 4개 인지 확인. Edge sequence: [1] 1 -> 2 [2] 1 -> 3 [3] 2 -> 3 [4] 3 -> 5

이제 그래프를 그림으로 확인해 보겠습니다. E(G)에서도 확인할 수 있지만, 4번 노드는 연결 선이 하나도 없이 혼자 동떨어져 있습니다. 이것이 그림으로는 어떻게 표현될까요?

> plot(G_dir) # 그래프를 그림으로 확인.

plot(G_und)를 하면, 노드와 노드 사이에 연결된 선의 화살표가 없는채로 방향이 구분되지 않는 형태로 그래프가 그려질 것입니다. 여기까지 따라하셨드면, R을 이용한 그래프 그리기의 기초적인 과정은 끝났습니다.

이제 실제 연구에서 사용되는 네트워크 데이터를 분석에 활용해 보도록 하겠습니다.

** application to brain network analysis will be updated soon **

신고

일반적인 데이터 분석에 관련된 기술을 포스팅하고 싶었지만, 데이터 분석은 data specific한 부분들이 있기 때문에 일반적인 데이터 분석 및 시각화 기법에 대한 강의는 어려울것 같고, 뇌영상 데이터와 트위터 데이터 수집 및 분석과 관련된 포스팅을 연재하고자 합니다.

일단 뇌영상 데이터 분석 기법으로 강의를 시작하는 이유는 최근 5년 동안 제가 연구해온 분야로 expert까지는 아니어도 intermediate 이상의 실력은 된다고 생각하고 있기에, 지금까지 습득한 노하우를 관련 분야에 계신 분들께 나누고 싶은 생각이 들었습니다.

뇌영상 분석에 사용되는 툴은 여러가지가 있지만, 보통은 MATLAB 기반의 SPM8, linux 기반에서 작동하는 AFNI 또는 FSL 등이 가장 많이 이용되고 있습니다.어떤 소프트웨어가 가장 좋은가? 라는 질문의 대한 답은... 내가 사용하기 편한 소프트웨어. 가 아닐까? 생각됩니다. 우수한 프로그램은 고성능의 알고리즘으로 무장하여 계산속도를 극대화 하는 것도 중요하지만, 사용자가 얼마나 편하게 접근할 수 있는가?에도 많은 노력을 기울여야 한다고 생각합니다.

필자는 MATLAB이 사용하기 편하고, engineering 기반이 아닌 사람들과 소통하기에 (뇌연구는 심리학, 정신의학, 물리학, 통계학, 전자공학, 의공학 등 다양한 전공을 가진 연구자들이 있기 때문에 공동연구와 연구자들간의 소통이 중요함) 가장 적합한 프로그램이라 생각하고, MATLAB을 사용하기 시작했습니다. 앞으로 'Data Analysis (for neuroscientist)'라는 주제로 한글 인터넷 강좌를 연재하고, MATLAB 뿐만이 아니라 python 및 linux script에 대한 내용도 다룰 예정입니다. 뇌영상 데이터를 연구 재료로 사용하고 계신 연구자들 중에서, GUI 환경의 분석에서 벗어나고자 하시는 분들께 조금이라도 도움이 되었으면 좋겠네요^^ 오늘은 그 첫번째 강좌로 "Data loading and writing using SPM8 toolbox"에 대한 강의를 하고자 합니다.

SPM8은 프로그래밍을 잘 몰라도 사용할 수 있는 막강한 GUI환경을 제공합니다. 이 GUI를 이용하면 뇌영상 데이터(fMRI, EEG, PET 등)의 전처리를 수행할 수 있습니다. 물론 GUI를 사용하지 않고, MATLAB command line을 통해서 더욱 편리하게 전처리를 할 수도 있지만, 그러기 위해서는 프로그래밍에 대한 기초 지식이 있어야 해요. 하지만 겁먹을 필요는 없고요, 앞으로 하나하나 배워나가면 됩니다.

일단 MATLAB에서 SPM8의 툴발스를 이용하여 뇌영상 데이터를 불러들이고, 또 어떤 연산 결과를 새로운 이름의 영상으로 저장하고자 한다면,

(1) SPM8 toolbox를 다운로드 받아야 합니다.

(2) 예제로 사용할 뇌영상 데이터가 필요합니다. 데이터가 없다면 SPM 홈페이지에 있는 auditory fMRI data를 사용하실 수 있습니다. (MoAEpilot.zip)


이제 다운로드 받은 영상 데이터를 matrix 형태로 불러들이기 위해서는 MATLAB을 실행시키고, 다음과 같이 명령어를 순서대로 입력하면 됩니다.

>addpath /Users/skyeong/spm8; % spm8에서 제공하는 모든 함수를 어떠한 경로에서도 사용할 수 있도록 설정. >data_path = '/Users/skyeong/Downloads/MoAEpilot/fM00223' ; % fMRI 데이터 위치의 절대경로 >fns = spm_select('FPList',fullfile(data_path),'^fM.*\.img$'); % 파일 이름이 fM으로 시작하고, 확장자가 .img인 모든 파일을 선택. >vs = spm_vol(fns); % 뇌영상의 header 정보 불러오기. >IMG = spm_read_vols(vs); % 뇌영상 데이터를 matrix 형태로 불러오기.

vs 변수에는 뇌영상 데이터의 header 정보가 저장되어 있습니다. 다음과 같이 MATLAB command line에서  vs(1) 이라고 입력하면, 첫번째 뇌영상 볼륨의 정보를 볼 수 있어요. 

>vs(1) ans = fname: '/Users/skyeong/Downloads/MoAEpilot/fM00223/fM00223_004.img' dim: [64 64 64] mat: [4x4 double] pinfo: [3x1 double] dt: [4 1] n: [1 1] descrip: 'SPM compatible' private: [1x1 nifti]

여기서 fname은 첫번째 볼륨vs(1)이 위치한 full file path를 의미하고, dim은 뇌영상 데이터의 dimension정보, dt(=data type)는 뇌영상 데이터의 저장 형태입니다. 보통 프로그래밍 언어에서는 boolean, integer, float 에 따라서 데이터를 저장하는 용량이 다른데, [4 1]은 복셀 하나에 저장되는 숫자가 4 bytes로 표현된다는 의미이고, 보통 4 bytes 이면 양의 정수를 표현하기에 적합하다고 생각하면 됩니다. 만약 어떤 연산의 결과가 소수점을 동반한다면 vs(1).dt=[16 1]로 설정해야 하고, 이렇게 하면 한 복셀당 16 bytes의 용량이 필요하기 때문에, 4 bytes로 저장될때보다 뇌영상 데이터의 용량이 4배로 늘어나게 되요. data type이  높다고 좋은것은 아니고, 계산결과가 소수형인지, 양의 정수형인지, 음의 정수를 포함하는지를 잘 판단하여 설정하는 것이 하드디스크의 용량을 적게 사용할 수 있는 노하우입니다. MATLAB의 Numeric Types에 대해서는 MathWorks의 홈페이지를 참고하면 자세히 알아볼 수 있어요.

이제 IMG 변수에 담긴 숫자들은 뭘 의미하는지 알아 볼까요? IMG변수에는 뇌의 활동에 따른 BOLD signal이 숫자의 형태로 각 볼셀에 저장되어 있습니다.

>size(IMG) ans = 64 64 64 96

MATLAB command line에 size(IMG)를 입력하면 IMG 변수가 4차원 형태로 되어 있음을 알 수 있다. 처음 3개 숫자는 x, y, z 축의 복셀 숫자를 의미하고, 네번째 숫자인 96은 시간축 정보를 의미합니다. 즉, 실험을 통해서 96개의 volumes을 획득한 것이고, 만약 repetition time (TR)이 2초 였다면, 96x2 sec = 192 sec 동안 fMRI 영상을 획득한 셈이겠죠? 

이제 첫번째 볼륨vs(1)의 intensity 값의 분표를 MATLAB의 hist() 함수를 이용하여 확인해 볼께요.

>figure; >data = IMG(:,:,:,1); % 첫번째 volume의 intensity 정보를 data라는 변수에 저장. >hist(data(:)); % 모든 복셀의 intensity 값의 분포를 확인. >figure; >hist(data(:),100); % 모든 볼셀의 intensity 값의 100개의 bins으로 나눠서 분포를 확인.


강좌를 올리는게 쉽지는 않네요, 몇줄 안되는 코드이지만 프로그래밍은 직접 실습해보는게 중요합니다. 관심 있으신 분들은, 꼭 집접 확인해 보시길. 다음 강좌에서는 MATLAB을 이용한 regression analysis, bandpass filtering, network analysis 등을 소개할 예정입니다. 질문은 다른 분들도 함께 공유할 수 있도록 블로그나 패이스북의 덧글로 부탁드립니다.

신고