원제: 「An Expanded View of Complex Traits: From Polygenic to Omnigenic


복합형질에 대한 확장된 관점: 다유전자성에서 전유전자성까지


Evan A. Boyle, Yang I. Li, and Jonathan K. Pritchard


2017. Cell 169(7): 1177-1186.


유전학의 중요한 목표는 유전자 변이(genetic variation)와 질병 사이의 관련성을 이해하는 것이다. 직관적으로 봤을 때, 누군가는 질병을 일으키는 변이체(variant, 變異體)가 질병의 병인(病因)을 일으키는 핵심 기전(key pathway)에 한 데 모여 있으리라 예상할 수도 모른다. 하지만 복합형질(complex trait, 複合形質)에 대한 연관신호(association signal)는 유전체(genome, 誘電體) 대부분에 퍼져 있는 경향이 있는데, 여기에는 질병과 명백히 연결되어 있지 않은 수많은 유전자 인근도 포함된다. 우리는 1) 유전자 조절 네트워크(gene regulatory network)가 충분히 상호 연결되어 있어서 질병 관련 세포에서 발현되는 모든 유전자가 질병 관련 핵심 유전자(core gene)의 기능에 영향을 줄 수 있고 2) 유전가능성(heritability, 遺傳可能性) 대부분은 핵심 기전 바깥에 있는 유전자에 대한 영향으로 설명할 수 있음을 제안한다. 우리는 이러한 가설을 전유전자성(omnigenic, 全遺傳子性) 모델로 부른다.


유전학에서 가장 오래 지속된 질문은 유전자 변이(genetic variation)가 표현형 변이(phenotypic variation)에 어떻게 기여하는지 이해하는 것이다. 1900년대 초반에—멘델(Gregor Mendel)의 완두콩 유전 연구에 영감을 받아 불연속적인 단일 유전자성 표현형(monogenic phenotype)에 초점을 맞췄던—멘델학파와 키와 같은 연속형질(continuous trait)의 유전에 관심이 있었던 생체 통계학자(biometrician) 사이에 격렬한 논쟁이 있었다. 생체 통계학자는 멘델 유전학이 인간을 위시한 여러 종(種)의 많은 형질에서 관찰되는 변이의 연속분포를 설명할 수 없다고 믿었다.


이러한 논쟁은 1918년 발표된 피셔(Sir Ronald Aylmer Fisher)의 독창적인 논문으로 해결되었는데, 이 논문에서 피셔는 만일 많은 유전자가 어떤 형질에 영향을 준다면, 각 유전자의 대립유전자(allele, 對立遺傳子)를 임의로 추출할 때 개체군에서 연속정규분포를 따르는 표현형(phenotype, 表現型)이 나타남을 보였다 [Fisher, 1918]. 유전자 수가 더 많이 증가할수록 각 유전자의 (표현형에 대한) 기여도는 그에 상응해 점점 줄어들면, 피셔의 유명한 “극소모델(infinitesimal model)”의 한계가 나타난다 [Barton et al., 2016].


특히 동·식물의 번식과 같은 유전 양상(inheritance pattern)을 설명하는 데 있어서 극소모델이 성공적이었다 할지라도, 얼마나 많은 유전자가 복합형질을 만들어내는 데 실제로 중요한 역할을 하는지는 20세기 전체를 통틀어도 명확하지 않았다. 실제로도, 인간 유전학자는 심지어 복합형질조차도 적당히 영향을 주는 소수의 유전자좌(locus, 遺傳子座)를 통해 만들어질 것이라고 예상했다—따라서 돌이켜 생각해 보면 상당히 뒷심 없는 (유전체) 맵핑(mapping) 연구가 정말 많이 출현했다. 예를 들어, 자폐증 형제가 공유하는 대립유전자를 분석한 1999년의 우아한(elegant) 어떤 연구는 특별히 유의미한 적중 결과가 없음에도 “(아마도 15개 이상의) “상당히 많은 유전자좌”가 (이들 형제 사이에) 있음이 틀림없다고 결론지었다. 그 당시에는 이러한 예측 결과가 두드러지게 높았지만, 지금은 기이하게도 매우 낮은 것처럼 보인다 [Risch et al., 1999; Weiner et al., 2016].


대략 2006년 이후부터, 전체 유전체 연관 연구(genome-wide association study; 이하 GWAS) 및 가장 최근의 엑솜 시퀀싱(exome sequencing) 출현 덕분에 복합형질의 유전학적 근거를 처음으로 상세히 이해하게 되었다. GWAS 시대의 초창기 놀라운 발견 가운데 하나는 일반적인 형질에 대해 심지어 유전체에서 가장 중요한 유전자좌일지라도 작은 효과크기(effect size)를 나타냈으며, 더불어 유의미한 적중 결과일지라도 예상되는 유전자분산(genetic variance, 遺傳子分散)을 제한적으로만 설명한다는 점이다. 이러한 점은 잃어버린 유전가능성(missing heritability)의 미스터리(mystery)로 언급된 적이 있다 [Manolio et al., 2009]. 훗날, 그 미스터리는 전체 유전체 수준의 통계적 유의성보다 충분히 낮은 효과크기를 지닌 공통 단일염기 다형성(single-nucleotide polymorphism; 이하 SNP)이 여러 형질의 “잃어버린 유전가능성” 대부분을 설명함을 보인 분석 덕분에 대부분 해결됐다 [Yang et al., 2010; Shi et al., 2016]. 더 큰 효과크기를 지닌 희소 변이체(rare variant) 또한 유전자분산에 기여하는데 [Marouli et al., 2017], 자폐증 및 조현병과 같은 [De Rubeis et al., 2014; Fromer et al., 2014; Purcell et al., 2014] 주요 적응도 예후(major fitness consequence)를 수반하는 질병에서 특히 그러하다 [Simons et al., 2014].


두 번째로 놀라운 점은—단백질 코딩(coding) 유전자의 변화가 주요 원인인 [Botstein and Risch, 2003]—멘델 유전질환(Mendelian disease)과는 대조적으로 복합형질이 유전자 발현에 영향을 미치는 논코딩 변이체(noncoding variant)에 의해 만들어진다는 것이다 [Pickrell, 2014; Welter et al., 2014; Li et al., 2016]. 확실히, 많은 연구는 질병 관련 세포형(cell type, 細胞形)의 프로모터(promoter) 및 증폭자(enhancer)와 같은 활성 염색질(chromatin, 染色質) 지역에 유의미한 변이체가 많이 존재함을 보였다. 예를 들어, 자가면역 질환에 대한 위험 변이체(risk variant)는 면역세포의 활성 염색질 지역에 특히 많이 존재하는 것으로 보인다 [Maurano et al.; 2012; Farh et al., 2015; Kundaje et al., 2015].


이러한 관찰 결과는 질병 발병 위험(disease risk)을 일으키는 핵심 유전자와 조절 기전에 대한 약한 영향이 누적되어 복합질환이 발생한다는 패러다임(paradigm)으로 보통 해석된다 [Furlong, 2013; Chakravarti and Turner, 2016]. 이러한 모델은 질병 연관 개별 변이체의 기능적 영향을 규명하는 것 [Smemo et al., 2014; Sekar et al., 2016] 또는 (스크리닝[screening] 또는 대단위 분석을 통해) 적중된 후보 유전물질을 한데 모아 핵심 질병 기전 및 과정을 규명하는 것을 [Califano et al., 2012; Jostins et al., 2012; Wood et al., 2014; Krumm et al., 2015] 목표로 하는 많은 연구에 동기를 부여해왔다. 일부 질병에서는 선도 적중 결과(leading hit)가 (질병 발병 과정에서) 특정 분자생물학적 과정을 강조하는데 실제로도 일조했다—예를 들어, 자가포식(autophagy, 自家飽食)이 크론병(Crohn’s disease) [Jostins et al., 2012] 및 지방세포 열 발생(adipocyte thermogenesis)에서 [Claussnitzer et al., 2015] 하는 역할과 비만(obesity)에서 중추신경계(central nervous system) 유전자가 하는 역할의 [Locke et al., 2015] 규명 등을 들 수 있다. 하지만 이러한 가장 초기 연구의 성공에도 불구하고, 우리는 질병 관련 유전자에 존재하는 (유전자 변이) 신호가 놀랍게도 전체적으로는 미미하며 이 때문에 복합질환에 대한 지배적인 개념 모델이 불완전하다고 주장한다. 우리는 현재 이용 가능한 자료에서 이 주제와 관련 있는 연구 성과 몇몇을 집중해 강조하며, 이들 연구가 복합형질의 유전자 아키텍처(genetic architecture)에 관해 우리에게 말하고자 하는 바를 논의한다.


신호의 유전체 전역 분포

GWAS분야의 초기 종사자들은 가장 강한 유전자 연관(genetic association)이 대부분의 형질에 대한 유전자 분산의 아주 일부만 설명할 수 있다는 점을 발견하고 깜짝 놀랐다 [Manolio et al., 2009]. 이러한 발견은 작은 효과크기를 지닌 개별 원인 유전자좌(casual locus)가 반드시 많이 있어야만 함을 암시하는 것으로 생각했다 [Goldstein, 2009]. 곧 진행된 후속 분석 연구에서도 조현병 사례에서 (이를 뒷받침하는) 직접적인 증거를 제시됐고 [Purcell et al., 2009], 이와 더불어 예측되는 유전가능성의 상당 부분이 공통 변이체로 설명될 수 있다고 나타났다 [Yang et al., 2010]. 가장 큰 영향을 주는 공통 변이체 및 가장 높은 발현율을 보이는 희소 변이체 모두의 중요성 측면에서 (두 변이체의 영향을 받은) 형질은 상당한 편차를 보이지만 [Loh et al., 2015; Shi et al., 2016; Sullivan et al., 2017], 매우 다양한 형질 전체를 통틀어 다유전자성 영향(polygenic effect)이 중요하다는 사실은 이제 명백하다 [Shi et al., 2016; Weiner et al., 2016].


지금까지 연구가 이루어졌던 핵심 질문 하나는 원인 변이체가 유전체 전역에 널리 퍼진 정도 또는 이들이 질병 관련 기전에 응집해 있는 정도이다. 하지만 각 염색체가 기여하는 유전가능성은 염색체의 물리적 길이와 밀접하게 비례하는 경향이 있음이 알려졌는데 [Visscher et al., 2006; Shi et al., 2016], 이것은 원인 변이체가 꽤 일정하게 분포해 있을 수 있음을 암시한다. 그리고 최근 자료에 따르면 원인 변이체가 놀랍게도 심지어 더욱 촘촘하게 분포할 수 있다고 나타난다. 프라이스(Alkes Price)와 그 동료들의 연구에 따르면 유전체에서 (분석을 위해 유전체를 1 Mb씩 나눈 단위인) 1-Mb 윈도우(window)의 71-100%가 조현병의 유전가능성에 기여한다고 추정되었다 [Loh et al., 2015].



그림 1 | 전체 유전체 수준의 키 연관 신호 (A) 키에 대한 GWAS에서 산출한 작은 p 값(p-value)의 전체 유전체 수준의 팽창 정도를 나타낸 그래프로, 1) 발현 양적 형질 유전자좌(expression quantitative trait locus; 이하 eQTL)와 2) 히스톤(histone) H3 단백질의 27번 리신(lysine)이 아세틸화(acetylation)된 활성 염색질[H3K27ac]의 단일염기 다형성(single-nucleotide polymorphism; 이하 SNP) 중에서 특히 많이 존재한다 (B) 연관불균형(linkage disequilibrium; 이하 LD) 점수의 (즉, 각각의 SNP로 표지된 SNP의 유효숫자[effective number]의 [Bulik-Sullivan et al., 2015b]) 함수로써, 키에 대한 논제로 영향(non-zero effect)와 연관된 SNP의 추정량 [Stephens, 2017]. 각각의 점은 모든 SNP의 1%에 해당하는 빈(bin)을 대표하며, LD 점수로 정렬되었다. 전체적으로, 모든 SNP 가운데 62%가 키에 대해 논제로 영향과 연관되어 있다고 추정된다. 최적합선(best-fit line)에 따르면 3.8%의 SNP가 인과적 영향을 준다고 추정된다. (C) SNP에 대한 평균 효과크기 추정으로, GIANT(Genetic Investigation of ANthropometric Traits)로 알아낸 영향의 방향에 따라 GIANT p 값으로 정렬되었다. 반복 효과크기(replication effect size)는 건강과 퇴직 연구(the Health and Retirement Study; 이하 HRS)의 자료를 사용해 추정했다. 점들은 p 값으로 정렬된 목록에 있는 연이은 SNP 1,000개의 평균을 나타낸다. 유전체의 SNP 중앙값에 대한 효과크기는 전체 유전체의 유의미한 적중 결과에 대한 중앙값의 약 10%에 해당한다.



여기서 우리는 매우 큰 GWAS 데이터세트(dataset)를 이용할 수 있는 두 번째 사례—즉, 키—를 살피고자 한다. 때때로 키는 전형적인 다유전자성(polygenic) 형질로 간주되지만, 최근 연구에 따르면 키의 유전자 아키텍처(genetic architecture)가 비만 또는 자가면역 질환에서 체질량 지수(body mass index, 이하 BMI; 體質量指數) 또는 콜레스테롤 수치를 아우르는 매우 다양한 양적 형질(quantitative trait)의 아키텍처와 실제로 폭넓게 비슷한 것으로 나타난다. 따라서 우리는 키를 통해 많은 복합형질에서 전형적으로 나타나는 극단적인 다유전자성(polygenicity, 多遺傳子性)을 설명하고자 한다 [Shi et al., 2016; Chakravarti and Turner, 2016].


GIANT(Genetic Investigation of ANthropometric Traits) 연구에서 키에 대한 메타분석(meta-analysis)은 전체 유전체에서 697개의 유의미한 유전자좌가 표현형 분산(phenotypic variance) 가운데 16%를 설명한다고 보고했다 [Wood et al., 2014]. 하지만 기대귀무분포(expected null distribution)에 대한 p 값의 분포를 비교한 분위수-분위수 도표(quantile-quantile plot)에 따르면 p 값의 분포가 작은 p 값을 향해 상당히 이동했다고 나타나므로 [그림 1], 이와 더불어 공통 변이체는 기대 유전가능성의 86%를 설명한다 [Shi et al., 2016]. 그러한 (p 값의 통계적) 팽창은 (H3K27ac로 대표되는) 활성 염색질과 발현 양적 형질 유전자좌(expression quantitative trait locus; 이하 eQTL)에서 더 강한데, 이것은 유전자 조절 영역의 기대 신호 강화(expected signal enrichment)와 일치한다.


다음으로 우리는 모든 SNP 세트에서 얻은 회기계수(regression coefficient, 標本回歸) 분포를 분석하려고 (프로그래밍 언어 R의 라이브러리 패키지[package]인) ashR을 사용했다 [Stephens, 2017]. ashR은 참효과크기(true effect size)가 0이 아닌 SNP와 참효과크기가 정확히 0인 SNP의 혼합으로써 GWAS 결과를 모델링한다. 이러한 접근법을 이용해서 우리는 모든 공통 SNP의 62%가 키에 대한 논제로 영향(non-zero effect)과 두드러지게 연관되어 있다고 추정했다 (여기에는 연관불균형을 통한 상관관계에 놓여 있는 근처의 SNP뿐만 아니라 원인 SNP 또한 포함된다) [그림 1B]. 전형적인 연관불균형(LD)의 규모가 약 10–100 kb 정도임을 고려하면 [International HapMap Consortium, 2005], 이것은 유전체의 100-kb 윈도우 대부분이 키에 영향을 주는 변이체를 포함함을 시사한다. 각각의 SNP에 대한 LD 점수로 ashR 분석 결과를 계층적으로 표현했을 때 [Bulik-Sullivan et al., 2015b], 더 많은 연관불균형 파트너를 가진 SNP가 키와 연관될 가능성이 더 높다는 분명한 영향을 목격하게 된다. 가정을 단순화한 상황에서도 [보충정보 참조], 최적합 곡선은 1,000개의 유전체 SNP 가운데 약 3.8%가 키에 인과적으로 영향을 준다고 나타난다.


확인을 위해, 우리는 키에 대한 메타분석에서 찾아낸 각각의 SNP로부터 얻은 회귀추정을 사용해 SNP의 키에 대한 영향의 방향성을 예측했으며 [그림 1C], 그 다음에 SNP의 영향이 건강과 퇴직 연구(the Health and Retirement Study)에서 확보한 더 작고 독립적인 데이터세트와 일치하는 정도를 조사했다 [Juster and Suzman, 1995]. 간단히 말해서, 우리는 GIANT로 확인된 키를 늘리는 대립유전자의 평균 반복 효과크기(replication effect size)를 계산했다. 어떠한 참 신호도 없다는 귀무가설(null hypothesis, 歸無假說) 하에서는 반복 효과크기가 영으로 수렴하지만, 참 신호가 존재할 때 관찰된 평균 효과크기는 GIANT에서 간혹 발생하는 부호 오류 때문에 참 효과크기에 대해 가장 낮은 경계로 생각할 수 있다.


놀랍게도, 우리는 대부분의 SNP, 심지어 p 값이 0.5만큼 큰 SNP에 대해서도 방향성이 있는 공유 신호가 분명히 존재하는 것을 발견했다 [그림 1C]. 전체 유전체에 퍼져 있는 모든 SNP를 통틀어서 SNP 중앙값은 0.14 mm라는 효과크기와 연관되어 있으며, 이것은 전체 유전체 수준에서 유의미한 SNP의 효과크기 중앙값인 1.43 mm의 10분의 1에 해당한다. 또한, 우리는 더 작은 규모의 가족을 근간으로 진행한 GWAS에서 시작한 연구에서도 비슷한 결과를 얻었는데, 이것은 신호가 집단 구조로부터의 교란(confounding, 攪亂) 때문에 만들어지는 게 아님을 확인해 준다 [보충자료]. 다양한 종류의 증거를 준비하면서, 우리는 100,000개 이상의 SNP가 키에 대해 독립적으로 영향을 준다고 추정했는데, 이것은 서로 다른 접근법에 근거해 93,000개의 원인 변이체를 추정한 초기 연구 결과와 유사하다 [Goldstein, 2009] [보충자료].


요컨대, 우리는 극소의 효과크기를 지닌 원인 변이체가 극히 많이 있고, 더욱이 이들 변이체가 유전체 전역에 걸쳐 매우 폭넓게 퍼져 있어서 100-kb 윈도우 대부분이 키에서 나타나는 분산에 기여한다고 결론을 내렸다. 더 일반적으로 말하자면, 복합형질 및 질병의 유전가능성은 유전체 전역에 걸쳐 널리 퍼져 있는데 [Loh et al., 2015; Shi et al., 2016], 이것은 모든 유전자의 상당 부분이 질병 발병 위험의 변이에 기여함을 시사한다. 이러한 관찰 결과는 복합형질 변이체가 특정 생물학적 질병 관련 유전자 및 기전에 주로 존재한다는 예측과 모순되는 것처럼 보인다. 이러한 모순을 더 분석하기 위해, 우리는 다음번에 신호의 기능적 존재를 살핀 자료에 의지하고자 한다.


전사 활성 영역의 유전자 신호 축적

키에 관해 설명한 위의 사례처럼, GWAS 신호는 유전자 조절 요소로 예측된 부분에 두드러지게 나타나는 경향이 있다. 특히, 많은 연구팀이 질병 연관 SNP가 활성 염색질, 특히 질병 관련 세포형의 활성 염색질에 많이 존재함을 보였다 [Trynka et al., 2013; Farh et al., 2015; Finucane et al., 2015; Kundaje et al., 2015]. 비슷하게, GWAS 신호는 질병 관련 세포형에서 발현되는 유전자 근처에 또한 모여 있다 [Hu et al., 2011; Wood et al., 2014].


직관적으로 해석하면 세포형에 근거한 (유전자) 조절 맵(regulatory map)이 특정 세포의 특정 기능을 조절하고 그것 때문에 질병을 일으키는 세포형 특이적 조절 요소(regulatory element)를 우리에게 가르쳐 준다고 볼 수 있다. 실제로, 이런 상황과 관련된 논문들이 유전자 조절의 “세포형 특이적” 측면을 강조하는 것으로써 자신들의 분석을 묘사할 때가 종종 있다. 하지만 유전가능성 신호가 매우 광범위하게 퍼져 있음을 고려할 때, 우리는 그 신호가 광범위하게 활성화된 염색질에 반대되는, 단지 질병 관련 세포형의 활성 염색질에 특이적으로 모여 있는지 이해하길 원했다.


이러한 질문을 살피기 위해 우리는 (예를 들어, 면역계[immune system], 중추신경계[central nervous system, 이하 CNS], 심혈관계[cardiovascular system], 등등) 광범위하게 정의된 10가지 세포형 집단에서 측정된 활성 염색질 자료를 사용했다. 만일 그 집단의 어떤 세포형에서 어떤 지역의 염색질이 활성 상태에 놓였다고 확인되었다면 그 지역은 세포형 집단에서 활성화된 것으로 간주된다. 우리는 서로 다른 계급(class)의 SNP가 유전가능성에 어느 정도 기여하는지 추정하기 위해 층화 LD 점수 회귀(stratified LD score regression)를 이용했다 [Finucane et al., 2015]. 우리는 이전 분석에서 단일 세포형 집단 내에 명확한 신호 축적을 보인 다음과 같은 괜찮은 GWAS 연구 3가지에 초점을 맞췄다: 크론병(Crohn’s disease) [면역계], 류머티스성 관절염(rheumatoid arthritis; 이하 RA) [면역계], 및 조현병 [중추신경계] [Finucane et al., 2015].



그림 2 | 유전가능성은 질병 관련 조직의 전사 활성 지역에 모여 있는 경향이 있다 (A) 염색질 내용물의 함수로써 (무작위의 SNP에 대해 상대적인) 유전가능성에 대한 기여도. 전반적인 조직 활성의 범위와는 상관없이 질병 관련 조직에서 활성 염색질에 존재하는 SNP 중에 신호의 축적이 나타난다. (B) 뇌에서 특이적으로 발현하는 유전자는 조현병 신호의 가장 강한 축적을 보이지만 (왼쪽), 광범위하게 발현하는 유전자가 수적으로 더 많기 때문에 전에 유전가능성에 더 많은 기여를 한다 (오른쪽).



강한 세포형 영향이 있지만, 이들은 염색질 활성의 정도와 상관없이 상당히 독립적이다. 예를 들어, 우리는 대부분의 세포형을 통틀어 광범위하게 활성화된 염색질에 존재하는 SNP가 유전가능성에 상당히 기여함을 관찰했다. 평균적으로, 광범위하게 활성화된 요소의 SNP는 세포형 특이적인 활성 염색질에서 SNP가 하는 것만큼 유전가능성에 기여한다 (오로지 RA에 대해서만 이들이 유의미하게 차이가 난다) [그림 2A]. 한편, 비활성 염색질 또는 질병과 무관한 세포형의 활성 염색질에 존재하는 SNP는 유전가능성에 거의 기여하지 않는데, 이것은 중요한 대조군이 될 수 있다.


대안적 관점으로, 우리는 유전자 발현의 범위 또한 고려했다. 우리는 서로 다른 발현 프로필(expression profile)을 지닌 유전자의 엑손(exon) 또는 그 근처에 있는 SNP의 기여도를 추정했다. GTEx (Genotype-Tissue Expression) 자료에 근거했을 때, 우리는 광범위하게 발현하는 유전자뿐만 아니라 특정 조직에서 특별히 많이 발현되는 유전자를 확인했다 [GTEx Consortium, 2015]. 조현병의 예에서 나타나듯이 [그림 2B], 뇌에서 발현되는 유전자 근처의 SNP는 유전가능성에 상당히 기여하지만, 다른 조직에서 특이적으로 발현하는 유전자는 거의 어떤 기여도 하지 않는다. 아마도 직관적으로 봤을 때, 뇌에서 특이적으로 발현하는 유전자 근처의 SNP는 폭넓은 발현 프로필을 지닌 유전자 근처의 SNP보다 SNP 당 유전가능성에 더 많이 기여한다하지만, 뇌에서만 발현하는 모든 유전자 가운데 일부분만이 뇌에서만 특이적으로 발현이 증가해 있다. 따라서, 광범위하게 발현하는 유전자는 뇌 특이적 유전자보다 전반적인 유전가능성에 실제로 더 많이 기여한다.


요약하면, 질병에 대한 유전적 기여는 전사가 발생하거나 질병 관련 조직의 활성 염색질이 뚜렷하게 있는 지역에 주로 집중해 있지만, 광범위하게 활성화된 지역과 비교했을 때 세포형 특이적인 조절 요소에는 거의 보이지 않는다. 예상한 대로, 이들 조직에서 비활성화된 지역에서는 유전적 기여가 거의 없는 것처럼 보인다. GWAS 특이성에 관한 질문을 더 조사하기 위해, 우리는 특정 생물학적 기능 범주에 있는 연관된 유전자가 집중적으로 존재한다는 증거를 그 다음에 조사했다.


기능 범주에 의한 유전자 신호의 미약한 분포

우리는 서로 다른 기능 온톨로지(ontology)에 속하는 유전자의 기여도를 고려했다. 예상한 대로, 우리는 (크론병과 류마티스성 관절염 같은) 자가 면역 질환 두 종류에 대한 유전자 신호가 “면역반응”과 “염증반응”에 해당하는 온톨로지에 가장 많이 존재하지만, 조현병의 유전가능성은 “이온 채널(ion channel) 활성” 및 “칼슘 이온 수송(calcium ion transport)” 같은 온톨로지를 지닌 신경계와 관련된 유전자에 가장 많이 존재함을 발견했다 [그림 3]. 하지만 이러한 집중적 분포는 상대적으로 그리 대단하지는 않으며, 앞에서 언급한 세 종류의 모든 질병에 대해서 우리는 기능 범주의 크기와 이들이 기여하는 유전가능성의 비율 사이에 강한 선형 관계가 나타남을 관찰했다. 넓은 기능적 범주는 명백한 질병 관련 기능적 범주에 속한 유전자보다도 더 많은 전체 형질 유전가능성을 부여하며, 모든 세 가지 질병 모두에 대해서, 유전가능성에 가장 많은 기여를 하는 것은 단순히 가장 큰 범주, 즉 단백질 결합이다.



그림 3 | 세 가지 질병에 대한 유전자 온톨로지(gene ontology; 이하 GO) 분포를 설명한 그래프로, 특별히 흥미로운 부분을 지닌 기능적 범주가 표시되어 있다. x-축은 각 범주에 속하는 SNP 일부를 가리키고, y-축은 모든 SNP에 할당된 유전가능성의 일부로써 각 범주에 부여된 유전가능성 비율을 나타낸다. 대각선은 모든 SNP를 통틀어 전체 유전체 평균을 가리키며, 대부분의 GO 범주는 유전자 주변에서 일반적인 신호 축적에 때문에 선 위에 존재한다. 층화 LD 점수 회귀로 분석했다 [Finucane et al., 2015].



더욱이, 이러한 결과는 조현병에 적용된 희소 변이체 분석과 확연히 다르다. 희소 변이체에 대한 최근 연구에 따르면 새롭고, 희소한 복제숫자변이(copy number variation; 이하 CNV) 다형성(polymorphism) 세트 내에서 신경 기능 관련 시냅스(synapse) 유전자를 위시한유전자 세트의 축적이 일관되게 나타났다 [표 1]. 이와는 대조적으로, GWAS로부터 찾아낸 전체 유전체 수준에서 통계적으로 유의미한 108개의 유전자좌를 대상으로 한 분석으로 전체적으로 유의미한 온톨로지 범주에 속하지 않는 질병 관련 유전자에서 주목할 만한 사례를 찾아냈는데 [Ripke et al., 2014], 이것은 앞서 언급한 동일 자료를 사용한 유전가능성 분석에 대해 묘사한 약한 분포와 일치한다. 이것과 함께, 이러한 결과는—큰 효과크기를 지닌 매우 치명적인 변이체를 찾아낼 수 있는—희소 변이체 연구에서 검출된 유전자 형태가 공통 변이체를 근거로 GWAS에서 찾아낸 유전자보다 조현병에서 더욱 직접적인 역할을 함을 제시한다.



표 1 | 조현병에 대한 최근 대규모 연구 논문에서 기능적 분포를 나타내는 유전자 세트 요약표. 희소 변이체(rare), 새로운 변이체(de novo), 복제숫자변이 다형성(CNV) 등을 대상으로 한 연구는—이 연구들은 더 큰 영향을 가진 변이체를 찾아내는 경향이 있다—GWAS보다 기능적 증대에 대한 더욱 분명한 증거를 제시한다. p 값은 다중검정수정(multiple testing correction, 多衆檢定修正)을 하지 않았지만, 그렇게 해도 p 값은 <0.05다.

a 희소 변이체 연구와 마찬가지로, 글루탐산 작용성 신경전달(glutamatergic neurotransmission)과 시냅스 가소성(synaptic plasticity)에 관여하는 일부 유전자 근처에 있는 질병 연관 유전자좌가 확인되었지만 [Ripke et al. (2014)], 이러한 범주가 GWAS로 찾아낸 사례에 대해 통계적으로 유의미한 증대를 보이진 않았다. ARC: activity-regulated cytoskeleton-associated scaffold protein.



복합형질에 대한 확장된 모델

요약하자면, 다양한 형질에 대해 가장 큰 영향을 주는 변이체는 질병에서 직접적인 역할을 수행할 수 있는 특정 유전자 또는 기전에서 그럭저럭 나타난다. 하지만 유전가능성 대부분에 기여하는 SNP는 유전체 전체에 걸쳐 퍼져 있는 경향이 있으며, 질병 특이적 기능을 보이는 유전자 근처에서는 나타나지 않는다. 가장 분명한 양상은 질병 관련 세포형의 전사 활성 지역 또는 전사 조절에 관여하는 지역에서는 연관 신호(association signal)가 많이 나타나지만 같은 세포의 전사 비활성 지역에서는 발견되지 않는다는 점이다. 일반적인 형질에 있어서 상당한 숫자의 변이체가 유전가능성에 기여를 하는데, 이것은 피셔의 한 세기도 더 된 극소 모델과 놀랍도록 일치한다.



그림 4 | 복합 형질의 전유전자성(omnigenic) 모델 (A) 임의의 질병 표현형이 주어졌을 때, 한정된 수의 유전자가 질병 발병 위험에 직접적인 영향을 미친다. 하지만, 네트워크(network)의 소권역 속성(small world property, 小圈域屬性) 때문에 발현하는 대다수 유전자로부터 몇 걸음 떨어지지 않은 곳에 가장 가까운 핵심 유전자가 존재하므로, 이들은 질병에 대해 논제로 영향을 줄 수 있다. 핵심 유전자는 전체 유전자의 아주 적은 부분만을 구성하므로, 유전가능성 대부분은 간접적으로 영향을 미치는 유전자로부터 나온다. (B) 질병은 일반적으로 특정 조직의 기능 장애와 연관되어 있으므로, 유전자 변이체가 특정 조직의 유전자 발현을 (그 때문에 네트워크 상태를) 교란할 때에만 유전자 변이는 질병과 관련이 있다. 주어진 임의의 SNP 전체 효과크기는 다양한 세포형 또는 조직을 통해 영향을 받는 형질에 대해 각각의 세포형에 나타난 영향의 가중평균(weighted average, 加重平均)이다.



이러한 관찰 결과를 이해하기 위해, 우리는 복합형질의 “전유전자성(omnigenic, 全遺傳子性)” 모델을 제안한다 [그림 4]. 첫째, 우리는 질병의 병인에서 특정 역할을 하는 그리 많지는 않은 유전자 또는 유전자 기전이 이들의 직접적인 조절인자와 마찬가지로 대부분의 형질에 직접 영향을 줄 수 있다고 가정한다 [Chakravarti and Turner, 2016]. 그런 유전자는 질병을 일으키는 데 있어서 생물학적으로 설명 가능한 역할을 수행하는 경향이 있을 텐데, 예를 들면 지방세포 분화(adipocyte differentiation)를 조절하는 역할을 하는 IRX3 및 IRX5가 그 역할 때문에 필연적으로 비만에 영향을 줄 수도 있는 점 [Claussnitzer et al., 2015], 발달 과정에서 시냅스 분지(synaptic pruning)를 조절하는 역할을 지녔고 이 때문에 조현병 발병 위험에 영향을 주는 C4 유전자 [Sekar et al., 2016] 등을 들 수 있다. 더욱이, 핵심 유전자가 기능 소실(loss of function) 또는 해로운 특정 돌연변이 때문에 손상을 입을 때, 우리는 이들 유전자가 질병 발병 위험에 가장 강한 영향을 끼칠 경향이 있으리라 예측할 수 있다 (비록, 가장 큰 효과크기를 지닌 돌연변이가 주는 질병 발병 위험의 실제 증가 정도는 형질 전체를 통틀어 상당히 편차가 있지만 말이다) [Krumm et al., 2015; Marouli et al., 2017]. 실제로, 주변 유전자(peripheral gene)와 핵심 유전자를 분류하는 일은 이진분류(binary classification, 二進分類)와는 반대로 단계적일 수 있다.


두번째로, 우리는 핵심 유전자가 일반적으로 전체 유전가능성의 단지 일부에만 기여하는지 그리고 질병 관련 세포형에서 발현하는 유전자 대부분이 어떻게 유전가능성에 아주 조금이라도 기여할 수 있는지를 이해할 필요가 있다. 이 문제를 풀기 위해, 우리는 임의의 발현된 유전자가 핵심 유전자의 기능 및 그 조절에 영향을 줄 수 있는 정도는 세포 조절 네트워크와 고도로 서로 연결되어 있다고 제안한다.


이때, 세포 조절 네트워크에 대한 우리의 이해는 불완전한 상태지만, 질병과 관련된 생물학적 연결에는 아마도 세포 분자 사이에서 발생할 수 있는 모든 단계의 상호작용, 즉 전사 네트워크(transcriptional networks), 번역 후 변형(post-translational modification), 단백질-단백질 상호작용(protein-protein interaction), 세포 간 신호전달(intercellular signaling) 등을 포함할 수 있다 [Furlong, 2013]. 특정 사례에서는, 발달 과정을 이끌거나 또는 질병을 일으키는 유전자 조절 네트워크에 있는 가장 중요한 배선연결(wiring connection)을 밝히는 게 가능해졌다 [Davidson, 2010; Chatterjee et al., 2016]. 하지만, eQTL과 같은 더 약한 효과가 전체 조절 네트워크를 통해 어떻게 스며드는지에 관한 우리의 지식은 여전히 매우 제한적이다. 그럼에도 불구하고, 네트워크 이론 연구는 대부분의 현실 세계의 네트워크가 높은 수준으로 서로 연결되는 경향이 있음을 발견했는데, 이것을 네트워크의 “소권역” 속성(small world property)이라고 부른다 [Watts and Strogatz, 1998; Strogatz, 2001]. 특히, 많은 종류의 네트워크는 노드(node)로 연결된 개별 모듈(module)로 구성된 구조를 가질 뿐만 아니라, 원거리 연결(long-range connection)이 빈번하게 나타난다. 이런 조건 아래에서, 그래프에 있는 임의의 두 노드는 단지 몇 걸음만으로도 종종 연결된다.


만일 이러한 일이 세포 네트워크에서도 일어난다면, 질병 관련 조직에서 발현되는 임의의 유전자는 하나 또는 그 이상의 핵심 유전자로부터 단지 몇 걸음 떨어진 위치에 있을 수 있다. 결과적으로, 주변 유전자 발현에 영향을 미치는 임의의 변이체는 핵심 유전자 조절에 미미하게나마 영향을 줄 수 있으며 그 결과로 말미암아 질병 발병 위험에 작은 영향을 초래한다. 결정적으로, 발현되는 주변 유전자의 전체 세트가 핵심 유전자의 수를 100:1 또는 그 이상을 넘어설 수 있기 때문에, 주변 유전자 전체를 통틀어 발생하는 작은 효과의 합은 핵심 유전자 그 자체에 직접적인 영향을 미치는 변이체의 유전적 기여를 훨씬 웃돌 수 있다.


우리의 모델은 생물학적 정보가 조절 변이체에서 출발해 염색질 활성에 영향을 줌으로써 인근 유전체의 시스 조절(cis regulation) 부위로 계속 이동해 궁극적으로 다른 유전자의 활성에 영향을 미친다는 점을 사실로 받아들인다. 그 다음으로, cis-eQTL(cis-acting expression quantitative trait locus)은 조절 네트워크를 경유해 연결되지 않은 다른 종류의 유전자의 mRNA 또는 단백질 발현 정도에 영향을 미칠 수 있을 뿐만 아니라 (즉, 그 변이체는 또한 유전체 어딘가에 있는 어떤 유전자를 위한 trans-eQTL일지도 모른다), 번역 후 변형 또는 세포 내 위치선정(subcellular localization)과 같은 다른 기능에도 영향을 줄 수 있다. 현재, trans-eQTL를 발견하는 일은 현재의 표본 크기에서는 힘들지만 [Westra et al., 2013; Jo et al., 2016], mRNA 유전가능성의 약 70%가 trans-acting 인자(trans-acting factor)에 의해 결정된다고 추정된다 [Price et al., 2011]. 더욱이, 단백질의 trans-acting 조절에 대한 최근 자료가 매우 제한적이긴 하지만, 많은 trans-eQTL이 단백질 네트워크를 통해 작용하므로, RNA에서 trans-eQTL을 찾기란 쉽지 않을 수 있다 [Battle et al., 2015; Chick et al., 2016; Sun et al., 2017].


마지막으로, 많은 질병은 다양한 세포형을 통해 진행된다—예를 들어, 자가면역질환에 작용하는 서로 다른 면역세포 일부 집단 또는 심지어 뇌 및 지방조직처럼 비만에 대해 서로 관련성이 없는 조직 등을 들 수 있다. 더욱이, GWAS에서 찾아낸 변이체가 활성 염색질에 상당히 많이 존재할지라도, 그저 그런 정도의 숫자만이 지금까지 알려진 eQTL로 설명 가능할 뿐이다 [Chun et al., 2017]. 이러한 간극(間隙)은 많은 위험 변이체가 단지 협소하게 정의된 세포형 또는 면역 활성 자극과 같은 정확한 조건 하에서만 유전자 발현에 영향을 미침을 암시할 수 있다. 질병 발병 위험이 다양한 세포형 또는 매우 특화된 세포형을 통해 영향을 받을 때, 우리는 세포 네트워크가 세포형을 통틀어 다양하게 나타날 수 있다고 예측한다 [Price et al., 2011; Sonawane et al., 2017]. 그러므로 주어진 임의의 변이체가 가지는 정량적 영향은 각 세포형의 변이체가 지닌 효과크기의 평균이며, 그러한 평균은 세포형태 중요성에 의해 가중치가 부여된다.

요약하면, 복합질환에 대한 전유전자성 모델은 질병 발병(disease pathogenesis)에 기여하며 적어도 한 개의 조직에 있는 조절 변이체를 지닌 임의의 유전자가 해당 질병의 발병 위험에 대해 적지 않은 영향을 미칠 수 있다고 제안한다. 더욱이, 효과크기는 상대적이므로, 핵심 유전자가 주변 유전자보다 수가 상당히 적기 때문에 질병에 대한 전체 유전적 기여도의 상당 부분은 질병 발병에 직접 관여하지 않는 주변 유전자로부터 나온다.


광범위한 다면발현(pleiotropy, 多面發現)

질병과 상관관계에 있는 유전자 효과를 지닌 몇 쌍의 형질을 찾아내는 것뿐만 아니라 [Bulik-Sullivan et al., 2015a] 서로 다른 형질에 대해 다면발현성 효과(pleiotropic effect)를 주는 특정 변이체를 밝히는 연구가 [Cotsapas et al., 2011; Pickrell et al., 2016] 최근 들어서 상당한 관심을 받고 있다. 하지만 유전자 신호가 유전체 전체에 걸쳐 널리 퍼져 있다는 관찰 결과는 다면발현이 흔한 일일 수 있음을 암시한다 [Visscher and Yang, 2016].


실제로, 전유전자성 모델은 임의의 조직에서 조절 효과를 지닌 임의의 변이체가 사실상 그 조직을 통해 형성되는 모든 질병에 (약하게) 영향을 끼칠 수 있음을 예측한다. 많은 eQTL이 모든 조직에서 활성화되었으며, 결과적으로 이들은 대부분의 또는 심지어 모든 형질에 대해 약하게나마 영향을 줄 수 있다.


우리는 이러한 형태의 다면발현을 “네트워크 다면발현(network pleiotropy)”이라고 부르는데, 즉 그러한 형질이 인과관계로 얽매여서 그런 게 아니라 동일한 세포형을 통해 형성되고 그 결과로 말미암아 동일 네트워크를 통해 조절 받기 때문에 어떤 단일 변이체가 다양한 형질에 영향을 줄 수 있다는 원칙이다. 핵심 유전자를 공유하거나 또는 관련 유전자가 네트워크에서 서로 가까이 위치한 형질은 질병과 상호 관련된 영향을 받는 경향이 있을 것이다. 역으로, 공통 핵심 유전자는 없지만 동일 조직을 통해 형성되는 형질은 많은 원인 변이체가 공유된다 할지라도 이들이 받는 영향 측면에서 그 어떤 상관관계도 나타나지 않을 수 있다.


만일 네트워크 다면발현이 광범위한 현상이라면, 유전상관(genetic correlation, 遺傳相關)의 해석과 멘델 임의화(Mendelian Randomization) 연구에 어려움이 있을 수 있다. 멘델 임의화는—“제1형 다면발현(type I pleiotropy)”이라고도 불리는 [Wagner and Zhang, 2011]—인과관계로 얽히지 않은 형질 사이의 다면발현이 드물다고 가정한다. 특히, 핵심 유전자가 네트워크 안에서 서로 멀리 떨어져 있을 때, 네트워크 다면발현의 영향이 실제로 유의미한 질병 신호를 만들어낼 정도로 충분이 강한지 여부는 나중에 확인되어야 한다.


복합형질의 진화적 변화

많은 형질이 엄청난 수의 변이체로부터 영향받는다는 관찰 결과는 진화적 변화를 연구하는 데도 중요한 영향을 미친다. 진화학 연구 집단 내에서 종(種) 내와 사이 모두에서 적응 변화를 일으키는 특정 유전자 변이를 찾아내는데 많은 관심을 둔 적이 있었다 [Vitti et al., 2013]. 이러한 연구가 흥미로운 사례를 많이 내놓았지만, 우리는 이들이 대부분의 진화적 변화를 대표하지는 않을 수 있다고 주장한다. 대신, 대부분의 적응 변화는 다유전자성 적응(polygenic adaptation)으로 진행될 수 있는데, 즉 종(種)은 유전체 전체를 통틀어 존재하는 많은 원인 변이체의 대립유전자 빈도(allele frequency)에서 발생하는 소규모 변화로 적응한다 [Pritchard et al., 2010]. 예를 들어, 105개의 변이체가 키에 각각 0.15 mm씩 영향을 준다면 평균 대립유전자 빈도의 작은 변화만으로도 평균 키에서 상당한 변화가 나타날 수 있는데, 예를 들어 “키를 늘리는 데 관여하는” 대립유전자 빈도가 전체 유전자 수준에서 0.5% 증가하면 평균 키는 15 cm 증가한다. 요즘 들어, 다유전자성 적응 사례, 특히 키, 체질량지수(body mass index; 이하 BMI) 및 신생아 출생 시 크기를 포함한 형태계량적(morphometric, 形態計量的) 형질의 사례가 인간에서 많이 발견되고 있다 [Turchin et al., 2012; Field et al., 2016].


우리는 종 사이에서 드러나는 훨씬 극적인 표현형 차이 가운데 많은 것이 아주 작은 영향의 축적으로 나타나고, 더 큰 영향을 주는 차이는 그러한 법칙에 대한 예외일 수 있다고 예상한다. 예를 들어, 인간과 침팬지는 약 4천만 개의 단일 염기서열이 차이 난다. 만일 이러한 차이 가운데 1%가 염색질 기능과 같은 여러 조절 양상에 영향을 미친다면, 두 종(種) 사이에 작지만 0이 아닌 영향을 표현형에 주는 대략 5십만 개의 차이점이 있을 수 있으며, 영향력을 나타내는 소수의 유전자좌의 기여를 능가할 수 있을지도 모른다.


종 내 수준으로 눈을 돌렸을 때, 중요한 미해결 문제 가운데 하나는 한 번에 선택될 수 있는 형질의 개수를 다면발현적 영향이 어떻게 제한하는 지다. 앞에서 설명했던 것처럼, 다면발현은 유전체에서 흔하게 나타나는 듯하다. 하나의 변이체가 출현하는 빈도의 변화는 다른 위치에서 발생하는 변화로 균형이 잡혀야만 하기 때문에, 다면발현은 대립유전자 빈도에 영향을 주는 자연선택의 능력에 제약을 줄 수 있다. Does this effectively limit the number of independent polygenic traits that can be simultaneously selected? 이것이 동시에 선택될 수 있는 독립적인 다유전자성 형질의 수를 효과적으로 제한할 수 있을까? 과거에, 다변발현이 변이 및 적응을 정도에 대해 고찰한 연구가 있었지만 [Barton, 1990; Walsh and Blows, 2009], 우리는 이 분야가 현재 가진 자료를 고려해 향후 연구를 진행할 수 있을 정도로 무르익었다고 믿는다.


향후 방향

수많은 유전자가 복합질병의 유전가능성에 기여한다. 이러한 사실은 유전자 변이가 유전자 시스템의 표현형을 어떻게 교란하는지에 대한 근본적인 질문을 제기한다. 우리는 가능성 있는 모델 하나를 제시했는데, 이 모델을 포함한 여러 다른 가설을 검증하는 게 중요하리라 본다. 생명 시스템에 매우 작은 영향이 주는 충격을 충분히 이해하는 일은 심오한 도전이므로, 복합형질의 여러 측면을 재현할 수 있는 세포 기반 모델 시스템(cell-based model system)의 개발이 절실히 필요하고 우리는 믿는다. 더욱이, 세포 네트워크에 대해 여전히 제한적으로 이해할 뿐이므로, 다양한 세포형, 특히 단백질 수준에서 매우 정확하며 대용량으로 처리할 수 있는 네트워크 맵핑 기술 개발이 중요할 것이다. 우리는 다음과 같은 핵심 질문과 전유전자성 모델 검증을 제안한다.


  • 다양한 대표적 형질에 대해: 얼마나 많은 개별 변이체와 유전자가 원인 변이에 기여하는가? 이러한 변이 가운데 어느 정도가 비핵심 유전자에서 발생하는가? 어느 형질이 전유전자성 극단(極端)에 더 가까운가 (또는 멀리 떨어져 있는가)?
  • 특정 질병을 일으키지만 질병 발형 위험에는 영향을 주지 않는 세포형에서 유전자 발현에 영향을 미치는 변이체가 있는가? 형질은 가장 큰 영향력을 행사하는 변이체의 중요성 측면에서 상당히 다양하게 나타나지만, 가장 강력한 형태의 전유전자성 모델은 질병 관련 세포형에서 활성 상태인 모든 조절 변이체는 본질적으로 (질병 발병 위험에) 아주 적은 정도라도 영향을 미치리라 예측한다.
  • 유전자 변이체 대부분이 세포 네트워크를 통해 작용한다면, 무엇이 이러한 연결을 매개하는가? 전사 조절, 번역 후 변형, 단백질-단백질 상호작용, 그리고 세포 간 신호전달 모두가 기여할 것이다. 세포 네트워크에서 원거리 상호작용의 특성은 무엇이며 그 빈도는 어느 정도인가? 세포형 및 조직 전체를 통틀어 네트워크 아키텍처는 얼마만큼 다양한가?
  • 세포 네트워크를 통한 유전자 변이의 침투를 점점 더 정확히 측정할수록, 우리는 핵심 유전자와의 관계로부터 주변 유전자의 영향을 추론할 수 있는가?
  • 핵심 유전자와 주변 유전자 사이의 개념적 차이가 질병을 이해하는 데 유용한가? 만일 그렇다면 핵심 유전자는 어떻게 정의해야 하는가? 가능한 공식적인 정의 하나는, 이것이 모든 핵심 유전자의 유전형(genotype, 遺傳型)과 발현 수준에 달려 있다면, 주변 유전자의 유전형과 발현 정도는 더 이상 문제가 되지 않는다는 것이다. 덜 공식적으로, 자폐증에서 가장 큰 영향을 미치는 돌연변이 사례에서 나타나듯이, 우리는 핵심 유전자를 (만일 돌연변이가 발생하거나 결절 되었다면) 가장 강력한 영향을 주는 유전자로 간주할 수 있다 [Krumm et al., 2015]. 또는, 핵심 유전자를 해석 가능한 생물학적 메커니즘으로 질병과 연결 지을 수 있는 유전자로 단순하게 여길 수도 있다. 선택적으로, 일부 질병에서는 핵심 유전자가 없을 수도 있다—대신, 모든 유전자의 전체 활성이 세포 시스템이 세포 기능 및 질병 발병 위험을 결정하는 상태가 되도록 하는 데 도움을 줄 수 있다.

우리의 모델은 다음 세대의 맵핑 연구에 대해 또한 의문을 제기한다. 유전자 맵핑의 한 가지 목표는 질병을 일으키는 핵심 유전자 및 기전을 찾아내는 것이다. 이러한 매핑 연구는 질병 생물학의 메커니즘과 관련된 통찰을 부여하며 약으로 치료 가능한 타겟을 제시할 수 있다 GWAS에서 찾아낸 가장 큰 적중 결과 덕분에 중요한 핵심 유전자를 꼬집어 내는데 도움이 되어왔다. 이러한 것들이 발견되고 난 이후, 다음에 해야 할 가장 전도유망한 단계는 가장 큰 영향을 미치며 가장 낮은 빈도로 나타나는 변이체를 찾는 일인데, 이러한 변이체는 다른 핵심 유전자와 관련되었을 수도 있는 유전가능성에는 거의 기여를 안 할 가능성이 있다. 딥 시퀀싱(deep sequencing)은 (아마도 충분치 않은 표본 크기 때문에) 모든 형질에 대해 한결같이 성공적이진 않았지만 [Marouli et al., 2017], 공통 변이체 중에서 가장 큰 연관 가능성을 지닌 후보를 확인하고 나면 대규모 시퀀싱(large-scale sequencing)이 다음에 해야 할 가능성 있는 단계다. 더 큰 영향을 주는 변이체가 단백질 코딩 염기서열에 영향을 미칠 가능성이 훨씬 더 크다는 증거가 있다면, 엑솜 시퀀싱이 비용 대비 효율 측면에서 단기간에 수행할 수 있는 가장 좋은 접근법일 수 있다.


그럼에도 불구하고, 대규모 유전형 자료는 두 가지 이유 때문에 앞으로도 계속 가치 있을 수 있다. 첫째, 심도 있는 연관 자료는 개인 맞춤형 발병 위험 예측법(personalized risk prediction)을 개발하는 데 필수적일 것이다. 두 번째, 이러한 자료는 세포 네트워크를 통한 조절 정보의 흐름을 모델링 하는 데 필수적일 것이다. 질병 유전학을 완전히 이해하기 위해, 유전자 X의 발현 증가가 질병 Y와 Z의 발병 위험을 왜 증가시키는지 우리는 알기를 원한다. 이를 위해, 우리는 세포 네트워크를 더 잘 이해하고 매우 큰 표본에서 질병 발병 위험을 추정할 필요가 있다.


요약하면, 많은 복합형질은 적은 영향을 주는 엄청나게 많은 변이체 때문에 나타나는데, 이것은 질병 관련 조직에서 활성화된 조절 변이체 대부분이 (질병 발병 위험에) 관계되었음을 잠재적으로 보여준다. 이러한 관찰 결과를 설명하기 위해, 우리는 질병 발병 위험이 질병과 직접적인 관련성이 없는 유전자에 의해 대부분 나타나며 조절 네트워크를 통해 직접적인 영향을 주는 훨씬 더 적은 수의 핵심 유전자로 전파된다고 제안한다. 만일 이러한 모델이 옳다면, 세포 특이적 조절 네트워크의 자세한 맵핑이 인간의 질병 생물학을 충분히 이해하는 데 매우 중요한 일일 것이다.


참고문헌

  • Alasoo, K., Rodrigues, J., Mukhopadhyay, S., Knights, A.J., Mann, A.L., Kundu, K., HIPSCI Consortium, Hale, C., Dougan, G., and Gaffney, D.J. (2017). Genetic effects on chromatin accessibility foreshadow gene expression changes in macrophage immune response. bioRxiv, https://doi.org/10.1101/102392.
  • Barton, N.H. (1990). Pleiotropic models of quantitative variation. Genetics 124, 773–782.
  • Barton, N.H., Etheridge, A.M., and Veber, A. (2016). The infinitesimal model. bioRxiv, https://doi.org/10.1101/039768.
  • Battle, A., Khan, Z., Wang, S.H., Mitrano, A., Ford, M.J., Pritchard, J.K., and Gilad, Y. (2015). Genomic variation. Impact of regulatory variation from RNA to protein. Science 347, 664–667.
  • Botstein, D., and Risch, N. (2003). Discovering genotypes underlying human phenotypes: past successes for mendelian disease, future approaches for complex disease. Nat. Genet. 33 (Suppl.), 228–237.
  • Bulik-Sullivan, B., Finucane, H.K., Anttila, V., Gusev, A., Day, F.R., Loh, P.-R., Duncan, L., Perry, J.R., Patterson, N., Robinson, E.B., et al.; ReproGen Consortium; Psychiatric Genomics Consortium; Genetic Consortium for Anorexia Nervosa of the Wellcome Trust Case Control Consortium 3 (2015a). An atlas of genetic correlations across human diseases and traits. Nat. Genet. 47, 1236–1241.
  • Bulik-Sullivan, B.K., Loh, P.R., Finucane, H.K., Ripke, S., Yang, J., Patterson, N., Daly, M.J., Price, A.L., and Neale, B.M.; Schizophrenia Working Group of the Psychiatric Genomics Consortium (2015b). LD Score regression distinguishes confounding from polygenicity in genome-wide association studies. Nat. Genet. 47, 291–295.
  • Califano, A., Butte, A.J., Friend, S., Ideker, T., and Schadt, E. (2012). Leveraging models of cell regulation and GWAS data in integrative network-based association studies. Nat. Genet. 44, 841–847.
  • Chakravarti, A., and Turner, T.N. (2016). Revealing rate-limiting steps in complex disease biology: The crucial importance of studying rare, extreme-phenotype families. BioEssays 38, 578–586.
  • Chatterjee, S., Kapoor, A., Akiyama, J.A., Auer, D.R., Lee, D., Gabriel, S., Berrios, C., Pennacchio, L.A., and Chakravarti, A. (2016). Enhancer Variants Synergistically Drive Dysfunction of a Gene Regulatory Network In Hirschsprung Disease. Cell 167, 355–368.e10.
  • Chick, J.M., Munger, S.C., Simecek, P., Huttlin, E.L., Choi, K., Gatti, D.M., Raghupathy, N., Svenson, K.L., Churchill, G.A., and Gygi, S.P. (2016). Defining the consequences of genetic variation on a proteome-wide scale. Nature 534, 500–505.
  • Chun, S., Casparino, A., Patsopoulos, N.A., Croteau-Chonka, D.C., Raby, B.A., De Jager, P.L., Sunyaev, S.R., and Cotsapas, C. (2017). Limited statistical evidence for shared genetic effects of eQTLs and autoimmune-disease-associated loci in three major immune-cell types. Nat. Genet. 49, 600–605.
  • Claussnitzer, M., Dankel, S.N., Kim, K.H., Quon, G., Meuleman, W., Haugen, C., Glunk, V., Sousa, I.S., Beaudry, J.L., Puviindran, V., et al. (2015). FTO Obesity Variant Circuitry and Adipocyte Browning in Humans. N. Engl. J. Med. 373, 895–907.
  • Cotsapas, C., Voight, B.F., Rossin, E., Lage, K., Neale, B.M., Wallace, C., Abecasis, G.R., Barrett, J.C., Behrens, T., Cho, J., et al.; FOCiS Network of Consortia (2011). Pervasive sharing of genetic effects in autoimmune disease. PLoS Genet. 7, e1002254.
  • Davey Smith, G., and Hemani, G. (2014). Mendelian randomization: genetic anchors for causal inference in epidemiological studies. Hum. Mol. Genet. 23 (R1), R89–R98.
  • Davidson, E.H. (2010). Emerging properties of animal gene regulatory networks. Nature 468, 911–920.
  • De Rubeis, S., He, X., Goldberg, A.P., Poultney, C.S., Samocha, K., Cicek, A.E., Kou, Y., Liu, L., Fromer, M., Walker, S., et al.; DDD Study; Homozygosity Mapping Collaborative for Autism; UK10K Consortium (2014). Synaptic, transcriptional and chromatin genes disrupted in autism. Nature 515, 209–215.
  • Farh, K.K.-H., Marson, A., Zhu, J., Kleinewietfeld, M., Housley, W.J., Beik, S., Shoresh, N., Whitton, H., Ryan, R.J., Shishkin, A.A., et al. (2015). Genetic and epigenetic fine mapping of causal autoimmune disease variants. Nature 518, 337–343.
  • Field, Y., Boyle, E.A., Telis, N., Gao, Z., Gaulton, K.J., Golan, D., Yengo, L., Rocheleau, G., Froguel, P., McCarthy, M.I., and Pritchard, J.K. (2016). Detection of human adaptation during the past 2000 years. Science 354, 760–764.
  • Finucane, H.K., Bulik-Sullivan, B., Gusev, A., Trynka, G., Reshef, Y., Loh, P.-R., Anttila, V., Xu, H., Zang, C., Farh, K., et al.; ReproGen Consortium; Schizophrenia Working Group of the Psychiatric Genomics Consortium; RACI Consortium (2015). Partitioning heritability by functional annotation using genome-wide association summary statistics. Nat. Genet. 47, 1228–1235.
  • Fisher, R.A. (1918). The correlation between relatives on the supposition of Mendelian inheritance. Trans. R. Soc. Edinb. 52, 399–433.
  • Fromer, M., Pocklington, A.J., Kavanagh, D.H., Williams, H.J., Dwyer, S., Gormley, P., Georgieva, L., Rees, E., Palta, P., Ruderfer, D.M., et al. (2014).
  • De novo mutations in schizophrenia implicate synaptic networks. Nature 506, 179–184.
  • Furlong, L.I. (2013). Human diseases through the lens of network biology. Trends Genet. 29, 150–159.
  • Goldstein, D.B. (2009). Common genetic variation and human traits. N. Engl. J. Med. 360, 1696–1698.
  • GTEx Consortium (2015). Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multi-tissue gene regulation in humans. Science 348, 648–660.
  • Hu, X., Kim, H., Stahl, E., Plenge, R., Daly, M., and Raychaudhuri, S. (2011). Integrating autoimmune risk loci with gene-expression data identifies specific pathogenic immune cell subsets. Am. J. Hum. Genet. 89, 496–506.
  • International HapMap Consortium (2005). A haplotype map of the human genome. Nature 437, 1299–1320.
  • Jo, B., He, Y., Strober, B.J., Parsana, P., Aguet, F., Brown, A.A., Castel, S.E., Gamazon, E.R., Gewirtz, A., Gliner, G., et al. (2016). Distant regulatory effects of genetic variation in multiple human tissues. bioRxiv, https://doi.org/10.1101/074419.
  • Jostins, L., Ripke, S., Weersma, R.K., Duerr, R.H., McGovern, D.P., Hui, K.Y., Lee, J.C., Schumm, L.P., Sharma, Y., Anderson, C.A., et al.; International IBD Genetics Consortium (IIBDGC) (2012). Host-microbe interactions have shaped the genetic architecture of inflammatory bowel disease. Nature 491, 119–124.
  • Juster, F.T., and Suzman, R. (1995). An overview of the Health and Retirement Study. J. Hum. Resour. 30, S7–S56.
  • Krumm, N., Turner, T.N., Baker, C., Vives, L., Mohajeri, K., Witherspoon, K., Raja, A., Coe, B.P., Stessman, H.A., He, Z.-X., et al. (2015). Excess of rare, inherited truncating mutations in autism. Nat. Genet. 47, 582–588.
  • Kundaje, A., Meuleman, W., Ernst, J., Bilenky, M., Yen, A., Heravi-Moussavi, A., Kheradpour, P., Zhang, Z., Wang, J., Ziller, M.J., et al.; Roadmap Epigenomics Consortium (2015). Integrative analysis of 111 reference human epigenomes. Nature 518, 317–330.
  • Li, Y.I., van de Geijn, B., Raj, A., Knowles, D.A., Petti, A.A., Golan, D., Gilad, Y., and Pritchard, J.K. (2016). RNA splicing is a primary link between genetic variation and disease. Science 352, 600–604.
  • Locke, A.E., Kahali, B., Berndt, S.I., Justice, A.E., Pers, T.H., Day, F.R., Powell, C., Vedantam, S., Buchkovich, M.L., Yang, J., et al.; LifeLines Cohort Study; ADIPOGen Consortium; AGEN-BMI Working Group; CARDIOGRAMplusC4D Consortium; CKDGen Consortium; GLGC; ICBP; MAGIC Investigators; MuTHER Consortium; MIGen Consortium; PAGE Consortium; ReproGen Consortium; GENIE Consortium; International Endogene Consortium (2015). Genetic studies of body mass index yield new insights for obesity biology. Nature 518, 197–206.
  • Loh, P.-R., Bhatia, G., Gusev, A., Finucane, H.K., Bulik-Sullivan, B.K., Pollack, S.J., de Candia, T.R., Lee, S.H., Wray, N.R., Kendler, K.S., et al.; Schizophrenia Working Group of Psychiatric Genomics Consortium (2015). Contrasting genetic architectures of schizophrenia and other complex diseases using fast variance-components analysis. Nat. Genet. 47, 1385–1392.
  • Manolio, T.A., Collins, F.S., Cox, N.J., Goldstein, D.B., Hindorff, L.A., Hunter, D.J., McCarthy, M.I., Ramos, E.M., Cardon, L.R., Chakravarti, A., et al. (2009). Finding the missing heritability of complex diseases. Nature 461, 747–753.
  • Marouli, E., Graff, M., Medina-Gomez, C., Lo, K.S., Wood, A.R., Kjaer, T.R., Fine, R.S., Lu, Y., Schurmann, C., Highland, H.M., et al.; EPIC-InterAct Consortium; CHD Exome+ Consortium; ExomeBP Consortium; T2D-Genes Consortium; GoT2D Genes Consortium; Global Lipids Genetics Consortium; ReproGen Consortium; MAGIC Investigators (2017). Rare and low-frequency coding variants alter human adult height. Nature 542, 186–190.
  • Maurano, M.T., Humbert, R., Rynes, E., Thurman, R.E., Haugen, E., Wang, H., Reynolds, A.P., Sandstrom, R., Qu, H., Brody, J., et al. (2012). Systematic localization of common disease-associated variation in regulatory DNA. Science 337, 1190–1195.
  • Pickrell, J.K. (2014). Joint analysis of functional genomic data and genome-wide association studies of 18 human traits. Am. J. Hum. Genet. 94, 559–573.
  • Pickrell, J.K., Berisa, T., Liu, J.Z., Se´ gurel, L., Tung, J.Y., and Hinds, D.A. (2016). Detection and interpretation of shared genetic influences on 42 human traits. Nat. Genet. 48, 709–717.
  • Preininger, M., Arafat, D., Kim, J., Nath, A.P., Idaghdour, Y., Brigham, K.L., and Gibson, G. (2013). Blood-informative transcripts define nine common axes of peripheral blood gene expression. PLoS Genet. 9, e1003362.
  • Price, A.L., Helgason, A., Thorleifsson, G., McCarroll, S.A., Kong, A., and Stefansson, K. (2011). Single-tissue and cross-tissue heritability of gene expression via identity-by-descent in related or unrelated individuals. PLoS Genet. 7, e1001317.
  • Pritchard, J.K., Pickrell, J.K., and Coop, G. (2010). The genetics of human adaptation: hard sweeps, soft sweeps, and polygenic adaptation. Curr. Biol. 20, R208–R215.
  • Purcell, S.M., Wray, N.R., Stone, J.L., Visscher, P.M., O’Donovan, M.C., Sullivan, P.F., Sklar, P., Ruderfer, D.M., McQuillin, A., Morris, D.W., et al.; International Schizophrenia Consortium (2009). Common polygenic variation contributes to risk of schizophrenia and bipolar disorder. Nature 460, 748–752.
  • Purcell, S.M., Moran, J.L., Fromer, M., Ruderfer, D., Solovieff, N., Roussos, P., O’Dushlaine, C., Chambert, K., Bergen, S.E., Ka¨ hler, A., et al. (2014). A polygenic burden of rare disruptive mutations in schizophrenia. Nature 506, 185–190.
  • Ripke, S., Neale, B.M., Corvin, A., Walters, J.T., Farh, K.-H., Holmans, P.A., Lee, P., Bulik-Sullivan, B., Collier, D.A., Huang, H., et al.; Schizophrenia Working Group of the Psychiatric Genomics Consortium (2014). Biological insights from 108 schizophrenia-associated genetic loci. Nature 511, 421–427.
  • Risch, N., Spiker, D., Lotspeich, L., Nouri, N., Hinds, D., Hallmayer, J., Kalaydjieva, L., McCague, P., Dimiceli, S., Pitts, T., et al. (1999). A genomic screen of autism: evidence for a multi-locus etiology. Am. J. Hum. Genet. 65, 493–507.
  • Sekar, A., Bialas, A.R., de Rivera, H., Davis, A., Hammond, T.R., Kamitaki, N., Tooley, K., Presumey, J., Baum, M., Van Doren, V., et al.; Schizophrenia Working Group of the Psychiatric Genomics Consortium (2016). Schizophrenia risk from complex variation of complement component 4. Nature 530, 177–183.
  • Shi, H., Kichaev, G., and Pasaniuc, B. (2016). Contrasting the genetic architecture of 30 complex traits from summary association data. Am. J. Hum. Genet. 99, 139–153.
  • Simons, Y.B., Turchin, M.C., Pritchard, J.K., and Sella, G. (2014). The deleterious mutation load is insensitive to recent population history. Nat. Genet. 46, 220–224.
  • Smemo, S., Tena, J.J., Kim, K.-H., Gamazon, E.R., Sakabe, N.J., Go´ mez-Marı´n, C., Aneas, I., Credidio, F.L., Sobreira, D.R., Wasserman, N.F., et al. (2014). Obesity-associated variants within FTO form long-range functional connections with IRX3. Nature 507, 371–375.
  • Sonawane, A.R., Platig, J., Fagny, M., Chen, C.-Y., Paulson, J.N., Lopes-Ramos, C.M., DeMeo, D.L., Quackenbush, J., Glass, K., and Kuijjer, M.L. (2017). Understanding tissue-specific gene regulation. bioRxiv, https://doi.org/10. 1101/110601.
  • Stephens, M. (2017). False discovery rates: a new deal. Biostatistics 18, 275–294.
  • Strogatz, S.H. (2001). Exploring complex networks. Nature 410, 268–276.
  • Sullivan, P.F., Agrawal, A., Bulik, C., Andreassen, O.A., Borglum, A., Breen, G., Cichon, S., Edenberg, H., Faraone, S.V., Gelernter, J., Mathews, C.A., Nievergelt, C.M., Smoller, J., and O’Donovan, M. (2017). Psychiatric Genomics: An Update and an Agenda. bioRxiv, https://doi.org/10.1101/115600.
  • Sun, B.B., Maranville, J.C., Peters, J.E., Stacey, D., Staley, J.R., Blackshaw, J., Burgess, S., Jiang, T., Paige, E., Surendran, P., et al. (2017). Consequences Of Natural Perturbations In The Human Plasma Proteome. bioRxiv. https://doi.org/10.1101/134551.
  • The Psychiatric Genetics Consortium (2016). Contribution of copy number variants to schizophrenia from a genome-wide study of 41,321 subjects. Nat. Genet. 49, 27–35.
  • Trynka, G., Sandor, C., Han, B., Xu, H., Stranger, B.E., Liu, X.S., and Raychaudhuri, S. (2013). Chromatin marks identify critical cell types for fine mapping complex trait variants. Nat. Genet. 45, 124–130.
  • Turchin, M.C., Chiang, C.W., Palmer, C.D., Sankararaman, S., Reich, D., and Genetic Investigation of Anthropometric Traits Consortium, and Hirschhorn, J.N. (2012). Evidence of widespread selection on standing variation in Europe at height-associated SNPs. Nat. Genet 44, 1015–1019.
  • Visscher, P.M., and Yang, J. (2016). A plethora of pleiotropy across complex traits. Nat. Genet. 48, 707–708.
  • Visscher, P.M., Medland, S.E., Ferreira, M.A., Morley, K.I., Zhu, G., Cornes, B.K., Montgomery, G.W., and Martin, N.G. (2006). Assumption-free estimation of heritability from genome-wide identity-by-descent sharing between full siblings. PLoS Genet. 2, e41.
  • Vitti, J.J., Grossman, S.R., and Sabeti, P.C. (2013). Detecting natural selection in genomic data. Annu. Rev. Genet. 47, 97–120.
  • Wagner, G.P., and Zhang, J. (2011). The pleiotropic structure of the genotype-phenotype map: the evolvability of complex organisms. Nat. Rev. Genet. 12, 204–213.
  • Walsh, B., and Blows, M.W. (2009). Abundant genetic variation + strong selection = multivariate genetic constraints: A geometric view of adaptation. Annu. Rev. Ecol. Evol. Syst. 40, 41–59.
  • Watts, D.J., and Strogatz, S.H. (1998). Collective dynamics of ‘small-world’ networks. Nature 393, 440–442.
  • Weiner, D.J., Wigdor, E.M., Ripke, S., Walters, R.K., Kosmicki, J.A., Grove, J., Samocha, K.E., Goldstein, J., Okbay, A., Bybjerg-Gauholm, J., et al. (2016). Polygenic transmission disequilibrium confirms that common and rare variation act additively to create risk for autism spectrum disorders. bioRxiv, https://doi.org/10.1101/089342.
  • Welter, D., MacArthur, J., Morales, J., Burdett, T., Hall, P., Junkins, H., Klemm, A., Flicek, P., Manolio, T., Hindorff, L., and Parkinson, H. (2014). The NHGRI GWAS Catalog, a curated resource of SNP-trait associations. Nucleic Acids Res. 42 (Database issue, D1), D1001–D1006.
  • Westra, H.-J., Peters, M.J., Esko, T., Yaghootkar, H., Schurmann, C., Kettunen, J., Christiansen, M.W., Fairfax, B.P., Schramm, K., Powell, J.E., et al. (2013). Systematic identification of trans eQTLs as putative drivers of known disease associations. Nat. Genet. 45, 1238–1243.
  • Wood, A.R., Esko, T., Yang, J., Vedantam, S., Pers, T.H., Gustafsson, S., Chu, A.Y., Estrada, K., Luan, J., Kutalik, Z., et al.; Electronic Medical Records and Genomics (eMEMERGEGE) Consortium; MIGen Consortium; PAGEGE Consortium; LifeLines Cohort Study (2014). Defining the role of common variation in the genomic and biological architecture of adult human height. Nat. Genet. 46, 1173–1186.
  • Yang, J., Benyamin, B., McEvoy, B.P., Gordon, S., Henders, A.K., Nyholt, D.R., Madden, P.A., Heath, A.C., Martin, N.G., Montgomery, G.W., et al. (2010). Common SNPs explain a large proportion of the heritability for human height. Nat. Genet. 42, 565–569.





Posted by metas :