1편에 이어서, 이번에는 좀 더 본격적으로 한국인 샘플들을 포함해서, 동아시아인들만으로 된 자료를 Treemix를 통해서, 분석해 보겠습니다. 계산에 포함된 샘플들에 대해서 언급하자면, Treemix를 여러번 시행해 보면, 아무래도, 여러 소스에서 나온 것을 합병한 것보다, 동일한 소스에서 나온 자료들만으로 되었을 때, 누락되는 SNP도 적고, 나오는 결과도 비교적 의미있게 되는 것으로 보입니다. 그래서, 먼저, HGDP에 있는 동아시아인 샘플들과 23andme에서 나온 한국인 샘플들로 분석을 해 보겠습니다(23andme의 한국인 샘플은 카페에서 검사한 분들이 제공한 것들이 있습니다. 다시 한번 귀중한 자료를 제공해 주신 데, 감사드립니다).

HGDP에는 중국 경내의 Uygur족들의 샘플이 있습니다. 이 샘플들을 포함시킬 것인지 고민했지만, 이들이 비록 언어는 Turkic을 사용하지만, 이들의 원류는 현재의 대부분 동아시아인을 형성하는 데, 기여한 조상집단과는 관계가 미미하다는 생각에서 제외하였습니다. 그리고, 이전에도 언급한 바가 있지만, Xibo,즉, 만주어를 거의 잊어버린 만주족들대신 만주어를 잘 보존해서 사용하는 선비족의 후예라 여겨지는 석백족은 원래 지금의 요령성지역에 세거하고 있었지만, 청왕조가 들어서면서, 이들을 변방을 지키는 수비병력으로 대거 사민시켜서, 지금의 신쟝자치구지역에 살고 있는 것입니다. HGDP에서는 요령성지역의 석백족이 아닌, 신장자치구의 석백족을 샘플한 것입니다.

분석대상이 된 SNP수는 제가 처음 Razib Khan이 다른 데이타베이스들과 함께 병합한 것에 나온 HGDP자료와 한국인의 23andme자료를 다시 병합해서 LD pruning한 것은 99,450개 정도였습니다. 이후에, migration 횟수를 늘려서 분석해 볼 생각에서, 99,450개의 SNP수가 적어서, 다시, HGDP 자료( http://www.hagsc.org/hgdp/files.html)에서 직접 다운로드 받아서, 23andme 자료와 병합해 보았는 데, 이 때는 약 210,000개 정도의 SNP가 나왔는 데, Treemix에서 돌려 보니, 약 3만개에 이르는 수의 SNP가 에러가 나서, 분석에 포함되지 못했습니다. 아마, Plink 포맷으로 바꾸는 과정에서 문제가 있었던 것으로 보이는 데, 최종적으로 184,000개 정도의 SNP가 두번째 자료의 계산에 포함되었습니다. 아래의 Treemix분석 자료 중에, migration수가 0과 8인 것은 두번째 자료로 분석해서 나온 것이고, 나머지들은 처음 99,450개 SNP 자료에서 나온 것입니다.

다음은 샘플들에 대한 기본 정보와 샘플들이 나온 동아시아 18개 인구집단의 위치를 지도로 표시한 것입니다.

1. m=0


Migration 횟수를 주지 않고, 동아시아 각 인구집단들간의 분화관계를 보인 것입니다. 동아시아 인구집단 중에서 서쪽에 위치한 Naxi,Yizu로부터 Han(중국 본토의 한족), Tujia가 분리되고, 그 다음에 각각 북쪽과 남쪽에 있는 집단들로 분화되는 데, 가장 북쪽에 위치한 Yakut가 먼저 분기되어 나오고, 그 다음 Orogen에서부터 차례로, Hezhe, Daur, Mongol, Xibo 등 북방계 민족들이 분기되고, 한국와 일본인의 극동아시아계가 분기되고, 위쪽에는 남쪽에 위치하는 집단들인, She, Miao,다시, 동남아시아의 Dai, Cambodian, Lahu 등의 순서로 그려집니다. Drift parameter로 볼 때, 시베리아 중심부의 Yakut와 태국과 중국 국경에 거주하는 Lahu가 일반적인 동아시아집단으로부터 유전적으로 멀리 떨어진 집단이라는 사실을 알 수 있습니다. Lahu족이 김병호박사가 말하는 듯이 고구려인의 후손인지, 아닌지는 여기서 금방 알 수 있으리라 믿습니다

2. m=2


Migration 횟수를 2로 놓으면, 나타나는 것은 Yakut에서 Mongol로의 흐름이 가장 중요하게(보다 붉은 색으로)나타나고, 그 다음에 Yakut에서 Tu로 약간 덜 붉게 나타나는 것입니다. 여기서, 떠올릴 수 있는 역사적 사건은 이른 바, 林中百姓의 몽골로의 병합입니다. 징기스칸이 1206년 몽골의 원류가 되는 Nirun족을 중심으로 한 초원의 제부족들을 통일한 후, 더 먼 곳으로의 정복을 위해, 후환을 없애기 위해, 그들의 북쪽 삼림지대에 위치한 여러 부족들을 장남인 조치를 보내서,정복하는 전쟁을 벌입니다.

1207년에 이들 북쪽의 제부족들이 몽골에 통합되는 데, 이 때 포함된 부족들은 오이라트, 케레이트, 바얼후,부리야트 등이었다고, 라시드 웃딘이 편찬한 <집사>에 나옵니다. 이들 부족들은 현재의 야쿠트나 부리야트족에 가까운 계통이고, 이들 부족들이 통합된 후, 몽골군단의 병력수와 전투력이 급상승하면서, 유라시아대륙 대부분을 공포로 몰아넣는 대정복이 비로소 가능하게 됩니다. Tu족은 중국어로는 土族라고 표기되는 현재의 감숙성과 청해성에 사는 몽골어계통의 Monguor를 구사하는 민족입니다. 주로, 징기스칸이 파견한 병력과 현지인이 혼혈하면서, 생겨난 민족으로, 이들에게서도, Yakut의 혼합성분이 발견되는 것은 당연하다고 할 것입니다.

3. m=4


m=4로 놓으면, 위의 m=2와 같이, Yakut에서 몽골이나 석백족, 토족으로의 흐름이 주요한 것으로 나타나고, 좀 더 약하게 Dai에서 중국 한족으로의 흐름이 나타납니다. Dai는 운남성에 거주하는 Tai-Kadai계 민족으로, 현재 태국인과 거의 비슷한 언어와 문화를 지닌 민족입니다. Dai족에게서 중국 한족의 흐름이 나타나는 이유를 생각해 볼 수 있는 것이,이들의 원래 거주지는 양자강 중류지역이었고, 여기서, 보다 북쪽에서 내려 온 한족과의 접촉을 통해서, 이들 중 일부가 한족으로 동화되었고, 일부는 화하족의 압력에 밀려, 남하했기 때문이 아닌가 생각해 봅니다.

현재에도 중국 경내에는 많은 Tai-Kadai계 언어를 구사하는 민족들이 남아 있고, 중국어(Chinese)를 이들 Tai-Kadai를 하위로 하는 Austronesian 그리고, Hmong-Mien과 묶어서, Sino-Tibetan-Austronesian(华澳语) 의 일부로 보자는 Laurant Sagart (Sagart 2011)의 주장도 있습니다. 분자인류학적으로 볼 때, 일리있는 주장이 아닌가 생각합니다.

4. m=6


m=6에서는 위에 언급한 흐름외에, Yizu에서 Lahu와 Cambodian으로 분화되기 전의 그룹으로의 흐름이 나타납니다. 언급했듯이, 라후족은 상염색체상으로는 캄보디아인과 비슷한 동남아시아인임에도, 언어는 Yizu과 같은 Tibeto-Burman에 속하는 언어를 구사합니다. 즉, 라후족이 주변 동남아시아의 민족들이 주로 사용하는 Austro-asiatic이나, Tai-Kadai계열이 아닌, Tibeto-Burman언어를 구사하는 것은 위의 그래프에서 보듯, Yizu과 같은 Tibeto-burman계와의 Admixture가 있었고, 아마도 이들이 소수의 지배층으로서,현재와 같은 라후족의 언어적 전환을 야기했다고 보는 것이 타당할 것입니다.

그리고, 또 하나 m=4까지와 다르게 나타나는 흐름 중에 하나가, 한국인과 일본인을 포함한 동북아시아민족으로 분화하기 전, 어떤 집단에서 Hezhe족으로 향하는 화살표가 있습니다. Hezhe족은 북부 퉁구스계 민족 중에서 유난히, 부계하플로의 O3의 비율도 높고, 또한 O2b도 꽤 높은 비율로 나타나는 데, 이런 Hezhe족의 부계 하플로 구성이 어떻게 발생했는가를 위의 그래프는 보여 주고 있습니다.

출처 - by me