나노포어 논문/Human WGS
ONT Simplex read만으로 완성된 T2T 유전체 조립, hifiasm (ONT)의 등장
youngmun
2025. 4. 22. 13:52
T2T(텔로미어-투-텔로미어) 유전체 조립은 염색체의 양 끝까지 완전하게 재구성하는 것을 의미하며, 그동안은 ONT ultra-long read나 PacBio HiFi read와 같은 고가 기술이 필수적이었습니다. 하지만 이제 표준 ONT Simplex read만으로도 이를 달성할 수 있게 되었습니다.
hifiasm (ONT)의 핵심 기능
- 단일 ONT Simplex read로 de novo 조립 가능
→ PacBio 없이도 T2T 조립 구현 - 오류 교정 내장 (error correction)
→ 딥러닝 기반 HERRO보다 10배 빠르고 GPU 불필요 - 텔로미어 서열 유지 전략 탑재
→ 조립 중 소실되던 염색체 말단 서열 보존 가능 - 다배체, 반복 유전체 대응 가능
→ diploid 가정 없이도 조립 가능
실제 데이터에서의 성능
- GIAB 샘플 (HG001~HG007) 기준, 대부분의 샘플에서 9~22개 염색체를 T2T 수준으로 재구성
- HG002 샘플은 ultra-long read 사용 시 최대 33개 T2T 염색체, 44개 scaffold 완성
- 기존 Verkko+HERRO는 동일 데이터에서 22개 contig, 32개 scaffold로 제한적
SMN1/SMN2 유전자도 정확히 조립
- SMA 진단에 중요한 SMN1/SMN2 유전자는 PacBio HiFi 기반 조립에서도 완전 분리가 어려웠지만, hifiasm (ONT)는 표준 ONT read만으로 두 유전자 완전 재구성에 성공
알고리즘 구조
- 호환 가능한 변이 site들만 클러스터링하여 오류와 실제 변이를 구분
- strand bias, homopolymer 오류, 낮은 base quality 등의 오류 유형도 필터링
실험 정보 요약
- 시퀀싱 장비: PromethION P48
- Library kit: SQK-LSK114
- Basecalling: Dorado v0.7.2 / v0.8.3, 모델은 HAC & SUP
- DNA 추출: QIAgen Puregene kit
- 샘플 출처: Coriell Institute
정리하자면, hifiasm (ONT)는 저렴하고 접근성 높은 ONT Simplex read만으로도 T2T 유전체 조립을 가능케 하며, 임상 샘플이나 대규모 population 연구에도 실질적으로 적용할 수 있는 강력한 도구로 떠오르고 있습니다.
출처:
https://www.biorxiv.org/content/10.1101/2025.04.14.648685v1.full