본문 바로가기
공부자료

Nanopore Read Until의 진화 – UNCALLED 논문 리뷰

by youngmun 2026. 5. 18.

Targeted nanopore sequencing by real-time mapping of raw electrical signal with UNCALLED

UNCALLED란 무엇인가?

Oxford Nanopore Adaptive Sampling을 가능하게 만든 핵심 기술

 

Oxford Nanopore sequencing의 가장 혁신적인 기능 중 하나는 바로 원하는 DNA만 실시간으로 선택해서 시퀀싱할 수 있는 “Adaptive Sampling” 기술입니다. 최근에는 MinKNOW에서 비교적 익숙한 기능이 되었지만, 사실 이 기술이 가능해지기까지는 여러 중요한 연구들이 있었습니다.

 

이번에 소개할 논문은 그중에서도 매우 중요한 논문 중 하나인 UNCALLED 연구입니다. 논문 제목은 “Targeted nanopore sequencing by real-time mapping of raw electrical signal with UNCALLED”이며, 2021년 Nature Biotechnology에 발표되었습니다. 이 논문은 기존 Read Until 기술의 가장 큰 한계를 해결하면서, 오늘날 Adaptive Sampling의 실질적인 기반을 만든 연구라고 볼 수 있습니다.


기존 Nanopore Read Until 기술의 가장 큰 문제는 속도였습니다.

Nanopore sequencing은 DNA가 nanopore를 통과할 때 발생하는 전류(current) 변화를 실시간으로 측정합니다. 문제는 이 신호를 분석해서 현재 읽고 있는 DNA가 어떤 유전체 영역인지 빠르게 판단해야 한다는 점입니다.

 

기존 방법은 크게 두 가지였습니다.

첫 번째는 DTW(Dynamic Time Warping)를 이용해 raw signal 자체를 reference와 직접 비교하는 방식입니다. 하지만 이 방법은 계산량이 너무 많아서 작은 genome에서는 가능했지만 human genome처럼 큰 reference에는 현실적으로 적용이 어려웠습니다.

 

두 번째는 먼저 basecalling을 수행한 뒤 alignment를 하는 방식입니다. 하지만 GPU가 필요할 정도로 계산량이 크고, 충분한 signal이 쌓일 때까지 기다려야 하기 때문에 eject 타이밍이 늦어지는 문제가 있었습니다.

 

연구진은 이 문제를 해결하기 위해 “UNCALLED”라는 새로운 알고리즘을 개발했습니다.


UNCALLED의 핵심 아이디어는 매우 흥미롭습니다.

일반적인 방식처럼 먼저 basecalling을 하지 않고, raw electrical signal 상태에서 바로 reference genome에 mapping을 수행합니다.

 

즉:

Raw signal → 바로 mapping

이라는 개념입니다.

 

이를 위해 연구진은 FM-index 기반 알고리즘을 사용했습니다. 이는 BWA나 Bowtie 같은 aligner에서 사용하는 매우 빠른 문자열 검색 알고리즘입니다.

과정을 간단히 정리하면:

  1. Nanopore current signal 수집
  2. Signal을 event로 변환
  3. 각 event가 어떤 k-mer일 확률 계산
  4. FM-index를 사용해 reference genome 검색
  5. 실시간으로 위치 결정
  6. Target이 아니면 eject

라는 흐름입니다.

기존 Read Until과 가장 큰 차이는 “속도”였습니다.


연구진은 먼저 E. coli 데이터를 사용해 성능을 테스트했습니다.

놀랍게도 대부분의 read를 sequencing 시작 후 1초 이내에 mapping할 수 있었습니다.

당시 MinION sequencing speed가 약 450 bp/sec였다는 점을 고려하면, 매우 빠른 속도였습니다.

논문에서는:

  • 대부분의 read가 50ms 이내 mapping
  • single CPU core에서도 동작
  • 93.7% mapping accuracy

를 보여주었습니다.

즉, GPU basecalling 없이도 실시간 selective sequencing이 가능하다는 것을 입증한 것입니다.


이후 연구진은 실제 metagenomics 환경에서 매우 흥미로운 실험을 수행했습니다.

Zymo mock microbial community를 이용해 bacterial genome을 depletion하고, yeast genome을 enrichment하는 실험입니다.

쉽게 말하면:

원하지 않는 bacterial DNA는 eject하고,
남은 yeast DNA만 더 많이 읽도록 만든 것입니다.

결과는 상당히 인상적이었습니다.

  • bacterial read의 90~96% 제거
  • yeast enrichment 최대 4.46배 증가

를 달성했습니다.

논문 Figure 2를 보면 실제로 yeast coverage가 크게 증가한 것을 확인할 수 있습니다.

이 실험은 오늘날 adaptive sampling host depletion의 원형이라고 볼 수 있습니다.

현재 metagenomics에서 흔히 사용하는:

  • human depletion
  • host depletion
  • pathogen enrichment

같은 개념이 이미 이 논문에서 구현된 것입니다.


하지만 이 논문의 진짜 하이라이트는 인간 유전자 패널 실험입니다.

연구진은 hereditary cancer와 관련된 148개 유전자를 target으로 설정했습니다.

그리고 GM12878 샘플에서:

  • target gene만 enrichment
  • 나머지 genome은 eject

하는 adaptive sequencing을 수행했습니다.

결과는 상당히 놀라웠습니다.

  • Control flowcell: 5.4x coverage
  • UNCALLED: 29.6x coverage

즉 약 5.5배 enrichment를 달성했습니다.

Figure3의 control 대비 UNCALLED의 coverage distribution이 완전히 달라진 것을 볼 수 있습니다.

특히 중요한 점은 단순 coverage 증가가 아니라:

  • SNP detection
  • Indel detection
  • Structural Variant detection
  • Methylation analysis

까지 모두 가능했다는 것입니다.


이 논문이 정말 중요한 이유는 바로 structural variant(SV) 분석입니다.

기존 short-read sequencing에서는 repetitive region이나 mobile element insertion 분석이 매우 어렵습니다.

하지만 UNCALLED enrichment를 이용한 long-read sequencing은:

  • ONT WGS
  • PacBio HiFi

와 거의 동일한 수준의 SV concordance를 보여주었습니다.

특히 논문에서는 MUTYH gene exon 내부의 Alu insertion을 검출하는 장면이 매우 인상적입니다.

Figure 4를 보면:

  • ONT
  • PacBio

에서는 insertion이 보이지만,

Illumina에서는 검출되지 않습니다.

이는 short-read가 repetitive Alu insertion 전체를 spanning하지 못하기 때문입니다.

이 결과는 왜 long-read sequencing이 임상 유전체 분석에서 중요한지를 매우 잘 보여줍니다.


또 하나 매우 흥미로운 부분은 methylation 분석입니다.

Nanopore sequencing은 PCR amplification 없이 native DNA를 직접 읽기 때문에 methylation signal을 유지할 수 있습니다.

연구진은 UNCALLED enrichment 데이터에서 promoter methylation 분석도 수행했습니다.

결과적으로:

  • Whole genome ONT methylation
  • WGBS

와 매우 높은 상관관계를 보여주었습니다.

Figure 5를 보면 promoter methylation correlation이 상당히 높게 나타납니다.

즉 targeted adaptive sequencing만으로도 methylation 연구가 가능하다는 것을 의미합니다.


이 논문은 단순한 알고리즘 논문이 아닙니다.

현재 Oxford Nanopore의:

  • Adaptive Sampling
  • Host depletion
  • Target enrichment
  • Real-time selective sequencing

기술의 실질적인 foundation 역할을 한 논문입니다.

특히 중요한 점은: “Basecalling 없이 raw signal 단계에서 판단한다” 라는 새로운 개념을 제시했다는 점입니다.


오늘날 Adaptive Sampling은:

  • Dorado
  • GPU acceleration
  • minimap2
  • faster Read Until API

등으로 훨씬 발전했지만, “실시간 raw signal 기반 selective sequencing” 이라는 핵심 개념은 바로 이 UNCALLED 논문에서 확립되었다고 볼 수 있습니다.

https://pmc.ncbi.nlm.nih.gov/articles/PMC8567335/