본문 바로가기
공부자료

Readfish란 무엇인가? 실시간 선택 시퀀싱 기술 완벽 분석

by youngmun 2026. 5. 18.

Readfish enables targeted nanopore sequencing of gigabase-sized genomes

Readfish란 무엇인가?

Oxford Nanopore Adaptive Sampling을 실제로 완성시킨 기술

 

Oxford Nanopore sequencing의 가장 독특한 기능 중 하나는 바로 sequencing 도중 원하는 DNA만 선택적으로 읽을 수 있다는 점입니다. 이 기능은 일반적으로 “Adaptive Sampling” 또는 “Read Until”이라고 불립니다. 이전 글에서 소개했던 Read Until과 UNCALLED는 이 기술의 가능성을 보여준 초기 연구들이었다면, 이번 논문에서 소개하는 Readfish는 Adaptive Sampling을 실제로 실용화한 매우 중요한 기술입니다. 논문 제목은 “Readfish enables targeted nanopore sequencing of gigabase-sized genomes”이며, 2021년 Nature Biotechnology에 발표되었습니다. 현재 MinKNOW에서 사용되는 adaptive sampling 개념과 가장 가까운 기술이라고 볼 수 있습니다.


기존 Read Until 기술의 가장 큰 문제는 계산량이었습니다.

초기 Read Until 연구에서는 DTW(Dynamic Time Warping)를 사용해 raw signal을 reference signal과 직접 비교했습니다. 하지만 human genome처럼 큰 reference에서는 계산량이 너무 커서 실용적으로 사용하기 어려웠습니다. UNCALLED 역시 상당한 발전을 이뤘지만 여전히 raw signal 기반 분석이라는 한계가 있었습니다. Readfish 연구진은 접근 자체를 바꿨습니다.

“굳이 raw signal을 직접 비교할 필요가 있을까?”

대신:

  1. GPU를 이용해 실시간 basecalling 수행
  2. minimap2로 즉시 mapping
  3. 원하는 target이 아니면 eject

라는 훨씬 직관적인 방법을 사용했습니다.

즉 오늘날 Adaptive Sampling의 기본 구조가 사실상 여기서 완성된 것입니다.


Readfish의 핵심 아이디어는 매우 단순하지만 강력합니다.

Nanopore sequencing 중 생성되는 raw signal을 Guppy가 실시간으로 basecalling합니다.

그리고 생성된 sequence를 minimap2로 즉시 mapping합니다.

결과에 따라:

  • 원하는 영역 → 계속 sequencing
  • 원하지 않는 영역 → 즉시 unblock(eject)

를 수행합니다.

Figure 1을 보면 실제 human chromosome selective sequencing 결과가 잘 나타납니다.

특히 흥미로운 점은 연구진이 human genome 전체를 대상으로 selective sequencing을 수행했다는 점입니다.


연구진은 GM12878 샘플을 이용해 다음과 같은 실험을 수행했습니다.

  • 특정 chromosome만 sequencing
  • 나머지 chromosome은 eject

예를 들어:

  • chr1-8
  • chr9-14
  • chr16-20

등 특정 chromosome subset만 enrichment했습니다. 

결과적으로 target chromosome coverage는 증가하고, 나머지 영역은 크게 감소했습니다. 이 실험의 가장 중요한 의미는: “gigabase-scale genome에서도 adaptive sampling이 가능하다” 는 것을 처음으로 증명했다는 점입니다. 이전 DTW 기반 접근은 human genome 전체에서 현실적으로 사용하기 어려웠기 때문입니다.


논문에서 매우 흥미로운 부분은 read rejection 속도입니다.

Readfish는:

  • 약 0.4초 signal chunk 사용
  • 약 180 bp 수준의 sequence 생성
  • 약 1초 내 decision 완료

를 수행했습니다.

즉 sequencing 시작 후 거의 즉시: “이 read를 계속 읽을 것인가?” 를 판단한 것입니다.

논문에서는 rejected read의 median length가 약 500bp 정도였다고 보고합니다.

즉 불필요한 DNA를 아주 초기에 제거할 수 있었던 것입니다.


하지만 adaptive sampling의 가장 현실적인 활용 분야는 사실 metagenomics입니다.

논문에서는 Zymo mock community를 사용해 adaptive sequencing을 수행했습니다.

핵심 아이디어는:

coverage가 충분한 species는 더 이상 sequencing하지 않고,

coverage가 부족한 species만 계속 sequencing하는 것입니다.

즉 sequencing capacity를 dynamically redistribution하는 개념입니다.


특히 Saccharomyces cerevisiae처럼 low abundance organism enrichment가 매우 인상적입니다.

Figure 2를 보면 시간이 지날수록 sequencing resource가 저농도 species 쪽으로 이동하는 것이 잘 나타납니다.

결과적으로:

  • low abundance genome coverage 증가
  • sequencing time 단축
  • assembly quality 향상

을 달성했습니다.

연구진은 sequencing을 자동으로 종료하는 기능까지 구현했습니다.

즉: “모든 species가 40x coverage에 도달하면 자동 종료” 하는 adaptive workflow를 만든 것입니다.

이 부분은 오늘날 adaptive metagenomics의 핵심 개념과 거의 동일합니다.


더 흥미로운 부분은 readfish centrifuge workflow입니다. 

여기서는 sample composition을 미리 알 필요가 없습니다.

실시간으로:

  1. sequencing 수행
  2. centrifuge로 species identification
  3. abundant species 자동 reject
  4. rare species enrichment

를 수행합니다.

즉 sequencing 자체가 real-time adaptive system이 된 것입니다. 논문에서는 이를 “adaptive sequencing”이라고 표현합니다.

현재 우리가 사용하는:

  • host depletion
  • pathogen enrichment
  • adaptive metagenomics

의 개념이 사실상 여기서 완성된 셈입니다.


하지만 개인적으로 가장 인상적인 부분은 targeted human sequencing입니다.

논문에서는 약 25,600 exon target을 enrichment했습니다. 이는 약 10,000 human gene에 해당합니다.

기존 capture panel 없이 software만으로 enrichment를 수행한 것입니다.

결과는 상당히 인상적입니다.

Target region coverage:

  • median 17x 이상
  • 일부는 30x 이상

를 달성했습니다.

Figure 4를 보면:

  • odd chromosome exon enrichment
  • even chromosome depletion

이 매우 명확하게 나타납니다. 특히 BRCA1, PML 같은 gene에서 selective enrichment가 잘 보입니다.


연구진은 여기서 멈추지 않고 COSMIC panel까지 적용했습니다.

717개 cancer-related gene을 target으로 설정했습니다.

그리고:

  • BRCA1
  • PML
  • WIF1
  • HOXC cluster

등 cancer-associated gene을 enrichment했습니다.

Figure 5(page 22)를 보면: target gene에서 coverage가 매우 높고, target이 아닌 주변 영역은 거의 sequencing되지 않는 모습이 매우 인상적입니다.


이 논문에서 가장 임상적으로 중요한 부분은 NB4 cell line 실험입니다.

NB4는 acute promyelocytic leukemia(APL) 모델입니다.

이 세포주는 유명한: PML-RARA fusion 을 가지고 있습니다.

 

Readfish adaptive sequencing만으로 연구진은: 15시간 이내에 PML-RARA translocation을 검출하는 데 성공했습니다.

이는 매우 중요한 의미를 가집니다.

기존에는:

  • capture panel
  • PCR assay
  • cytogenetics

같은 별도 assay가 필요했지만, Readfish는 sequencing 자체로 structural variant detection까지 수행한 것입니다.


논문에서 매우 중요한 메시지 중 하나는 이것입니다.

“Adaptive Sampling은 단순 enrichment 기술이 아니다” 연구진은 sequencing target 자체를 실시간으로 변경할 수 있다고 설명합니다.

예를 들어:

  • 충분한 coverage 확보 → target 제거
  • 새로운 variant 발견 → 새로운 target 추가

같은 dynamic sequencing이 가능하다는 것입니다. 

즉 sequencing이 단순 data generation이 아니라: “실시간 의사결정 시스템” 으로 진화한 것입니다.


Readfish의 또 다른 장점은 wet-lab modification이 필요 없다는 점입니다.

기존 target enrichment는:

  • PCR
  • Hybrid capture
  • CRISPR-Cas9

등 별도 sample prep이 필요합니다.

 

하지만 Readfish는 software-only enrichment입니다.

즉:

  • 동일한 library
  • 동일한 sample
  • 동일한 flowcell

에서도 target panel을 자유롭게 변경할 수 있습니다.

이 점이 기존 targeted sequencing과 가장 큰 차이입니다.


현재 MinKNOW Adaptive Sampling은 상당 부분 이 논문의 개념을 기반으로 발전했다고 볼 수 있습니다.

오늘날에는:

  • Dorado
  • Faster GPU basecalling
  • Improved minimap2 integration
  • Better pore management

등이 추가되면서 훨씬 안정적으로 동작하지만, 핵심 아이디어는 동일합니다. “읽으면서 판단한다”

이 개념이 sequencing의 패러다임 자체를 바꾼 것입니다.


개인적으로 이 논문이 정말 중요하다고 생각하는 이유는,

Adaptive Sampling이 단순한 기술 데모를 넘어서:

“실제 human genome과 clinical application에서도 동작한다”

는 것을 보여줬기 때문입니다.

특히:

  • cancer panel
  • SV detection
  • fusion detection
  • metagenomics
  • host depletion

등 현재 실제 연구에서 사용하는 adaptive sequencing workflow의 거의 모든 핵심 개념이 이미 이 논문 안에 들어 있습니다.

https://pmc.ncbi.nlm.nih.gov/articles/PMC7610616/