Demultiplexing and barcode-specific adaptive sampling for nanopore direct RNA sequencing
나노포어 Direct RNA-seq 멀티플렉싱과 실시간 barcode adaptive sampling의 구현
1. Direct RNA sequencing(dRNA-seq)의 매력과 현실적인 한계
Oxford Nanopore의 direct RNA sequencing (dRNA-seq) 은 cDNA 변환 없이 RNA를 직접 읽을 수 있다는 점에서 매우 강력한 기술입니다.
이 덕분에 다음과 같은 정보들을 동시에 얻을 수 있습니다.
- full-length RNA isoform 구조
- poly(A) tail 길이
- 염기서열과 함께 유지되는 native RNA modification (epitranscriptomics)
하지만 실제 실험 현장에서는 한 가지 큰 제약이 있습니다.
바로 샘플 멀티플렉싱(multiplexing) 이 거의 불가능하다는 점입니다. DNA sequencing에서는 barcode를 adapter에 넣고 basecalling 단계에서 읽어낼 수 있지만, dRNA-seq에서는 RNA 전용 basecaller가 DNA adapter를 읽지 못하기 때문입니다.
이 때문에 샘플 하나당 flow cell 하나를 써야 하는 경우가 많았고, 비용과 실험 효율 모두에서 큰 부담이 되어왔습니다.
2. WarpDemuX: basecalling 없이 barcode를 구분하는 접근
이 논문에서 제안한 해결책이 바로 WarpDemuX입니다. 핵심 아이디어는 단순하지만 매우 강력합니다.
“염기서열을 읽지 말고, 전기 신호(raw signal) 자체로 barcode를 구분하자.”
WarpDemuX는 다음과 같은 특징을 가집니다.
- RNA basecalling 불필요
- GPU 없이 CPU만으로도 동작
- raw signal에서 DNA adapter 영역을 찾아 barcode 신호를 추출
- Dynamic Time Warping (DTW) 기반 거리 계산
- DTW distance를 kernel로 사용하는 SVM 분류기
즉, barcode의 “서열”이 아니라 barcode가 만들어내는 신호 패턴의 유사성으로 샘플을 구분한다는 개념입니다.
![]() 그림 1. |
| 그림 1. WarpDemuX 모델 개요 본 그림은 direct RNA sequencing(dRNA-seq)에서 DNA 어댑터(RTA)에 포함된 바코드 신호를 raw 전기 신호 수준에서 분류하는 WarpDemuX의 전체 흐름을 나타냅니다. (a) 모델 학습을 위해 RNA 내부에 in-line RNA 바코드를 삽입하여 ground truth를 정의하고, 표준 dRNA-seq 라이브러리 준비 과정에서 RTA 바코드를 부착하였습니다. (b) 나노포어에서 측정되는 raw signal은 DNA 어댑터 신호, RNA poly(A) tail, RNA 본체로 구성되며, 이 중 어댑터 말단에 RTA 바코드 신호가 포함됩니다. (c) 어댑터 신호를 여러 구간으로 분할한 뒤, 마지막 25개 구간을 RTA 바코드의 signal fingerprint로 정의하고, Dynamic Time Warping Distance(DTWD)를 이용해 바코드 간 유사도를 계산합니다. (d) DTWD를 커널로 사용하는 SVM 분류기를 통해 바코드 신호를 분류하며, (e, f) 기존 DeePlexiCon 대비 WarpDemuX가 더 높은 정확도와 안정적인 분류 성능을 보임을 확인할 수 있습니다. |
본 그림은 dRNA-seq에서 DNA RTA 어댑터에 포함된 바코드 신호를 raw signal 기반으로 추출하고, DTWD-SVM 모델을 이용해 정확하게 분류하는 WarpDemuX의 개념과 성능을 요약한 내용입니다.
3. 실험 방법 요약 (Methods 핵심 정리)
3-1. Barcode 위치와 라이브러리 구성
- barcode는 RTA (RNA sequencing adapter) 내부에 포함
- 별도의 RNA barcode ligation 없이 기존 dRNA-seq 워크플로우 유지
- training을 위해
- RNA transcript 내부에 in-line RNA barcode 삽입
- 이를 ground truth label로 사용
이 방식으로 “어떤 RTA barcode가 어떤 샘플인지”를 정확히 매칭하였습니다.
3-2. Raw signal 처리 과정
- raw current signal에서 DNA adapter 구간 탐지
- adapter 신호를 여러 segment로 나누고 평균값 계산
- barcode가 포함된 마지막 25개 segment만 사용
- segment 간 시간 왜곡을 보정하기 위해 Dynamic Time Warping(DTW) 적용
이 과정을 통해 dwell time 변동이 큰 나노포어 신호에서도 안정적인 barcode fingerprint를 확보합니다.
![]() |
| 그림 2. Optimized barcodes improve WarpDemuX performance 본 그림은 WarpDemuX의 성능이 바코드 서열 자체의 설계에 의해 추가로 향상될 수 있음을 보여준다. (a) 먼저 서로 다른 파형(wave-like) 신호 패턴을 목표 신호로 설정한 뒤, DNA k-mer 신호 모델을 이용해 각 목표 신호와 유사한 바코드 후보를 선별한다. 이후 후보 바코드 간 Dynamic Time Warping Distance(DTWD)를 계산하여, 신호 공간에서 서로 가장 잘 구분되는 바코드 조합을 선택한다. (b) 이러한 단계적 필터링을 통해 가능한 모든 바코드 조합 중에서 계산량을 크게 줄이면서도, 신호 차이가 최대가 되도록 최적화된 12개의 RTA 바코드를 도출하였다. (c, d) 최적화된 바코드를 적용한 경우(WDX4, WDX12), 기존 바코드 대비 분류 정확도와 재현율이 향상되며, 바코드 수가 증가하더라도 높은 분류 성능이 유지됨을 확인할 수 있다. (e) confidence cutoff에 따라 unclassified read 비율과 정확도 간의 trade-off가 조절되며, 최적화된 바코드 세트가 동일 조건에서 더 우수한 성능을 보인다. (f) 바코드 수가 증가함에 따라 정확도와 yield가 점진적으로 감소하지만, 최적화된 바코드를 사용한 경우 그 감소 폭이 완만하여 WarpDemuX의 확장 가능성을 시사한다. |
본 그림은 DTWD 기반으로 신호 공간에서 서로 최대한 구분되도록 설계된 RTA 바코드 세트를 사용함으로써, WarpDemuX의 분류 정확도와 확장성이 크게 향상됨을 보여줍니다.
3-3. 분류 모델
- SVM + DTW distance kernel
- barcode 간 DTW 거리를 기반으로 확률 계산
- confidence score를 도입하여
- 정확도 vs yield를 사용자 목적에 맞게 조절 가능
- noise class를 따로 정의해 비정상 신호 제거
결과적으로 DeePlexiCon 대비 10배 빠른 속도, 더 높은 정확도를 달성
4. Barcode 최적 설계: 12개 barcode까지 안정적 확장
논문에서는 barcode 자체도 새롭게 설계했습니다.
- DTW distance가 최대가 되도록 signal space에서 분리
- in silico k-mer signal 모델을 이용해 후보 barcode 선별
- 최종적으로 12개 optimized barcode (WDX12) 도출
그 결과:
- 12-plex에서도 ~98–99% 정확도
- 이론적으로 24-plex까지 확장 가능성 제시
5. 실제 적용 사례: SARS-CoV-2 감염 실험
WarpDemuX의 성능은 실제 바이러스 감염 실험에서도 검증되었습니다.
- SARS-CoV-2 WT vs GFP 변이
- 여러 시간대(8, 24, 48, 72 hpi) 샘플을 하나의 flow cell에서 동시 분석
- 결과:
- subgenomic RNA 조성 변화 추적
- poly(A) tail 길이의 시간 의존적 변화 관찰
- 샘플 간 cross-contamination 최소화
멀티플렉싱 덕분에 배치 효과 없이 감염 kinetics를 비교할 수 있었다는 점이 인상적입니다.
6. Barcode-specific adaptive sampling까지
WarpDemuX의 가장 강력한 확장은 실시간 adaptive sampling입니다.
- poly(A) tail이 pore에 들어온 직후 (<200 ms)
- barcode를 판별하고
- 필요 없는 샘플은 즉시 eject
이를 통해:
- barcode 간 read 수 균형 유지
- low-abundance 샘플 최대 ~70% enrichment
- pore 점유 시간 감소 → flow cell 효율 증가
![]() |
| WarpDemux를 이용한 실시간 바코드 밸런싱 개념도 및 성능 평가 결과. Poly(A) 신호가 감지되면 WarpDemux가 전류 신호를 기반으로 바코드를 초고속 분류하고, 바코드별 누적 데이터량에 따라 리드를 유지(retain)하거나 차단(reject)하여 시퀀싱을 제어합니다. 이를 통해 바코드 간 데이터 불균형을 완화할 수 있으며, 특히 낮은 abundance 샘플에서 read 수가 유의하게 증가함을 확인하였습니다. |
7. 정리하며
이 논문은 단순히 “demultiplexing 툴 하나”를 제시한 것이 아닙니다.
- dRNA-seq의 구조적 한계였던 멀티플렉싱 문제 해결
- basecalling에 의존하지 않는 새로운 패러다임 제시
- 실시간 adaptive sampling과의 자연스러운 결합
앞으로 dRNA-seq이 임상, 감염병, epitranscriptomics 분야로 확장되는 데 WarpDemuX는 매우 중요한 역할을 하게 될 것으로 보입니다.
https://www.nature.com/articles/s41467-025-59102-9


