본문 바로가기
나노포어 분석/분석 도구

[분석/Virus] Nanopore viral genome assembly pipeline BonoboFlow: haplotype reconstruction까지 가능한 분석 방법

by youngmun 2026. 4. 3.

BonoboFlow: viral genome assembly and haplotype reconstruction from nanopore reads

Nanopore 데이터를 위한 새로운 표준 파이프라인 - BonoboFlow로 보는 viral genome assembly와 haplotype 분석

 

1. 연구 배경

바이러스 유전체 분석은 다음과 같은 목적에서 매우 중요합니다.

  • 바이러스 다양성 이해
  • 변이 추적
  • 전파 및 진화 분석

하지만 기존 방법에는 한계가 있습니다.


기존 기술의 문제점

Sanger sequencing

  • 정확하지만
  • 낮은 throughput, 높은 비용

Illumina (short-read)

  • 높은 정확도
  • 하지만
    • genome fragmentation 발생
    • 반복 영역 분석 어려움

Long-read (Nanopore)의 장점과 한계

Nanopore는

  • 긴 read → 구조 분석에 유리
  • field에서도 사용 가능
  • 비용 효율적

하지만

  • 표준화된 분석 pipeline 부족

2. 이 논문의 핵심

이 논문은 이러한 문제를 해결하기 위해 BonoboFlow라는 ONT 기반 viral genome 분석 pipeline을 개발


3. BonoboFlow란 무엇인가

BonoboFlow는

  • ONT raw 데이터부터
  • 최종 viral genome까지
end-to-end pipeline 입니다.

4. Pipeline 구성 

주요 단계:

  1. Basecalling (Dorado)
  2. Adapter 제거 및 QC
  3. Demultiplexing
  4. Host/contamination 제거
  5. Error correction (VeChat)
  6. Genome assembly (Flye) 또는
    Haplotype reconstruction (Strainline)
  7. Polishing (Medaka)
  8. Frame correction

최종 결과: 정확한 consensus genome + haplotype


5. 기존 pipeline과의 차별점

기존 도구들의 문제:

  • basecalling 없음 (전처리 필요)
  • 일부는 assembly만 수행
  • 일부는 error correction 없음
BonoboFlow는 모든 단계를 하나로 통합한 pipeline

6. 성능 평가

6.1 Simulation 데이터 결과

다양한 바이러스 (Zika, HIV, Polio 등)에서:

  • 대부분 99% 이상 정확도
  • 일부는 100% 유사도 달성

이 논문에서 제시된 다양한 바이러스(Polio, Zika, Adenovirus, Vaccinia 등)는 모두 실제 실험에서 생성된 데이터가 아니라, pipeline 성능 평가를 위해 시뮬레이션으로 생성된 데이터이다. 연구에서는 PBSIM2를 이용하여 Nanopore long-read 특성을 반영한 가상의 데이터를 생성하고, 이를 통해 다양한 genome 크기와 복잡도에서 BonoboFlow의 성능을 검증하였다.

반면, 실제 실험 데이터는 HIV-1 샘플에 대해서만 수행되었으며, 이 경우 RNA 추출과 cDNA 합성 후 nested PCR을 통해 약 4.7 kb 길이의 amplicon을 생성하고 Nanopore sequencing을 진행하였다. 즉, 본 연구는 시뮬레이션 데이터로 알고리즘 성능을 평가하고, 실제 데이터로 적용 가능성을 검증하는 구조로 설계되었다.


6.2 기존 툴과 비교

비교 대상:

  • AccuVIR
  • Strainline
  • Genome Detective

결과:

  • 전반적으로 유사하거나 더 안정적인 성능
  • 일부 툴은
    • 결과 생성 실패
    • 메모리 문제 발생

6.3 실제 HIV 데이터 결과

  • 평균 유사도: 약 96–99%
  • phylogenetic tree에서도
    → 결과가 서로 잘 clustering됨


7. 중요한 기능: Haplotype reconstruction

이 논문에서 중요한 포인트: BonoboFlow는 단순 genome assembly가 아니라 haplotype*까지 복원 가능

*한 샘플 안에 존재하는 서로 다른 바이러스 변이 집단

 

 

왜 중요한가

RNA 바이러스 특징:

  • mutation rate 높음
  • 한 샘플 내에서도 여러 variant 존재

→ 이를 quasispecies라고 함

BonoboFlow는

  • 하나의 consensus가 아니라
  • 여러 haplotype을 분리해서 분석 가능

8. 성능 및 효율성

  • 2.1GB 데이터 처리 시간: 약 1시간
  • HPC뿐 아니라 일반 환경에서도 사용 가능
  • Docker/Singularity 지원

9. 한계

논문에서 언급한 제한점:

  • 큰 바이러스 genome에서는 성능 저하
  • 반복 구조가 많은 경우 어려움
  • haplotype reconstruction이 가장 느린 단계

10. 활용 분야

BonoboFlow는 다음 분야에서 활용 가능:

  • 바이러스 surveillance
  • outbreak 분석
  • variant tracking
  • phylogenetic analysis
  • clinical 및 veterinary 연구

11. 핵심 메시지

이 논문의 핵심은 다음입니다.

  • Nanopore 데이터는 강력하지만
    → 분석 pipeline이 중요하다
  • BonoboFlow는
    → ONT 데이터를 처음부터 끝까지 처리하는 표준화된 workflow

12. 한 줄 요약

Nanopore 기반 viral sequencing에서 정확한 genome과 haplotype 분석을 가능하게 하는 통합 pipeline이 BonoboFlow 입니다.

https://academic.oup.com/bioinformaticsadvances/article/5/1/vbaf115/8129560