BonoboFlow: viral genome assembly and haplotype reconstruction from nanopore reads
Nanopore 데이터를 위한 새로운 표준 파이프라인 - BonoboFlow로 보는 viral genome assembly와 haplotype 분석
1. 연구 배경
바이러스 유전체 분석은 다음과 같은 목적에서 매우 중요합니다.
- 바이러스 다양성 이해
- 변이 추적
- 전파 및 진화 분석
하지만 기존 방법에는 한계가 있습니다.
기존 기술의 문제점
Sanger sequencing
- 정확하지만
- 낮은 throughput, 높은 비용
Illumina (short-read)
- 높은 정확도
- 하지만
- genome fragmentation 발생
- 반복 영역 분석 어려움
Long-read (Nanopore)의 장점과 한계
Nanopore는
- 긴 read → 구조 분석에 유리
- field에서도 사용 가능
- 비용 효율적
하지만
- 표준화된 분석 pipeline 부족
2. 이 논문의 핵심
이 논문은 이러한 문제를 해결하기 위해 BonoboFlow라는 ONT 기반 viral genome 분석 pipeline을 개발
3. BonoboFlow란 무엇인가
BonoboFlow는
- ONT raw 데이터부터
- 최종 viral genome까지
end-to-end pipeline 입니다.
4. Pipeline 구성
주요 단계:
- Basecalling (Dorado)
- Adapter 제거 및 QC
- Demultiplexing
- Host/contamination 제거
- Error correction (VeChat)
- Genome assembly (Flye) 또는
Haplotype reconstruction (Strainline) - Polishing (Medaka)
- Frame correction
최종 결과: 정확한 consensus genome + haplotype
![]() |
![]() |
5. 기존 pipeline과의 차별점
기존 도구들의 문제:
- basecalling 없음 (전처리 필요)
- 일부는 assembly만 수행
- 일부는 error correction 없음
BonoboFlow는 모든 단계를 하나로 통합한 pipeline
6. 성능 평가
6.1 Simulation 데이터 결과
다양한 바이러스 (Zika, HIV, Polio 등)에서:
- 대부분 99% 이상 정확도
- 일부는 100% 유사도 달성
이 논문에서 제시된 다양한 바이러스(Polio, Zika, Adenovirus, Vaccinia 등)는 모두 실제 실험에서 생성된 데이터가 아니라, pipeline 성능 평가를 위해 시뮬레이션으로 생성된 데이터이다. 연구에서는 PBSIM2를 이용하여 Nanopore long-read 특성을 반영한 가상의 데이터를 생성하고, 이를 통해 다양한 genome 크기와 복잡도에서 BonoboFlow의 성능을 검증하였다.
반면, 실제 실험 데이터는 HIV-1 샘플에 대해서만 수행되었으며, 이 경우 RNA 추출과 cDNA 합성 후 nested PCR을 통해 약 4.7 kb 길이의 amplicon을 생성하고 Nanopore sequencing을 진행하였다. 즉, 본 연구는 시뮬레이션 데이터로 알고리즘 성능을 평가하고, 실제 데이터로 적용 가능성을 검증하는 구조로 설계되었다.
6.2 기존 툴과 비교
비교 대상:
- AccuVIR
- Strainline
- Genome Detective
결과:
- 전반적으로 유사하거나 더 안정적인 성능
- 일부 툴은
- 결과 생성 실패
- 메모리 문제 발생
6.3 실제 HIV 데이터 결과
- 평균 유사도: 약 96–99%
- phylogenetic tree에서도
→ 결과가 서로 잘 clustering됨

7. 중요한 기능: Haplotype reconstruction
이 논문에서 중요한 포인트: BonoboFlow는 단순 genome assembly가 아니라 haplotype*까지 복원 가능
*한 샘플 안에 존재하는 서로 다른 바이러스 변이 집단
왜 중요한가
RNA 바이러스 특징:
- mutation rate 높음
- 한 샘플 내에서도 여러 variant 존재
→ 이를 quasispecies라고 함
BonoboFlow는
- 하나의 consensus가 아니라
- 여러 haplotype을 분리해서 분석 가능
8. 성능 및 효율성
- 2.1GB 데이터 처리 시간: 약 1시간
- HPC뿐 아니라 일반 환경에서도 사용 가능
- Docker/Singularity 지원
9. 한계
논문에서 언급한 제한점:
- 큰 바이러스 genome에서는 성능 저하
- 반복 구조가 많은 경우 어려움
- haplotype reconstruction이 가장 느린 단계
10. 활용 분야
BonoboFlow는 다음 분야에서 활용 가능:
- 바이러스 surveillance
- outbreak 분석
- variant tracking
- phylogenetic analysis
- clinical 및 veterinary 연구
11. 핵심 메시지
이 논문의 핵심은 다음입니다.
- Nanopore 데이터는 강력하지만
→ 분석 pipeline이 중요하다 - BonoboFlow는
→ ONT 데이터를 처음부터 끝까지 처리하는 표준화된 workflow
12. 한 줄 요약
Nanopore 기반 viral sequencing에서 정확한 genome과 haplotype 분석을 가능하게 하는 통합 pipeline이 BonoboFlow 입니다.
https://academic.oup.com/bioinformaticsadvances/article/5/1/vbaf115/8129560

