[분석/Virus] Nanopore viral genome assembly pipeline BonoboFlow: haplotype reconstruction까지 가능한 분석 방법

BonoboFlow: viral genome assembly and haplotype reconstruction from nanopore reads

Nanopore 데이터를 위한 새로운 표준 파이프라인 - BonoboFlow로 보는 viral genome assembly와 haplotype 분석

1. 연구 배경

바이러스 유전체 분석은 다음과 같은 목적에서 매우 중요합니다.

바이러스 다양성 이해
변이 추적
전파 및 진화 분석

하지만 기존 방법에는 한계가 있습니다.

기존 기술의 문제점

Sanger sequencing

정확하지만
낮은 throughput, 높은 비용

Illumina (short-read)

높은 정확도
하지만
- genome fragmentation 발생
- 반복 영역 분석 어려움

Long-read (Nanopore)의 장점과 한계

Nanopore는

긴 read → 구조 분석에 유리
field에서도 사용 가능
비용 효율적

하지만

표준화된 분석 pipeline 부족

2. 이 논문의 핵심

이 논문은 이러한 문제를 해결하기 위해 BonoboFlow라는 ONT 기반 viral genome 분석 pipeline을 개발

3. BonoboFlow란 무엇인가

BonoboFlow는

ONT raw 데이터부터
최종 viral genome까지

end-to-end pipeline 입니다.

4. Pipeline 구성

주요 단계:

Basecalling (Dorado)
Adapter 제거 및 QC
Demultiplexing
Host/contamination 제거
Error correction (VeChat)
Genome assembly (Flye) 또는
Haplotype reconstruction (Strainline)
Polishing (Medaka)
Frame correction

최종 결과: 정확한 consensus genome + haplotype

5. 기존 pipeline과의 차별점

기존 도구들의 문제:

basecalling 없음 (전처리 필요)
일부는 assembly만 수행
일부는 error correction 없음

BonoboFlow는 모든 단계를 하나로 통합한 pipeline

6. 성능 평가

6.1 Simulation 데이터 결과

다양한 바이러스 (Zika, HIV, Polio 등)에서:

대부분 99% 이상 정확도
일부는 100% 유사도 달성

이 논문에서 제시된 다양한 바이러스(Polio, Zika, Adenovirus, Vaccinia 등)는 모두 실제 실험에서 생성된 데이터가 아니라, pipeline 성능 평가를 위해 시뮬레이션으로 생성된 데이터이다. 연구에서는 PBSIM2를 이용하여 Nanopore long-read 특성을 반영한 가상의 데이터를 생성하고, 이를 통해 다양한 genome 크기와 복잡도에서 BonoboFlow의 성능을 검증하였다.

반면, 실제 실험 데이터는 HIV-1 샘플에 대해서만 수행되었으며, 이 경우 RNA 추출과 cDNA 합성 후 nested PCR을 통해 약 4.7 kb 길이의 amplicon을 생성하고 Nanopore sequencing을 진행하였다. 즉, 본 연구는 시뮬레이션 데이터로 알고리즘 성능을 평가하고, 실제 데이터로 적용 가능성을 검증하는 구조로 설계되었다.

6.2 기존 툴과 비교

비교 대상:

AccuVIR
Strainline
Genome Detective

결과:

전반적으로 유사하거나 더 안정적인 성능
일부 툴은
- 결과 생성 실패
- 메모리 문제 발생

6.3 실제 HIV 데이터 결과

평균 유사도: 약 96–99%
phylogenetic tree에서도
→ 결과가 서로 잘 clustering됨

7. 중요한 기능: Haplotype reconstruction

이 논문에서 중요한 포인트: BonoboFlow는 단순 genome assembly가 아니라 haplotype*까지 복원 가능

*한 샘플 안에 존재하는 서로 다른 바이러스 변이 집단

왜 중요한가

RNA 바이러스 특징:

mutation rate 높음
한 샘플 내에서도 여러 variant 존재

→ 이를 quasispecies라고 함

BonoboFlow는

하나의 consensus가 아니라
여러 haplotype을 분리해서 분석 가능

8. 성능 및 효율성

2.1GB 데이터 처리 시간: 약 1시간
HPC뿐 아니라 일반 환경에서도 사용 가능
Docker/Singularity 지원

9. 한계

논문에서 언급한 제한점:

큰 바이러스 genome에서는 성능 저하
반복 구조가 많은 경우 어려움
haplotype reconstruction이 가장 느린 단계

10. 활용 분야

BonoboFlow는 다음 분야에서 활용 가능:

바이러스 surveillance
outbreak 분석
variant tracking
phylogenetic analysis
clinical 및 veterinary 연구

11. 핵심 메시지

이 논문의 핵심은 다음입니다.

Nanopore 데이터는 강력하지만
→ 분석 pipeline이 중요하다
BonoboFlow는
→ ONT 데이터를 처음부터 끝까지 처리하는 표준화된 workflow

12. 한 줄 요약

Nanopore 기반 viral sequencing에서 정확한 genome과 haplotype 분석을 가능하게 하는 통합 pipeline이 BonoboFlow 입니다.

https://academic.oup.com/bioinformaticsadvances/article/5/1/vbaf115/8129560

'나노포어 분석 > 분석 도구' 카테고리의 다른 글

[분석/Somatic] lrsomatic — 롱리드 기반 암 체세포 변이(SNV·SV·CNV) 올인원 분석 파이프라인 (0)	2025.12.11
[분석/DRS] SingleMod — Nanopore Direct RNA 시퀀싱 기반 단일 분자 m6A 변형 검출 도구 (0)	2025.12.05
[분석] Egzotek — Long-read 기반 비모델 생물 전사체(annotation) 구축 워크플로우 (0)	2025.12.04
[분석/Assembly] MIRA: 인플루엔자·SARS-CoV-2·RSV 유전체 조립·어노테이션 대시보드 (0)	2025.11.28
[분석] PIMENTA: PIpeline for MEtabarcoding through Nanopore Technology used for Authentication (0)	2025.09.02

[분석/Virus] Nanopore viral genome assembly pipeline BonoboFlow: haplotype reconstruction까지 가능한 분석 방법

'나노포어 분석 > 분석 도구' 카테고리의 다른 글

관련글

티스토리툴바