본문 바로가기
나노포어 논문/Microbiology

[WGS] Bacterial genotyping과 methylation 분석을 위한 raw signal 데이터셋

by youngmun 2026. 1. 8.

A whole-genome sequencing dataset of nanopore raw signals for bacterial genotyping and methylation analysis

 

이 논문은 박테리아 전장유전체(WGS)를 Oxford Nanopore로 시퀀싱하고,
염기서열뿐 아니라 raw signal(전류 신호)까지 함께 공개한 데이터셋(Data Descriptor) 논문입니다.

어떤 데이터를 만들었나?

대상

  • 박테리아 6종, 총 79개 strain
    • 1 Enterococcus faecalis(El)
    • 19 Enterococcus faecium(Ef)
    • 20 Klebsiella pneumoniae(Kp)
    • 20 Listeria monocytogenes(Lm)
    • 18 Staphylococcus aureus(Sa)
    • 1 Staphylococcus simulans(Ss)
      총 79 strains
  • genotyping(균주 구분)과 DNA methylation 분석이 가능한 수준

사용 기술

  • Oxford Nanopore sequencing
  • Native Barcoding Kit 24 V14 (SQK-NBD114.24)
  • R10.4.1 Flow Cells (MinION or GridION)
  • FASTQ (basecalled reads)
  • FAST5 / POD5 (raw electrical signal)

핵심 포인트:
염기서열만이 아니라 “원본 전류 신호”를 그대로 제공


왜 raw signal이 중요한가?

Nanopore는 단순히 A/T/G/C를 읽는 게 아니라,

DNA가 pore를 통과할 때 흐르는 전류 패턴(signal)을 측정합니다.

 

이 raw signal에는:

  • 염기서열 정보
  • DNA modification 정보 (예: 6mA, 5mC, 4mC)가 동시에 포함되어 있음

즉,

  • basecalling 결과만 있으면 → 서열 분석만 가능
  • raw signal이 있으면 → methylation 분석, 새로운 modification 탐지, 알고리즘 개발 가능
이는 short-read 플랫폼에서는 원천적으로 제공할 수 없는 Nanopore 고유의 장점입니다.

이 데이터셋으로 무엇을 할 수 있나?

1. 박테리아 genotyping

  • 균주 간 SNP / 구조 차이 비교
  • outbreak 분석
  • reference 기반 or de novo 분석

2. DNA methylation 분석

  • 6mA, 5mC, 4mC 등 박테리아 특이적 methylation
  • restriction–modification system 연구
  • epigenetic regulation 분석

3. 알고리즘 개발

이 논문이 특히 중요한 이유:

  • 새로운 basecaller
  • 새로운 methylation caller
  • raw signal 기반 ML 모델을 검증할 수 있는 표준 데이터셋으로 사용 가능

 

왜 “박테리아”가 중요한가?

박테리아는:

  • methylation 패턴이 다양
  • 종/균주마다 epigenome이 다름
  • 실험 반복이 쉬움

Nanopore methylation 분석의 교과서 같은 모델 시스템


이 논문의 의미

이 논문은 아래와 같은 중요한 메시지를 줍니다.

 

“Nanopore는 시퀀싱 플랫폼이 아니라, 신호(signal) 플랫폼이다.”

 

  • Raw signal 공개
  • 재분석 가능
  • future-proof 데이터
특히 Dorado / Remora / 자체 ML 모델을 통해
direct detection of base modification을 공부하는 사람에게 교과서급 데이터셋입니다.

한 줄 정리

이 논문은 박테리아 전장유전체를 나노포어로 시퀀싱하며,
염기서열뿐 아니라 원본 전류 신호(raw signal)를 함께 공개한 데이터셋 논문으로,
genotyping과 DNA methylation 분석, 그리고 차세대 알고리즘 개발의 기준 데이터를 제공합니다.

https://www.nature.com/articles/s41597-025-06319-4