본문 바로가기
공부자료

[Methylation] 나노포어 메틸레이션 관련 정보

by youngmun 2025. 6. 27.

→ 먼저, CpG 메틸화는 무엇인가요?

  • DNA에는 C(사이토신)과 G(구아닌)이 나란히 있는 구간을 CpG라고 합니다.
  • 이 CpG 위치에서 C가 메틸화(5mC)되면 유전자 발현에 영향을 줄 수 있습니다.
  • 그래서 어디가 메틸화됐는지 알아내는게 중요합니다.

DNA 또는 RNA의 CpG 메틸화(methylation)를 어떻게 측정하는지를 전통적인 시퀀싱 방식과 나노포어 방식 을 비교

 

기존 시퀀싱 방식 (Traditional sequencing)

과정 설명: 

  1. Run 1: 일반 라이브러리 시퀀싱
    PCR(증폭 과정)을 거치면서 메틸화 정보는 사라짐

  2. Run 2: Bisulfite 처리한 라이브러리 시퀀싱
    Bisulfite 처리를 하면 메틸화되지 않은 C U(우라실) T(티민)으로 변환
    반대로, 메틸화된 C는 변화 없이 그대로 남음

결과 비교
두 시퀀싱 결과를 비교해서 어떤 C가 메틸화되어 있었는지 추정함


나노포어 시퀀싱 방식: 

  • 나노포어 기술은 DNA 및 RNA를 PCR없이, 그대로 통과(read native)시킴
  • 전기 신호의 차이로 c와 5mC 등의 메틸레이션을 구분함
  • 한 번의 시퀀싱으로 정확히 감지 가능

Remora 소프트웨어는 Dorado에서 사용되는 변형된 베이스 모델을 학습하는 데 사용된 도구입니다.

  • Remora의 장점은 작은 신호 조각만 있어도 분석 가능
  • 나노포어 기반 메틸화 분석 정확도 최고 수준
  • 모델 학습도 빠르게 가능
    → 5mC 감지 모델 학습에 약 11시간 30분 정도면 충분

변형 염기 데이터를 만드는 방법

DNA에는 C(사이토신)이라는 염기가 특정 위치에서 메틸화(5mC)되기도 합니다.

이런 변혐 염기를 정확하게 감지하려면, 모델을 훈련시길 때 어디가 메틸화되어 있는지 정답을 아는 샘플이 필요합니다.

샘플을 만드는 방법은 크게 두 가지입니다:

 

실험실에서 만든 DNA (Synthetically created)

 

G: Ground truth oligonucleotides: 검증에 사용

  • 짧은 DNA 조각을 직접 합성하면서, 특정 위치에 메틸화된 염기(5mC)를 일부러 넣은 샘플
    어디가 메틸화됐는지 정확하게 알고 있어서, 모델 성능을 평가하거나 검증할 때 사용됩니다.

R: Randomer (랜덤 시퀀스): Training에 사용

  • DNA 중간에 메틸화된 염기(C/5mc-G)를 고정해 놓고, 양쪽에는 무작위 염기를 넣는 방법
  • 다양한 염기 환경에서 메틸화된 염기를 학습할 수 있도록 만든 구조입니다.
    모델을 훈련(training)하는 데 가장 많이 사용됩니다.

실제 생물에서 얻은 DNA (Biologically derived)

 

N: Native (자연 그대로)

  • 사람이나 박테리아, 식물 등에서 추출한 DNA
  • 그 유전체에 원래부터 존재하던 자연 메틸화 정보를 갖고 있습니다.
  • 현실적이지만, 어디가 메틸화된 건지 완벽하게 알기 어렵습니다.

E: Enzymatic (효소 처리): Training에 사용

  • M.Sssl 같은 메틸화 효소를 이용해 CpG 부분을 강제로 메틸화 시킨 DNA입니다.
  • 변형된 위치는 예측 가능하지만, 완전한 정답 데이터는 아닙니다.

D: Second strand doping (이중가닥 도핑)

  • 한 가닥은 메틸화하고, 다른 가닥은 안하는 방식입니다.
  • 두 가지 상태를 동시에 비교할 수 있어 분석 훈련용으로 적합합니다.

Remora는 C / 5mC / 5hmC를 매우 높은 정확도로 구분하고 있습니다.


Nanopore + Remora는 bisulfite보다 더 정확하게 메틸화 염기를 감지할 수 있습니다.


Remora training 하는 방법

 

전체 흐름 요약:

 

1. Signal (POD5)

  • 나노포어 기기가 생성한 원시 전기 신호 데이터
  • 파일 형식: .pod5

2. Basecalls (BAM)

  • Basecaller가 신호를 해독한 염기서열 (A/T/G/C)
  • move table 정보가 들어 있어야 함.
  • 파일 형식: .bam

3. Ground truth modifications (BED)

  • 변형 염기가 존재하는 위치를 알려주는 정답 정보
  • 파일 형식: .bed
  • 또는 특정 모티프를 직접 지정할수 있음 (예: CpG에서 5mC 감지)

만약 BED없이 학습을 하기 위해서는 변형된 샘플(modified)와 비변형 샘플(unmodified) 

→ 두 종류의 POD5 + BAM 데이터가 모두 필요함.

이때 Remora에서 --mod-base와 --motif 옵션을 사용할 수 있음.

remora \
  dataset prepare \
  can_reads.pod5 \
  can_mappings.bam \
  --output-path can_chunks \
  --refine-kmer-level-table levels.txt \
  --refine-rough-rescale \
  --motif CG 0 \
  --mod-base-control
remora \
  dataset prepare \
  mod_reads.pod5 \
  mod_mappings.bam \
  --output-path mod_chunks \
  --refine-kmer-level-table levels.txt \
  --refine-rough-rescale \
  --motif CG 0 \
  --mod-base m 5mC

 

이 세 가지 데이터를 합쳐서 Remora dataset을 만듬 모델 학습을 위한 학습자료

 

4. Remora dataset → Remora train

  • 데이터셋을 기반으로 딥러닝 학습 시작
  • 내부적으로 신경망이 학습해서 어떤 신호가 변형된 염기인지 학습

5. Remora model

  • 학습이 끝나면, 나만의 Remora 모델 생성
  • 이 모델은 이후 Dorado 같은 basecaller에 붙여서 메틸화 감지에 사용 가능

참고자료: Marcus Stoiber 동영상 자료

https://www.youtube.com/watch?v=01Q6_6SzLxo

 

참고자료: Remora

https://github.com/nanoporetech/remora