[Methylation] 나노포어 메틸레이션 관련 정보

→ 먼저, CpG 메틸화는 무엇인가요?

DNA에는 C(사이토신)과 G(구아닌)이 나란히 있는 구간을 CpG라고 합니다.
이 CpG 위치에서 C가 메틸화(5mC)되면 유전자 발현에 영향을 줄 수 있습니다.
그래서 어디가 메틸화됐는지 알아내는게 중요합니다.

DNA 또는 RNA의 CpG 메틸화(methylation)를 어떻게 측정하는지를 전통적인 시퀀싱 방식과 나노포어 방식 을 비교

기존 시퀀싱 방식 (Traditional sequencing)

과정 설명:

Run 1: 일반 라이브러리 시퀀싱
PCR(증폭 과정)을 거치면서 메틸화 정보는 사라짐
Run 2: Bisulfite 처리한 라이브러리 시퀀싱
Bisulfite 처리를 하면 메틸화되지 않은 C → U(우라실) → T(티민)으로 변환
반대로, 메틸화된 C는 변화 없이 그대로 남음

결과 비교
두 시퀀싱 결과를 비교해서 어떤 C가 메틸화되어 있었는지 추정함

나노포어 시퀀싱 방식:

나노포어 기술은 DNA 및 RNA를 PCR없이, 그대로 통과(read native)시킴
전기 신호의 차이로 c와 5mC 등의 메틸레이션을 구분함
한 번의 시퀀싱으로 정확히 감지 가능

Remora 소프트웨어는 Dorado에서 사용되는 변형된 베이스 모델을 학습하는 데 사용된 도구입니다.

Remora의 장점은 작은 신호 조각만 있어도 분석 가능
나노포어 기반 메틸화 분석 정확도 최고 수준
모델 학습도 빠르게 가능
→ 5mC 감지 모델 학습에 약 11시간 30분 정도면 충분

변형 염기 데이터를 만드는 방법

DNA에는 C(사이토신)이라는 염기가 특정 위치에서 메틸화(5mC)되기도 합니다.

이런 변혐 염기를 정확하게 감지하려면, 모델을 훈련시길 때 어디가 메틸화되어 있는지 정답을 아는 샘플이 필요합니다.

샘플을 만드는 방법은 크게 두 가지입니다:

실험실에서 만든 DNA (Synthetically created)

G: Ground truth oligonucleotides: 검증에 사용

짧은 DNA 조각을 직접 합성하면서, 특정 위치에 메틸화된 염기(5mC)를 일부러 넣은 샘플
어디가 메틸화됐는지 정확하게 알고 있어서, 모델 성능을 평가하거나 검증할 때 사용됩니다.

R: Randomer (랜덤 시퀀스): Training에 사용

DNA 중간에 메틸화된 염기(C/5mc-G)를 고정해 놓고, 양쪽에는 무작위 염기를 넣는 방법
다양한 염기 환경에서 메틸화된 염기를 학습할 수 있도록 만든 구조입니다.
모델을 훈련(training)하는 데 가장 많이 사용됩니다.

실제 생물에서 얻은 DNA (Biologically derived)

N: Native (자연 그대로)

사람이나 박테리아, 식물 등에서 추출한 DNA
그 유전체에 원래부터 존재하던 자연 메틸화 정보를 갖고 있습니다.
현실적이지만, 어디가 메틸화된 건지 완벽하게 알기 어렵습니다.

E: Enzymatic (효소 처리): Training에 사용

M.Sssl 같은 메틸화 효소를 이용해 CpG 부분을 강제로 메틸화 시킨 DNA입니다.
변형된 위치는 예측 가능하지만, 완전한 정답 데이터는 아닙니다.

D: Second strand doping (이중가닥 도핑)

한 가닥은 메틸화하고, 다른 가닥은 안하는 방식입니다.
두 가지 상태를 동시에 비교할 수 있어 분석 훈련용으로 적합합니다.

Remora는 C / 5mC / 5hmC를 매우 높은 정확도로 구분하고 있습니다.

Nanopore + Remora는 bisulfite보다 더 정확하게 메틸화 염기를 감지할 수 있습니다.

Remora training 하는 방법

전체 흐름 요약:

1. Signal (POD5)

나노포어 기기가 생성한 원시 전기 신호 데이터
파일 형식: .pod5

2. Basecalls (BAM)

Basecaller가 신호를 해독한 염기서열 (A/T/G/C)
move table 정보가 들어 있어야 함.
파일 형식: .bam

3. Ground truth modifications (BED)

변형 염기가 존재하는 위치를 알려주는 정답 정보
파일 형식: .bed
또는 특정 모티프를 직접 지정할수 있음 (예: CpG에서 5mC 감지)

만약 BED없이 학습을 하기 위해서는 변형된 샘플(modified)와 비변형 샘플(unmodified)

→ 두 종류의 POD5 + BAM 데이터가 모두 필요함.

이때 Remora에서 --mod-base와 --motif 옵션을 사용할 수 있음.

remora \
  dataset prepare \
  can_reads.pod5 \
  can_mappings.bam \
  --output-path can_chunks \
  --refine-kmer-level-table levels.txt \
  --refine-rough-rescale \
  --motif CG 0 \
  --mod-base-control
remora \
  dataset prepare \
  mod_reads.pod5 \
  mod_mappings.bam \
  --output-path mod_chunks \
  --refine-kmer-level-table levels.txt \
  --refine-rough-rescale \
  --motif CG 0 \
  --mod-base m 5mC

이 세 가지 데이터를 합쳐서 Remora dataset을 만듬 → 모델 학습을 위한 학습자료

4. Remora dataset → Remora train

데이터셋을 기반으로 딥러닝 학습 시작
내부적으로 신경망이 학습해서 어떤 신호가 변형된 염기인지 학습

5. Remora model

학습이 끝나면, 나만의 Remora 모델 생성
이 모델은 이후 Dorado 같은 basecaller에 붙여서 메틸화 감지에 사용 가능

참고자료: Marcus Stoiber 동영상 자료

https://www.youtube.com/watch?v=01Q6_6SzLxo

참고자료: Remora

https://github.com/nanoporetech/remora

'공부자료' 카테고리의 다른 글

[Isoform] Long-read RNA 시퀀싱 기반 mRNA 아이소폼 탐지 도구의 종합 성능 평가 (Nature 2024) (0)	2025.12.18
FSHD의 유전적 다양성과 복잡성: 왜 진단이 어려운가? (0)	2025.12.11
PCR이란 무엇일까? (0)	2025.12.03
Nanopore에서 SSP가 무엇인지, 왜 필요한지, 그리고 대안은 무엇인지 쉽게 정리해보기 (0)	2025.12.03
DNA를 '쓴다'는 건 무슨 뜻일까? (0)	2025.04.25

[Methylation] 나노포어 메틸레이션 관련 정보

'공부자료' 카테고리의 다른 글

관련글

티스토리툴바