→ 먼저, CpG 메틸화는 무엇인가요?
- DNA에는 C(사이토신)과 G(구아닌)이 나란히 있는 구간을 CpG라고 합니다.
- 이 CpG 위치에서 C가 메틸화(5mC)되면 유전자 발현에 영향을 줄 수 있습니다.
- 그래서 어디가 메틸화됐는지 알아내는게 중요합니다.

기존 시퀀싱 방식 (Traditional sequencing)
과정 설명:
- Run 1: 일반 라이브러리 시퀀싱
PCR(증폭 과정)을 거치면서 메틸화 정보는 사라짐 - Run 2: Bisulfite 처리한 라이브러리 시퀀싱
Bisulfite 처리를 하면 메틸화되지 않은 C → U(우라실) → T(티민)으로 변환
반대로, 메틸화된 C는 변화 없이 그대로 남음
결과 비교
두 시퀀싱 결과를 비교해서 어떤 C가 메틸화되어 있었는지 추정함
나노포어 시퀀싱 방식:
- 나노포어 기술은 DNA 및 RNA를 PCR없이, 그대로 통과(read native)시킴
- 전기 신호의 차이로 c와 5mC 등의 메틸레이션을 구분함
- 한 번의 시퀀싱으로 정확히 감지 가능

Remora 소프트웨어는 Dorado에서 사용되는 변형된 베이스 모델을 학습하는 데 사용된 도구입니다.
- Remora의 장점은 작은 신호 조각만 있어도 분석 가능
- 나노포어 기반 메틸화 분석 정확도 최고 수준
- 모델 학습도 빠르게 가능
→ 5mC 감지 모델 학습에 약 11시간 30분 정도면 충분
변형 염기 데이터를 만드는 방법
DNA에는 C(사이토신)이라는 염기가 특정 위치에서 메틸화(5mC)되기도 합니다.
이런 변혐 염기를 정확하게 감지하려면, 모델을 훈련시길 때 어디가 메틸화되어 있는지 정답을 아는 샘플이 필요합니다.

샘플을 만드는 방법은 크게 두 가지입니다:
실험실에서 만든 DNA (Synthetically created)
G: Ground truth oligonucleotides: 검증에 사용
- 짧은 DNA 조각을 직접 합성하면서, 특정 위치에 메틸화된 염기(5mC)를 일부러 넣은 샘플
어디가 메틸화됐는지 정확하게 알고 있어서, 모델 성능을 평가하거나 검증할 때 사용됩니다.
R: Randomer (랜덤 시퀀스): Training에 사용
- DNA 중간에 메틸화된 염기(C/5mc-G)를 고정해 놓고, 양쪽에는 무작위 염기를 넣는 방법
- 다양한 염기 환경에서 메틸화된 염기를 학습할 수 있도록 만든 구조입니다.
모델을 훈련(training)하는 데 가장 많이 사용됩니다.
실제 생물에서 얻은 DNA (Biologically derived)
N: Native (자연 그대로)
- 사람이나 박테리아, 식물 등에서 추출한 DNA
- 그 유전체에 원래부터 존재하던 자연 메틸화 정보를 갖고 있습니다.
- 현실적이지만, 어디가 메틸화된 건지 완벽하게 알기 어렵습니다.
E: Enzymatic (효소 처리): Training에 사용
- M.Sssl 같은 메틸화 효소를 이용해 CpG 부분을 강제로 메틸화 시킨 DNA입니다.
- 변형된 위치는 예측 가능하지만, 완전한 정답 데이터는 아닙니다.
D: Second strand doping (이중가닥 도핑)
- 한 가닥은 메틸화하고, 다른 가닥은 안하는 방식입니다.
- 두 가지 상태를 동시에 비교할 수 있어 분석 훈련용으로 적합합니다.
Remora는 C / 5mC / 5hmC를 매우 높은 정확도로 구분하고 있습니다.

Nanopore + Remora는 bisulfite보다 더 정확하게 메틸화 염기를 감지할 수 있습니다.

Remora training 하는 방법

전체 흐름 요약:
1. Signal (POD5)
- 나노포어 기기가 생성한 원시 전기 신호 데이터
- 파일 형식: .pod5
2. Basecalls (BAM)
- Basecaller가 신호를 해독한 염기서열 (A/T/G/C)
- move table 정보가 들어 있어야 함.
- 파일 형식: .bam
3. Ground truth modifications (BED)
- 변형 염기가 존재하는 위치를 알려주는 정답 정보
- 파일 형식: .bed
- 또는 특정 모티프를 직접 지정할수 있음 (예: CpG에서 5mC 감지)
만약 BED없이 학습을 하기 위해서는 변형된 샘플(modified)와 비변형 샘플(unmodified)
→ 두 종류의 POD5 + BAM 데이터가 모두 필요함.
이때 Remora에서 --mod-base와 --motif 옵션을 사용할 수 있음.
remora \
dataset prepare \
can_reads.pod5 \
can_mappings.bam \
--output-path can_chunks \
--refine-kmer-level-table levels.txt \
--refine-rough-rescale \
--motif CG 0 \
--mod-base-control
remora \
dataset prepare \
mod_reads.pod5 \
mod_mappings.bam \
--output-path mod_chunks \
--refine-kmer-level-table levels.txt \
--refine-rough-rescale \
--motif CG 0 \
--mod-base m 5mC
이 세 가지 데이터를 합쳐서 Remora dataset을 만듬 → 모델 학습을 위한 학습자료
4. Remora dataset → Remora train
- 데이터셋을 기반으로 딥러닝 학습 시작
- 내부적으로 신경망이 학습해서 어떤 신호가 변형된 염기인지 학습
5. Remora model
- 학습이 끝나면, 나만의 Remora 모델 생성
- 이 모델은 이후 Dorado 같은 basecaller에 붙여서 메틸화 감지에 사용 가능
참고자료: Marcus Stoiber 동영상 자료
https://www.youtube.com/watch?v=01Q6_6SzLxo
참고자료: Remora
https://github.com/nanoporetech/remora
'공부자료' 카테고리의 다른 글
| [Isoform] Long-read RNA 시퀀싱 기반 mRNA 아이소폼 탐지 도구의 종합 성능 평가 (Nature 2024) (0) | 2025.12.18 |
|---|---|
| FSHD의 유전적 다양성과 복잡성: 왜 진단이 어려운가? (0) | 2025.12.11 |
| PCR이란 무엇일까? (0) | 2025.12.03 |
| Nanopore에서 SSP가 무엇인지, 왜 필요한지, 그리고 대안은 무엇인지 쉽게 정리해보기 (0) | 2025.12.03 |
| DNA를 '쓴다'는 건 무슨 뜻일까? (0) | 2025.04.25 |