본문 바로가기
나노포어 논문/RNA

[Isoform] Nanopore Long-read RNA 시퀀싱을 이용한 전사체(isoform) 분석 성능 벤치마크 연구

by youngmun 2025. 12. 19.

A systematic benchmark of Nanopore long-read RNA sequencing for transcript-level analysis in human cell lines

Nanopore Long-read RNA 시퀀싱을 이용한 전사체(isoform) 분석 벤치마크 연구 정리

 

Long-read RNA sequencing은 최근 transcriptome 연구에서 점점 더 중요해지고 있습니다. 특히 short-read 방식으로는 분리하기 어려웠던 ‘전사체(isoform)’ 정보를 풀랭스로 직접 읽을 수 있기 때문입니다. 이번 논문은 Nanopore의 다양한 RNA-seq 프로토콜이 인간 세포주에서 전사체 수준(transcript-level) 분석에 얼마나 정확하고 효율적인지 체계적으로 비교(benchmark)한 대규모 연구입니다.


1. 연구 목적

단일 유전자는 여러 개의 아이소폼(isoform)을 만들 수 있지만, 짧은 리드(short-read)로는 이 isoform들을 정확하게 구별하기 어렵습니다. 

 

논문의 목표는 다음과 같습니다:

 

“Nanopore long-read RNA sequencing이 transcript-level 분석에서 어떤 정확도와 장단점을 가지는지 인간 세포주를 대상으로 체계적으로 평가하자.” 즉, Nanopore RNA-seq의 전사체 재구성 능력을 깊이 있게 검증한 연구입니다.

이 그림은 SG-NEx 프로젝트에서 생성된 다양한 인간 세포주 RNA-seq 데이터와 전체 분석 과정을 요약한 것입니다. 여러 세포주에서 RNA를 추출해 Nanopore(Direct RNA, Direct cDNA, PCR-cDNA), PacBio, Illumina 등 다양한 플랫폼으로 시퀀싱을 수행했고, 이후 nf-core/nanoseq 파이프라인을 통해 정렬, 전사체 정량, RNA 수정 분석, fusion 검출 등 통합적인 분석을 진행했습니다.

 


2. 실험 디자인

연구팀은 7개의 인간 세포주와 여러 RNA-seq 프로토콜을 사용하여 데이터를 생성했습니다.

 

비교한 플랫폼 / 프로토콜

총 5가지 RNA-seq 방식이 비교되었습니다:

플랫폼 방식
Nanopore Direct RNA, Direct cDNA, PCR-cDNA
PacBio IsoSeq
Illumina short-read RNA-seq

또한 다양한 평가를 위해:

  • Spike-in RNA (정답이 존재하는 시료)
  • 여러 종류의 인간 세포주
  • 기술 반복(technical replicates)

를 이용해 신뢰도 높은 벤치마크를 수행했습니다.

참고: 이 연구는 실험 당시 사용된 Nanopore 화학 버전이 RNA002,
사용된 플로우셀은 PromethION R9.4.1 기반이었습니다.
현재는 RNA004, Kit 14, Flow Cell R10.4.1,
그리고 최신 Dorado basecalling 모델이 출시되어
정확도와 데이터 출력량이 크게 향상된 상태입니다.

3. 주요 결과 요약

1) Gene-level 분석은 모든 플랫폼에서 비슷하게 우수

Nanopore, PacBio, Illumina 모두 유전자 발현량 수준에서는 안정적이고 높은 상관성을 보였습니다.

즉, 유전자 발현량 측정은 플랫폼 간 큰 차이가 없음.


2) Transcript-level 분석에서는 플랫폼 차이가 크게 나타남

아이소폼 구조를 얼마나 정확히 재구성하느냐가 핵심인데, 이 부분에서 Long-read의 강점이 두드러졌습니다.

 

전사체(isoform) 복원 정확도 순위

  1. PacBio IsoSeq
  2. Nanopore PCR-cDNA
  3. Nanopore Direct cDNA
  4. Nanopore Direct RNA (RNA002)
  5. Illumina short-read

특히:

  • Nanopore PCR-cDNA는 sensitivity가 높았고,
  • Direct RNA는 구조 정보는 유지되지만 basecalling 정확도로 인해 민감도는 낮게 평가되었습니다.

3) Novel isoform 탐지는 Long-read가 압도적

짧은 리드로는 찾지 못하는 새로운 아이소폼이 Nanopore 및 PacBio에서 다량 탐지되었습니다.

long-read가 transcriptome 다양성을 밝히는 데 절대적으로 유리


4) Fusion transcript도 long-read가 훨씬 정확

Nanopore cDNA 및 IsoSeq 모두 fusion junction을 정확히 포착. Illumina는 read가 짧아 structural 정보를 잃기 쉬움.


5) RNA modification은 Nanopore Direct RNA만 가능

Direct RNA는 native RNA의 전기적 신호를 읽기 때문에 m6A 같은 RNA modification을 직접 탐지할 수 있는 유일한 방식입니다. Long-read 중에서도 Direct RNA만 가능한 장점입니다.


4. 이 논문의 의미

Long-read는 transcript-level 분석의 표준 도구가 될 가능성

특히 isoform identification, fusion detection, promoter usage 등에 강함.

 

다양한 Nanopore 프로토콜의 강점·한계가 명확하게 제시

  • PCR-cDNA : 가장 높은 sensitivity
  • Direct cDNA : 높은 정합 정확도
  • Direct RNA : modification 분석 가능
  • IsoSeq : 가장 높은 overall 정확도

SG-NEx 데이터셋 공개

이 연구에서 생성된 모든 데이터는
향후 알고리즘 개발·검증을 위한 benchmark dataset으로 공개됨.


5. 결론 

이번 연구는 다음 사실을 명확하게 보여줍니다:

 

“Transcript-level 분석에서는 short-read보다 long-read가 훨씬 정확하며, 특히 Nanopore의 다양한 RNA-seq 프로토콜은 서로 다른 장점을 제공한다.”

 

  • 유전자 발현량은 플랫폼 간 차이 없음
  • 아이소폼 분석은 long-read가 압도적으로 우수
  • modification 분석은 Direct RNA가 독보적
  • IsoSeq과 Nanopore PCR-cDNA는 가장 높은 transcript-level 성능
참고: 본 논문은 Nanopore의 이전 세대 RNA 및 cDNA 프로토콜
(Direct RNA: RNA002, cDNA kit: 이전 버전, Flow Cell: R9.4.1)을 기반으로 수행되었습니다.
현재는 Nanopore RNA 및 cDNA 전용 키트가 크게 개선된 상태입니다.
참고자료: Transcriptome-wide expression and RNA modifications with full-length native RNA and cDNA sequencing
  • Direct RNA: RNA002 → RNA004
    • 정확도 및 throughput 약 2.5배 증가
    • Poly(A)+ RNA 조건 기준:
      • RNA002: 10 - 12M reads
      • RNA004: 20 - 30M reads
  • Direct cDNA / PCR-cDNA: PCS110 → PCS114
    • PCS110: 약 70 - 80M reads
    • PCS114: 약 100M reads 이상 (약 30% 증가)
  • Flow Cell: R9.4.1 →  R10.4.1
    • 염기 판독 정확도 및 스플라이싱 부위 정확도 크게 향상
  • Basecalling: Dorado 최신 모델
    • DNA, RNA 및 cDNA basecalling 정확도 전반적 개선

이 업그레이드로 인해 정확도, splice junction 인식력, 데이터 출력량이 논문 시점 대비 크게 향상되었습니다.

https://www.nature.com/articles/s41592-025-02623-4