NGS_데이터 분석이란? #1 _ [Fastq File]
안녕하세요~!!
샤봉입니다~!!^^
NGS 과정 중 검사가 끝난 뒤, 생성된 염기서열 Data를 분석하는 과정을 Dry Bench(인증기관 용어)라고 해요.
Bioinformatics / Data Analysis 등등...표현하기 나름인것 같아요~!!^^
저는 임상병리사이지만, NGS Data 분석을 알기위해서 노력하고 있습니다.^^
NGS를 처음 알때보다는 지금이 더 많이 아는 것 같지만.... 아직도... 부족하네요!!^^아주 많이 몰라요....ㅎㅎ
NGS 데이터 분석의 첫걸음은 무엇일까요~?
검사 후 NGS 장비에서 나온 따끈따끈한 Raw Data를 살펴봐야겠죠?
그 Data를 Fastq File 이라고 불러요~!
Fastq File은 NGS 장비에서 만들어준~~ Sequence에 quality 점수까지 기재한 파일입니다.
Fastq 라는 확장자를 가지는 파일을 함부로 열어보시면 안되요.... 컴퓨터 다운됩니다..ㅎㅎ
https://en.wikipedia.org/wiki/FASTQ_format
FASTQ format - Wikipedia
From Wikipedia, the free encyclopedia Jump to navigation Jump to search File format FASTQ format is a text-based format for storing both a biological sequence (usually nucleotide sequence) and its corresponding quality scores. Both the sequence letter and
en.wikipedia.org
설명은 위키피디아에 있는 설명이 이론적으로는 잘 설명되어 있는 듯 합니다.^^
사실 저는 열어볼 생각도 안했어요...처음에는 봐도 모르고 열어봐야 하나..해서...^^
저는 FastQC 라는 프로그램을 돌려서 생성된 Sequence의 품질을 확인했습니다.
FastQC라는 프로그램은 정말 유명한 프로그램입니다.^^ 품질평가의 고인물....
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data
www.bioinformatics.babraham.ac.uk
아주 대표적인 사진이 있는데요~!
NGS분석을 하게된다면 아주 많이 보게될 화면이에요!^^
가로축은 Sequence Size를 구간구간 표시하게 됩니다.!
세로축은 Q score 점수를 나타냅니다.!^^
배경화면 색깔이 Q score 점수별 상태를 보여준다고 생각하면 됩니다.
Q score - 20이하는 빨간색
Q score - 20~28 사이는 주황색
Q score - 28 이상은 초록색
으로 나뉘며~~ 초록색 구간에 포함되어야 좋은 Sequencing을 했다고 할 수 있습니다.
Q score는 무엇일까요~!? Phred quality score 라고도 불립니다.
생성된 Sequence의 퀄리티 평가의 척도로
Q10 = 부정확한 염기(Sequence)가 나올 확률이 10개 중 1개 라는 뜻이고,
Q20 = 부정확한 염기(Sequence)가 나올 확률이 100개 중 1개 라는 뜻이고,
Q30 = 부정확한 염기(Sequence)가 나올 확률이 1000개 중 1개 라는 뜻입니다.
보통은 Q30 이상이 되면 실험이 잘 되었다고 합니다.!
그 이하의 좋지 않은 품질의 Sequence들은 분석 Tools에 의해 제거 되게 됩니다.
제거되면 좋은 품질의 Sequence가 남지만... 너무 많이 제거되면 분석에 영향을 미치게 되어,
실험과정이나 장비의 문제를 의심해 보기도 해야 합니다.^^
처음 생성된 Fastq 파일을 FastQC를 통해서 품질을 확인하고, Trimming이라는 저품질을 제거하고
다시 FastQC를 통해서 품질 향상을 확인하기도 합니다.^^
위에 사진과 같이 빨간색 및 주황색 영역의 저품질 Sequence들이 제거된 모습이 보이게 됩니다.
글을 쓰다보니....내용이 너무 많아서...어떻게 적어야 할지....오늘은 Fastq File까지만 해야할것 같습니다.^^
공부중인 임상병리사로써 전문적이고 정확한 답변은 못드려도, 모르면 찾아서라도 알려드릴터이니
궁금하신 부분은 댓글로 남겨주세요~!
이상으로 샤봉이었습니다.^^