Plan B가 있는 인생~!^^

NGS_데이터 분석이란? #1 _ [Fastq File] 본문

NGS_Dry bench

NGS_데이터 분석이란? #1 _ [Fastq File]

샤봉 2022. 5. 13. 00:29
728x90
SMALL

안녕하세요~!!

샤봉입니다~!!^^

NGS 과정 중 검사가 끝난 뒤, 생성된 염기서열 Data를 분석하는 과정을 Dry Bench(인증기관 용어)라고 해요.

Bioinformatics / Data Analysis 등등...표현하기 나름인것 같아요~!!^^

저는 임상병리사이지만, NGS Data 분석을 알기위해서 노력하고 있습니다.^^

NGS를 처음 알때보다는 지금이 더 많이 아는 것 같지만.... 아직도... 부족하네요!!^^아주 많이 몰라요....ㅎㅎ


NGS 데이터 분석의 첫걸음은 무엇일까요~?

검사 후 NGS 장비에서 나온 따끈따끈한 Raw Data를 살펴봐야겠죠?

그 Data를 Fastq File 이라고 불러요~! 

Fastq File은 NGS 장비에서 만들어준~~ Sequence에 quality 점수까지 기재한 파일입니다.

Fastq 라는 확장자를 가지는 파일을 함부로 열어보시면 안되요.... 컴퓨터 다운됩니다..ㅎㅎ

https://en.wikipedia.org/wiki/FASTQ_format

 

FASTQ format - Wikipedia

From Wikipedia, the free encyclopedia Jump to navigation Jump to search File format FASTQ format is a text-based format for storing both a biological sequence (usually nucleotide sequence) and its corresponding quality scores. Both the sequence letter and

en.wikipedia.org

설명은 위키피디아에 있는 설명이 이론적으로는 잘 설명되어 있는 듯 합니다.^^

사실 저는 열어볼 생각도 안했어요...처음에는 봐도 모르고 열어봐야 하나..해서...^^

저는 FastQC 라는 프로그램을 돌려서 생성된 Sequence의 품질을 확인했습니다.

FastQC라는 프로그램은 정말 유명한 프로그램입니다.^^ 품질평가의 고인물....

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

 

Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data

 

www.bioinformatics.babraham.ac.uk

아주 대표적인 사진이 있는데요~!

출저 : FastQC 홈페이지

NGS분석을 하게된다면 아주 많이 보게될 화면이에요!^^ 

가로축은 Sequence Size를 구간구간 표시하게 됩니다.!

세로축은 Q score 점수를 나타냅니다.!^^

배경화면 색깔이 Q score 점수별 상태를 보여준다고 생각하면 됩니다.

Q score - 20이하는 빨간색

Q score - 20~28 사이는 주황색

Q score - 28 이상은 초록색

으로 나뉘며~~ 초록색 구간에 포함되어야 좋은 Sequencing을 했다고 할 수 있습니다.

Q score는 무엇일까요~!? Phred quality score 라고도 불립니다.

생성된 Sequence의 퀄리티 평가의 척도로 

Q10 = 부정확한 염기(Sequence)가 나올 확률이 10개 중 1개 라는 뜻이고,

Q20 = 부정확한 염기(Sequence)가 나올 확률이 100개 중 1개 라는 뜻이고,

Q30 = 부정확한 염기(Sequence)가 나올 확률이 1000개 중 1개 라는 뜻입니다.

보통은 Q30 이상이 되면 실험이 잘 되었다고 합니다.!

그 이하의 좋지 않은 품질의 Sequence들은 분석 Tools에 의해 제거 되게 됩니다.

제거되면 좋은 품질의 Sequence가 남지만... 너무 많이 제거되면 분석에 영향을 미치게 되어, 

실험과정이나 장비의 문제를 의심해 보기도 해야 합니다.^^

처음 생성된 Fastq 파일을 FastQC를 통해서 품질을 확인하고, Trimming이라는 저품질을 제거하고

다시 FastQC를 통해서 품질 향상을 확인하기도 합니다.^^

출처 : https://docs.patricbrc.org/tutorial/fastq-utilities/fastq-utilities.html

위에 사진과 같이 빨간색주황색 영역의 저품질 Sequence들이 제거된 모습이 보이게 됩니다.

글을 쓰다보니....내용이 너무 많아서...어떻게 적어야 할지....오늘은 Fastq File까지만 해야할것 같습니다.^^

공부중인 임상병리사로써 전문적이고 정확한 답변은 못드려도, 모르면 찾아서라도 알려드릴터이니

궁금하신 부분은 댓글로 남겨주세요~!

이상으로 샤봉이었습니다.^^

728x90
LIST

'NGS_Dry bench' 카테고리의 다른 글

[샤봉's Pick]_Bioinformatics Tools  (3) 2022.05.18