img

Home > 분석서비스 > 관련자료실

Edu-talk

이매스교육 및 공지사항

Edu-talk

  • 제목

    [분석 Tip] 단백질 서열 분석의 용어 개념 설명
  • 작성자

    이매스
  • 첨부파일

단백질 서열 분석의 용어 개념 설명

단백질 구조 분석 중 서열 분석에 있어 여러 용어적인 관점에서의 정확한 정의가 필요하여 본 글을 게시합니다.

서열 분석 방법적인 측면과 목적에 따라 정확하게 이해하고 접근 시 가이드가 될 수 있으니 참조 부탁드립니다.

 

[Protein : De Novo Sequencing]

Reference 유전자에 대한 정보가 전혀 없이 추가적으로 번역(translation)된 아미노산 서열정보가 없는 조건의 시료 단백질 중 서열분석의 target 단백질에 대한 서열을 부분 또는 전체를 규명해가는 서열분석을 의미합니다.

 

Top-down 접근 방법: Edman degradation method 를 이용하여 intact 한 조건의 단백질이나 펩티드에 대한 N말단 첫 번째 위치한 아미노산부터 순차적으로 화학반응 유도체화 반응을 통해 얻어진 PTH-amino acid LC(HPLC : PTH-column)에 주입하여 얻어진 아미노산의 검출 시간에 대한 특이성 값과 표준 PTH-amino acid 의 검출 시간의 특이성 값과 비교하여 각 반응 cycle 에서 아미노산을 규명하고 반응 cycle 이 추가될 때마다 확인된 아미노산의 데이터를 순차적으로 연결하면 N말단 부분서열이 확인된 결과를 얻게 되는 서열 분석법입니다.

참고로 본 시험법의 첫번째 위치한 아미노산은 일반아미노산 구조로 해석될 수 있어야 하며 화학적 구조로 변형된 아미노산 중 NH2-group free 하게 노출되지 않은 변형된 구조인 경우에는 화학반응 특성에 따라 본 cycle 의 결과와 이후 연속된 cycle 모두에서 아미노산 서열의 확인결과를 데이터로 얻지 못하게 됩니다. 또한 실제 단백질의 N말단 서열 영역에 서열분석을 진행할 영역 내에 cysteine 이 위치하는 경우에는 cysteine의 높은 극성에 따라 sequencer LC 조건에서는 검출 확인이 되지 않는 점 그리고 free-NH2 형태의 아미노산이더라도 화학적으로 변형된 아미노산이 위치한 경우 표준 PTH-amino acid 와의 검출 시간 특이성 값과의 불일치에 따라 정확한 아미노산으로 확인이 되지 않을 수 있는 제한사항을 염두해두고 분석을 진행하거나 데이터 해석 시 참고해야 합니다.

 

Bottom-up 접근 방법: 단백질이나 직접 검출이 어려운 일정 분자량의 펩티드를 대상으로 가수분해 전처리이후 일정 수준의 저 분자량(low mass)의 구조적 형태인 peptide 로 유리된 시료를 준비하여 MS 로부터 MS/MS 값을 얻을 수 있는 tandem mass spectrometer를 검출기로 이용하여 얻어진 peptide의 서열 분석결과를 해석하는 서열 분석법을 의미합니다. 보통 서열분석 대상이 되는 단백질/펩티드는 미지의 단백질 혼합 시료 중 서열 분석의 target 이 되는 단백질/펩티드가 주요한 대상이 되며 인위적으로 유전자가 설계/클로닝/발현된 제형화(formulation)된 단백질의 경우에는 De novo sequencing에 대상으로 해당하지 않습니다. 따라서, 이들 단백질/펩티드 서열 확인 시 필요한 참고 서열은 유전자로부터 번역된 단일 서열이 아닌 단백질의 origin에 해당하는 생물종의 전체 아미노산 서열 정보(sequence library)를 이용하여 데이터 신뢰성을 기준으로 유효한 서열 정보를 확인하는 방법입니다. 따라서, 서열 분석을 위해 사용된 프로그램의 지정된 알고리즘에 의한 신뢰성 범위 내에서 일정한 신뢰도 수준으로 확인된 서열 데이터만 인정받을 수 있습니다.

 

[Protein : Peptide mapping/amino acid sequencing]

Peptide mapping: 단백질의 서열 분석을 가수분해 전처리를 통해 본 단백질로부터 얻어진 peptide의 개별 검출 특이성과 표준/참고 단백질의 peptide의 개별 검출 특이성 값과의 비교를 통해 간접적인 서열의 동등성을 확인하는 분석과정을 의미합니다. LC(HPLC, UPLC)의 역상(reverse phase) C18 에서 UV 검출기와의 조합에서는 각각의 peptide 의 검출 시간(retention time(RT), relative retention time(RRT))값의 비교 동등성을 입증을 통해 간접적인 서열 상동성을 입증할 수 있으며 UV 검출기를 대신하여 mass spectrometer를 검출기로 사용하는 경우 LC 의 특이성의 기준 값인 RT RRT 외에 추가적으로 각 peak 에 검출로 예상되는 peptide 의 질량값(mass : Da)의 동등성의 입증을 통해 간접적인 서열 상동성을 입증할 수 있는 비교 시험법의 개념입니다. 따라서, 원칙은 표준/참고 단백질과 같은 시간에 같은 분석장비의 분석 조건으로 분석진행을 통해 획득된 데이터를 통해 특이성 값의 동등성이 확인될 때만이 유효하게 인정받을 수 있는 시험법입니다.

 

Amino acid sequencing: 예상/참고 아미노산 서열정보만 확립된 제형화(formulation)된 단백질에 대한 서열 확인을 목적으로 진행하는 분석을 의미하며 시료 단백질 단독으로 진행하거나 peptide mapping 분석을 통해 reference protein 과 다른 peptide peak 가 확인되었을 때(기준 일탈 peak) 본 데이터에 대한 서열 분석 데이터 보완을 위해 MS/MS(MS2)의 데이터 해석을 통해 각각의 peptide에 대한 서열을 입증하는 서열 분석기준을 의미합니다. 일반적으로 분석 범위를 기준으로 full amino acid sequencing의 경우는 peptide mapping 분석을 통해 획득된 모든 peptide peak list에 대한 서열을 일차 구조 기준에 의해 open reading frame (ORF) 범위의 서열을 입증하는 서열 분석법을 의미합니다.

 

[Protein : Protein(peptide) sequencing/Protein identification]

 

Protein(peptide) sequencing: 데이터 기준 sequencing 분석 프로그램에서 획득한 true 데이터와 시험자가 추가적으로 manual sequencing 해석된 결과가 동일하게 일치된 서열 결과로 해석된 data qualification 된 서열 분석 결과를 의미합니다. Sequencing 분석 프로그램의 경우 단백질로부터 유래된 특성 서열의 peptide로부터 검출된 MS, MS2 값이 얻어진 데이터를 참값(true) 데이터와 다양한 오염원으로부터 발생된 다양한 MS값으로부터 발생된 MS/MS 값이 프로그램 알고리즘에 따라 입력된 예상 아미노산 서열과 강제적으로 일치시켜서 확인된 데이터 및 오염된 구조의 peptide 로부터 얻어진 MS, MS2 값이 얻어진 데이터를 허위(false) 데이터를 모두 포함되어 초기 데이터가 획득될 수 있습니다. 그 가운데 참값(true)에 해당하는 sequencing 데이터를 추가적인 검증을 통해 입증된 서열분석을 의미합니다.

실제로 protein sequencing 결과는 1차 서열분석 프로그램이 도출한 데이터와 시험자가 manual 접근으로 해당 peptide 에 대한 peak 검출 시간, MS, MS/MS 결과와 예상 아미노산 서열의 MS, MS/MS 값이 sequencing 프로그램이 도출한 결과와 일치하는지 여부와 마지막으로 데이터 신뢰도를 확정하기 위해 mass error 값이 허용기준 이내인지를 종합적으로 고려하여 판정하게 된 결과입니다.

 

Protein(peptide) identification: 데이터 해석의 원리는 protein(peptide) sequencing 분석과정과 동일한 아미노산 서열분석이지만 지정된 단일서열을 기준으로 해석하는 것이 아닌 다양한 단백질 서열을 통해 도출된 이론적은 MS, MS/MS 값의 matching 을 통해 서열 분석 프로그램에서 도출된 데이터 중 특정 단백질의 polypeptide chain에서 일부 일치가 되는 서열 특이성을 통해 protein/peptide의 유래(origin)을 규명하는 분석법입니다. 기본 원리는 아미노산 서열 분석 프로그램이 도출한 데이터를 활용함에 따라 sequencing data 해당할 수 있지만 추가 데이터 검증과정을 생략할 수 있습니다. 따라서, 최종 positive protein ID 결과 판정을 위해서는 마찬가지로 protein ID 수준의 분석 단백질 시료 양에 따라 낮은 signal 검출 수준을 감안된 기준 내에서 유효한 데이터만이 부분 아미노산 서열 분석 결과로 인정되는 것이 본 분석법의 분석 범위입니다.

만일, 지금의 분석 조건에서 얻어진 데이터가 최종 sequencing 데이터로 인정받기 위해서는 protein(peptide) sequencing 데이터와 동일한 수준의 검증을 통해 true 데이터임을 입증을 완료하게 되면 신뢰성이 높은 서열데이터로 인정받을 수 있습니다. , native 조건에서 얻어진 단백질을 대상으로 분석하는 본 조건에서 발생할 수 있는 개체/세포주 돌연변이에 따른 특정 아미노산 서열의 치환 등에 따른 서열 mis-match는 본 분석에서는 해당사항이 없습니다. (isobaric amino acid 치환: Ile/Leu, Gln/Lys)