Anda di halaman 1dari 43

‫סיכום אנאליזה‪:‬‬

‫אנוטציה – פירוט מקטעים ברצף שיש עליהם מידע יחודי‪.‬‬

‫מצגת ‪:1‬‬
‫•ביואינפורמטיקה – המקום בו טכנולוגית מידע וביולוגיה נפגשים לתורה‬
‫משותפת‪ .‬טכנלוגית המידע מספק אלגוריתמים ואילו החלק הביולוגי‬
‫מכוונן אותם ומשתמש בהם לטובת מחקר ביולוגי‪.‬‬
‫•שאלות ביולוגיות שניתן לענות בעזרת אלגוריתמים לחיפוש רצפים‪:‬‬
‫‪o‬האם הרצף שמצאתי כבר נמצא ע"י מישהו אחר‬
‫‪o‬בנית מקטע דנ"א ארוך ע"ס מידע על מקטעם קצרים‬
‫יותר‬
‫‪o‬חיפוש תבניות‬
‫‪o‬מציאת האזורים המקודדים לחלבון בגנום‬
‫‪o‬השוואת רצפי ח‪.‬אמינו של חלבונים לצורך קביעת זהות ‪/‬‬
‫שונות‬
‫‪o‬מחקר (משפחות חלבונים)‬
‫‪o‬מדידת מרחק אבולוציוני בין מינים‬
‫‪o‬חיזוי תכונות של חלבונים‬
‫•החלק המחשבי – ‪ DNA‬הוא ‪ String‬אנחנו יודעים לשחק עם ‪-stirng‬ים‪.‬‬
‫•החלק הביולוגי – חשוב לזכור שפתרון שמתמטית הוא הנכון ביותר לא‬
‫תמיד נכון ביותר מבחינה ביולוגית‪.‬‬

‫מצגת ‪:2‬‬
‫•הצורך בבסיסי נתונים ביולוגיים‪:‬‬
‫‪o‬גידול בכמות המידע‬
‫‪o‬דרך פרסום מועדפת של מידע חדש‬
‫‪o‬כלי טוב לשימוש מחקרי‬
‫•סוגי ‪:DB‬‬
‫‪o‬ביביליוגרפיים ‪ -‬לדוגמא ‪ Medline‬או ‪ – PubMed‬מכיל‬
‫‪ Abstract‬של מאמרים‪ ,‬כניסות של עיתונים חשובים‪,‬‬
‫ספרים (טקסט חלקי ‪ /‬מלא)‪....‬‬
‫‪o‬רצפים (דנ"א‪ ,‬חלבונים) –‬
‫‪ ‬מידע חשוב שצריך להכיל‪:‬‬
‫•רצף‬
‫•‪AC‬‬
‫•‪Refrences‬‬
‫•מידע טקסונומי (קבוצות‬
‫אורגניזמים)‬
‫•אנוטציות‪ ,‬מילות מפתח ו‪-‬‬
‫‪Cross Reference‬‬
‫‪ DB‬שונים משתמשים בפורמטים שונים‬
‫להצגת המידע – אין רגולציה‬
‫דוגמאות לפורמטים‪ . Fasta, GenBank, EMBL :‬ישנם כלים (‬
‫‪ )ReadSeq‬להחלפה בין פורמטים‪.‬‬

‫‪ DB‬מרכזיים ל‪:DNA-‬‬
‫•‪ – GeneBank – USA‬מחולק‬
‫לתת ‪:DB‬‬
‫‪o‬מולקולרים –‬
‫דנ"א‪,‬‬
‫חלבונים‬
‫‪o‬רצפים‪:‬‬
‫‪m/Rna, Gene,‬‬
‫‪...EST‬‬
‫‪o‬קבוצות‬
‫אורגניזמים‪:‬‬
‫‪ – Hum‬אדם‪...‬‬

‫‪o‬סימונים‪:‬‬
‫‪G‬‬
‫‪‬‬
‫‪e‬‬
‫‪n‬‬
‫‪e‬‬

‫=‬

‫‪1‬‬
‫‪.‬‬
‫‪.‬‬
‫‪1‬‬
‫‪2‬‬
‫‪5‬‬
‫‪6‬‬
‫‪7‬‬
‫‪/‬‬
‫‪g‬‬
‫‪e‬‬
‫‪n‬‬
‫‪e‬‬
‫=‬
‫”‬
‫‪x‬‬
‫‪x‬‬
‫‪x‬‬
‫”‬

‫–‬

‫ג‬
‫ן‬
x
x
x
‫ה‬
‫ח‬
‫ל‬

‫מ‬
‫נ‬
‫ו‬
‫ק‬
'

1
‫ו‬
‫ע‬
‫ד‬

1
2
5
6
7
.
m
R
N
A
:
j
o
i
n
(
1
.
.
6
4
,

2
1
4
0
-
2
2
7
4

)

‫א‬
‫ק‬
‫ס‬
‫ו‬
‫נ‬
‫י‬
‫ם‬

U
T
R
-
‫י‬
‫ם‬
C
D
S
:
j
o
i
n
(
2
6
.
6
4
,
2
1
4
0
.
.
2
2
7
4

)
‫–‬

‫ה‬
‫מ‬
‫י‬
‫ד‬
‫ע‬

‫ה‬
‫מ‬
‫ק‬
‫ו‬
‫ד‬
‫ד‬

‫ב‬
‫ל‬
‫ב‬
‫ד‬

‫–‬

‫ל‬
‫ל‬
‫א‬

‫‪U‬‬
‫‪T‬‬
‫‪R‬‬
‫‪-‬‬
‫י‬
‫ם‬
‫‪,‬‬

‫ה‬
‫‪-‬‬
‫‪S‬‬
‫‪t‬‬
‫‪o‬‬
‫‪p‬‬

‫‪C‬‬
‫‪o‬‬
‫‪d‬‬
‫‪o‬‬
‫‪n‬‬
‫מ‬
‫ו‬
‫פ‬
‫י‬
‫ע‬

‫ב‬
‫מ‬
‫ק‬
‫ט‬
‫ע‬

‫ה‬
‫א‬
‫ח‬
‫ר‬
‫ו‬
‫ן‬
‫‪.‬‬
‫‪‬כ‬
‫א‬
‫ש‬
‫ר‬

‫מ‬
‫ד‬
‫ו‬
‫ב‬
‫ר‬

‫ב‬
‫מ‬
‫ק‬
‫ט‬
‫ע‬

‫ק‬
‫ו‬
‫מ‬
‫פ‬
‫ל‬
‫י‬
‫מ‬
‫נ‬
‫ט‬
‫ר‬
‫י‬

‫א‬
‫ז‬
‫י‬
‫‪:‬‬
‫‪o‬יתרונות‪/‬חסרו‬
‫נות‪:‬‬
‫‪‬נ‬
‫פ‬
‫ח‬

‫מ‬
‫י‬
‫ד‬
‫ע‬

‫ג‬
‫ד‬
‫ו‬
‫ל‬
‫‪,‬‬

‫‪C‬‬
‫‪R‬‬
‫ע‬
‫ם‬

‫‪D‬‬
‫‪B‬‬
‫א‬
‫ח‬
‫ר‬
‫י‬
‫ם‬

‫ב‬
‫‪-‬‬
‫‪N‬‬
‫‪C‬‬
‫‪B‬‬
‫‪I‬‬
‫‪,‬‬

‫ת‬
‫ת‬

‫‪D‬‬
‫‪B‬‬
‫’‬
‫‪s‬‬
‫ב‬
‫‪-‬‬
‫‪N‬‬
‫‪C‬‬
‫‪B‬‬
‫‪I‬‬
‫‪‬נ‬
‫פ‬
‫ח‬

‫מ‬
‫י‬
‫ד‬
‫ע‬

‫ג‬
‫ד‬
‫ו‬
‫ל‬
‫‪,‬‬

‫א‬
‫י‬
‫ן‬

‫ב‬
‫ק‬
‫ר‬
‫ה‬
‫‪,‬‬

‫מ‬
‫י‬
‫ד‬
‫ע‬

‫ל‬
‫א‬

‫י‬
‫ו‬
‫צ‬
‫א‬

‫ה‬
‫ח‬
‫ו‬
‫צ‬
‫ה‬

‫–‬

‫א‬
‫נ‬
‫ו‬
‫ט‬
‫צ‬
‫י‬
‫ו‬
‫ת‬

‫ל‬
‫א‬

‫ע‬
‫י‬
‫ק‬
‫ב‬
‫י‬
‫ו‬
‫ת‬

‫–‬

‫מ‬
‫ב‬
‫ו‬
‫צ‬
‫ע‬

‫ע‬
‫"‬
‫י‬

‫ה‬
‫מ‬
‫ש‬
‫ג‬
‫ר‬
‫י‬
‫ם‬
‫‪.‬‬
‫‪o‬תת ‪db:‬‬
‫‪dbEST‬‬
‫‪‬מ‬
‫כ‬
‫י‬
‫ל‬

‫ר‬
‫צ‬
‫פ‬
‫י‬

‫‪E‬‬
‫‪S‬‬
‫‪T‬‬
‫ש‬
‫נ‬
‫ו‬
‫צ‬
‫ר‬
‫ו‬

‫מ‬
‫ר‬
‫י‬
‫צ‬
‫ו‬
‫ף‬

‫ש‬
‫ל‬

‫‪c‬‬
‫‪D‬‬
‫‪N‬‬
‫‪A‬‬
‫‪.‬‬
‫‪‬א‬
‫ו‬
‫ת‬
‫ם‬

‫י‬
‫ת‬
‫ר‬
‫ו‬
‫נ‬
‫ו‬
‫ת‬

‫‪/‬‬

‫ח‬
‫ס‬
‫ר‬
‫ו‬
‫נ‬
‫ו‬
‫ת‬
‫ש‬
‫ל‬

‫‪G‬‬
‫‪e‬‬
‫‪n‬‬
‫‪B‬‬
‫‪a‬‬
‫‪n‬‬
‫‪k‬‬
‫‪– RefSeqo‬‬
‫בסיס נותנים‬
‫מבוקר‪ ,‬כל‬
‫רצף ‪/‬‬
‫מולקולה‬
‫מופיע פעם‬
‫אחת בלבד‪.‬‬
‫‪o‬ישנו פורמט‬
‫אחר ל‪ AC-‬ב‪-‬‬
‫‪RefSeq‬‬
‫שמתאר אותו‪,‬‬
‫למשל‪:‬‬
‫– ‪NM_1111‬‬
‫‪RNA,‬‬
‫‪– NP_1111‬‬
‫חלבון‪..‬‬
‫‪o‬סטטוס‪:‬‬
‫‪G‬‬
‫‪‬‬
‫‪e‬‬
‫‪n‬‬
‫‪o‬‬
‫‪m‬‬
‫‪e‬‬

‫‪A‬‬
‫‪n‬‬
‫‪n‬‬
‫‪o‬‬
‫‪t‬‬
‫‪a‬‬
‫‪t‬‬
‫‪i‬‬
‫‪o‬‬
‫‪n‬‬
‫–‬

‫ה‬
‫ר‬
‫ש‬
‫ו‬
‫מ‬
‫ה‬

‫ה‬
‫ת‬
‫ק‬
‫ב‬
‫ל‬
‫ה‬

‫א‬
‫ו‬
‫ט‬
‫ו‬
‫מ‬
‫ט‬
‫י‬
‫ת‬
‫‪,‬‬

‫ו‬
‫א‬
‫י‬
‫נ‬
‫ה‬

‫נ‬
‫ת‬
‫ו‬
‫נ‬
‫ה‬

‫ל‬
‫ב‬
‫ד‬
‫י‬
‫ק‬
‫ה‬
‫‪.‬‬
‫‪I‬‬
‫‪n‬‬
‫‪f‬‬
‫‪r‬‬
‫‪r‬‬
‫‪e‬‬
‫‪d‬‬
‫–‬
‫ה‬
‫ת‬
‫ק‬
‫ב‬
‫ל‬
‫ה‬

‫מ‬
‫ח‬
‫י‬
‫פ‬
‫ו‬
‫ש‬

‫ר‬
‫צ‬
‫ף‬
‫‪,‬‬

‫ע‬
‫ד‬
‫י‬
‫ן‬

‫ל‬
‫א‬

‫ב‬
‫ו‬
‫צ‬
‫ע‬
‫ו‬

‫נ‬
‫י‬
‫ס‬
‫ו‬
‫י‬
‫י‬
‫ם‬

‫ל‬
‫א‬
‫י‬
‫מ‬
‫ו‬
‫ת‬
‫‪P‬‬
‫‪r‬‬
‫‪e‬‬
‫‪d‬‬
‫‪i‬‬
‫‪c‬‬
‫‪t‬‬
‫‪e‬‬
‫‪d‬‬
‫‪-‬‬

‫ה‬
‫ר‬
‫ש‬
‫ו‬
‫מ‬
‫ה‬

‫ע‬
‫ו‬
‫ד‬

‫ל‬
‫א‬

‫ע‬
‫ב‬
‫ר‬
‫ה‬

‫ב‬
‫י‬
‫ק‬
‫ו‬
‫ר‬
‫ת‬
‫‪,‬‬

‫ח‬
‫ל‬
‫ק‬

‫מ‬
‫ה‬
‫מ‬
‫י‬
‫ד‬
‫ע‬

‫ב‬
‫ר‬
‫ש‬
‫ו‬
‫מ‬
‫ה‬

‫ח‬
‫ז‬
‫ו‬
‫י‬

‫ו‬
‫ל‬
‫א‬

‫א‬
‫ו‬
‫מ‬
‫ת‬
‫‪.‬‬

‫‪P‬‬
‫‪r‬‬
‫‪o‬‬
‫‪v‬‬
‫‪i‬‬
‫‪s‬‬
‫‪i‬‬
‫‪o‬‬
‫‪n‬‬
‫‪a‬‬
‫‪l‬‬
‫–‬

‫ע‬
‫ד‬
‫י‬
‫ן‬

‫ל‬
‫א‬

‫נ‬
‫ב‬
‫ח‬
‫ן‬
‫‪,‬‬

‫ה‬
‫מ‬
‫י‬
‫ד‬
‫ע‬

‫ה‬
‫ת‬
‫ק‬
‫ב‬
‫ל‬

‫מ‬
‫מ‬
‫ק‬
‫ו‬
‫ר‬

‫ש‬
‫נ‬
‫ח‬
‫ש‬
‫ב‬

‫א‬
‫מ‬
‫י‬
‫ן‬
‫‪.‬‬
‫‪R‬‬‫‪‬‬
‫‪e‬‬
‫‪v‬‬
‫‪i‬‬
‫‪e‬‬
‫‪w‬‬
‫‪d‬‬
‫–‬

‫נ‬
‫ב‬
‫ח‬
‫ן‬
‫‪.‬‬
‫‪V‬‬‫‪‬‬
‫‪a‬‬
‫‪l‬‬
‫‪i‬‬
‫‪d‬‬
‫‪a‬‬
‫‪t‬‬
‫‪e‬‬
‫‪d‬‬
‫–‬
‫א‬
‫ו‬
‫ש‬
‫ר‬
‫‪.‬‬
‫•‪EMBL – EBI - England‬‬
‫•‪DDBJ – Japan‬‬
‫•כל השלושה מעודכנים‬
‫ברמה שבועית‪ ,‬מחליפים‬
‫מידע בינהם‪ ,‬אורך מקסימלי‬
‫לכניסה של רצף ‪300Kbp‬‬
‫מינימום‪.10bp :‬‬
‫•מקור המידע‪ :‬קבוצות‬
‫מחקר‪ ,‬מכונים לחקר הגנום‪,‬‬
‫פטנטים (שיגור ישיר – אין‬
‫בקרה)‪.‬‬
‫‪o‬גנומים ‪ -‬מכילים מידע כל גנים‪ ,‬מיפוי‪ ,‬קישורים‬
‫לרצפים‪....‬‬
‫‪‬קיימים לכל המינים החשובים‪– GDB :‬אדם‪,‬‬
‫‪ – MGD‬עכבר‪...‬‬
‫‪ – Ensembl‬מכיל את כל רצפי ה‪DNA-‬‬
‫(אדם) ברמה גנומית‪.‬‬
‫‪‬ע"י שימוש בכלי תוכנה‪ ,‬ניתן לבצע‬
‫אנאליזות‪:‬‬
‫•גנים‪ ,SNP ,‬חזרות‪,‬‬
‫הומולוגיות‪.‬‬
‫•שייך ל‪.EBI-‬‬
‫‪o‬חלבונים (משפחות‪/‬אתרים)‬
‫‪o‬מוטציות ‪ /‬פולימורפיזם – מכיל מידע על וריאיות של‬
‫רצפים – כאשר ישנו קישור (או לא) למחלות גנטיות‪.‬‬
‫‪‬כלליים‪:‬‬
‫•‪ – OMIM‬קטלוג למידע‬
‫הגנטי ופגמים גנטיים –‬
‫מכיל סיכומי ספרות‪,‬‬
‫תמונות‪ ,‬קישורים למידע‬
‫נוסף ומאמרים‪.‬‬
‫•‪ – dbSNP‬מכיל את המידע‬
‫על ‪ SNP‬ומוטציות מחיקה‬
‫קטנות‪.‬‬
‫•ספציפיים למחלות‪p53, :‬‬
‫‪...Astma‬‬
‫‪ D3o‬מבני‬
‫‪o‬מטבולי ‪ /‬רגולטורי‬
‫•‪ DB‬לחלבונים‪:‬‬
‫‪ – SwissProto‬מספק‪ :‬רמת דיוק‪/‬בקרה טובה‪ ,‬אנוטציות‪:‬‬
‫פונקציה‪ ,‬מבנה‪ ,‬דומיינים‪ ,‬שינויים לאחר תרגום‪.‬‬
‫‪ – trEMBLo‬מכיל רצפי ‪ mRNA‬מתורגמים – מיוצר‬
‫אוטומטית ע"ס ‪ CDS‬מ‪ ,EMBL-‬מכיל את כל המידע‬
‫שעדיין לא נכנס ל‪.Swiss Prot -‬‬
‫‪ – GenPepto‬תרגום אוטומטי של ‪ CDS‬מ‪– GenBank -‬‬
‫מלוכלך‪.‬‬
‫‪ Pir – CRo‬בין‪... EMBL/ GenBannk / PDB/ GDB / OMIM :‬‬
‫‪ DBo‬למשפחות חלבונים ‪-Domain /‬ים‪:‬‬
‫‪‬זיהוי אתרים ע"י ‪MSA‬‬
‫‪‬ניתנים להגדרה ע"פ‪ :‬תבנית (לנפוצים‬
‫מאוד)‪ ,‬פרופיל (מטריצות השוואה)‪ ,‬מודל‬
‫מרקוב – מודל הסתברותי‪.‬‬
‫‪‬מכיל מידע ‪ /‬כלי אנאליזה לאיתור מהיר‬
‫של משפחת החלבונים אליה רצף חדש‬
‫שייך‪ ,‬ואלי גם לאבחן באופן כללי פונקציה‬
‫של רצף חדש‪.‬‬
‫‪‬נקראים ‪ Secondery DB‬שכן מבוססים על‬
‫המידע שהושג ב‪( Primary-‬גנים ‪/‬‬
‫גנומים‪ ,)..‬נוצרים ידנית או מופקים‬
‫אוטומטית‪.‬‬
‫‪ – Prosite‬מכיל מידע על דומיינים‬
‫פונקציונלים‪.‬‬

‫מצגת מס' ‪:3‬‬

‫•מדוע כדאי להשוות רצפים‪ :‬קבלת מידע על יחסים אבולוציונים‪ ,‬חיזוי‬


‫של מבנה ותפקיד של חלבון‪.‬‬
‫•הומולוגיה – דימיון הנובע מאב קדמון משותף‪.‬‬
‫•‪ - Alignment‬היפותזה הנוגעת לדימיון פיזי בין רצפים‪ ,‬השוואה בין שני‬
‫רצפים‪ ,‬תוך חיפוש מקטעים באותו סדר בין שניהם‪.‬‬
‫•‪ – DotPlots‬השוואה ויזואלית‪ ,‬משווים שני רצפים בנק' התחלה שונות‬
‫של שניהם‪ ,‬שמים נק' במיקום של שתי ח‪.‬א זהות‪.‬‬
‫•איכות ההשואה‪ :‬אחוזים – לא טוב‪ ,‬כאשר ניקח רצף גודל נקבל‬
‫התאמה של ‪ x‬אבל תת רצף שלו יכול להראות ‪....100%‬‬
‫•‪ - Global Alignment Score‬סה"כ החלקים היחסיים של תרומת תת רצך‬
‫לניקוד הכולל‪ .‬ניתן לתת ניקוד שונה לזהות‪ ,‬החלפה‪ ,‬מחיקות‪/‬כניסות‪...‬‬
‫•נהוג לבנות מטריצות חישוב‪ ,‬אשר יורדות לרזולוציה מלאה של השוואה‬
‫בין נוק'‪ ,‬ובעלות ערכי חישוב עבור ‪-GAP‬ים כאשר נתן לפצל ערכים גם‬
‫ל‪-‬תחילת ‪ /GAP‬המשך ‪...GAP‬‬
‫•‪ Kimuras‬נתן משקל במטריצה שלו לעובדה שבהחלפת ח‪.‬א‪ .‬בוצע‬
‫החלפה בין ‪ C/T A/G‬או‬
‫‪ A/C‬ו – ‪ – T/G‬טנסורסיה‪..‬‬
‫•באופן דומה‪ ,‬ניתן לבנות מטריצות להשוואת חלבונים‪ ,‬כאשר – ניתן גם‬
‫לרדת לרזולוציה של החלפה בין חומצות אמינו דומות‪...‬‬
‫•מטריצות חלבונים מכילות מידע להסברות ההחלפה של ח‪.‬א‪ .‬אחת‬
‫באחרת‪.‬‬
‫‪ -‬מטריצת הסתברויות של חלבונים (בחירת‬ ‫‪PAMo‬‬
‫המטריצה ‪ /‬הרזולוציה הנכונה משפיעה על התוצאה)‬
‫‪‬נבנה ע"ס משפחות חלבונים‪ ,‬ערכי‬
‫המטריצה מחושבים ע"ס עצים פילוגנטיים‬
‫של רצפים מאוד קרובים‪ ,‬אשר נוטים‬
‫להחליף ח‪.‬א‪ .‬בודדות‪ .‬הכפלת מטריצות‬
‫לעליה במרחק האבולוציוני‪.‬‬
‫‪ – 1PAM‬מטריצות המחושבות ע"ס דימיון‬
‫בין רצפים‪.‬‬
‫‪‬יחידות ‪ PAM‬מודדות מרחק אבולוציוני – ‪1‬‬
‫יחידת ‪ = PAM‬ההסתברות למוטציה‬
‫נקודתית ב‪ 100-‬ח‪.‬א‪.‬‬
‫‪‬ערך כל עמודה במטריצה מסוכם ל‪-‬‬
‫‪ ,10,000‬תמיד האלכסון ‪ -‬הערכים‬
‫הגדולים‪.‬‬
‫‪‬מטריצת החישוב הסופית מחושבת כ‪:Lod-‬‬
‫‪)S(a,b) = 10log(Mab / Pb‬‬
‫‪ – Mab‬ההסתברות למוטצית החלפה בין ‪ a‬ל‪.b-‬‬
‫‪ - Pb‬שכיחות של ‪ b‬בחלבון‪.‬‬
‫‪ – )S(a/b‬יחס ההחלפה בין ‪ a‬ל‪.b-‬‬
‫‪‬כפל מטריצות ‪ PAM1‬בעצמו נותן אפשרות‬
‫לרדת לרזולוציה נמוכה יותר – ז"א מרחק‬
‫אבולוציוני רחוק יותר‪ .‬לדוגמא כמו שב‪-‬‬
‫‪ PAM1‬ניתן למצוא מוטציה ‪ 1‬כל ‪ ,100‬אזי‬
‫ב‪ PAM250-‬ניתן למצוא ‪ 80‬מ' כל ‪ 100‬ח‪.‬א‪.‬‬
‫– ז"א חלבונים מאוד רחוקים‪....‬‬
‫‪ – BLOSUMxxo‬ה‪-Block-‬ים מכונסים ל‪-Cluster-‬ים‪,‬‬
‫כאשר לפחות ‪ %xx‬מהח‪.‬א ב‪ Cluster-‬זהות‪ .‬ערכי‬
‫המטריצה משוערכים מביצוע ‪ Alignmeny‬ללא מרווחים‬
‫למשפחות חלבונים‪.‬‬
‫‪o‬מחשבים את שכיחות ההתאמה בפועל עבור כל ח‪.‬א‬
‫ברצף‪ ,‬למשל ב‪ 40%-‬מהמקרים ‪ A‬מוצמד ל‪ A-‬ב‪ 20%-‬ל‪-‬‬
‫‪....C‬‬
‫מחשבים את שכיחות ההתאמה הצפויה (ז"א כאשר ‪ A‬מול ‪ A‬ב‪-‬‬
‫‪ C ,100%‬מול ‪.)...C‬‬
‫מחלקים את הערך הראשון בערך השני ומקבלים את ההסתברות‪.‬‬
‫הוצאת ‪ LOG‬ע"מ‬
‫לנרמל מעניקה את הערך להכפלה במטריצה (חיובי = ח‪.‬א דומות –‬
‫ככל שיותר קרובות‬
‫– ערך יותר גבוה‪ ,‬שלילי = שונות)‪.‬‬
‫‪o‬מטריצות ‪ – HARD‬מיועדות להתאמה בין רצפים בעלי‬
‫מרחק אבולוציוני קצר‬
‫‪ PAM‬ערך נמוך ‪ – BLOSUM‬ערך גבוה‬
‫‪o‬מטריצת ‪ - SOFT‬מרחק אבולוציוני גדול‪,‬‬
‫‪ PAM‬ערך גבוה ‪ – BLOSUM‬ערך נמוך‬
‫‪Optimal Score = Optimal Alignmento‬‬
‫‪ – Global‬ביצוע ‪ Alignment‬באורך מלא של‬
‫שני הרצפים‬
‫•‪ – Needelman-Wunsch‬מציאת‬
‫ה‪ Alignment-‬המקסימלי‪,‬‬
‫ביצוע אנאליזה וסכימה לכל‬
‫אורך הרצף‪ – .‬השיטה אינה‬
‫מסוגלת לזהות בעצמה‬
‫‪-Domain‬ים‪-Motif/‬ים‬
‫והומולוגיה בינהם‪.‬‬
‫•אופן חישוב סה"כ‬
‫האפשרויות השונות ע"מ‬
‫למצוא את את ה‪Alignment-‬‬
‫האופטימלי הוא בעייתי‪ ,‬שכן‬
‫מדובר בהמון אפשרויות‬
‫שיש להשוות בינהם‪ .‬פותחה‬
‫שיטה שנקראת‪:‬‬
‫“‪– "Dynamic Programming Computation of scores‬‬
‫השיטה פועלת ע"פ עקרון הרקורסיה‪ ,‬כאשר למעשה‬
‫בכל צעד מחושבת ההתאמה הטובה ביותר בהתייחס‬
‫לצעדים הקודמים‪.‬‬
‫נק' התחלה‬ ‫דוגמא‪:‬‬

‫‪A C G T‬‬
‫‪GAP = -2‬‬ ‫‪A 1 -1 -1 -1‬‬
‫‪C -1 1 -1 -1‬‬
‫‪G -1 -1 1 -1‬‬
‫באופן עקרוני‪:‬‬ ‫‪T -1 -1 -1 1‬‬
‫תזוזה לאחד הצדדים = ‪GAP‬‬ ‫‪Gap = -2‬‬
‫תזוזה באלכסון =‬
‫ערך במטריצה (זהות‪/‬החלפה)‬

‫‪ – Local‬מציאת מקטע ההתאמה הטוב‬


‫ביותר בין שני הרצפים‬
‫•‪ – Smith – Waterman‬מחפש‬
‫את ההתאמה הטובה ביותר‬
‫בין שני מקטעים‪ ,‬ללא קשר‬
‫ישיר לאורכם‪ ,‬או לנק'‬
‫ההתחלה‪ .‬בשיטה זו לא‬
‫מבוצע בהכרח‬
‫‪ Alignment‬לכל הרצף‪.‬‬
‫•אופן החישוב דומה לחישוב‬
‫בשיטה הגלובלית‪:‬‬
‫‪o‬במקום ערכים‬
‫שלילים‬
‫מציבים ‪0‬‬
‫‪o‬חישוב‬
‫המסלול‬
‫האופטימלי‬
‫מבוצע‬
‫מהערך הגבוה‬
‫ביותר ולא‬
‫מהפינה‬
‫הימנית‬
‫התחתונה‪.‬‬

‫‪‬נקודות חשובות‪:‬‬
‫•המסלול האופטימלי הוא‬
‫תוצאה של מניפולציה‬
‫חישובית ואינה בהכרח‬
‫אומרת שזוהי ההתאמה‬
‫הביולוגית הנכונה‪.‬‬
‫•שכיחות החלפות של ח‪.‬א‪.‬‬
‫אינה שווה בכל עמדה ברצף‬
‫•הכנסת ‪-GAP‬ים אינה דומה‬
‫למוטציות הכנסה‪/‬מחיקה‪.‬‬
‫•מתוכנית המחשב תמיד‬
‫מתקבלת תוצאה – גם כאשר‬
‫לא הגיוני בכלל לבצע‬
‫‪.Alignment‬‬
‫•כלים‪:‬‬
‫‪EMBOSSo‬‬
‫‪programs‬‬
‫& ‪(global‬‬
‫‪local) - SRS‬‬
‫‪NCBI Blasto‬‬
‫‪)(local‬‬

‫מצגת ‪:4‬‬
‫•מדוע מבצעים ‪?MSA‬‬
‫‪o‬זיהוי משפחת של חלבונים ע"ס איזורים הומולוגיים‪.‬‬
‫‪o‬עזרה בזיהוי מבנה שניוני ושלישוני של רצפים חדשים‬
‫‪o‬סיוע בחקר אבולוציוני‪ ,‬ובניית עצים פילוגניטים‪.‬‬
‫‪o‬מהנחות ה‪ - Alignment-‬אורגניזמים קרובים בעלי ‪DNA‬‬
‫ורצף חלבונים דומה‪.‬‬
‫חלבונים דומים‪ ,‬לעיתים קרובות בעלי אותה‬
‫פונק'‪.‬‬
‫שני גנים נקראים ‪ Paralogous‬אם עברו‬ ‫‪- Paralogouso‬‬
‫דופליקציה‪.‬‬
‫‪ – Orthologuso‬שני גנים נקראים ‪ Orthologus‬אם עברו‬
‫ספציאציה (היו זהים והפכו להיות שונים)‪.‬‬
‫‪ - :MSAo‬לקבוצת רצפים אין התאמה יחידה נכונה‪ ,‬אלא‬
‫רק ה‪ Alignmnet-‬שנחשב אופטימלי ע"ס החישובים‪.‬‬
‫קביעת ה‪ Alignment-‬הטוב ביותר עבור ההשפעה נתונה‬
‫לשיקול דעתו של החוקר‪.‬‬

‫‪o‬שיטות ה‪ MSA-‬מבוססות על ביצוע ‪ PWA‬רקורסיבי בשלב‬


‫הראשון בין שני רצפים‪ ,‬ובשלבים הבאים בין תוצאת ה‪PWA-‬‬
‫הקודם לבין רצף נוסף‪.‬‬
‫‪: Progressive Alignment‬‬
‫•ביצוע ‪ PWA‬בין כל זוגות הרצפים‬
‫האפשריים‬
‫•חישוב "מרחק" והכנת מטריצת‬
‫מרחקים בין כל זוג רצפים ע"פ ה‬
‫‪.PWA‬‬

‫‪Spinach‬‬ ‫‪Rice‬‬ ‫‪Mosquito‬‬ ‫‪Monkey‬‬ ‫‪Human‬‬


‫‪Spinach‬‬ ‫‪0.0‬‬ ‫‪84.9‬‬ ‫‪105.6‬‬ ‫‪90.8‬‬ ‫‪86.3‬‬
‫‪Rice‬‬ ‫‪84.9‬‬ ‫‪0.0‬‬ ‫‪117.8‬‬ ‫‪122.4‬‬ ‫‪122.6‬‬
‫‪Mosquito‬‬ ‫‪105.6‬‬ ‫‪117.8‬‬ ‫‪0.0‬‬ ‫‪84.7‬‬ ‫‪80.8‬‬
‫‪Monkey‬‬ ‫‪90.8‬‬ ‫‪122.4‬‬ ‫‪84.7‬‬ ‫‪0.0‬‬ ‫‪3.3‬‬
‫‪Human‬‬ ‫‪86.3‬‬ ‫‪122.6‬‬ ‫‪80.8‬‬ ‫‪3.3‬‬ ‫‪0.0 ‬‬
‫‪ ‬‬

‫מטריצה המתארת השוואה של חלבון דומה במס'‬


‫אורגניזמים‬

‫•בנית ‪ – Guide Tree‬ע"ס מטריצת‬


‫מרחקים באמצעות שיטת ‪Neighbor‬‬
‫‪ , joining‬בונים עץ שמראה את יחסי‬
‫הקרבה בין הרצפים‪ .‬העץ מכתיב‬
‫למעשה את סדר הרצפים שעליהם‬
‫יבוצע ‪.Progressive Alignment‬‬
‫•‪ – NJ‬איחוד בכל צעד‪ ,‬את שני תתי‬
‫העצים הקרובים ביותר שעדיין לא‬
‫אוחדו‪.‬‬
‫לדוגמא‪ :‬במטריצה שהוצגה ערכי המינימום – ז"א ה‪-‬‬
‫‪ Alignment‬הקרוב‬
‫ביותר הוא בין האדם לקוף‪ ,‬ולכן בשלב ראשון מתבצע איחוד‬
‫של הרצפים הנ"ל‪.‬‬
‫לאחר האיחוד יש לחשב מחדש את המרחק של כל הנותרים‬
‫מהרצף המאוחד‪ ,‬וזאת ע"י ביצוע ממוצע חשבוני של כל‬
‫רצף שנותר מול המרחק המקורי שלו מהאדם והקוף לפני‬
‫האיחוד‪.‬‬
‫לדוגמא‪ :‬הרצף של התרד נמצא ‪ 90.8‬מהקוף ו‪ 86.3-‬מהאדם‬
‫ולכן מרחקו מהרצף המאוחד אדם‪-‬קוף יהיה‪90.8+86.3/2 :‬‬
‫= ‪88.55‬‬
‫במטריצה החדשה במקום עמודות אדם וקוף‪ ,‬תופיע עמודה‬
‫אחת בלבד – אדם‪-‬קוף‪ ,‬כאשר כל המרחקים בטבלה מייצגים‬
‫את המרחקים מן הרצף המאוחד‪.‬‬
‫** יש לשים לב‪ :‬בעל שלב מחברים את העמודות‬
‫בעלות הערך הנמוך ביותר‪ ,‬ולא את הרצף‬
‫המאוחד מול זה שקרוב אליו!!!‬
‫בשלב האחרון‪ :‬שתי העמודות‪/‬שורות שנותרו הופכות להיות‬
‫הענפים המרכזיים בעץ שנוצר‪.‬‬
‫•ביצוע ‪ alignment‬סידרתי ע"פ‬
‫תוצאות ה‪.Guide Tree-‬‬
‫•שיטת ‪ Clustal W‬מבצעת ‪ MSA‬ע"ס‬
‫העקרונות שנלמדו‪ ,‬ביצוע ‪MSA‬‬
‫תוך שימוש במשקלים (‪– Weights‬‬
‫מבוסס על המרחק של כל רצף‬
‫משורש העץ)‪ .‬כאשר מחשבים‬
‫‪ MSA‬הניקוד עבור ‪ GAP‬שונה‬
‫מהניקוד ב‪PWA-‬‬
‫•‪ – Clustal‬עובד רק עם רצפים ב‪-‬‬
‫‪ ,)FASTA (multiFASTA‬ניתן למצוא‬
‫אותו ב‪.SRS, EMBL/EBI-‬‬
‫•‪ – Clustalx‬מוצר תוכנה המאפשר‬
‫לקבל ממשק ‪ windows‬המציגות‬
‫ויזואלית את תוצאות ה‪.ClustalW-‬‬
‫•ניתן לבצע באמצעות כלי תוכנה‬
‫שונים "שיפורים" לתוצאות‬
‫הממוחשבות ע"מ להתאימם יותר‬
‫למציאות ביולוגית‪.‬‬

‫מצגת ‪:5‬‬
‫•המטרה‪ :‬מציאת התאמות של רצף מבוקש אל מול בסיסי‬
‫נתונים‪.‬‬
‫•אלגוריתם מדויק‪ :‬ביצוע ‪ PWA‬לכל רצץ ב‪ ,DB-‬החיסרון‪ :‬ב‪DB-‬‬
‫יש מליוני רצפים – מאוד איטי‪.‬‬
‫•אלגוריתם מקורב‪ :‬שימוש באלגוריתם ‪ Heuristic‬ע"מ להוציא את‬
‫הרצפים הלא רלוונטים בטרם ביצוע ‪( PWA‬האלגוריתם המדויק)‬
‫אל מול קבוצה מצומצמת יותר של רצפים‪.‬‬
‫•הנחות האלגוריתם המקורב‪ :‬רצפים הומולוגים מכילים מקטעים‬
‫דומים (מותר החלפות ח‪.‬א‪ .‬אך אסורים מרווחים)‪.‬‬
‫•ל‪ DB-‬מבוצע ‪ Pre Process‬שממפתח אותו מראש (פעם אחת בחיי ה‪)DB-‬‬
‫ומאפשר גישה מהירה למקטעים קצרים‪.‬‬
‫המפתוח מבוצע ע"י בניית טבלה המכילה רצפים קצרים (אורך‬
‫מילה עבור חלבונים ‪ 1-2‬ח‪.‬א‪ .‬עבור נוקליאודוטידים ‪ ,4-6‬בדנ"א‬
‫בדרך כלל משתמשים באורך מילה של ‪ )3‬ושרשור ע"ס רצף‬
‫המפתח את כל הרצפיםב‪ DB-‬המכילים את הרצף הקצר הזה ‪+‬‬
‫המיקומים המדויקים בתוך הרצף‪.‬‬
‫באופן דומה נבנית טבלה כזו לרצף עליו אנו מבצעים את‬
‫השאילתה‪.‬‬
‫ככל שאורך המילה המשמשת כמפתח אורך יותר‪ :‬חיפוש‬
‫מהיר יותר‪ ,‬מדויק פחות‪.‬‬
‫•‪:FastaA‬‬
‫‪o‬שלב ‪ – I‬עבור כל רצף ב‪ DB-‬מתבצע חיפוש לאיתור כל‬
‫המקטעים התואמים לפי טבלאות המפתח‪.‬‬
‫‪o‬שלב ‪ - II‬זיהוי ‪ 10‬ההתאמות (האלכסוניות) הטובות‬
‫מבוצע ע"ס ‪ PAM250‬של כל ההתאמות‬ ‫‪II+III‬למשל‬
‫ביותר (ניקוד‬
‫רצף‪.‬‬ ‫לכל‬
‫ובחירת ה‪ 10-‬הטובות ביותר)‪ .‬התוצאה הטובה ביותר‬
‫נקראת ‪( init1‬בתרשים מסומן ב‪)*-‬‬
‫‪o‬שלב ‪ – III‬חיבור המקטעים האלכסוניים שהתקבלו‪ ,‬תוך‬
‫"הורדת ניקוד" בשל החיבור‪ .‬הניקוד של הרצף המחובר‬
‫נקרא‪.initn :‬‬
‫‪o‬שלב ‪ – IV‬הרצפים בעלי ערך ה‪ initn-‬הגבוה ביותר‪,‬‬
‫עוברים חישוב של ‪ ,local Alignment‬ה‪Local Alignment-‬‬
‫מבוצע בתוך רצועה שרוחבה בד"כ ‪ 32‬ח‪.‬א‪( .‬ז"א שלא‬
‫יבוצע ‪ Local Alignment‬באמצע אחד הרצפים למשל‬
‫וינטרל את כל מה שביצענו עד עכשיו)‪ .‬הניקוד של ה‪-‬‬
‫‪ Local Alignment‬נקרא‪.opt :‬‬
‫‪o‬בדיקת מותאמות סטטיסטית לשיטה‪:‬‬
‫‪‬חישוב ממוצע של ניקודים אקראים‬
‫והשוואת הניקוד ‪ Alignment‬ספציפי אל מול‬
‫הערך הממוצע וחישוב סטיית התקן‬
‫מהערך הממוצע –‬
‫‪.Z-Score‬‬
‫‪‬ככל שה‪ Z-Score-‬יותר גבוה יותר טוב‪ ,‬שכן‬
‫ככל שהתוצאה שלנו רחוקה מן הממוצע‬
‫(ע"ס ערכי סטיית התקן)‪ ,‬היא יותר‬
‫מדויקת‪.‬‬
‫‪ – E Value‬מייצג את כמות הרצפים בעלי ‪Z-‬‬
‫‪ Score‬מסויים שיתקבלו כתוצאה מסריקת‬
‫ה‪ DB-‬עבור רצף רנדומלי‪.‬‬
‫הגדרה מקבילה‪ :‬מס' ה‪-Alignmnet-‬ים השונים‪ ,‬בעלי‬
‫ניקוד מקביל או גבוה יותר אשר צפוי שיופיעו כאשר‬
‫יבוצע חיפוש רנדומלי ב‪.DB-‬‬
‫‪ E Value‬מחושב לכל רשומה שהתקבלה בתוצאות‪ ,‬הערך‬
‫משקף בין השאר את גודל ה‪ DB-‬ושיטת ביצוע הניקוד‪.‬‬
‫•כאשר ‪ Z‬עולה )תוצאה‬
‫שמצאנו מדויקת יותר)‪E ,‬‬
‫יורד (פחות התאמות‬
‫מדויקות שכאלו) ולהפך‪.‬‬
‫‪ – FastaA‬גם שם של פורמט לרצפים‪ ,‬וגם‬
‫משפחה של תוכניות מחשב כמו שתואר‬
‫לעיל‪.‬‬

‫‪ – BLASTo‬סט של אלגוריתמים שנועדו לחיפוש רצף ב‪-‬‬


‫‪Local Alignment‬‬
‫מול ה‪ .DB-‬העיקרון מבוסס על שבירת רצף השאילתה‬
‫והרצפים ב‪ DB-‬למקטעים וחיפוש התאמות‪ ,‬כאשר בניגוד ל‪-‬‬
‫‪ FastaA‬מילות חיפוש יכולות להיות גם דומות ולא רק זהות‪.‬‬

‫‪o‬שלב ‪ – I‬שבירת רצף השאילתה למילים באורך ‪( W‬עבור‬


‫חלבונים ‪ )W=3‬וחיפוש כל המילים שניקוד שלהן הוא‬
‫לפחות ‪.T‬‬
‫‪o‬שלב ‪ – II‬השוואת המילים אלו מול ה‪ DB-‬וחיפוש‬
‫התאמות‪.‬‬
‫‪o‬בחירת תוצאות בהן על אותו אלכסון ישנן שתי פגיעות‬
‫שהמרחק בינהן הוא עד ‪( A‬בד"כ ‪.)40‬‬
‫‪o‬הרחבת החיפוש ספציפית מול רצפים אלו שנבחרו‪.‬‬
‫‪o‬התוצאה‪ -HSPs – High Scoring Segment Pairs :‬קבלת‬
‫התאמות של רצפים בעלי ניקוד התאמתי גבוה‪.‬‬
‫‪o‬מובהקות סטטיסטית ‪ - E Value‬מס' התוצאות השגויות‬
‫(רעש) שצפוי שיופיעו עבור חיפוש ב‪ DB-‬בגודל מסויים‪.‬‬
‫כאשר ‪ – E=1‬ז"א צפוי שתהייה התאמה אחת‬
‫שקרית‪/‬שגויה בחיפוש‪ – E=0 ,‬צפוי שלא יהיו תוצאות‬
‫שגויות – התאמה מדוייקת‪.‬‬
‫‪-Filtero‬ים‪ Blast :‬באופן אוטומטי מורידה ‪ /‬מפלטרת גם‬
‫ברצף השאילתה וגם ברצפים ב‪ DB-‬איזורים של חזרות‬
‫קטנות (‪ .)Low Complexity Regions‬במידה ומנוטרלים‬
‫הפילטרים‪ ,‬אזי הסבירות לקבלת תוצאות שגויות עולה‪.‬‬
‫‪o‬סוגי ‪:Blast‬‬
‫‪ – N‬רצף ‪ DNA‬מול ‪ DB‬של ‪DNA‬‬
‫‪ – P‬רצף חלבון מול ‪ DB‬של חלבון‬
‫‪ – X‬רצף ‪ DNA‬מתורגם לחלבון אל מול‬
‫‪ DB‬של חלבונים‬
‫‪ – tN‬רצף של חלבון אל מול ‪ DB‬שמכיל‬
‫רצפי ‪ DNA‬מתורגמים‪.‬‬
‫‪ – TX‬רצף ‪ DNA‬מתורגם אל מול ‪DB‬‬
‫שמכיל רצפי ‪ DNA‬מתורגמים‪.‬‬
‫‪o‬חיפוש לפי רצף ‪ DNA‬יותר אמין מאשר חיפוש לפי חלבון‪,‬‬
‫שכן אותה ח‪.‬א‪ .‬בחלבון יכולה להיות מקודדת ע"י יותר‬
‫מקודון אחד (שונות ברמת הרצף) כמו כן ישנם רק‬
‫ארבעה וריאנטים לחיפוש‪ ,‬לעומת זאת חיפוש דרך‬
‫חלבונים מועדף במקרים מסויימים שכן מבנה החלבונים‬
‫נשמר יותר טוב לאורך האבולוציה‪ ,‬ישנם ‪ 22‬ח‪.‬א‪.‬‬
‫לחיפוש‪ DB ,‬של ‪ DNA‬יותר גדולים בד"כ – ז"א יותר‬
‫תוצאות אקראיות וכמו כן מטריצות השוואה של חלבונים‬
‫יותר רגישות ממטריצות ‪DNA‬‬
‫‪o‬מתי לחפש לפי ‪?DNA‬‬
‫‪‬לא נמצא חלבון דומה‬
‫‪‬הרצף לא מקודד‬
‫‪‬אין וראיציות ברמת החלבון – חלבון חדש‪,‬‬
‫אין ריחוק אבולוציוני‪.‬‬
‫‪‬הרחבת המידע על הרצף‪.‬‬

‫מצגת ‪:6‬‬
‫•ראינו חיפוש ב‪ DB-‬ע"י כלים שמבצעים ‪ ,PWA‬כגון ‪FastA,‬‬
‫‪ ...Blast‬אך בכלים אלו יש פספוס של ‪ 10-20%‬של תוצאות‬
‫אמיתיות‪ .‬אחוז הפספוס נעשה גבוה יותר כאשר מבצעים‬
‫חיפושים מול חלבונים המורכבים ממס' ‪-Domain‬ים‪ .‬ניתן לבצע‬
‫גם ‪ MSA‬אל מול ‪.DB’s‬‬
‫•‪ – Motif‬מס' מבנים שיניונים אשר מסודרים בסדר קבוע‪ ,‬כגון‬
‫‪ ...helix -> loop -> helix‬לחלק מן ה‪-Motif-‬ים יש גם תפקיד‬
‫ביולוגי‪.‬‬
‫•‪ – Domain‬היחידה הבסיסית של מבנה המסוגלת לעבור קיפול‬
‫‪ D3‬עצמאי‪ ,‬מורכב מאוסף של ‪-motif‬ים אשר ארוזים כחלק‬
‫ממבנה ה‪ .Domain-‬ל‪ Domain-‬יש תפקוד ביולוגי ספציפי‪.‬‬
‫•משפחות ‪-Domain‬ים‪ :‬חלבונים בעלי אותו ‪.Domain‬‬
‫•משפחות חלבונים‪ :‬חלבונים בעלי אותה קומבינציה של ‪-Domain‬‬
‫ים‪.‬‬
‫•בסיסי נתונים של ‪-Domain‬ים נקראים ‪ Secondary DB‬היות‬
‫ותוכנם נגזר (ידנית‪/‬אוטומטית) ממידע שנמצא ב‪Primary DB-‬‬
‫ולא מתוצאות ניסיוניות‪.‬‬
‫•ייצוג ‪-Domain‬ים‪:‬‬
‫‪ – Patterno‬משמש עבור ‪-Domain‬ים קטנים‪ ,‬שמורים היטב‬
‫לאורך האבולוציה‪ ,‬דימיון גבוה ברמת הרצף בין ה‪-‬‬
‫‪-Domain‬ים מאותו הסוג‪ .‬דוגמא‪:‬‬
‫<‪ – }A[ST](2)-x(1,2)-{V‬מתחיל באלנין‪ ,‬אחריו סרין או‬
‫טראונין‬
‫פעמיים‪ ,‬לאחר מכן כל חומצת אמינו (בכמות ‪ 1‬או ‪)2‬‬
‫ולאחר מכן כל‬
‫ח‪.‬א‪ .‬מלבד ‪.Valin‬‬
‫‪ – ]Regular Exp: ^A.[ST]{2}.?[^V‬כנ"ל‪.‬‬
‫‪ – Profileo‬משמש לתאור ‪-Domain‬ים קצת פחות שמורים‬
‫בעיקר בחתך של משפחת חלבונים‪ .‬ניתן לבדוק מידת‬
‫דימיון לרצף שחשוד כ‪ Domain-‬ששיך למשפחה‪.‬‬

‫‪ – Hidden Markov Model o‬שיטה אחרת ליצור ‪-Profile‬ים‬

‫‪ o‬בעיות באיתור ‪-domain‬ים‪:‬‬


‫‪‬הגדרה ראשונית של המשפחות‪ ,‬זיהוי ה‪-‬‬
‫‪-Domain‬ים השייכים למשפחה‪.‬‬
‫‪‬בניית ‪ MSA‬לחברים במשפחות‪.‬‬
‫‪‬מציאת גבולות ה‪ Domain-‬באספקט של‬
‫כלל הרצף‪.‬‬
‫‪o‬סוגי ‪:DB’s‬‬
‫‪ Cruated: DB’s‬שנבחנים ע"י מומחים בטרם‬
‫הכנסת מידע (‪.)Prosite‬‬
‫‪ :Automated‬נבנים אוטומטית מ‪Primary-‬‬
‫‪.)DB’s (ProDom‬‬
‫‪ Prosite – DBo‬למשפחות חלבונים ו‪-Domain-‬ים‪ ,‬מכיל גם‬
‫מידע לגבי אתרים בעלי חשיבות ביולוגית‪Patterns & ,‬‬
‫‪ Profiles‬לסיוע במציאת השייכות המשפחתית של רצף‬
‫חדש שנבחן‪ .‬ישנם שני סוגי קבצים ב‪Prosite:-‬‬
‫‪ Pattern/Profiles‬עם רשימת כל ההתאמות שנמצאו ב‪-‬‬
‫‪ ,SwissProt‬וקבצי תיעוד‪.‬‬
‫‪o‬שיטות לביצוע אנאליזה על משפחות חלבונים‪:‬‬
‫‪ – RegEx‬זיהוי אתר קטן יחסית ששמור‬
‫מאוד בין כל החלבונים במשפחה‪ .‬נוכחות‬
‫של כזה או מס' בודד של כאלה = רצף‬
‫חדש שייך למשפחה‪.‬‬
‫‪ – PrintS‬זיהוי ע"פ מס' ‪-Motif‬ים מרחקים‬
‫והסדר בו הם יושבים ולאחר מכן ביצוע‬
‫‪ Blocks‬שמחשבת את מובהקות התוצאה‬
‫ע"ס מטריצות משקלים‪.‬‬
‫‪ – Profiles‬קביעת שייכות למשפחה ע"י‬
‫מידת הקרבה ל‪ .Profile-‬ולאחר מכן ביצוע‬
‫‪...HMM‬‬
‫‪ – Profiles‬בדיקת מידת ההתאמה של רצף‬
‫חדש‬
‫‪ – RegEx o‬מופקים מאזורים בודדים שנתגלו כשמורים‬
‫היטב ב‪ .Alignmnet-‬המידע המוצג ע"י ‪ RegEx‬הוא‬
‫מינימלי‪ ,‬ז"א מידע על הרצף הולך לאיבוד (למשל אם‬
‫כותבים ‪ – X‬ז"א כל חומצה אמינית‪ ,‬אבל בפועל לא בטוח‬
‫שכל ח‪.‬א‪ .‬יכולה לבוא אלה שלא נמצאה חוקיות לאיזו כן‬
‫ואיזו לא‪ ,)...‬ככל שהרצף סוטיה יותר מן הרצף השמור‬
‫כך ייצוגו יצא יותר "מטושטש" ולא ברור‪ .‬בשיטת ה‪-‬‬
‫‪ RegEx‬אין משמעות לדימיון או שיש התמה או שאין‬
‫(למשל אם שתי ח‪.‬א‪ .‬זהות תכתב הח‪.‬א‪ .‬אחרת יכתבו‬
‫שתי החומצות – אגב‪ ,‬מטעה כי ניתן לבנות כך גם רצפים‬
‫שלא קיימים‪.‬‬
‫‪ :PrintS o‬תקצירים של אנאליזה "‪ "FingerPrint‬על‬
‫חלבונים‪ ,‬ניתן לקבל מידע לגבי ה‪-Domain-‬ים‪ ,‬אורכם‪,‬‬
‫מרחקם זה מזה‪ ,‬וסדר ההופעה‪.‬‬
‫‪ – FingerPrint‬קבוצה של ‪-Motif‬ים שמורים‬
‫היטב‪ ,‬אשר משמשים לתיאור משפחה של‬
‫חלבונים‪ .‬ע"ס תוצאות ‪ FingerPrints‬ניתן‬
‫לקבוע את אופן קיפול החלבון ואת‬
‫תפקידו‪.‬‬
‫‪‬ה‪ Diagnostic Signture -‬של משפחות‬
‫החלבונים מורכבת בד"כ ביותר מ‪Motif 1-‬‬
‫ולמעשה לוקחים הרבה ככל האפשר‪.‬‬
‫באמצעות תבנית ה‪-Motif-‬ים‪ ,‬ולמעשה‬
‫הקונטקס שבו הם נמצאים (‪-Motif‬ים‬
‫שכנים) ניתן לקבל תוצאה שמראה גם‬
‫שייכות ביולוגית מעבר לדימיון בין רצפים‪.‬‬
‫‪ – Blockso‬השוואת סגמנטים שעבר ‪ Alignment‬ללא‬
‫מרווחים‪ ,‬אל מול החלקים השמורים ביותר של החלבון‪.‬‬
‫ההשוואה נעשית אל מול כל משפחות החלבונים ב‪-‬‬
‫‪Cruated DB’s‬‬
‫‪‬חישוב ניקוד הבלוק‬
‫ע"י ‪.Blosum62‬‬
‫‪ :HMMo‬דומים ל‪-Profile-‬ים בכך שטווח הפעולה הוא על‬
‫כל ה‪Domain-‬‬
‫זוהי למעשה שיטה הסתברותית‪ ,‬כל עמדה מקבלת סימון‬
‫מצב ‪" :‬זהות‪ ,‬מחיקה‪ ,‬הכנסה"‪ ,‬וע"ס זה מתבצע החישוב‬
‫באמצעות מטריצות ‪)PSSM (Position Specific Score Matrix‬‬
‫‪ – Psi-BLASTo‬חישוב ה‪ PSSM-‬מבוצע בכל פעם ע"ס‬
‫תוצאות סבב הריצה הקודם‪ .‬אופן עבודת התוכנה‪:‬‬
‫‪‬רצפי השאילתה נסרקים ומתבצע חיפוש‬
‫של איזורים "לא מורכבים"‪.‬‬
‫‪‬התוכנה מבצעת ‪( Blast‬עם מרווחים) על‬
‫רצף שאילתה ראשוני‪.‬‬
‫‪‬התוכנה לוקחת תוצאות משמעותיות מה‪-‬‬
‫‪ Alignmnet‬שהתקבל‪( ,‬מייצרת‬
‫‪,)Profile‬מבצעת ‪ MSA‬ובונה ‪ PSSM‬ע"ס‬
‫התוצאות‪.‬‬
‫‪‬חיפוש מחדש ב‪ DB-‬באמצעות ה‪Profile-‬‬
‫באופן מעגלי ע"מ למצוא הומולוגים‬
‫נוספים‪.‬‬
‫‪‬לולאת החיפוש ממשיכה עד למשתמש‬
‫נמאס והוא מחליט להפסיק או שאין יותר‬
‫תוצאות‪.‬‬
‫מידע נוסף‪:‬‬
‫‪‬כ‪ 25-45%-‬מהתאמות למשפחות חלבונים‬
‫שלא נמצאו ע"י ‪ Blast/FastA‬ניתן לזהות‬
‫באמצעות השיטה הזו‪.‬‬
‫‪‬לאחר מס' איטרציות‪ ,‬המרחק בין הרצפים‬
‫עלול לגרום לטעויות בתוצאות (‪Profile‬‬
‫‪.)Drift‬‬
‫‪ – PHI-Blast‬ביצוע חיפוש דומה‪ ,‬כאשר ה‪-‬‬
‫‪ Input‬הוא ‪ Pattern‬במקום רצף והתוצאה‬
‫יכולה להיות ‪ Input‬ל‪ PSI BLAST-‬וע"י כך‬
‫ניתן למקד קצת יותר את החיפוש‪.‬‬

‫מצגת ‪:7‬‬
‫•כל שני יצורים חולקים איזשהו אב קדמון בעבר‪.‬‬
‫•‪ – CladoGenesis‬התפצלות לשני מסלולי התפתחות עצמאיים‬
‫מבחינה גנטית‪.‬‬
‫•‪ – Anagenesis‬התפתחות אבולוציונית לאורך מסלול גנטי אחד‪.‬‬
‫•ניתן לחשב את המרחק הגנטי בין כל שני אורגניזמים בעץ‬
‫מינים‪ ,‬מתרגמים את תוצאת החישוב למידות של זמן התפתחותי‪.‬‬
‫•‪????? - MonoPhyletic Group‬‬
‫•מטרות פילוגניזה‪:‬‬
‫‪o‬קשירת הקשרים הביולוגים הנכונים בין‬
‫אורגניזמים‪.‬‬
‫‪o‬חישוב זמן‪ ,‬וסדר כרונולוגי של תהליכי‬
‫התפתחות של אורגניזמים שונים‪.‬‬
‫•מושגים‪.ROOT, Internal Node, Braches, Newick Format :‬‬

‫•סוגי מידע‪ :‬מולקולרי (דנ"א‪ ,‬רנ"א‪ / )...‬מורפולוגי (רקמות רכות‬


‫‪ /‬קשות‪.)...‬‬
‫•יתרונות מידע מולקולרי‪ :‬יחידות מולקולריות הינן תורשתיות‪,‬‬
‫תיאור היחידה אינו פשטני – יחסית מדוייק‪ ,‬ניתן להעביר את‬
‫המידע מניפולציות מתמטיות‪ ,‬יותר קל לזהות הומולוגיות מאשר‬
‫בצורה המורפולגית‪ ,‬זמינות גבוהה למידע מולקולרי‪.‬‬
‫•עץ מינים‪ -‬מייצג את היחסים האבולוציונים בין מינים‪.‬‬
‫•עץ גנים לגנים שונים יתכנו מסלולים אבולוציונים שונים בתוך‬
‫אותו אוטובוס‪.‬‬
‫•‪ – Orthologous‬שני גנים הם אורתולוגים אם הם עברו ספציאציה‬
‫לשני גנים שונים‪.‬‬
‫•‪ – Paralogous‬גן שעבר הכפלה‪ ,‬וכעת מיצג למשל שני גנים הוא‬
‫פרלוגי‪.‬‬
‫•שלבים בבנית עץ פילוגניטי‪:‬‬
‫‪o‬בחירת רצף שאילתה וחיפוש של רצפים‬
‫דומים‬
‫‪o‬ביצוע ‪MSA‬‬
‫‪o‬תרגום מס' אי ההתאמות למס' שינויים‬
‫שהתרחשו‪.‬‬
‫‪o‬בניית מטריצת מרחקים – משתמשים ביחידות‬
‫המיצגות את מס' ההחלפות של נוק בודדים מתוך‬
‫‪ 1000‬נוק'‪.‬‬
‫‪o‬בניית העץ הפילוגנטי – נעשה ע"ס שימוש‬
‫במטריצת המרחקים‪ :‬בוחרים את שתי‬
‫התוצאות הנמוכות ביותר‪ ,‬אלו הם‬
‫האורגניזמים הסמוכים‪ ,‬בונים מטריצת‬
‫מרחקים חדשה המייצגת את המרחק בין‬
‫כ"א משאר האורגניזמים אל מול‬
‫האורגניזם המאוחד (ע"ס ממוצע‬
‫המרחקים המקורי)‪ .‬וחוזר חלילה‪ .‬בכל‬
‫שלב נבחרים אלו בעלי הערך‬
‫הנמוך ביותר ללא קשר לשלב הקודם‪.‬‬
‫בשלב האחרון נשארים שני ענפים‬
‫(מטריצה ‪ )4X4‬ואז פשוט שמים אותם‬
‫בשני צידי השורש‪.‬‬

‫‪ – Cladogramso‬מייצג את סדר הענפים‪,‬‬


‫לאורך הענפים אין משמעות‪.‬‬
‫‪ – Phylogramso‬מייצג את סדר הענפים‪ ,‬כמו‬
‫כן אורך הענפים מייצג מרחק אבולוציוני‪.‬‬
‫‪ – Unrooted Treeo‬עץ שלא ידוע איפה‬
‫מתחיל השורש שלו‪ .‬קביעת השורש‬
‫נקראת ‪ ,Rooting‬ובד"כ נעשית ע"ס מידע‬
‫נוסף שיש לנו ממקורות נוספים (כמות‬
‫העצים האפשריים מכל עץ גדולה מאוד‬
‫ותלויה בגודל העץ – ‪ 4‬אורגניזמים – ‪3‬‬
‫צורות ללא שורש‪ ,‬מכ"א מהן ניתן להפיק ‪5‬‬
‫צורות עם שורש – סה"כ ‪ 15‬אפשרויות)‪.‬‬
‫‪!)NRooted = (2n-3)!/2^n-2(n-2‬‬
‫‪!)NUnRooted = (2n-5)!/2^n-3(n-3‬‬
‫‪ -o‬דימיון בין שני אורגניזמים‬
‫‪ -Related‬קישור גנטי ממשי‪.‬‬
‫שני מינים יכולים להיות דומים בלי להיות ‪....Related‬‬
‫‪o‬עבור ‪ 20‬אורגנימיזם ישנן –‬
‫‪ 8,200,794,532,637,891,559,375‬אפשרויות‪ ,‬ורק אחת‬
‫מהן יכולה להיות נכונה‪ ...‬אין שיטה בדוקה לבחור מה‬
‫הנכונה‪ ,‬בד"כ מסתייעים במידע נוסף‪ :‬למשל שימוש‬
‫בקבוצה חיצונית‪ ,‬שיודעים שהיא אינה שייכת לקבוצה‬
‫המונופילטית שלנו‪.‬‬
‫‪o‬פילוגניזה מולקולרית – שיטות‪ :‬הקונספט‬
‫כאן הוא שימוש במטריצת מרחקים כאשר‬
‫הסברה היא שרצפים ששונים ב‪ 5%-‬יותר‬
‫קרובים מכאלו ששנים אחד מהשני ב‪-‬‬
‫‪ .10%‬ישנם מס' אלגוריתמים‪:‬‬
‫‪UPGMA – Unwaited Pair Group method‬‬
‫‪ – Avarage‬סידור העץ ע"ס ממוצע‬
‫מתמטי???‬
‫‪– Min Evolution‬‬
‫שימוש במטריצת‬
‫מרחקים‪ ,‬ע"מ למצוא‬
‫את העץ שיתן את‬
‫אורך הענפים הכולל‬
‫הקצר ביותר‪ ,‬זהו‬
‫העץ שמתקבל‬
‫כפלט‪.‬‬
‫‪ – Neighbot Joining‬קלט‪ ,MSA :‬שני‬
‫אלגוריתמים לביצוע הפעילות‪:‬‬
‫•‪– Maximum Parsimony‬‬
‫הנחת בסיס‪ :‬העץ הנכון הוא‬
‫זה שנדרש המס' המועט‬
‫ביותר של שינויים ע"מ‬
‫להסביר מה שהתקבל ב‪-‬‬
‫‪ .MSA‬עבור כל ‪ Site‬נבנים‬
‫כל העצים האפשריים ע"מ‬
‫להגיע למצב המתואר ב‪-‬‬
‫‪ .site‬בסיום נבחר סט העצים‬
‫שבו סה"כ השינויים במועט‬
‫ביותר‪.‬‬

‫•‪ – Maximu Liklihood‬לא‬


‫דיברנו‪.‬‬
‫‪‬טעויות בבנית עצים פילוגנטיים‪ :‬טעויות‬
‫בסידור הטופולוגיה ‪ /‬טעויות בחישוב‬
‫המרחקים (אורך הענפים)‪.‬‬
‫‪ – BootStrap Test‬ע"מ לבדוק את אמינות‬
‫התוצאה‪ ,‬ולוודא שכל החברים בעץ‬
‫שייכים‪ ,‬מבוצעת הבדיקה הזו‪ ,‬שבה באופן‬
‫רנדומלי מוחלפות עמודות ב‪Alignment-‬‬
‫ויוצרות ‪ .Pseudo Alignments‬הוא כ"א מה‪-‬‬
‫‪ Pseudo‬נבנים העצים ונבחר העץ הנכון‪,‬‬
‫ומידת ההגעה לעץ הנכון מגדירה את‬
‫מובהקות התוצאה (‪ 95%‬נחשב‪.)...‬‬

‫מצגת ‪:8‬‬
‫•אילו מאפיינים של ‪ DNA‬ניתצן למצוא ע"ס אנאליזה של הרצף‬
‫‪o‬חזרות – הגנום האנושי מכיל המון חזרות‬
‫‪( Interspersed‬משובצות‪/‬מפוזרות) – בגנום‬
‫של רוב האורגניזמים האאוקריוטים ישנה‬
‫כמות רבה של רצפים חוזרים מסוג זה‬
‫(באדם כרבע מהגנם)‪.‬‬
‫‪ – Short Interspresed -‬מקטעים קצרים של חזרות אלו‬
‫(פחות מ‪ 500-‬בסיסים בכל מקטע ופחות מ‪5^10-‬‬
‫חזרות)‪.‬‬
‫‪ – Long Interspresed -‬מקטעים ארוכים של חזרות אלו‬
‫(יותר‬
‫מ‪ 5Kb-‬בכל מקטע‬
‫‪‬חזרות רצף פשוטות – בדרך עד ‪12‬‬
‫בסיסים ליחידה במס' חזרות‬
‫‪Mini/MicroSatellits‬‬
‫‪‬בלוקי חזרות מסוג ‪ – tandem‬חזרות‬
‫בטלומרים ובצנטרומר‪ .‬אורך החזרות יכול‬
‫להמשך ע"פ מיליוני בסיסים והתוכן בד"כ‬
‫ספציפי למין‪.‬‬
‫‪o‬מציאת גנים‬
‫‪o‬מציאת פרומוטורים‪.‬‬
‫•כלי תוכנה שנועדו לסייע בידנו לזיהוי חזרות‪:‬‬
‫‪ RepBase – DBo‬שמכיל מידע לגבי רצפי חזרות ידועים‪,‬‬
‫ואזורי ‪.Low Complexity‬‬
‫‪ – RepeatMaskero‬כלי לאיתור חזרות ומיסוך חזרות ע"פ‬
‫רצפי ‪ ,DNA‬השימוש ב‪ DB-‬הוא הבסיס לאיתור החזרות‪.‬‬
‫בד"כ מריצים על רצף לפני שמבצעים ‪.Gene Prediction‬‬
‫‪o‬סוגי חזרות‪SINE, LINE, LTR,DNA, SIMPLE, Low :‬‬
‫‪…Complex, Satellite,tRna‬‬
‫‪o‬גן‪ :‬סה"כ מקטעי ה‪ DNA-‬שאחראים ליצירת תוצר‬
‫פונקציונלי‪ :‬חלבונים‪...rRNA, RNAi ,‬‬
‫‪o‬תופעות שיש לקחת בחשבון‪ :‬פרוקריוטי‪/‬אאוקריוטי‪,‬‬
‫אינטרונים‪/‬אקסונים‪ ,‬שיחבור אלנטרנטיבי‪ ,‬ביטוי‬
‫דיפרנציאלי‪...‬‬
‫‪o‬זיהוי גנים‪:‬‬
‫‪‬הומולוגיה ‪ -‬ע"ס חלבון‪ ,CDNA ,‬או מקטעי‬
‫‪)RNA (EST). (Extrinsic‬‬
‫שימוש בכלי ‪( Local Alignment‬כגון‪)Smith-Waterman :‬‬
‫ע"מ למצוא התאמות בבסיסי נתונים של חלבונים‪,‬‬
‫‪ – ...cDNA, EST‬הבעיות כאן הן‪ :‬חוסר יכולת לזהות גנים‬
‫שהחלבונים שלהם למשל עדיין לא ב‪ ...DB-‬ועדיין אין‬
‫הגדרה טובה לגבולות הדימיון בהומולוגיה‪.‬‬
‫סיכום יתרונות‪/‬חסרונות‪:‬‬
‫יתרונות‪ :‬מסתמך על נתונים קיימים‪ ,‬מיד ביולוגי קודם‪.‬‬
‫חסרונות‪ :‬מסתמך על מידע קודם‪ ,‬חלקי‪ ,‬חשוף לטעויות‬
‫ב‪ ,DB-‬וישנו קושי להגדיר היטב את גבולות הדימיון‪.‬‬
‫‪ -‬באמצעות שימוש ב‪ :EST-‬אם ישנה התאמה ז"א זה‬
‫מקטע שבא לידי ביטוי – ולכן בסבירות גבוהה זהו גן‪ ,‬כמו‬
‫כן ניתן בעזרתו לקבל מידע מדוייק על גבולות‬
‫אקסונים‪/‬אינטרונים‪.‬‬
‫כלים‪.sim4, BLAT :‬‬
‫‪‬השוואה בין גנומים של מינים שונים –‬
‫מבוסס על ההנחה מידע מקודד שמור‬
‫יותר ממידע שאינו מקודד‪ .‬שתי גישות‪:‬‬
‫•‪ – Intra-Genomic‬ע"י‬
‫משפחות גנים‬
‫•‪ – Inter Genomic‬בין מינים‪.‬‬
‫•בעת ביצוע ה‪ Alignment-‬יש‬
‫חשיבות למרחק‬
‫האבולוציוני‪ :‬קרוב מידי – כל‬
‫האיזורים יראו דימיון לא רק‬
‫גנים‪ ,‬רחוק מידי – תיתכן‬
‫מידה רבה של אי דימיון‬
‫שתוביל לאיבוד מידע‪ /‬מידע‬
‫שגוי‪.‬‬
‫‪‬חיזוי גנים ע"פ סמנים (‪)intrinsic): (ab initio‬‬
‫•פרוקריוטים – זיהוי ‪– ORF‬‬
‫סדר גודל של גנום קטן‪ ,‬ג‪-‬‬
‫‪ 90%‬מהמידע בגנום מקודד‪,‬‬
‫זיהוי גנים קל יחסית – אחוז‬
‫הצלחה גבוה מאוד‪ .‬מבנה‬
‫של אופרונים – יחידת‬
‫שיעתוק אחת למס' גנים‪ ,‬אין‬
‫אינטרונים‪ ,‬גן ‪ = 1‬חלבון ‪,1‬‬
‫לכל גן יש ‪ ORF‬שמתחיל ב‪-‬‬
‫‪ )start codon(ATG‬ונגמר ב‪-‬‬
‫‪)stop codon(TAA/TAG/TGA‬‬
‫(אין ‪ end codon‬בדרך)‪.‬‬
‫‪o‬שיטת חיפוש‬
‫היא פשוטה‪:‬‬
‫חיפוש ה‪ORF-‬‬
‫בכל ‪6‬‬
‫מסגרות‬
‫הקריאה‬
‫האפשריות (‪3‬‬
‫קדימה‪3 ,‬‬
‫ברוורס)‪.‬‬
‫‪o‬סינון ע"פ‬
‫קריטריונים‬
‫נוספים‪:‬‬
‫‪‬א‬
‫ו‬
‫ר‬
‫ך‬

‫ה‬
‫‪-‬‬
‫‪O‬‬
‫‪R‬‬
‫‪F‬‬
‫צ‬
‫ר‬
‫י‬
‫ך‬

‫ל‬
‫ה‬
‫י‬
‫ו‬
‫ת‬

‫ל‬
‫פ‬
‫ח‬
‫ו‬
‫ת‬

‫‪3‬‬
‫‪0‬‬
‫‪0‬‬
‫‪b‬‬
‫‪p‬‬
‫ע‬
‫"‬
‫מ‬

‫ש‬
‫י‬
‫כ‬
‫י‬
‫ל‬

‫ג‬
‫ן‬
‫‪,‬‬

‫צ‬
‫ר‬
‫י‬
‫ך‬

‫ל‬
‫ה‬
‫כ‬
‫י‬
‫ל‬

‫ה‬
‫ר‬
‫כ‬
‫ב‬

‫ח‬
‫‪.‬‬
‫א‬
‫‪.‬‬

‫ע‬
‫"‬
‫פ‬

‫ה‬
‫מ‬
‫ק‬
‫ו‬
‫ב‬
‫ל‬

‫ב‬
‫א‬
‫ו‬
‫ר‬
‫ג‬
‫נ‬
‫י‬
‫ז‬
‫ם‬

‫ה‬
‫ס‬
‫פ‬
‫צ‬
‫י‬
‫פ‬
‫י‬
‫‪,‬‬

‫צ‬
‫ר‬
‫י‬
‫ך‬

‫מ‬
‫ב‬
‫נ‬
‫ה‬
‫‪/‬‬
‫צ‬
‫י‬
‫ר‬
‫ו‬
‫ף‬

‫‪c‬‬
‫‪o‬‬
‫‪d‬‬
‫‪o‬‬
‫‪n‬‬
‫‪-‬‬
‫י‬
‫ם‬

‫ש‬
‫מ‬
‫ו‬
‫פ‬
‫י‬
‫ע‬

‫ס‬
‫פ‬
‫צ‬
‫י‬
‫פ‬
‫י‬
‫ת‬

‫ב‬
‫א‬
‫ו‬
‫ר‬
‫ג‬
‫נ‬
‫י‬
‫ז‬
‫י‬
‫ם‬

‫ה‬
‫ז‬
‫ה‬
‫‪.‬‬
‫‪o‬בעיות‪ :‬טעות‬
‫קטנה‪ ,‬של‬
‫בסיס אחד ב‪-‬‬
‫‪ start/stop‬קודון‬
‫יכולה‬
‫להשפיע על‬
‫זיהוי של גנים‪,‬‬
‫מקטעים‬
‫קצרים מאוד‬
‫(למשל קטנים‬
‫מ‪)300b-‬‬
‫שבכ"ז‬
‫מכילים גנים‬
‫יפוספסו‪.‬‬
‫•אאוקריוטים – פרומוטורים‪,‬‬
‫‪ ,PolyA‬אתרי שחבור‬
‫אלטרנטיבי ו‪Start/Stop-‬‬
‫‪ -Codons‬גנומים גדולים‬
‫מאוד‪ ,‬צפיפות המידע‬
‫המקודד קטנה‪ ,‬מבנה של‬
‫אינטרונים‪/‬אקסונים‪ ,‬באופן‬
‫כללי זיהוי גנים קשה‪.‬‬
‫‪o‬שלב ‪ : I‬הקלט הינו‬
‫רצף ‪ ,DNA‬הפלט‬
‫הינו אנוטציה של‬
‫הרצף שמראה‬
‫עבור כל נוק' האם‬
‫הוא מקודד או לא‬
‫וזיהוי ע"ס זה של‬
‫האקסונים בגנים‬
‫המקודדים‬
‫לחלבונים‬
‫(מתעלמים מאיזורי‬
‫‪.)UTR 5/3‬‬
‫‪o‬שימוש בכלים‬
‫סטטיסטיים ע"מ‬
‫לבחון האם רצף‬
‫דנ"א מקודד‬
‫לחלבון‪ .‬הנחת‬
‫הבסיס היא שישנו‬
‫שוני באופן‬
‫השימוש בקודונים‬
‫בין מקטעים‬
‫מקודדים ללא‬
‫מקודדים וזוהי‬
‫תכונה בסיסית של‬
‫הגנום שבאה לידי‬
‫ביטוי‪ ,‬לדוגמא‪,‬‬
‫בכך שבמקטע‬
‫מקודד באופן‬
‫סטטיסטי ישנו שוני‬
‫בכמות הקידוד‬
‫לח‪.‬א‪ .‬באיזורים‬
‫מקודדים ‪ /‬לא‬
‫מקודדים וכמו כן‬
‫ישנו הבדל בכמות‬
‫השימוש בקודונים‬
‫מקבילים לאותה‬
‫ח‪.‬א‪. .‬‬
‫‪o‬בדרך כלל חישוב‬
‫הניקוד הסטטיסטי‬
‫עבור רצף מסויים‬
‫מתבצע בשיטת‬
‫‪,Sliding Window‬‬
‫כאשר נדרש חלקון‬
‫גדול ‪ 50-200bp‬ע"מ‬
‫לאתר סיגנל‪.‬‬
‫‪o‬סיגנל – רצף ‪DNA‬‬
‫שמזוהה ע"י מנגנון‬
‫בתא לצורך פעילות‬
‫כלשהיא‪ ,‬כגון‬
‫שיעתוק‪.‬‬
‫‪– CPG Islandso‬‬
‫איזורים בגנום‬
‫בעלי שכיחות‬
‫גבוהה יותר של ה‪-‬‬
‫דינוקליאוטיד ‪,CG‬‬
‫בדרך כלל נמצאים‬
‫סמוך לאזור בו‬
‫נמצא גן – ז"א‬
‫סיגנל לכך‬
‫שבאיזור יש גן‪.‬‬
‫‪o‬דוגמא נוספת‬
‫לסיגנל היא אתר‬
‫שיחבור אלטרנטיבי‬
‫– אינטרון מתחיל‬
‫ב‪ GU, A-‬באמצע‪,‬‬
‫וחזרות של ‪.AG‬‬
‫‪o‬אתר קישור‬
‫לפקטור שיעתוק‬
‫הוא בעייתי –‬
‫האתרים קטנים (‬
‫‪ ,)6bp‬יש בעיותיות‬
‫בזיהוי הפרומוטור‬
‫גם אם מוצאים את‬
‫אתר הקישור‪ ,‬ישנם‬
‫מס' פקטורי‬
‫שיעתוק שנקשרים‬
‫מבקביל ויש צורך‬
‫לזהות את‬
‫הקומבינציה‬
‫המדוייקת – מאוד‬
‫קשה‪.‬‬
‫‪o‬שיטות לזיהוי‬
‫סיגנלים‪:‬‬
‫‪‬ר‬
‫צ‬
‫פ‬
‫י‬

‫ק‬
‫ו‬
‫נ‬
‫צ‬
‫ז‬
‫ו‬
‫ס‬
‫‪‬מ‬
‫ט‬
‫ר‬
‫י‬
‫צ‬
‫ו‬
‫ת‬
‫‪/‬‬
‫מ‬
‫ע‬
‫ר‬
‫כ‬
‫י‬

‫מ‬
‫ש‬
‫ק‬
‫ל‬
‫י‬
‫ם‬
‫‪‬ע‬
‫צ‬
‫י‬

‫ה‬
‫ח‬
‫ל‬
‫ט‬
‫ה‬
‫‪,‬‬

‫‪H‬‬
‫‪M‬‬
‫‪M‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬

‫•שילוב של השיטות הנ"ל‪.‬‬


‫‪‬תוכנות לזיהוי גנים‪:‬‬
‫•מבוססות חוקים – מערכות‬
‫החלטה‪ ,‬ישנו סט חוקים‬
‫שמגדיר האם גן או לא‪.‬‬
‫‪.GenFinder‬‬
‫•מבוססות רשת טבעית –‬
‫משתמשות במידע שמתקבל‬
‫ממקור חיצוני ע"מ לבנות‬
‫את החוקים‪.Grail/EXP .‬‬
‫•‪ – HMM‬שימוש בכלים‬
‫סטטיסטים – חישוב‬
‫הסתברויות של מצבים‬
‫ואפשרויות וקבלת החלטות‬
‫ע"ס התוצאות החישוביות‪.‬‬
‫‪.Gen/Genome Scan‬‬
‫•‪ – GenScan‬זיהוי של מבנה גן‬
‫שלם בגנום אדם‪ ,‬מדוייק!‪,‬‬
‫משמש רק לגנים שמקודדים‬
‫לחלבונים‪ .‬פרמטרים‬
‫סטטיסטיים שרלוונטים‬
‫לחישוב ההסתברותי‬
‫(באורינטציה של מידע‬
‫שהצטבר כבר על הגנום)‪:‬‬
‫מס' אקסונים ממוצע לגן‪,‬‬
‫אורך אקסון ממוצע‪ ,‬מבנה‬
‫ההקסמרים‪ . ...‬בשלב‬
‫הראשון ע"מ להתכוונן באופן‬
‫גס למקום הגן משתמש‬
‫בשיטות המבוססות על תוכן‬
‫הרצף ‪-‬זיהוי פרומוטורים‪,‬‬
‫אקסונים‪/‬אינטרונים‪ ...‬וזאת‬
‫ע"י זיהוי סיגנלים‪ .‬כמו כן‬
‫מתבצעת בדיקה שהם‬
‫מופעים בסדר הגיוני‪ .‬לאחר‬
‫מכן ע"מ לשפר ולדייק הוא‬
‫משתמש בהשוואה ע"ס‬
‫‪-Pattern‬ים‪.‬‬
‫•ישנו סט של ערכי סף – ‪Sn‬‬
‫‪Sensitivity, Sp - Specifity‬‬
‫עבור כל רמה – רמת‬
‫הנוקליאוטיד‪ ,‬רמת האקסון‪,‬‬
‫רמת הגן‪ .‬התוצאה נחשבת‬
‫אמינה מעבר לערכי הסף‬
‫שנקבעו‪.‬‬
‫•קשיים בתהליכי חיזוי גנים‪:‬‬

‫‪o‬בין גנים‬
‫מפרידים‬
‫מרווחים‬
‫גדולים‬
‫‪o‬חלוקת הגן‬
‫למקטעים‪:‬‬
‫אקסונים‪/‬אינט‬
‫רונים‬
‫‪o‬באדם‪ ,‬החלק‬
‫המקודד‬
‫בגנום קטן‬
‫מאוד יחסית‬
‫לגודל הגנום‪.‬‬
‫‪o‬מגוון רחב של‬
‫סיגנלים‪.‬‬
‫‪o‬שחבור‬
‫אלטרנטיבי‬
‫ורצפים‬
‫חוזרים‪.‬‬
‫‪o‬בעיה בזיהוי‬
‫מדוייק של‬
‫אקסונים‬
‫ראשון ואחרון‬
‫–בגלל נוכחות‬
‫של ‪-UTR‬ים‪.‬‬
‫‪o‬גנים קטנים –‬
‫לא נופלים‬
‫בחתכים‬
‫הסטטיסטיים‬
‫ולא מזוהים‪.‬‬
‫‪o‬המידע‬
‫שמשמש‬
‫לבניית‬
‫אלגוריתמי‬
‫החיפוש‬
‫מבוסס על‬
‫מידע שנרכש‬
‫מגנים אחרים‬
‫– קיבעון‬
‫תכנותי – יתכן‬
‫שיש דברים‬
‫שלא נזהה‪...‬‬
‫‪o‬לא תמיד יש‬
‫סימוך ביולוגי‬
‫לתוצאות‬
‫הריצה‪.‬‬
‫‪o‬קושי באימות‬
‫הנתונים –‬
‫תוצאות‬
‫שגויות חיוביות‬
‫(זוהה גן אבל‬
‫בפועל אין גן)‪.‬‬
‫‪o‬יכולת הדיוק‬
‫בחיזוי גבוהה‬
‫– לא מספיק‪.‬‬
‫•אחת הדרכים לאמת המידע‬
‫היא להצליב הרצות של מס'‬
‫שיטות חיזוי גנים‪ ,‬ולהשתמש‬
‫בחיתוך של התוצאות‬
‫שהתקבלו‪.‬‬
‫•דרך נוספת היא להשתמש‬
‫בתוכנות שונות‪ ,‬שכ"א‬
‫מתמקדת בחיזוי דרך‬
‫אלמנטים שונים בגן ע"מ‬
‫להשלים את התמונה‪.‬‬
‫•שיטת העבודה המקובלת‪:‬‬
‫‪o‬מיסוך רצפים‬
‫חוזרים ‪-‬‬
‫‪RepeatMasker‬‬
‫‪o‬הרצת הרצף‬
‫דרך מס'‬
‫תוכניות חיזוי‬
‫‪o‬ביצוע בדיקת‬
‫תוצאות‬
‫שהתקבלו על‬
‫גנים חזויים‬
‫אל מול ‪DB‬‬
‫של ‪,EST‬‬
‫וגנים‬
‫באורגניזמים‬
‫אחרים‪ ,‬כנ"ך‬
‫ביצוע חיפוש‬
‫דומה של‬
‫הרצפים‬
‫שהתקבלו‬
‫כלא‬
‫מקודדים‪.‬‬

Anda mungkin juga menyukai