חוקרים בטכניון פיתחו טכנולוגיה לקידוד, שחזור וקריאה מהירה של מידע המאוחסן ב-DNA

צפיפות המידע ב-DNA גדולה עד פי מאה מיליון בערך מזו של אחסון דיגיטלי. פירוש הדבר הוא כי פוטנציאלית, על כל יחידת נפח המחזיקה כיום 1 מגה-בייט נוכל לאחסן עד 100 טרה-בייט.

חוקרים בפקולטה למדעי המחשב ע"ש טאוב פיתחו שיטה מבוססת AI המאיצה בשלושה סדרי גודל את מהירות שליפת המידע ממאגרי נתונים מבוססי DNA ומשפרת באופן משמעותי את הדיוק. צוות החוקרים כלל את הדוקטורנט עומר צברי, ד"ר דניאלה בר-לב, ד"ר איתי אור, פרופ' איתן יעקבי ופרופ' טובי עציון.

אחסון מידע ב-DNA הוא תחום מחקר חדש ומבטיח, שעיקרו – שימוש ב-DNA כפלטפורמה לאחסון מידע. ל-DNA יתרונות משמעותיים כמערכת אחסון מידע, ובהם שימור המידע לטווחי זמן עצומים; הפחתה דרמטית בעלויות האנרגטיות והכלכליות ובפגיעה בסביבה; וזינוק בצפיפות המידע, שמשמעותו מזעור דרמטי של נפח האחסון.

בהקשר של "חיי המדף" של המידע – ב-2013 הצליחו חוקרים מדנמרק להפיק DNA מעצם של סוס שחי לפני 700,000 שנה. ב-2021 הצליח צוות בין-לאומי להפיק DNA של ממותות שחיו לפני יותר ממיליון שנה. לשם השוואה, אורך החיים של דיסק מגנטי, כמו אלה המשמשים בחוות שרתים, נמדד בשנים או לכל היותר בעשורים בודדים. לכן ברורה קפיצת הענק הצפויה באחסון ארוך טווח.

בהקשר הכלכלי והאנרגטי ראוי לציין כי ה"ענן", המספק לנו את רוב שירותי המחשוב, מבוסס על חוות שרתים הצורכות כיום כ-3% מצריכת החשמל העולמית ופולטות כ-2% מסך פליטות הפחמן. מאחר שכמות המידע גדלה באופן מעריכי, ברור שהנזק הסביבתי הצפוי מהמשך השימוש בטכנולוגיות הקיימות עתיד לגדול בהתמדה.

באשר לצפיפות המידע – צפיפות המידע ב-DNA גדולה עד פי מאה מיליון בערך מזו של אחסון דיגיטלי. פירוש הדבר הוא כי פוטנציאלית, על כל יחידת נפח המחזיקה כיום 1 מגה-בייט נוכל לאחסן עד 100 טרה-בייט.

DNA היא מולקולה שמורכבת מרצף של תרכובות אורגניות הקרויות נוקלאוטידים. אלה מתחלקים לארבעה סוגים המסומנים באותיות T, G, C, A. בהתאם לכך, אם במחשוב המסורתי מיוצג המידע על ידי שתי ספרות בלבד – 0 ו-1 – הרי שאחסון ב-DNA מבוסס על רצפים של ארבע אותיות, מה שמגדיל דרמטית את מספר הצירופים האפשריים.

כדי לכתוב (לאחסן) את המידע בטכנולוגיה זו דרושה סינתזה (DNA Synthesis) – יצירה של מולקולות DNA לפי הרצף שמקודד את המידע; וכדי לקרוא את המידע נדרש ריצוף (DNA sequencing).

פיתוח טכנולוגיית אחסון ב-DNA מלווה באתגרים טכנולוגיים רבים. ראשית, גם הסינתזה וגם הריצוף הם תהליכים ארוכים ורועשים המכניסים שגיאות במידע שנוצר. אלה הן בעיקר שגיאות הסרה, הוספה והחלפה (Insertion/Deletion/Substitution). בנוסף, עקב מגבלותיו של תהליך הסינתזה נוצרים במהלכו עותקים רבים לכל אחת ממולקולות ה-DNA המקודדות את המידע. אלה נשמרים יחד, ללא סדר, בכלי אחסון המהווה את מערכת הזיכרון. במהלך הריצוף מתקבלים עותקים שגויים רבים של מולקולות אלה; מרביתם מכילים שגיאות וחלקם אף נעלמים לגמרי. המחקר הנוכחי מציג פתרון חישובי כולל לאחזור המידע ולתיקון השגיאות במערכות מורכבות אלה, זאת באמצעות אלגוריתמים ושיטות חדשניות לקידוד המידע ולאחזורו. באמצעות ניסויים מראים החוקרים כי הפתרון שפיתחו מאפשר לקצר את משך אחזור המידע וקריאתו מימים שלמים ל-10 דקות.

בתרשים: בשלב (1) מידע בינארי מקודד לרצפי DNA מעל האותיות T, G, C, A. בשלב (2) רצפי ה-DNA אשר מקודדים את המידע מיוצרים כמולקולות DNA ונשמרות במיכלית אחסון. בשלב (3) מתבצע תהליך הריצוף (קריאה) של דוגמה מהמולקולות ששמורות במיכלית האחסון. הרצפים שמתקבלים מכילים טעויות בשל שגיאות בתהליך הסינתזה והריצוף. בשלב (4) מופעל אלגוריתם השחזור ופענוח המידע, אשר מתקן את השגיאות ברצפים ומחזיר את המידע המקורי. קרדיט : דוברות הטכניון

השיטה שפיתחו חוקרי הטכניון, DNAformer, מורכבת ממודל AI שאומן על בסיס דאטה סימולטיבי (שיוצר באמצעות סימולטור שפותח בטכניון) כך שיידע לשחזר רצפי DNA על בסיס עותקים שגויים שלהם. בנוסף, השיטה מכילה גם קוד לתיקון-שגיאות ייעודי וייחודי ל-DNA, ששומר את המידע בצורה עמידה בפני שגיאות. מעל כל זה פותח מנגנון בטיחות נוסף, שיודע לזהות רצפי DNA רועשים במיוחד ולהפעיל עליהם כלים אלגוריתמיים חזקים בצורה יעילה. בסוף התהליך, הכול מומר חזרה למידע דיגיטלי.

השיטה החדשה שהציגו החוקרים מאפשרת קריאה של 100 מגה-בייט של מידע במהירות גדולה פי 3,200 מזו של השיטה המדויקת ביותר שהייתה קיימת עד כה, ללא אובדן דיוק. בהשוואה לשיטות אחרות שנחשבו מהירות עד לפיתוח זה, השיטה החדשה מציגה שיפור דיוק של עד 40% בנוסף לשיפור זמנים ניכר. יכולות אלו הודגמו על מידע בנפח 3.1 מגה-בייט, שכלל תמונת סטילס צבעונית, קטע קול שאורכו 24 שניות, המציג את דבריו של האסטרונאוט ניל ארמסטרונג על הירח, וטקסט כתוב על מעלותיו של ה-DNA כשיטת אחסון מבטיחה. [כאן]

החוקרים מתכוונים לפתח על בסיסDNAformer גרסאות המותאמות לצרכים שונים. הם מסבירים גם כי הטכנולוגיה שפיתחו היא סקליבילית ואדפטיבלית, כלומר אפשר יהיה להתאים אותה לכמויות מידע גדולות מאוד המתאימות לצורכי השוק ולטכנולוגיות סינתוז וריצוף עתידיות.

המחקר נתמך על ידי הנציבות האירופית למחקר (מענק ERC), על ידי הרשות האירופית לחדשנות (מענק EIC, פרוייקט DiDAX) וכן על ידי הקרן הלאומית למדע (ISF).