Data Science & AI, NLP

Viral Escape

Written by

DSL

Published on

augustus 17, 2021

Het is bijna zover. Zo goed als iedereen in Nederland heeft inmiddels de kans gekregen zich te kunnen laten vaccineren, de 1,5 meter regel verdwijnt en het kabinet streeft ernaar om ook de andere maatregelen los te laten. Dat klinkt als het einde van corona toch, of niet? Helaas muteert SARS-CoV-2 (het coronavirus dat COVID-19 veroorzaakt) net zoals het griepvirus als een lopend vuurtje. Naast die duizenden mutaties kennen we inmiddels ook al meerdere varianten van SARS-CoV-2, waaronder de alfa, bèta, gamma en (momenteel de meest voorkomende) delta variant.Gelukkig zijn de meeste vaccins ook goed bestand tegen de nieuwe varianten van het virus, maar wat als dat niet meer het geval is? Een "viral escape" is dan ook een doemscenario, waarbij het virus net genoeg muteert waardoor de bestaande antilichamen het niet langer herkennen. De gevolgen zijn ernstig: zo’n gevaarlijke mutatie zal het immuunsysteem van mensen die zijn ingeënt (of al eerder besmet waren) omzeilen. Kortom, we zijn dan weer terug bij af.

Hoe Artificial Intelligence kan helpen

Om dit scenario te kunnen ontlopen, is het belangrijk om te ontdekken welk van de duizenden mutaties daadwerkelijk voor een groot gevaar kunnen zorgen. Zodat de vaccin-ontwikkeling daar zo snel mogelijk op kan anticiperen. Artificial Intelligence (AI) kan hier bij helpen. MIT-onderzoekers hebben namelijk een nieuwe manier gevonden en bedacht om ‘viral escapes’ te modeleren op basis van modellen die oorspronkelijk zijn ontwikkeld om taal te analyseren. De welbekende Natural Language Processing (NLP) modellen.

De gedachte achter het inschakelen van een NLP model voor dit geval is als volgt: virussen muteren zichzelf op een manier waarbij ze biologische regels van eiwitstructuur volgen, maar ook zo gunstig mogelijk. Zo muteert SARS-CoV-2 in het spike-eiwit wat te zien is op de onderstaande afbeelding. Momenteel hebben mensen die recentelijk corona hebben gehad of zijn gevaccineerd antilichamen die op het spike eiwit passen. Hierdoor kunnen de SARS-CoV-2 virus cellen geen contact meer leggen met de menselijke cellen en raakt iemand besmet. Het doel van het virus is dan ook om snel weer te muteren in de spike eiwitten, zodat de niet antilichamen passen, maar wel de receptoren van de menselijke cel. Hierbij wil het virus dus zodanig muteren dat het aan het menselijk immuunsysteem (de antilichamen) kan ontsnappen, waarbij het niet sterft of de mogelijkheid van het vermenigvuldigen verliest. Zo geldt dus voor een NLP model niet alleen dat een zin de juiste betekenis (semantiek) moet hebben, maar ook dat de grammatica (syntaxis) van de zin correct moet zijn. Gebruikmakend van diezelfde twee principes hebben de onderzoekers op een creatieve manier NLP modellen aangepast om veranderingen in de genetische code van virussen waar te nemen.

Een voorbeeld

Hoe het NLP model inschat welke mutaties van het virus voor een viral escape kunnen zorgen, is geïllustreerd met het voorbeeld hier beneden. De eerste zin representeert het virus voordat het een mutatie ondergaat. De tweede zin (van links) laat een kleine mutatie zien. De betekenis van de zin is nauwelijks veranderd en de zin is grammaticaal correct. Voor deze mutatie geldt dat het nieuwe virus nog genoeg op het origineel lijkt en dat het immuunsysteem het zou herkennen en aanvallen. Hierbij zijn dus geen nieuwe antilichamen nodig. De derde zin is een zin die niet grammaticaal correct is. In de taal van het virus zal zo’n mutatie dan ook gezien worden als een mislukte mutatie. De laatste zin is waar het gevaar ligt. Deze zin is grammaticaal correct en heeft een juiste semantiek. Dit zijn dan ook de uitzonderingen waarvan het NLP model inschat dat ze voor een viral escape zouden kunnen zorgen. Het zoeken van deze uitzonderingen noemen de onderzoekers 'constrained semantic change search' (CSCS).

NLP model en trainen

Uiteraard werd het echte NLP model niet getraind op zinnen, maar op de bouwstenen van verschillende spike-eiwitten afkomstig van coronavirussen, de zogenoemde aminozuursequenties. Er waren in totaal iets minder dan 1000 sequenties van het SARS-CoV-2 spike-eiwit en nog eens 3000 spike aminozuursequenties van andere soorten coronavirussen aanwezig in de training set. In de afbeelding hieronder staat het NLP model afgebeeld. Intern construeert het model een semantische representatie, ook wel een “embedding”, voor een gegeven aminozuursequentie. De output van het model laat zien hoe goed een aminozuur in de “grammatica” van de sequentie past. In het geval van de abeelding is het aminozuur dat grammaticaal het beste in de sequentie past gekenmerkt door de hoofdletter A.

Testen

Van de 891 verschillende coronavirus-spike-aminozuursequenties die de onderzoekers onderzochten met het model, was er één afkomstig van een stam die iemand her-besmette die vorig jaar hersteld was van Covid-19. Deze sequentie was dan ook al snel hoog gescoord door de CSCS. Verder werden er slechts drie andere sequenties in de reeks gevonden die zowel hogere semantische verandering als zogenaamde grammaticaliteit vertoonden. Ook voerden de onderzoekers enkele van de nieuwe varianten in hun algoritme in en stelde zo vast dat zowel de Zuid-Afrikaanse en de Britse stammen "vrij hoog" scoorden wat betreft hun ontsnappingskans.

Hoe de viral escape voorkomen kan worden

Wat nu? Als de nieuwe mutaties goed worden bijgehouden en het algoritme wordt gebruikt om de gevaarte van de nieuwe mutaties in te schatten, kunnen onderzoekers verdachte stammen zo snel mogelijk in het laboratorium testen en de vaccins overeenkomstig aanpassen. Het testen gaat dan als volgt. Verdachte stammen en antilichamen worden samen gezet. Wanneer blijkt dat de antilichamen niet hechten aan de spike-eiwitten, bieden de huidige antilichamen geen bescherming meer. Hoeveel tijd de vaccinontwikkelaars daadwerkelijk besparen bij een AI-gebaseerde aanpak zoals deze is nog onduidelijk. Wel weten we dat in een pandemie zo groot als deze, elke seconde meetelt.

Verwijzingen

Hie, Brian, et al. "Learning the language of viral evolution and escape." Science371.6526 (2021): 284-288. DOI: 10.1126/science.abd7331
https://singularityhub.com/2021/01/19/a-language-ai-is-accurately-predicting-covid-19-escape-mutations/
https://spectrum.ieee.org/ai-predicts-most-potent-covid-19-mutations
https://news.mit.edu/2021/model-viruses-escape-immune-0114
https://qz.com/africa/1995639/scientists-use-algorithms-to-predict-new-covid-19-variants/