Crearea ADN-ului artistic # 7: cum functioneaza?

Acest articol face parte dintr-o serie de lucrari care documenteaza proiectul meu de a realiza lucrari de arta din ADN. In ultimul articol am aratat cum arata arta. In acest text voi explica modul in care analizez ADN-ul unui individ pentru a extrage informatiile necesare pentru o lucrare de arta.

Va fi destul de tehnic, dar am incercat sa includ informatii suficiente pe care laicul interesat le poate intelege, de exemplu, cu putina gloante.

O scurta recapitulare. Chiar la inceputul acestui proiect, am decis ca lucrarile mele genetice vor consta intr-o serie de forme distincte. Cu cat sunt mai multe persoane legate, cu atat vor aparea mai multe obiecte in ambele lucrari. Aruncati o privire la aceste doua lucrari:

dnart-relation-composite

Fiecare dintre cele 12 forme are o personalitate unica si poate fi usor distinsa de celelalte. Cateva secunde privind ambele lucrari de arta de mai sus si puteti vedea ca unele forme apar in aceeasi pozitie in ambele lucrari (de exemplu, forma stanga sus), iar unele sunt unice pentru fiecare (forma din stanga jos). Aceasta este ceea ce v-ati astepta sa arate lucrarile artistice ale doi frati.

Sa presupunem ca avem o colectie de zece mii de forme unice, fiecare avand o personalitate suficient de distincta incat este usor de recunoscut atunci cand aceeasi forma apare in doua picturi. Exact modul in care cream aceste forme este un subiect pentru un alt text. Obiectivul este sa va luati ADN-ul si reduceti-l la o lista cu numere cuprinse intre 1 si 10.000, astfel incat sa impartiti mai multe numere cu o ruda apropiata decat cu o persoana independenta.

Numesc aceasta lista de numere semnatura AND artistica. Este sigur sa distribuiti public, deoarece nu contine informatii sensibile, cu exceptia, desigur, ca, daca doua persoane impartasesc aceeasi semnatura AND artistica, puteti sa le spuneti ce legatura  de rudenie este intre ele. Si iata, acesta este a mea:

9083, 2302, 1083, 1735, 5474, 1728, 9925, 1231, 95, 7831, 1526, 1505, 729, 4866, 3778, 2161, 20, 8178, 3972, 3103, 9332, 9859, 9757

Algoritmul meu pentru crearea semnaturii AND artistice este, din cate stiu, singura idee cu adevarat originala cu care am contribuit la acest proiect si este ceea ce face acest proiect deosebit fata de alte lucrari de arta create din ADN.

Partea 1: un primar rapid asupra geneticii SNP

Pentru a intelege descrierea algoritmului de semnatura AND artistica mai tarziu in acest articol, trebuie sa cunoasteti cateva principii despre ADN. Daca credeti ca SNP inseamna Partidul National Scotian, atunci ar trebui sa cititi aceasta sectiune.

ADN-ul este o molecula masiva facuta dintr-un sir de molecule mai mici numite nucleotide. Exista 4 nucleotide: adenina, citozina, guanina si timina, denumite A, C, G si T. Fiecare nucleotida are aproximativ 13 atomi in dimensiune, gandindu-se la acestea ca literele care exprima propozitiile intr-o limba genetica codificata.

Genomul dvs. are aproximativ 3 miliarde de litere lungi si este impartit in 23 de lungimi de ADN numite cromozomi. Cromozomii sunt suficient de mari incat sa le puteti vedea sub microscop si arata astfel:

humanchromosomeschromomycina3

Deoarece moleculele de ADN sunt caractere continue ale literelor, este posibil sa se identifice orice pozitie pe acel cromozom prin numararea de la un capat al cromozomului, de exemplu in pozitia 8.907.307 pe cromozomul 3, aveti o A. Aceasta pozitie este numita locus sau loci la plural. Fiecare cromozom este aproximativ simetric, avand doua copii ale ADN-ului tau. Un exemplar vine de la mama ta si celalalt de la tatal tau si sunt aproape identice. De fapt, secventa de ADN este aproape identica cu cea a tuturor celorlalti oameni – numai aproximativ unu din 300 de loci au fost gasiti sa varieze intre indivizi.

Mai devreme v-am spus ca la pozitia 8.907.307 pe cromozomul 3 ai un A si as putea face asta deoarece pozitia 8.907.307 pe cromozomul 3 este una din acele locatii plictisitoare care are intotdeauna aceeasi litera la om. Toata lumea are un A si din acest motiv nimeni nu sa gandit sa numeasca acest loc altceva decat “pozitia 8,907,307 pe cromozomul 3”. Locuinta de langa usa este totusi un animal diferit. Pozitia 8, 907, 308 de pe cromozomul 3 are un “polimorfism unic de nucleotide” sau SNP pe scurt, ceea ce inseamna ca a fost observat ca este diferit intre unii oameni. Acest locus particular poate avea fie un A, fie un G, care sunt denumite cele doua alele posibile. Deoarece aveti doua copii ale ADN-ului dvs. de la fiecare parinte, puteti avea fie doua ca, doi G, fie unul din fiecare. Acest lucru face ca locusul sa fie destul de interesant ca oamenii de stiinta i-au dat numele risulos rs180498, pentru a le salva de la a avea de a spune “pozitia 8907308 pe cromozomul 3” tot timpul.

La fel ca majoritatea SNP-urilor, nu avem nicio idee despre ceea ce face rs180498 sau chiar daca face ceva, deci are o intrare extrem de plictisitoare in SNPedia. Unele SNP-uri sunt mai interesante, cum ar fi rs1815739 care va poate face un sprinter mai bun, sau rs7495174 care va poate schimba culoarea ochilor.

Este rar ca ambele alele ale SNP vor fi la fel de comune. Alela mai frecventa este numita alela majora si cea mai putin frecventa alela minora. In cazul SNP plictisitor rs180498, alela minora este A cu o frecventa de 0,167, ceea ce inseamna ca 16,7% din firele de ADN vor avea un A, iar restul de 88,3% vor avea un G. Aceste cifre de frecventa sunt medii si pot varia Intre populatii. De fapt, alela noastra plictisitoare rs180498 / A are o frecventa de 13% in randul vest-europenilor si 41% in randul populatiei japoneze, conform proiectului 1000 Genomes.

Algoritmul de semnatura AND artistica se bazeaza pe cautarea alelelor relativ rare – cele cu o frecventa alelelor minore de aproximativ 2%. Eu numesc aceste “alele marker”, deoarece unul este o trasatura distinctiva a genomului dvs. care poate fi folosit pentru a va distinge de altii.

OK, acum stiti destul despre ADN pentru a urmari modul in care functioneaza algoritmul de semnatura AND artistica.

Partea 2: Algoritmul de semnatura ADN artistic

Algoritmul consta intr-o faza de pregatire care se face o data inainte ca cineva sa fie testat, apoi o etapa de analiza care se face pe ADN-ul unei persoane pentru a-si genera semnatura AND artistica.

Faza de preparare

Genereaza o lista de “alele marker” – SNP cu frecvente reduse ale alelelor minore in toate etnicitatile. Folosesc acesti pasi:

  1. Fie N lungimea listei de numere care este semnatura ADrtwork si M este valoarea maxima a fiecarui numar. Acestea vor fi alese pe baza cerintelor creative ale proiectului, iar pentru proiectul meu N = 23 si M = 4600, deoarece fiecare lucrare are 23 de forme si exista 4600 de forme diferite.
  2. Incepeti cu setul de SNP-uri testate de toate companiile de testare genetica pe care proiectul trebuie sa le sustina. In cazul meu sunt 23andme, ancestry.com si National Genographic. Toate aceste companii testeaza un set diferit de SNP, dar exista o suprapunere mare.
  3. Folosind date privind frecventa populatiei din proiectul 1000 Genomi prin intermediul HapMap, aruncati orice SNP cu o frecventa alelelor minore mai mica de 1% in orice etnie. Acest lucru se datoreaza faptului ca testele ADN nu sunt perfect corecte, astfel incat alela mai rara este cu atat mai probabil ca aspectul ei in rezultatele dvs. este o eroare de testare, nu un rezultat real. Aceasta este teorema lui Bayes si este un aspect important atunci cand se testeaza pentru conditii medicale rare.
  4. Daca N = 23, atunci utilizati cromozomii reali pentru acest proces. Altfel divizati genomul in sectiuni de lungime egala cu N si considerati ca acestea sunt “cromozomi” in scopul restului acestui algoritm.
  5. Selectati alelele din fiecare cromozom cu cele mai inalte frecvente alelelor minore in orice populatie HapMap, cu alele mai rare. Folosirea celei mai inalte frecvente este importanta – daca am folosi frecventa medie, putem ajunge la markeri care sunt rari in medie, dar foarte frecventi printre coreeni, de exemplu, pentru ca fiecare persoana coreeana sa prezinte in mod previzibil un numar in semnatura lor.
  6. Luati primele alele M-N din fiecare cromozom.
  7. Calculati probabilitatea ca o persoana sa nu aiba alela marker pentru cel putin un cromozom. * Daca aceasta probabilitate este inacceptabil de mare, fie mariti M, fie reveniti la pasul 6, luati fiecare alela sau fiecare al treilea alel sau fiecare alela n-le pentru a include mai multi markeri obisnuiti.
  8. Deselectati randuri un numar de identificare intre 1 si M pentru fiecare alela, astfel incat fiecare numar sa fie utilizat pentru o singura alela. Aceasta etapa de randomizare inseamna ca, chiar daca toate numerele nu sunt la fel de comune, numerele sunt distribuite cel putin aproximativ uniform intre 1 si M .

Utilizarea unor valori distincte M si N si alocarea aleatorie a numarului de identificare inseamna ca semnaturile AND artistice nu sunt comparabile intre proiectele creative care folosesc acest algoritm, cu exceptia cazului in care acestia au cooperat pentru a impartasi faza de pregatire a algoritmului.

* Cand combinati probabilitati independente, daca sansa unui eveniment care se intampla la o oportunitate este P, sansa de a se intampla de doua ori in doua ocazii consecutive este P2. Sansa oricarui individ care nu are o alela marker specifica este 1-frecventa, astfel incat sansa unei persoane care nu are nici un marker este produsul de 1-frecventa pentru fiecare marker de pe cromozom. De exemplu, daca aveti 200 de markeri fiecare cu o frecventa de 0,02, atunci sansa de a nu avea un marker este 1-0,02 = 0,98 = 98%, iar sansa de a nu avea toti cei 200 de markeri este 0,98200 = 0,018 = 1,8%.

Faza de analiza

Avand in vedere rezultatele testelor ADN ale unui subiect:

  1. Efectuati validarea fisierului cu rezultate pentru a va asigura ca contine date sensibile. In cazul meu, am verificat daca fisierul are un rezultat valid pentru cel putin 50% din SNP-urile alelelor marker. Valorile mai scazute pot indica un fisier de intrare corupt, ADN contaminat sau non-uman utilizat pentru procesul de testare, eroare de laborator sau oricare dintre celelalte cauze distractive amuzante pe care companiile de testare ADN trebuie sa le trateze zilnic.
  2. Luati rezultatele doar pentru cromozomul 1
  3. Continuati prin lista alelelor marker pana cand gasiti un SNP pentru care subiectul are cel putin o copie a alelei minore.
  4. Daca ajungeti la sfarsitul listei si nu exista alele potrivite, alegeti ultima alela din lista. Acest lucru ar trebui sa se intample foarte rar *.
  5. Apendati identificatorul alelei respective la lista de semnatura AND artistica.
  6. De la fel pentru restul cromozomilor pana cand aveti o lista cu numere N

Performanta in lumea reala

Proiectul Genomul Personal este o colectie de rezultate de testare a ADN-ului, publicate de membrii publicului in beneficiul cercetatorilor. Acesta contine sute de indivizi si cateva familii pline.

In primul rand, am descarcat rezultatele testelor ADN de 30 de persoane si am generat semnaturi genetice pentru fiecare dintre ele. Am cautat alele marker care au aparut mai frecvent decat ma asteptam din intamplare. Daca fiecare persoana avea un set unic de 23 de numere, as avea 23 × 30 = 690 de numere distincte. De fapt, am avut 263, indicand faptul ca fiecare numar apare de aproximativ 2,5 ori printre cei 30 de subiecti. Cel mai frecvent numar a aparut la 30% dintre subiecti, dar exista un numar relativ mic de aceste numere comune: si 90% din numere apar la mai putin de 10% dintre subiecti. Am fost multumit de aceste cifre. Unele numere excesiv de frecvente sunt de asteptat, deoarece datele mele privind frecventa alelelor minore se bazeaza pe proiectul 1000 Genomes care ofera doar o estimare a frecventelor globale reale. Lucrul important aici este ca nu exista numere care apar in mod sigur in majoritatea subiectilor.

In al doilea rand, am descarcat doua familii de proba, un parinte cu doi copii si un trio bunic, parinte, copil. In medie, acesti membri ai familiei au impartit 40% din numarul de semnaturi cu membrii apropiati ai familiei si, dupa cum era de asteptat, perechea bunicilor / nepotului a impartit putin mai putin – 30%. Intre familii, subiectii au impartit 15% din numarul lor. Deoarece ambele familii erau americani stramosi, o legatura nu este neasteptata. Din nou, sunt destul de fericit cu aceste cifre.

Declaratie privind brevetele / drepturile de autor

Din cate va pot spune, in conformitate cu legislatia britanica si UE, algoritmii nu sunt supusi dreptului de autor si nu sunt eligibili pentru protectia brevetelor. Prin urmare, nu am nici o problema cu cineva care creeaza o implementare software a algoritmului pe baza descrierii din acest articol.

Unul dintre scopurile publicarii acestui algoritm este acela de a defini o parte din stadiul tehnicii, daca cineva incearca sa-si afirme dreptul de proprietate asupra acestuia in viitor. Acest algoritm a fost dezvoltat independent de mine (Bernie Sumption) in august 2013, implementat pentru prima data in software in august 2016 si publicat (in acest articol) la 14 decembrie 2016.