Vezme sa vzorka výkalu, oddelia sa z neho baktérie, vyextrahuje sa z nich DNA a najjednoduchšou metódou by bolo pomocou reakcie PCR vytvoriť mnoho kópií ribozomálneho génu 16S, ktorý slúži ako identifikačný preukaz každej baktérie.
Problém ale je, že mnoho baktérii v tráviacom trakte ešte vôbec nepoznáme. Mnohé baktérie sa nedajú kultivovať v laboratórnych podmienkach, takže je dosť ťažké určiť, k akému druhu presne patria.
Pri analýze sekvencií génu 16S častokrát nedokážeme baktérie identifikovať až na úroveň rodu či druhu, ale vieme odhadnúť, k akej širšej taxonomickej jednotke patria. Tieto ťažko identifikovateľné baktérie bývajú v konečnom výpočte bakteriálneho zloženia skombinované do jednej hybridnej skupiny, ktorá dostane názov napríklad podľa svojej širšej taxonomickej jednotky, napríklad oddelenia, napríklad “undetermined Firmicutes”.
Takýto prístup ale nie je úplne správny, lebo každý bakteriálny druh má v ekosystéme nášho tela inú funkciu, a aj keď dané druhy baktérií patria do oddelenia Firmicutes, môžu mať úplne odlišné funkcie, dokonca si môžu aj konkurovať. Pracovať pri analýze dát s takýmito hybridnými skupinami nie je teda vôbec správne.
Hovoriť o tejto hybridnej skupine ako o jednom neurčenom druhu by nebolo správne. Čo teda s týmito ťažko identifikovateľnými sekvenciami? Nemôžeme ich vymazať, lebo tieto baktérie vo vzorke sú a určite majú v ekosystéme dôležité funkcie. Na všetko existuje nejaké riešenie.
Sekvencie ribozomálneho génu 16S môžeme porovnať a zlúčiť ich podľa ich podobnosti do takzvaných operational taxonomic units (OTUs). Týmto spôsobom sa odhalí, že napríklad jedna hybridná skupina “undetermined Firmicutes” je zložená z 10-20 rôznych OTUs, čiže z 10-20 rôznych druhov baktérii.
Vážna debata medzi vedcami sa vedie o tom, koľko rozdielov v sekvencii génu 16S máme povoliť, aby sme získali klastery na úrovni druhu.
Ak by sme pri zlučovaní sekvencií do klasterov nepovolili rozdiel ani jedného nukleotidu (písmena A, T, C, G), sekvencie v každom klastery by museli byť na 100-percentne rovnaké. Občas sa ale prihodí aj nejaké sekvenačná chybička. Pri nastavení limitu na 100 zhodu by sme dostali veľmi veľa klusterov, ktorý by vlastne zodpovedali sekvenačným chybám. Zdalo by sa nám, že máme veľmi veľkú bakteriálnu diverzitu vo vzorke, ale bola by to hlúposť. Niektorí vedci hovoria, že ak sekvencie sklasterizujeme na 97 percentnú podobnosť, tak sa nám už sekvencie zlúčia do bakteriálnych druhov. Ak ich sklasterizujeme na 95 percent, tak sa sekvencie zlúčia do bakteriálnych rodov.
DNA sekvencie sú však príroda a v prírode nie je všetko tak matematicky presné. Pozrite sa na nasledujúci obrázok, v ktorom je naznačené, ako by program na klasterizáciu sekvencií zlučoval sekvencie pri nastavení na 99, 97 a 95 percentnú zhodu. Je to iba ilustratívna ukážka mikrobiómu, kde máme jednu baktériu Haemophilus influenzae, dve baktérie Rothia dentocariosa, jednu baktériu Gemella morbillorum, jednu Gemella haemolysans, jedného Streptococcus mutans a štyri baktérie Streptococcus parasanguinis. (Je to iba nakreslená ukážka princípu klasterizácie a nemusí byť pravdivá v reálnom živote.)

V prvom prípade pri klasterizácii na 99 percent by boli štyri sekvencie, ktoré v skutočnosti patria druhu Streptococcus parasanguinis rozdelené do 4 rôznych klasterov, podobne ako aj dve sekvencie rodu Rothia dentocariosa, pretože program by si myslel, že sekvenačné chyby znamenajú, že sú to rozdielne bakteriálne druhy. Výsledok by naznačoval,že máme vo vzorke vysokú bakteriálnu diverzitu, dokonca až 10 rôznych druhov baktérii. V skutočnosti máme iba 6 rôznych druhov.
V druhom prípade sme sklasteriozvali sekvencie na 97 percent. Program nám správne zlúčil sekvencie Rothia dentocariosa do jedného druhu. Ak by klasterizovanie sekvencií na 97 percent naozaj oddeľovalo bakteriálne druhy, všetky štyri sekvencie Streptococcus parasanguinis by sa mali zlúčiť do jedného klastera. To sa ale nestalo. Máme dva klastery, 7 a 8, obidva patria Streptococcus parasanguinis. Streptococcus parasanguinis sa pri klasterizovaní na 97 percent rozdelil na dve skupiny, ktoré majú trochu viac rozdielnych nukleotidov, čo na zlúčenie do jedného 97 percentného klastera proste nestačilo. Smola… Teraz by sa nám zdalo, že máme vo vzorke až 3 druhy Streptokoka, čo ale nie je pravda.
V treťom prípade sme sklasterizovali sekvencie na 95percent. Dve sekvencie Rothia dentocariosa sú zlúčené do jedného klastera, čo je OK. Ale štyri sekvencie Streptococcus parasanguinissa zlúčili do jedného klastera spolu so Streptococcus mutans. Teraz to vyzerá, že tam máme iba jeden druh Streptokoka, čo tiež nie je pravda. Hovorili sme si, že na 95 percent by mali klastery odpovedať rodom, ale Gemella morbillorum a Gemella haemolysans patria k tomu istému rodu, ale nespojili sa do jedného rodu.
Vidíte teda, niekedy klasterizácia na 97 percent naozaj zlučuje niektoré druhy správne ako majú byť, napr. Rothia, zatiaľčo iné druhy sa rozdeľujú na akési poddruhy, čo vôbec neodpovedá ich správnej biológii, napr. Streptococcus. Pri 95 percentnej klasterizácii sa Rothia a Streptococcus zlúčili správne do rodov, ale Gemella morbillorum a Gemella haemolysans sú tak rozdielne, že sa zlúčiť do jedného rodu nechceli.
Ako vidíte, je to dosť komplikované.Zdá sa, že je lepšie rozdeliť “undetermined Firmicutes” aspoň do akých-takých klasterov, aspoň budeme vedieť, že je táto hybridná skupina tvorená rôznymi baktériami. Na druhej strane môže klasterizácia narobiť viac škody ako úžitku, hlavne ak potrebujeme vypočítať presné pomery bakteriálnych druhov vo vzorke, lebo ich chceme napríklad skorelovať s nejakou biologickou veličinou.
Klasterizácia sekvencií podľa podobnosti je veľmi jednoduchý a rýchly spôsob. Určite precíznejšia by bola identifikácia bakteriálnych druhov podľa toho, do akej vetvy “stromu života” sa namapujú. To je už ale komplikovanejšia vec, o ktorej budem hovoriť niekedy nabudúce.