V druhej polovici roka 2020 spustil magistrát hlavného mesta portál opendata.bratislava.sk, ktorý má za cieľ uľahčiť prístup k dátam mesta, či zlepšiť transparentnosť. Prvotné hodnotenie portálu som spravil v decembri 2020, teda pár týždňov po tom, čo tento portál vyhral ocenenie "Najlepší projekt digitalizácie spoločnosti" na konferencii ITAPA. V rovnakom čase, keď ocenenie získal, som spustil projekt Otvorená Bratislava, ktorý z opendata portálu spracúva finančné dáta a dáva ich do prehľadnej podoby.
Svoje skúsenosti s ich dátami som spísal už vtedy do síce kritického, ale v konečnom dôsledku pozitívne naladeného blogu. Aj napriek detským chybám portálu som veril, že chyby budú vyladené a portál sa bude postupne zlepšovať. Keďže tempo opravy chýb bolo žalostne pomalé, o 5 mesiacov neskôr som ešte aj na popud iných udalostí spísal všeobecný edukatívny blog (postavený na skúsenostiach s dátami Bratislavy) ako správne zverejňovať otvorené dáta. Od prvého blogu však ubehol ďalší rok a môj optimizmus sa postupne mení na hnev a zúfalstvo v jednom. V tomto blogu sa teda pokúsim vysvetliť, prečo inde vychvaľovaný projekt, často spomínaný ako úspech vedenia mesta, je v podstate nefunkčná, pekne vyzerajúca hračka, nevyužiteľná k tomu, k čomu by mala reálne slúžiť.
K čomu slúžia opendata?
Portál opendata.bratislava.sk vznikol ako iniciatíva zverejňovať dáta mesta na ďalšie spracovanie. Faktúry, zmluvy, či iné údaje, je mesto už dávno povinné zverejňovať a preto ich je možné nájsť (aj keď dosť kostrbato) priamo na webe mesta. Avšak zverejnenie týchto dát vo formáte otvorených dát (opendata) by malo uľahčiť ľudom ich spracovanie na ďalšie účely a umožniť vytvárať projekty s pridanou hodnotou nad týmito dátami. Preto som tento nápad na začiatku vítal, keďže mňa a veľa iných ľudí baví prepájať zaujímavé dáta a dávať im ďalší zmysel. Viac o samotných otvorených dátach sa dá dozvedieť aj na portáli datalab.digital, prevádzkovaným Ministerstvom informatizácie.
Problémy bratislavských otvorených dát
Prvotné problémy som spísal vo vyššie spomenutom blogu, tu však pridám aj ďalšie a dám ich do časového kontextu. Zatiaľ čo pred rokom som časť z nich považoval za detské choroby nového projektu, po roku neefektívnych zmien, ich už tak hodnotiť nemôžem.
Rozbeh (jeseň/zima 2020)
Dáta, ktoré boli po rozbehnutí opendata.bratislava.sk prístupné v kategórii "Rozpočet, dane a zmluvy" mali chyby v štruktúre, pri jednotlivých súboroch bola použitá rôzna znaková sada, ale kvalita samotných dát sa zdala použiteľná.
Po niekoľkých mesiacoch (leto 2021)
Aj viac ako pol roka od spustenia portálu boli súbory pridávané ručne, nepravidelne a s obrovských meškaním (mesiac aj dva neskôr ako by mali). Po prvotnom chaose, keď datasety v rovnakej kategórii mali rôznu štruktúru sa už aspoň tá zdala byť ustálená. Rozhodol som sa teda procesy zautomatizovať, nech nasledovné dáta spracúvajú už bez môjho dohľadu a asistencie. Samozrejme hneď ďalší súbor, ktorý pribudol v priebehu leta moje procesy nevedeli spracovať a ja som si len v chybovej hláške našiel "Nerozpoznaná štruktúra". Po analýze ostatných datasetov som si všimol, že niekto si možno môj edukatívny blog aj prečítal a pokúsil sa zjednotiť štruktúru datasetov pre zmluvy, faktúry aj objednávky. Na jednej strane ma nahnevalo, že to spravili už po vypublikovaní veľkého množstva súborov a bez nejakého oznámenia o zmene, na druhej ma potešilo, že konečne bude štruktúra jednotná.
Štruktúru v kóde čo spracúva dáta som teda opäť upravil a čakal.
Veľký chaos (jeseň/zima 2021)
Po letnej úprave som očakával, že sa veci pohnú správnym smerom a dáta budú pribúdať rýchlejšie a na pravidelnej báze. Prvé varovanie, že sa nedočkám, som mal tušiť už v lete keď Magistrát porušil "štandard" jeden súbor na mesiac, ale zverejnil súbor s údajmi za jún a júl spolu. Ďalší súbor pribudol až niekedy v novembri. Čo ma však okrem veľmi neskorého zverejnenia zarazilo bolo to, že obsahoval dáta len do 13. októbra a nie za celý mesiac. Nebola to chyba, súbor bol takto aj pomenovaný. Takto sa však dáta, ktoré bežne zverejňujete na mesačnej báze, jednoducho nezverejňujú.
Rozhodol som sa teda radšej počkať, než opäť sprocesujem niečo, čo možno Magistrát opäť prerobí. V januári nastalo niekoľko zmien. Názvy jednotlivých datasetov a aj niektorých súborov boli niekoľkokrát premenované, pričom bolo ponechané ich UID (unikátny identifikátor). Súbory pribúdali, ubúdali, čo však na portáli nie je možné vidieť (keďže si všetky dáta ťahám k sebe a zapisujem do databázy, vidím aké mali pôvodné názvy a ktoré už zmizli). Výsledok bol ten, že napr. pre faktúry bol vytvorený opäť nový dataset. Takže aktuálne existuje jeden s názvom "Faktúry Magistrátu hlavného mesta SR Bratislava 2011 - 2020" a ďalší s názvom "Faktúry Magistrátu hlavného mesta SR Bratislava v roku 2021". Čo na tom, že zmluvy majú dataset s názvom ....do 01.07.2021 a ďalší ....od 01.07.2021. Podobne štrukturované boli pritom aj faktúry ešte mesiac/dva dozadu.

Rozhodol som sa teda cez voľné dni spracovať dáta tak ako boli a moja frustrácia nabrala novú úroveň. Nie len že súbory nedodržiavali štandardy, ktoré mali, ešte aj obsahovali miesto všetkých dát za rok 2021 len dáta za december a samozrejme mali opäť novú štruktúru.
Chýbajúce dáta onedlho opravili, avšak ako naschvál, súbor mal opäť novú štruktúru!! Tá narozdiel od doterajších zmien ide úplne proti prúdu a všetky dobré dielčie úpravy hádže do koša. (po kliknutí na obrázok sa zobrazí aktuálna štruktúra priamo na webe mesta)
Sumár
Odhliadnuc od technických nedokonalostí, bol rok 2021 rokom neuveriteľného chaosu v otvorených dátach Bratislavy. Veľakrát sa menili názvy datasetov aj štruktúra súborov, dáta boli pridané, zmazané a opäť pridané, či pravidelnosť zverejňovania doteraz nebola nastavená.
Prečo to všetko píšem? Premýšľam, či mám spracovať aktuálne dáta, alebo počkať, či Magistrát opäť nepríde s novou štruktúrou. Na takto nekvalitných a nekvalitne zverejňovaných dátach sa dá len s veľkým sebazaprením prevádzkovať aplikácia, ktorá má týmto dátam dať vyšší zmysel.
Na opendata.bratislava.sk mi aktuálne bliká informácia, že obsahuje už 16025 súborov. To je síce krásne číslo, ale kvantita na úkor kvality nie je smer, akým by sa otvorené dáta mali uberať. Je smutné, že tento magistrátny projekt sa prezentuje vedením mesta ako jeden z úspechov, pričom je iba taká Potemkinova dedina pre tých, ktorí ho reálne nepotrebujú využívať na to, k čomu je určený. Pôsobí moderne, je tam toho veľa, čo tam po tom, že to je nekvalitné. A na emaily nik zo zodpovedných samozrejme nereaguje.