Ako (ne)fungujú otvorené dáta a ako by mohli (po 4 rokoch)

Koncom roka 2016 som napísal prvý článok o otvorených dátach po tom, čo som niekoľko mesiacov trávil spracovaním vestníka verejného obstarávania. Teraz, po spracovaní vybraných dát mesta Bratislavy, prišiel čas na druhé zhrnutie.

Písmo: A- | A+
Diskusia  (0)

9. Decembra 2020 na konferencii ITAPA vyhrala Bratislava prvé miesto v kategórii najlepší projekt digitalizácie spoločnosti vďaka projektu opendata.bratislava.sk . Keďže len 2 dni predtým som spustil svoj projekt Otvorená Bratislava, ktorý spracúva dáta práve z ich portálu otvorených dát, rozhodol som sa podobne ako pred 4 rokmi zosumarizovať, čo je na tom projekte dobré a čo mu ešte chýba.

Keďže som primárne spracúval finančné dáta, budem sa venovať len sekcii "Rozpočet, Dane a Zmluvy" z portálu opendata.bratislava.sk. Napriek tomu, že tu bude veľa vecnej kritiky, reálne oceňujem prácu ľudí za týmto portálom a dúfam, že ich to neodradí, ale naopak inšpiruje v ďalšej práci.

SkryťVypnúť reklamu
SkryťVypnúť reklamu
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou

Štruktúra dát

Ako to je

Rozdelenie dát na kategórie na prvý pohľad pôsobí trošku chaoticky, ale zorientovať sa v nich po chvíľke študovania dá. Po prejdení si jednotlivých kategórií vidno, že portál bol postavený s nadšením, avšak štruktúra samotných dát je chaotická. Napríklad pri faktúrach je jeden sumár od roku 2011 do 2019, následne niekoľko mesiacov v roku 2020 zosumarizovaných do jedného súboru a nakoniec ďalšie mesiace jednotlivo, t.j. jeden súbor pre jeden mesiac. Nehovoriac o tom, že štruktúra prvého veľkého súboru (rok 2011 až 2019) je trošku odlišná (iný počet stĺpcov s dátami, iné názvy stĺpcov) než nasledujúcich, ktoré si však už našťastie držia konštantne tú istú. 

SkryťVypnúť reklamu
Obrázok blogu

Pri objednávkach to je podobné, plus tam vidím ešte jeden väčší problém a to, že jeden dataset navyše je v PDF, ktoré je následne veľmi ťažko spracovateľné ináč než manuálne. Zároveň nedodržuje zabehnutú štruktúru a obsahuje v rovnakom datasete uzavreté aj odmietnuté objednávky (rozdelené nadpisom) čo úplne narúša princíp štruktúrovaných dát.

Obrázok blogu

Už len taký detail, že súbory objednávok, zmlúv a faktúr nemajú jednotne použitú znakovú sadu, takže zatiaľ čo faktúry používajú utf-8, objednávky zas windows-1250

Ako by to mohlo byť

Ako som spomenul, vidno že portál bol vytvorený s nadšením, ktoré je vždy pri takýchto projektoch potrebné, ale je škoda, že niekoľko krokov bolo pritom preskočených. 

SkryťVypnúť reklamu

Ako prvý krok by som si jasne zadefinoval, ako má vyzerať dataset pre danú kategóriu a to dodržiaval. Je mi jasné, že tieto datasety sú pravdepodobne len pozbierané súbory od niektorého úradníka/úradníčky z finančného oddelenia a pravdepodobne oddelenie, ktoré vytvára tento portál nemá ľudské kapacity na úpravu týchto zdrojových dát do jednotnej formy. Možno však, keď už vyhrali tú cenu ITAPA a ako čítam rozpočet na rok 2021 (na ľudské zdroje bude alokovaných o 2 milióny eur viac ako v roku 2020 a na informačné služby, kam spadá aj oddelenie dátovej politiky a analýz je alokovaných o cca 600tisíc eur viac) peniaze by mohli byť, stálo by za úvahu nájsť človeka a čas na konsolidáciu.

SkryťVypnúť reklamu

Taktiež ma prekvapuje, že tak veľká inštitúcia nemá tieto údaje v jednotnej štruktúre v databáze (možno akurát v účtovnom programe). Takže ako ďalší krok po konsolidácii, resp. priamo počas nej, by som tie dáta začal ukladať v správne navrhnutej databáze. 

Už ako čerešnička na torte by veľmi potešilo, ak by ku jednotlivým údajom v datasetoch boli doplnené aj odkazy na súbory/scany dokumentov, ktoré sa aktuálne nachádzajú na portály zverejnovanie.bratislava.sk.

Porovnanie

Aj keď dáta bratislavského magistrátu a Úradu pre verejné obstarávanie sú veľmi odlišné, v globále sú to dáta verejných inštitúcií, financovaných z našich daní, preto si dovolím malé porovnanie. Štruktúra finančných dát magistrátu je veľmi jednoduchá oproti komplexným štruktúram vestníka, ale aj napriek tomu je nesúlad medzi jednotlivými hlavičkami datasetov. Zatiaľ čo v objednávkach je dodávateľ nazvaný dodávateľ, vo faktúrach je stĺpec pomenovaný "Názov". Pri tak jednoduchých datasetoch, by som očakával väčšiu konzistenciu, ale trpia podobnou chorobou ako vestník, kde sa jedna logická položka nazýva často ináč, podľa toho aký formulár bol použitý.

Kvalita dát

Až na vyššie spomenuté starosti so zle štruktúrovaným pdf súborom, či rôzne použitou znakovou sadou, je kvalita samotných dát celkom dobrá. Zatiaľ som nenarazil na nejaké do očí bijúce chyby a datasety pôsobia, že osoba, ktorá ich vytvára a udržuje má zmysel pre poriadok v údajoch.

Porovnanie

Tu je oproti vestníku obrovský posun v kvalite údajov, čo je možno spôsobené aj tým, že zatiaľ čo údaje do vestníka vkladá veľké množstvo ľudí, tu predpokladám len pár osôb, čo tie dáta majú na starosti a preto sa o ne príkladne starajú.

Prístup ku dátam

Mestský opendata portál ponúka webové rozhranie, cez ktoré sa dá pristúpiť ku jednotlivým datasetom, a taktiež API prístup.

Tu však musím skritizovať dve veci. Prístup ku API je len po registrácii, čo trochu narúša princíp otvorených dát, ale zároveň dáva prevádzkovateľom portálu možnosť lepšie zistiť, kto je ich používateľ. Čo je však horšie, v prípade API si predstavujem prístup ku datasetom priamo. To pri faktúrach, objednávkach, alebo zmluvách nefunguje. Cez API si viem zistiť metadáta a nemusím scrapovať web rozhranie, aby som videl aké datasety sú k dispozícii v danej kategórii, ale následne mi už len ponúkne možnosť stiahnuť si dataset (csv súbor), nie však plný prístup ku dátam v ňom. 

Ako si predstavujem, že by to mohlo fungovať, je napr API pre register partnerov verejného sektora. Prístupnosť je bez registrácie a priamo sa dostanem ku všetkým dátam, čo potrebujem.

Porovnanie

Keďže dáta vestníka sú prístupne z portálu data.gov.sk, ktorý neponúka žiadne API, v prípade Bratislavy vidno pokrok.

Komunikácia

Keď som písal pred 4 rokmi prvý článok na túto tému, veľmi som kritizoval vtedajších zamestnancov UVO, ktorí vôbec nekomunikovali. Tu musím naopak vyzdvihnúť komunikáciu ľudí, ktorí stoja za portálom opendata.bratislava.sk. Pavol Škápik, či iní ľudia, na ktorých ma odkázal ochotne komunikujú, vysvetľujú a hlavne, sú si vedomí nedostatkov, ktoré aktuálny portál má a pracujú na ich eliminácii a vylepšovaní samotného portálu. Nespia na vavrínoch štýlom "niečo sme spustili a môžeme si odfajknúť hotovú robotu", ale mám z nich pocit, že im fakt záleží, aby sa otvorenosť dát nášho mesta neustále zlepšovala. Preto ma veľmi potešilo, že po otázke, či je možné na portáli zverejňovať aj údaje z organizácií ako je MIB (Mestský inštitút Bratislava), bola odpoveď "áno, pracujeme na tom".

Čo ďalej

Dúfam, že oddelenie dátovej politiky magistrátu bude mať naďalej podporu vedenia a možno aj viac peňazí z rozpočtu na neustále zlepšovanie, pretože otvorené dáta považujem za jednu z najdôležitejších súčasti transparentného vládnutia.

Z technického pohľadu očakávam zlepšenia prístupu ku dátam cez API, taktiež sľubovanú automatizáciu na strane mesta (aby nemuseli datasety nahrávať ručne do systému, čo zrýchli prístup ku aktuálnym dátam) a neskôr čo najviac dát z pridružených mestských organizácií ako už vyššie spomenutý MIB a ďalšie.

Z politického pohľadu by ma veľmi potešilo, ak by starostovia jednotlivých mestských častí skúsili alokovať niekoho, kto by na daný portál zverejňoval dáta za mestské časti. Ako mi bolo vysvetlené, prístup do portálu majú, stačí tam tie dáta zverejňovať. Áno, mestské časti si už splnili svoju zákonnú povinnosť keď všetko zverejňujú na svojich weboch, ale týmto by spravili obrovský ústretový krok voči občanom a dali tak jasne najavo, že im nejde "len o dodržiavanie zákona" pri zverejňovaní.

Zlepšili sa otvorené dáta?

Aj keď dáta vestníka verejného obstarávania a Bratislavy sú veľmi rozdielne, v celkovom prístupe ku otvoreným dátam vidím za 4 roky veľký posun vpred. Viaceré inštitúcie sa buď snažia, alebo sú tlačené do zverejňovania otvorených dát, samospráva sa stále viac otvára obyvateľom a samotný štýl ako sú tie dáta zverejňované sa zlepšuje, často aj vďaka občianskym združeniam (slovensko.digital, Alvaria a iné), ktoré pomáhajú úradníkom s otvorenými dátami. 

Výsledok

Z otvorených dát sa dá spraviť všeličo. Napríklad aj pekné prehľady kam idú mestské peniaze. Preto som spravil taký malý projekt Otvorená Bratislava, ktorý ponúka ľahké a prehľadné vizualizácie týchto údajov, či zjednodušené vyhľadávanie, keďže hľadať nejaký údaj na stránke mesta, je úprimne povedané, nie veľmi užívateľsky príjemné.

Obrázok blogu

Portál je stále vo vývoji a môže obsahovať chyby. Keďže to je taký bočný projekt pri mojom "hlavnom bočnom projekte" popri zamestnaní, vylepšenia a opravy budú, ako budem stíhať.

Miroslav Babič

Miroslav Babič

Bloger 
  • Počet článkov:  205
  •  | 
  • Páči sa:  12x

...dusou cestovatel.. zakladateľ portálu UVOstat.sk Zoznam autorových rubrík:  Myšlienky z nevyspatej hlavyTour de Europe 2009Potulky EurópouPotulky svetomParódia na životSúkromnéFotkyOstatnéSprostostiŠtatistikyOpendata

Prémioví blogeri

Roman Kebísek

Roman Kebísek

106 článkov
INEKO

INEKO

117 článkov
Pavol Koprda

Pavol Koprda

10 článkov
Zmudri.sk

Zmudri.sk

3 články
INESS

INESS

107 článkov
Adam Valček

Adam Valček

14 článkov
reklama
reklama
SkryťZatvoriť reklamu