Využitie regresného výstupu v demografii

Spracovanie demografických analýz prostredníctvom metód štatistických závislostí zaraďujeme k jedným z najmenej využívaných metód. V článku sme sa rozhodli aplikovať túto metódu na vybrané demografické štruktúry obyvateľov SR.

Písmo: A- | A+
Diskusia  (1)

 V príspevku nás predovšetkým zaujímalo, či sa dá jednoduchý regresný výstup uplatniť ako plnohodnotná demografická analýza, a tiež aké konkrétne prínosy, respektíve otázky vyplývajúce z nedostatkov analýzy môže priniesť uvedený druh výskumu v oblasti demografie.

V rámci demografických štruktúr sme sa zamerali na analýzu vekovej a pohlavnej štruktúry. Z hľadiska ukazovateľov vekovej a pohlavnej štruktúry sme sa snažili vybrať čo možno najvšeobecnejšie ukazovatele tak, aby nebola opomenutá žiadna veková kategória populácie a dal sa zistiť celkový vplyv vekovej štruktúry na pohlavnú. Pohlavná štruktúra bola hodnotená prostredníctvom koeficientu femininity a veková prostredníctvom priemerného veku. Ukazovatele sme sa snažili zvoliť tak, aby bol variačný koeficient medzi hodnotami ukazovateľov najmenej rozdielny. Porovnateľné hodnoty variačných koeficientov ukazovateľov nám umožnili jednoduchšiu aplikáciu údajov do grafickej formy regresnej úlohy. Analýzu sme z časového hľadiska spracovali v dvoch vybraných časových rezoch, ktorými boli roky 1996 a 2015. Hlavným zdrojom dát boli bilančné dáta publikované v databáze DATAcube, ktorá je dostupná na webovej stránke Štatistického úradu SR [15].

SkryťVypnúť reklamu
SkryťVypnúť reklamu
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou

V databáze je najviac údajov dostupných od roku 1996, preto sme daný rok stanovili ako prvý časový rez. Druhým časovým rezom je rok 2015, ktorý bol v čase tvorby analýzy najnovším rokom.

Z územného hľadiska sme analyzovali okresnú úroveň, a to najmä z dôvodu pomerne optimálneho počtu jednotiek súboru aj napriek tomu, že sa okresy nepovažujú z hľadiska demografických analýz za najvhodnejšie jednotky [4]. Analýza vzťahov vekovej a pohlavnej štruktúry obyvateľstva sa skladá z troch samostatných častí, ktoré sú prezentované v tabuľkách č. 1 a 2 zvlášť pre roky 1996 a 2015. Prvú časť tvorí korelačná úloha, ako výstup a), druhá časť je venovaná overovaniu pravdivosti hypotézy a je označená ako výstup b). Tretiu časť tvorí regresná úloha, ktorá je znázornená aj graficky (graf č. 1). [1], [10], [12], [14]

SkryťVypnúť reklamu

Hypotéza

Analýze regresného výstupu predchádza stanovenie hypotézy, ktorú budeme testovať. Hypotézu sme stanovili v súlade so všeobecne platnými biologickými zákonitosťami o výraznejšej maskulinite novorodencov a neskoršom vyrovnávaní pomerov pohlaví v populácii z dôvodu nadúmrtnosti mužov [3]. Pomer mužov a žien v populácii sa vyrovnáva zhruba v 45. roku života [6], [9]. Vo vyšších vekových kategóriách začínajú prevládať ženy. Najvyššie vekové kategórie sú teda charakteristické predominanciou ženskej časti populácie [13]. To by malo znamenať, že čím je populácia z hľadiska priemerného veku (zvolená nezávislá premenná X) staršia tým, vyšší by mal byť aj koeficient femininity (závislá premenná Y). Z podrobnejšej analýzy však vieme [4], že v okresnej štruktúre Slovenska sa vyskytujú rôzne výchylky hodnôt daných ukazovateľov. To znamená, že nie je možné okresy Slovenska z hľadiska proporčnosti vyššie uvedených ukazovateľov zoradiť od najmenšieho po najväčší. Takýmto príkladom proporčného nesúladu sú aj okresy trenčianskeho kraja. Ak sa bližšie pozrieme napríklad na okres Trenčín, v roku 1996 bola hodnota priemerného veku v okrese na úrovni takmer 36 rokov a hodnota koeficientu femininity na úrovni 51,26 %. V prípade porovnania proporčnosti v rámci okresov trenčianskeho kraja bol okres Trenčín až tretím „najstarším“ a zároveň tretím najfemínnejším okresom kraja. „Staršími“ a zároveň femínnejšími okresmi boli len okresy Myjava a Partizánske. V prípade hodnotenia súčasného stavu ukazovateľov vekovej a pohlavnej štruktúry zaraďujeme okres Trenčín k mierne disproporčným. Disproporcie vyplývajú zo zreteľne vyššieho koeficientu femininity, než ako ho majú dnes niektoré značne staršie okresy Slovenska z hľadiska priemerného veku. Príkladmi starších okresov s nižším podielom žien v populácii v rámci trenčianskeho kraja sú okresy Myjava, Nové Mesto nad Váhom, resp. Prievidza [5], [9], [10]. Preto nás skôr zaujímala otázka, do akej miery dané ukazovatele korelujú. V prípade afirmatívnej korelácie nás zaujímala miera možného vysvetlenia hodnôt ukazovateľa pohlavnej štruktúry prostredníctvom vekovej štruktúry [10].

SkryťVypnúť reklamu

Korelačná úloha

Korelačná analýza (Regression Statistics) nám poskytuje informácie predovšetkým o type a intenzite korelovaného súboru. Prvý riadok tabuliek 1 a 2 s názvom Multiple R znázorňuje korelačný koeficient súboru. Korelačný koeficient je vymedzený intervalom z množiny od (-1,1). To zanemená, že čím je hodnota korelačného koeficientu bližšia k 1, tým tesnejšia, respektíve silnejšia je väzba medzi korelovanými údajmi. Naopak, čím je korelačný koeficient bližšie k nule, tým je závislosť voľnejšia. Keď je korelačný koeficient kladný, ide o priamy typ závislosti a keď sú hodnoty záporné hovoríme o nepriamej korelácii. V našom prípade sa hodnota koeficientu korelácie za rok 1996 rovná približne hodnote 0,74, teda ide o silný priamy a lineárny vzťah medzi priemerným vekom a koeficientom femininity. V roku 2015 sa hodnota korelačného koeficientu Multiple R do značnej miery znížila na úroveň zhruba 0,60. Hodnoty súčasného korelačného koeficientu teda vypovedajú o značnom povolení tesnosti väzieb medzi priemerným vekom a koeficientom femininity. Aj napriek značnému zníženiu korelačného koeficientu stále ide o stredne silnú priamu závislosť údajov [10], [14].

SkryťVypnúť reklamu

Hodnota R Square kvantifikuje koeficient determinácie, ktorý nadobudol v testovanom súbore hodnoty 0,54 za rok 1996 a 0,35 za rok 2015. Ak hodnoty prenásobíme konštantou 100, získavame informáciu o variabilite koeficientu femininity v danom roku. To znamená, že v roku 1996 bola zvolenou regresnou priamkou vysvetlená variabilita súboru stanovená na úrovni zhruba 54 %. K roku 2015 bola prostredníctvom regresnej priamky hodnota vysvetlenej variability určená na úrovni 35 %. Z uvedených faktov vyplýva, že medzi rokmi 1996 a 2015 sa zvýraznila variabilita súboru okresov prostredníctvom nevysvetlenej variability, náhodných činiteľov a iných bližšie nešpecifikovaných vplyvov [10], [14].

Ukazovateľ Adjusted R Square znázorňuje iba úpravy samotného koeficientu determinácie. Pri meraní variability súboru prostredníctvom tohto ukazovateľa sú vzaté do úvahy aj determinanty, ako počet odhadovaných parametrov a počet meraní. [10], [14].

Ukazovateľ Standard Error (chyba strednej hodnoty) považujeme za smerodajnú odchýlku vybranej náhodnej vzorky základného súboru, t. j. do akej miery sa líšia priemerné hodnoty náhodne vybranej vzorky od priemerných hodnôt základného súboru, resp. ako bolo meranie presné. Hodnota ukazovateľa by mala byť čo najnižšia. Z hľadiska interpretácie analyzovaných ukazovateľov to znamená, že skúmané údaje za rok 2015 vykazujú nižšiu presnosť a vyšší rozptyl hodnôt [10], [14].

Informáciu o počte korelovaných údajov indikuje pole tabuľky s názvom Observations, v našom prípade to bolo 79 okresov Slovenska [10], [14].

Analýza rozptylu

V druhej časti regresného modelu, ktorý sme označili ako b) časť ANOVA (Analysis of Variance), testujeme prostredníctvom jednofaktorovej analýzy rozptylu správnosť použitého modelu. Nulová hypotézu H0 nám hovorí, že stanovený lineárny regresný model bol zvolený nesprávne. Alternatívna hypotéza H1 tvrdí opak, že regresný model bol zvolený správne. Na vyhodnotenie správnosti jedného alebo druhého tvrdenia slúži v tabuľke ANOVA ukazovateľ Significance F. V prípade potvrdenia správnosti modelu by mal byť ukazovateľ nižší než zvolená hladina významnosti, t. j. α=0,05. V prípade oboch analyzovaných rokov nadobúda ukazovateľ hodnoty, ktoré sú výrazne nižšie ako hladina významnosti, z čoho vyplýva, že regresný model bol zvolený správne a zamietame hypotézu H0 [10], [14].

Regresná úloha

Tretia časť výstupov regresného modelu nám poskytuje informácie o samotnej regresii, ktorá je označená v tabuľke 1. a 2. ako časť c) regresná analýza. Tabuľkový výstup má za úlohu v prvom rade znázornenie regresnej funkcie. Pre lineárnu formu regresie platí všeobecný tvar priamky: Y= b0+b1x.

Pre rok 1996 nadobudla regresná funkcia tvar: y = 41,82 + 0,27x, t. j. koeficient b0 (Intercept) = 41,82 a b1 (X Variable1) = 0,27 (tabuľka č.1). Teda čisto hypoteticky, ak by bol býval v roku 1996 priemerný vek v okresoch Slovenska nulový, priemerný koeficient femininity v okresoch by bol na úrovni 41,82 % a keby v roku 1996 vzrástol priemerný vek čo i len o 1 rok, podiel žien v populácii okresov by sa zvýšil v priemere o 0,27 %. Prostredníctvom hodnoty P-value zistíme bezvýznamnosť, resp. významnosť lokujúcej konštanty a regresného koeficientu. V prípade, že platí vzťah, b0 je menšie ako 0,05 (hladina významnosti) môžeme lokujúcu konštantu označiť za štatisticky významnú a ak uvažujeme o štatistickej významnosti regresného koeficientu musí platiť ten istý vzťah, t. j. že b1 je menšie ako 0,05. V rámci vyhodnotenia zvolenej analýzy za rok 1996 teda môžeme potvrdiť štatistickú významnosť oboch koeficientov. Zvyšná časť výsledkov regresnej analýzy sa venuje 95 % intervalom spoľahlivosti koeficientov b0 a b1. Z hľadiska interpretácie to znamená, že ak by v roku 1996 prišlo k zvýšeniu priemerného veku populácie, tak s 95 % pravdepodobnosťou by sa koeficient femininity zvýšil o hodnoty v rozpätí intervalu medzi 0,21 % – 0,33 % [10], [14].

Pre rok 2015 (tabuľka č. 2) má regresná funkcia tvar: y = 42,05 + 0,23x, čo znamená, že ak by bol v roku 2015 priemerný vek nulový, koeficient femininity by sa pohyboval zhruba na úrovni 42,5 %. Keďže tento výrok je v rozpore s logikou veci, berieme ho len v hypotetickej rovine. Hodnota b1 = 0,23 sa dá interpretovať tak, že ak by sa v roku 2015 zvýšil priemerný veku čo i len o rok, hodnota koeficientu femininity by sa zvýšila v priemere o 0,23 %, čo je v porovnaní z rokom 1996 výrazný rozdiel. Hodnota ukazovateľov P-value pre ukazovatele b0 a b1 je aj v roku 2015 pod úrovňou 0,05, čo potvrdzuje štatistickú významnosť oboch koeficientov. V rámci hodnotenia 95 % intervalu spoľahlivosti pre b1 platí, že keby v roku 2015 prišlo k zvýšeniu priemerného veku populácie, s 95 % pravdepodobnosťou by sa koeficient femininity zvýšil o hodnoty v rozpätí intervalu medzi 0,16 % – 0,30 % [10], [14] .

Tabuľka č. 1: Výsledky štatistických analýz pohlavnej a vekovej štruktúry okresov Slovenska pre rok 1996

Tabuľka č. 1: Výsledky štatistických analýz pohlavnej a vekovej štruktúry okresov Slovenska pre rok 1996
Tabuľka č. 1: Výsledky štatistických analýz pohlavnej a vekovej štruktúry okresov Slovenska pre rok 1996 (zdroj: Garajová 2017)

Zdroj údajov: [15]

Tabuľka č. 2: Výsledky štatistických analýz pohlavnej a vekovej štruktúry okresov Slovenska pre rok 2015

Tabuľka č. 2: Výsledky štatistických analýz pohlavnej a vekovej štruktúry okresov Slovenska pre rok 2015
Tabuľka č. 2: Výsledky štatistických analýz pohlavnej a vekovej štruktúry okresov Slovenska pre rok 2015 (zdroj: Garajová 2017)

Zdroj údajov: [15]

Regresná úloha sa dá menej podrobne zobraziť aj grafickou formou [14]. Pri znázornení regresného modelu sme ponechali lineárny trend v oboch sledovaných rokoch. V rámci analýzy sme prirodzene testovali aj ostatné typy trendových spojníc, akými sú napr.: exponenciálny, polynomický či mocninivý trend [14]. Z hľadiska hodnôt boli výsledky takmer totožné, hodnoty sa rôznili až na treťom desatinnom miest. Preto sme sa rozhodli ponechať lineárny trend aj napriek tomu, že z grafu č. 1 je evidentné, že v roku 2015 prichádza k miernemu vychýlenie hodnôt smerom nahor, teda prichádza k miernej zmene trendu ukazovateľov. Na grafe si treba všimnúť pomerne výrazné zvýšenie hodnôt priemerného veku vo všetkých okresoch Slovenska a zvýraznenie rozptylu hodnôt na vertikálnej osi. V roku 2015 mal koeficient femininity výraznejšie variačne rozpätie ako v roku 1996 [2], [4], [10].

Graf č. 1 Regresný model vekovej a pohlavnej štruktúry obyvateľov okresov Slovenska v rokoch 1996 a 2015

Grafická forma regresného modelu.
Grafická forma regresného modelu. (zdroj: Garajová 2017)

Zdroj údajov: [15]

Záver

Regresná analýza patrí k pomerne málo využívaným možnostiam hodnotenia demografických dát. V príspevku sme sa pokúsili o hodnotenie vekovej a pohlavnej štruktúry prostredníctvom regresného výstupu. Regresiu sme spracovali v dvoch časových rezoch rokov 1996 a 2015. Cieľom príspevku bolo ukázať na možnosti a nedostatky spracovania demografických údajov prostredníctvom štatistických závislostí. V rámci regresného výstupu sme sledovali vzťah a intenzitu hodnôt priemerného veku a koeficientu femininity. Vzťahy medzi ukazovateľmi sme hodnotili prostredníctvom hypotézy, ktorá vyplynula zo všeobecne platných biologických daností populácie: čím je územná jednotka (okres) staršia z hľadiska priemerného veku (zvolená nezávislá premenná X), tým vyšší by mal byť aj koeficient femininity (závislá premenná Y). Ďalej sme sa snažili prostredníctvom uvedenej hypotézy získať odpoveď na otázku do akej miery dané ukazovatele vlastne korelujú? V prípade afirmatívnej korelácie nás zaujímalo, do akej miery je potom možné vysvetliť ukazovateľ pohlavnej štruktúry prostredníctvom vekovej.

Výsledkom testovania formulovanej hypotézy a následných štatistických analýz sú nasledovné tvrdenia:

a) Aj keď hodnoty priemerného veku a koeficientu femininity vykazujú pomerne vysoký korelačný stupeň, v prípade hodnotenia oboch rokov je iba pomerne nízke percento (do 54 %) koeficientu femininity vysvetliteľné prostredníctvom úrovne priemerného veku. Zvyšok percentuálnych podielov treba pripísať iným faktorom, ktoré si bez hlbšej analýzy netrúfame odhadnúť.

b) Z dôvodu uvedeného v bode a) by bola potrebná doplňujúca analýza vývoja tesnosti vzťahov, ktoré do značnej miery zoslabli. Taktiež by bolo možno vhodné doplniť aj analýzu na inej než okresnej úrovni, napríklad na úrovni funkčných mestských regiónov a rozsiahlu korelačnú analýzu ďalších možných ukazovateľov.

Uvedený regresný výstup sa teda nedá použiť ako plnohodnotná analýza, ale iba ako doplňujúca analýza pri rozsiahlejších regionálnych analýzach, kde by malo byť základným cieľom takéhoto regresného modelu spresnenie povahy vzťahov jednotlivých ukazovateľov.

(Jedná sa o tretiu zo štyroch časových verzií upraveného výpisu z diplomovej práce, ktorá vznikla v roku 2017.)

Literatúra

[1] BLEHA, B. – NOVÁKOVÁ, G.: Praktikum z demogeografie a demografie. Bratislava: Geo-grafika, 2010. 140 s. ISBN 978-80-89317-13-4.

[2] BLEHA, B. – VAŇO, B. – BAČÍK, V. (eds.): Demografický atlas Slovenskej republiky. Bratislava: Geo-Grafika, 2014. 163 s. ISBN 978-80-89317-28-8.

[3] ENCYCLOPEDIA BRITANNICA: John Graunt English statistician. 1998 [online]. [cit. 2017-06-03]. Dostupné na: https://www.britannica.com/biography/John-Graunt

[4] GARAJOVÁ, A.: Demografický obraz Trenčína a jeho zázemia. Diplomová práca. Bratislava: Univerzita Komenského v Bratislave, 2017. 135 s.

[5] JURČOVÁ, D. (ed.): Populačný vývoj v regiónoch SR 2001. Bratislava: Inštitút informatiky a štatistiky (INFOSTAT), 2003. 69 - 76 s. [online]. [cit. 2016-12-11]. Dostupné na: http://www.humannageografia.sk/clanky/pohl_vek_strukt_SR.pdf.

[6] JURČOVÁ, D. – MÉSZÁROS, J. (eds.): Populačný vývoj v okresoch Slovenskej republiky 2009. Bratislava: INFOSTAT, 2010. 118 s. ISBN 978-80-8938-17-1.

[7] JURČOVÁ, D. – MÉSZÁROS, J. (eds.): Populačný vývoj v okresoch SR 2005. Bratislava: INFOSTAT, 2006. 57- 63 s. [online]. [cit. 2016-12-11]. Dostupné na internete: http://www.infostat.sk/vdc/pdf/reganal2005final.pdf.

[8] KÁČEROVÁ, M. – ONDAČKOVÁ J.: Proces starnutia populácie Slovenska v európskom kontexte. Slovenská štatistika a demografia. Štatistický úrad Slovenskej republiky, 2015. č. 3, s. 44 - 58.

[9] MLÁDEK, J. – KUSENDOVÁ, D. – MARENČÁKOVÁ, J. – PODOLÁK, P. – VAŇO, B.: Demografická analýza Slovenska. Bratislava: Vydavateľstvo Univerzity Komenského, 2006. 222 s. ISBN 80-223-2191-5.

[10] NOVÁKOVÁ, G.: Štatistika pre geografov 2. Bratislava: Geo-grafika, 2012. s. 46 -59 ISBN 978-80-89317-19-6.

[11] REGIONÁLNA ANALÝZA TRHU PRÁCE A SOCIÁLNYCH VECÍ UPSVAR TRENČÍN 2017. [cit. 2017-3-14]. Dostupné na: www.upsvar.sk/buxus/docs//urad/../Regionalna_analyza_UPSVR_TN_2010.docx

[12] ROWLAND, D. T.: Demographic methods and concepts. 1st ed. Oxford: Oxford University Press, 2003. [online]. [cit. 2017-4-24]. Dostupné na: http://staff.washington.edu/dechter/classes/Soc352/Readings/RowlandDemographyMeth&Concepts.pdf.

[13] RYCHTAŘIKOVÁ, J.: Úspěšné stárnutí – leitmotiv 21. století. Demografie 2002, 44, č. 1, , s. 43 - 46.

[14] STATISTICS HOW TO: STANDARD ERROR EXCEL: OVERVIEW [online].[cit. 2017-3-5]. Dostupné na: http://www.statisticshowto.com/find-standard-error-excel-2013/.

[15] ŠTATISTICKÝ ÚRAD SLOVENSKEJ REPUBLIKY 2015. Dátové kocky: DATAcube. [online]. [cit. 2016-12-11]. Dostupné na: http://datacube.statistics.sk/TM1WebSK/TM1WebLogin.aspx.

Alžbeta Garajová

Alžbeta Garajová

Bloger 
  • Počet článkov:  1
  •  | 
  • Páči sa:  0x

Narodila som sa a žijem v Bratislave. Študovala som odbor: humánna geografia a demografia v štátnej správe a samospráve s bližším zameraním na demografiu na PRIF UK v Bratislave. Aktuálne pracujem na rigoróznej práci na tému: Proces odkladania a rekuperácie plodnosti a sobášnosti v Trenčianskom kraji v kontexte zmien rodinného a reprodukčného správania na Slovensku po roku 1989. Demografiu, vedu zaoberajúcu sa štúdiom reprodukčného správania ľudských populácií, považujem nie len za svoj pracovný odbor, ale aj za svoj koníček. Blog som sa rozhodla zriadiť preto, lebo by som na ňom rada uverejnila aspoň niekoľko tematicky ladených odborných článkov. Zoznam autorových rubrík:  NezaradenéSúkromné

Prémioví blogeri

Anna Brawne

Anna Brawne

105 článkov
Karol Galek

Karol Galek

116 článkov
Roman Kebísek

Roman Kebísek

107 článkov
Pavol Koprda

Pavol Koprda

10 článkov
Adam Valček

Adam Valček

14 článkov
Věra Tepličková

Věra Tepličková

1,079 článkov
reklama
reklama
SkryťZatvoriť reklamu