ŠTEVCI PROMETA IN NJIHOVA UPORABA ZA NAMENE STATISTIK ČRT GRAHONJA
Navdih Poizvedovanje po BD podatkovnih virih, ki imajo časovno dimenzijo in so dostopni. Večji promet pomeni večje število dobrin in močnejšo ekonomijo. Preliminarni testi s podatki BDP v tekočih cenah in prometnimi podatki. Namen: analiza uporabe podatkov pri hitrih ocenah kratkoročnih ekonomskih kazalnikov
Vir prometnih podatkov Podatke o prometu zbirajo na Ministrstvu za infrastrukturo in tudi druge institucije. Urejeni podatki so prosto dostopni z zahtevkom. Zaradi posebnega statusa institucije SURS, lahko pridobimo tudi surove podatke Izbrane podatke smo prevzeli v tekstovni obliki: 15-minutni intervali gostote prometa na števnih mestih, zbrani med letoma 2011 in 2018.
Lastnosti podatkov Datoteke: Več kot 630 števcev na mesec, Skupna velikost okoli 30 GB, Vsaka datoteka vsebuje nestrukturirano glavo z metapodatki, Vsaka datoteka vsebuje celoletne podatke enega števnega mesta v 15-minutnih intervalih -> okoli 34000 vrstic mikropodatkov, Opomba: od leta 2018 naprej zbiramo urne podatke, V datoteki so lahko prisotni manjkajoči podatki (manjkajo vrstice), V datoteki so lahko prisotni manjkajoči podatki (zapolnjeni z ničlami), V datoteki so lahko prisotne napake v formatu (recimo večkratni separator, separator sredi imen spremenljivk, neenako število spremenljivk v glavi in v mikropodatkih ) Spremenljivke: Na vsakem pasu merimo 8 kategorij vozil: število motorjev (Motor-MO), število osebnih avtomobilov (Osebni-OA), število avtobusov (BUS), število lahkih tovornih vozil; <3,5 tone (La.Tov- LT), število srednjih tovornih vozil; >3,5 tone in <7 ton (Sr.Tov-ST), število težkih tovornih vozil; >7 ton (Te.Tov-TT), število tovornih vozil s priključkom (T.s Pr-TP), število vlačilcev (Vlač-TPP) V vsakem časovnem intervalu merimo dva pasova: o o na regionalnih cestah obe smeri, na avtocestah in hitrih cestah pa oba pasova v isto smer.
IT in metodološko delo Datoteke je bilo potrebno analizirati Datoteke smo združili po števnih mestih. Ugotovili smo, da imamo na voljo podatke 649 števnih mest, vendar le 111 s popolnimi podatki. Izločili smo števna mesta s prevelikim deležem manjkajočih podatkov: 85% ali manj prisotnih podatkov, najmanj eno celo leto brez podatkov. Na podlagi analize smo se odločili ločiti števna mesta glede na postavitev v dve kategoriji: š. m. na regionalnih in š. m. na avtocestah in hitrih cestah (izločili smo š. m. na priključkih). Postopek ponovimo z vsakimi novimi podatki Končno število uporabljenih števnih mest leta 2018: 391 na regionalnih cestah in 42 na avtocestah in hitrih cestah.
Programerski izzivi (1) Sestava novega razreda v jeziku Python, z definiranimi funkcijami, ki datoteko in/ali podatke: v nestrukturirani obliki preberejo, metapodatke prenesejo v strukturirano obliko, pripravijo v strukturirano tabelo, poiščejo, preštejejo in izpišejo manjkajoče podatke, združijo po števnih mestih, agregirajo na želeni časovni interval, shranijo v primerni obliki za nadaljnje delo. Funkcije s katerimi izvedemo imputacije na manjkajočih podatkih.
Programerski izzivi (2) Zaradi prostorskih omejitev in količine podatkov, smo morali pri programiranju uporabiti postopke za delo z masovnimi podatki: o Izkoristili smo večjedrne procesorje računalnika za hkratno izvajanje nalog, saj bi sicer postopek trajal predolgo. o Podatke vsakega števnega mesta smo shranili posebej, saj take količine podatkov ne moremo združevati v eno samo datoteko v spominu računalnika.
Uporabljene metode za vstavljanje manjkajočih podatkov Manjkajoče podatke, ki so ostali v izbranih podatkih, smo imputirali z metodami, ki temeljijo na letnih rasteh sosednjih števnih mest. Imputacije so potekale na agregiranih mesečnih podatkih. Podatke smo poskušali imputirati na štiri načine; najboljši je bil tretji: imp 3 d k m,t g k m,t = s k K s k Z d s K s k K s k Z d s K g k m,t l g sk m,t m,t l g sk g k m,t l 1 d k m,t 1 d k m,t + d k m,t g k m,t, g sk m,t l 0 s k K s k Z d s K + d k m,t g k m,t ; d k m,t l = 1, d k m,t g k m,t ; sicer. Testi za natančnost so pokazali, da imajo popolnoma imputirana obdobja izjemno manjhen vpliv na pravo vrednost v neki podskupini podatkov števnih mest (ena imputacija izmed 60 vrednosti znaša manj kot 1% spremembo v vrednosti). Končni rezultati: Skupno 2,4% manjkajočih podatkov na 15-minutni ravni (2,3% na reg. In 3,1% na avtocestah), Skupno 1403 imputiranih mesečnih vrednosti (izmed skupno 31680 mesečnih vrednosti), Skupno 1,028 faktor povečanja celotnega prometa (1,023 na reg. In 1,04 na avtocestah), V povprečju 2,25% letno povečanje na reg. In 4,11% letno povečanje na
Hitre ocene BDP Mesečno urejene in imputirane podatke smo uporabili za hitro ocenjevanje BDP (ang. nowcasting), pri čemer smo uporabili metodo linearne regresije s PCA. Pri primerjanju napak med ocenami in objavljenimi vrednostmi BDP so rezultati z vključitvijo prometnih podatkov tudi dvakrat bolj natančni kot brez njih! Podobna izboljšanja opazimo tudi ob primerjavi s podobnimi modeli (klima). Izbrani način dela: iz trenutnih podatkov sestavimo različne modele, in za ocenjevanje izberemo tistega, ki ima najboljše mere kakovosti: povprečje napak, absolutne napake, relativne napake, RMSE,
Obdobje Uradne vrednosti BDP (v MIO ) 2017Q1 9395,2 2017Q2 10197, 9 2017Q3 10187,3 2017Q4 10265,5 PCA metoda Ocene brez dodatnih regresorjev Ocene s podatki prometa kot dodatnimi regresorji Relativne napake prvega (v %) Relativne napake drugega (v %) 75% 9355,29 9317,24 0,43 0,83 80% 9419,89 9336,23 0,26 0,63 85% 9285,98 9305,57 1,16 0,95 90% 9133,50 9275,57 2,79 1,27 zadnja5 9300,72 9308,46 1,01 0,92 75% 10137,82 10103,58 0,59 0,92 80% 10201,66 10118,33 0,04 0,78 85% 10111,84 10096,06 0,84 1,00 90% 10130,81 10178,25 0,66 0,19 zadnja5 10182,24 10248,39 0,15 0,50 75% 10151,04 10077,05 0,36 1,08 80% 10164,92 10045,33 0,22 1,39 85% 10148,31 10002,64 0,38 1,81 90% 10152,91 10505,86 0,34 3,13 zadnja5 10273,92 10347,61 0,85 1,57 75% 10110,47 10224,35 1,51 0,40 80% 10065,46 10099,57 1,95 1,62 85% 10346,29 9998,13 0,79 2,61 90% 10188,31 10232,04 0,75 0,33 zadnja5 10277,84 10339,28 0,12 0,72
Obdobje Uradne vrednosti BDP (v MIO ) 2018Q1 9844,9 2018Q2 10594,0 2018Q3 10637,9 2018Q4 10692,7 PCA metoda Ocene brez dodatnih regresorjev Ocene s podatki prometa kot dodatnimi regresorji Relativne napake prvega (v %) Relativne napake drugega (v %) 70% 9951,751 9838,435 1,09 0,07 75% 9995,569 9890,206 1,53 0,46 80% 10054,35 9932,494 2,13 0,89 85% 9803,106 9764,534 0,43 0,82 90% 9836,619 9690,301 0,08 1,57 zadnja5 9846,976 9769,479 0,02 0,77 70% 10573,25 10636,59 0,20 0,40 75% 10623,95 10724,49 0,28 1,23 80% 10564,33 10679,17 0,28 0,80 85% 10481,83 10532,07 1,06 0,59 90% 10644,9 10670,5 0,48 0,72 zadnja5 10606,19 10684,29 0,12 0,85 70% 10514,73 10551,19 1,16 0,82 75% 10499,07 10550,77 1,31 0,82 80% 10455,66 10492,85 1,71 1,36 85% 10516,66 10504,17 1,14 1,26 90% 10523,41 10508,72 1,08 1,21 zadnja5 10441,37 10524,92 1,85 1,06 70% 10602,78 10501,71 0,84 1,79 75% 10596,33 10425,56 0,90 2,50 80% 10699,61 10508,01 0,07 1,73 85% 10534,73 10501,87 1,48 1,79 90% 10784,11 10763,09 0,86 0,66
Ostale težave in načrti v prihodnosti Problem revizij uradnih ocen in izbira prave časovnice napovednih podatkov Izbira najboljše kombinacije modela za napovedovanje Uporaba drugih vrst in kombinacij modelov: Izbira glavnih komponent z odločitvenimi drevesi, nevronske mreže Izboljšanje samega modela za ocenjevanja BDP (druga izbira metod, dodatne mere kakovosti, izbira ustreznejših mer kakovosti ) Delo na komponentah računa za BDP Delo z rastmi BDP in ustrezno pripravljenimi regresorji
Graf napovedi uradne ocene BDP z različnimi podatkovnimi viri
Hitre ocene mesečnih indeksov industrijske proizvodnje Nadaljevanje analiz z delom na mesečnih indeksih industrijske proizvodnje. Podatki IND/PNM so uporabljeni pri izračunavanju BDP. Zaradi daljše časovne serije indeksov, smo izboljšali izbiro optimalnega modela. Ocenjevanje manjkajočih komponent za izračun BDP (nowcasting posamezne komponente)
Testiranje procesa na podobnih podatkih Zaradi kratke časovne vrste, BDP ni najboljša testna množica. Indeks industrijske proizvodnje (IIP) dobro korelira z BDP Poskusimo izračunati hitro oceno na IIP
par(bg = 'blue') par(bg = 'blue') par(bg = 'blue') par(bg = 'blue') par(bg = 'blue') Rezultati dela na indeksih industrijske proizvodnje (1) Original IPI value and estimations using PCA parameter 80 Original IPI value and estimations using PCA parameter 80 Value 90 100 110 120 130 140 Original NePromet RegCarg_SEP AllCarg RegTot_only Value 100 110 120 130 140 150 Original NePromet RegCarg_SEP AllCarg AllTot_only 2016M12 2017M02 2017M04 2017M06 2017M08 2017M10 2017M12 2017M12 2018M02 2018M04 2018M06 2018M08 2018M10 2018M12 Quarter Quarter
Rezultati dela na indeksih industrijske proizvodnje (2) RMSFE PCA krit. = 80 PCA krit. = 90 Leto Indu strija Ind. + promet Ind., promet Promet Indu strij a Ind. + promet Ind., promet Promet 2015 2,70 2,25 2,84 3,48 5,63 4,45 5,97 2,35 2016 3,27 2,03 3,28 3,61 3,23 3,58 3,11 3,57 2017 1.84 2.08 2.04 1.93 2.82 2.65 5.08 3.27 2018 4.11 1.95 2.27 1.89 4.89 2.13 4.99 4.21 Tudi ta eksperiment kaže, da prometni podatki izboljšajo ocene! Vsako leto optimalni model izbiramo na podlagi RMSFE! Ocene so manj natančne v primerjavi z BDP, vendar so rezultati dela optimistični!