Do določene mere smo v prejšnji objavi odgovorili na vprašanje KOLIKO, sedaj pa nas zanima osnovna slika o KAM.
S pomočjo supervizorja in par dodatnih skript pridobimo zneske in osnovne dejavnosti podjetij s katerimi so občine poslovale med letom 2003 in 2012. Dejavnosti po SKD (standardni klasifikaciji dejavnosti) je preveč, da bi bilo uporabno, a k sreči so hirarhično urejene. Tako lahko pri vsaki dejavnosti poiščemo dejavnost na prvem nivoju in jih seštejemo.
S tem dobimo matriko, ki jo je najlažje videti v “heatmap”-u. Svetlejša barva je bolj vroča in predstavlja višjo vrednost. Graf je normaliziran po mestih in razvrščen po povprečjih zneskov, tako da nižje občine so načeloma večje.
Kliknite na sliko in z zoom/scrool brskalnika boste lahko videli več.
Opazke in vprašanja:
- občine so imele največ plačil ustanovam iz finančnega/zavarovalniškega področja in gradbeništva. Sledi voda/okolje/komunala.
Manjšinske kategorije
Pri zgornjem grafu, kot vedno, par kategorij izstopa, zato ne moremo dobro videti vzorcev pri nižji večini kategorij. Če odstranimo največje 4 kategorije se pokažejo še vzorci v teh. Tudi tu so občine razvrščene po povprečju zneskov (nižje občine so načeloma večje).
Kliknite na sliko in z zoom/scrool brskalnika boste lahko videli več.
Vzorci tu so zelo raznovrstni in potrebovali bomo dodatne analize če hočemo ugotoviti kakšna globalna pravila, kakšne povezave. Vsak pa si lahko pogleda graf za posamezne občine (npr. svojo) in morebiti najde kakšne zanimive specifike ali primerja par izbranih občin.
Klustriranje
Da malo bolje spoznamo podatke in dobimo kakšen dodaten uvid si podatke “klustrirajmo” in si jih poglemo še enkrat. Občin je preveč in imena sama ne povedo nič o velikosti, poziciji ali kakšni drugi lastnosti občin. Zato nam klustriranje ne pove nič o samih občinah, bolje pa lahko spoznamo same kategorije. Lahko npr. vidimo kako določene kategorije tvorijo skupine, kako velike so in odnose med kategorijami samimi.
Občine sedaj niso več razporejene po povprečjih zneskov ampak so hirarhično “klustrirane”, kar pomeni da so občine s podobnimi profili kategorij bolj skupaj. Na levi lahko vidite drevo (dendrogram) ki ga je hirarhično klustriranje ustvarilo. Na najvišjem nivoju vidimo dve skupini občin, eno s poudarkom na financah in zavarovalništvu in drugo s poudarkom na gradbeništvu. Če gremo bolj v detajle najdemo še skupine znotraj teh.
Ker je bila bolj raznovrstna je manjšinska slika mogoče še bolj zanimiva. Na prvi pogled izstopa cca. 6 skupin, ene so večje ene manjše kjer ima vsaka poudarjeno eno kategorijo. Na primer daleč najširša je skupina s poudarkom na promet/skladišče, naslednji dve sta videti vozila in predelava, več je skupin okoli ožjih maksimumov.
To je za drugo objavo vse. Danes smo dobili občutek ozirom osnovni vpogled v kakšne tipe podjetij gre denar. Kako različne so si po tem občine med seboj. Ne vidimo pa še nobenih povezav tega z drugimi lastnostmi občin. Naslednjič bomo poskušali najti kakšne povezave, ni garancije da jih bomo glede na (omejen vrste podatkov) uspeli, ker ni garancije da močne povezave med podatki ki jih lahko pridobimo obstajajo.
Bralec
Predlogi glede tega kje najti dodatne vrste podatkov o občinah, katere podatke bi bilo smiselno primerjati, kakšna vprašanja naj poskusimo odgovoriti, vaš pogled na doslej prikazano so kot vedno dobrodošli!
Vir podatkov
Izjava
Podatke smo obdelali in predstavili v želji, da čimbolje prikažemo realno stanje, vendar ne prevzemamo nobene odgovornosti za njihovo točnost ali za točnost naših postopkov. Prav toko ne prevzemamo odgovornost za kakršnekoli posledice uporabe teh podatkov ali naših prikazov in povzetkov. Vsi izvorni podatki so javni in vsak jih lahko analizira sam, če želi na podlagi njih delovati. Če naletite na kakšne nepravilnosti ali napake nam jih prosim sporočite na dataoko@fastmail.fm.
~sledite me na twiterju~
Pingback: Slovenske občine #3 :: Povezave | dataoko