Author Archives: dataoko

About dataoko

I like data visualizations

Slovenske občine #1 :: Koliko?

Trenutno bi to lahko bila celo tredovska tema, a podatke sem začel zbirati in analizirati daleč pred #gotofsi protesti (ali današnjim predlogom reform) in zaenkrat nadaljujem po originalnem načrtu. V prvi objavi želim dobiti osnovno sliko o občinah v Sloveniji.

Iskal sem odgovor na 2 vprašanji, koliko občanov, koliko odhodkov tretjim (pravnim) osebam (ker to se da videti).

Kot osnovni podatek sem vzel seznam občin s številom občanov ter podatke zbrane s spletne strani protikorupcijske komisije supervizor.kpk-rs.si.

Na tem mestu naj povem, da je supervizor ena zelo svetlih točk, ki dokazuje da tudi v Sloveniji javni uslužbenci (o katerih drugače nimam naj-naj-lepšega mnenja) znajo delovati inovativno, proaktivno in “deliverati”, ter nas vsaj v delčku postaviti ob bok razvitim demokracijam in projektom kot npr. data.gov.uk.

Koliko občanov?

Najprej sem želel videti kako sploh, so razporejene občine glede na število občanov. Priznam da sem bil presenečen. Veliko socialnih / tržnih / kulturnih / organskih pojavov namreč sledi paretovi (power law) distribuciji. A ker sem mislil, da so občine nekako bolj sistematska tvorba (ki ima mogoče neko optimalno število občanov in nek določen min/max), takšne distribucije nikakor nisem pričakoval.

Nasprotno od tega so občine v Sloveniji videti čisto “kulturna” tvorba, kjer največja občina Ljubljana šteje ~270.000 občanov in najmanjša Hodoš le ~315. Torej razmerje na nivoju 1000:1 !?!

dataoko_obcine1_popul_popul


Plačila podjetjem

Potem sem v roke vzel Supervizor, napisal par skript in dobil seštevek plačil pravnim osebam (podjetjem) za vsako občino, ter jih razvrstil na grafu po enakem vrstnem redu kot zgoraj. Zneski so seštevki plačil od začetka 2003 do konca 2012.

dataoko_obcine1_popul_spent

Kot vidimo je graf v grobem primerljiv z grafom števila občanov, vsekakor pa ni popolnega ujemanja, kar tudi ni bilo za pričakovati.

Plačila podjetjem na občana

Pa si poglejmo kar nas v tem trenutku najbolj zanima. Kaj dobimo, če pri teh ogromnih, srednjih in mikro občinah zdelimo zneske plačil na števila občanov.

Ali so ogromne občine po izdatkih na prebivalca popolnoma različe od srednjih (zaradi distribucije bi lahko rekli da občin srednje velikosti sploh ni) in mikro občin?

dataoko_obcine1_popul_rate

Na moje presenečenje so si kljub ogromnim razlikam v številu občanov zelo podobne.


Moje naključne opazke:

 • Med posameznimi občinami so velika odstopanja. A splošen trend od ogromnih občin do manjših in najmanjših je nenavadno konsistenten. Na primer če vzamemo povprečje 5 največjih občin dobimo zelo podobne števlike, kot če vzamemo 5 občin iz sredine grafa (ki so veliko manjše)
 • Med samimi občinami sorodnih velikosti so razlike, a so zelo enakomerno razporejene. Tu bi bilo vsekakor zanimivo najti kakšne smiselne povezave, in v to bom pogledal v naslednjih objavah.
 • Izravnajoča linija (loess smoothing) pokaže da imajo tiste res najmanjše občine porast izdatkov na občana. Porast se začne tam nekje od 1500 – 1000 občanov navzdol.
 • Povprečna slovenska občina je od leta 2003 do 2012 izplačala podjetjem med 6000 in 7000 na občana.

Kaj se moramo zavedati:

 • To so le izdatki zunanjim pravnim osebam (podjetjem, bankam, društvom, zavodom,…). V grafu ne vidimo internih izdatkov občin (npr. plače, sejnine), ki imajo najbrž spet svoje specifike.
 • Da ima specifična občina plačil več ali manj ni avtomatsko dobro ali slabo. Npr. ne vemo ali je bolj “zapravljiva” ali pa več investira (in je naprimer bolj uspešna pri pridobivanju sredstev, ali zbere več dohodnine na prebivalca). Vsekakor pa je to podatek, ki ga lahko lahko potem nekdo raziskuje naprej.

Viri podatkov

Podatke (občine in št. prebivalcev v 2010) in SKD – standardno klasifikacijo dejavnosti (za naslednjič) sem komaj “spraskal” z nekih spletnih strani. Oboje bom objavil v za-programsko-branje primernem formatu na githubu. Tam bom objavil tudi nadgrajene skripte za dostopanje in parsanje supervizorja, samo da jih še malo uredim.

Naslednjič

Naslednjič si bom skušal odgovoriti na “Kam” in sicer: Kam, v katere vrste (kategorije po SKD) podjetij gredo ta plačila iz občin. Zaenkrat je ideja, da ne izpostavljamo posameznih občin, ampak iščemo splošne trende / povezave / in zanimivosti.
V komentarjih me lahko kaj popravite, mi daste kakšen namig glede dodatnih podatkov ali poveste kako vi vidite prikazano.

Evropski Clean IT predlog

Preprost “wordcloud” dokumenta. Priporočam da po-googlate za “clean it”, če želite izvedeti več.

Oglejmo si še nekaj asociacij iz dokumenta. Naštete besede se v dokumentu največkrat pojavljajo ob izbrani besedi, v prvem primeru “Internet”. Večji kot je font, večja je asociacija.

Users – uporabniki, to smo mi.

Companies – podjetja ; kar je, kot vidimo v “wordcloudu” pogosta beseda v dokumentu.

Systems – sistemi?

Delo po stopnjah izobrazbe

Z nekaj ročnega dela sem si iz strani zavoda za zaposlovanje pridobil števila iskalcev zaposlitve in ponudb zaposlitve in sicer po stopnjah izobrazbe. Dobil sem naslednji graf.

Kot vidite, in kot smo odkrili že aprila, je iskalcev neprimerljivo več kot ponudb za delo. Izbral sem zavode za zaposlovanje treh mest, in sicer dve veliki univerzitetni mesti (Ljubljano in Maribor) ter območno službo Sevnica. Ta nasprotno od njiju nima univerz (torej se mladi v času študija odselijo v LJ/MB) in pokriva 3 mesta Sevnica, Krško in Brežice.

Iskalcev in ponudbe na tem grafu ne moremo primerjati, saj je njuna razlika prevelika. Pri iskalcih pa že lahko opazimo, da so si mesta med seboj podobna, povsod je največje polje zeleno, torej največ je iskalcev s srednjo šolo.

Pa primerjajmo iskalce med tremi mesti.

Oglejte si sami. Samo par mojih opažanj:

 • Sevnica ima po pričakovanjih največ iskalcev s poklicno stopnjo ali manj (modra, oranžna, rumena) in sicer 50%. In najmanj univerzitetnih, do in po-diplomskih.
 • V skupini poklicna ali manj sta si Ljubljana in Maribor enaka (malo pod 40%).
 • MB ima več iskalcev s srednjo in višjo strokovno kot LJ, LJ pa več z univerzitetno.
 • Zanimivo, da ima LJ več iskalcev z osnovno šolo in manj kot MB. To lahko sicer pomeni vsaj dvoje: ali v MB takšni lažje dobijo zaposlitev, ali pa je v LJ takšnih preprosto več.

Primerjajmo še iste podatke pri ponudbah za delo.

Že na prvi pogled vidimo, da so si mesta v zelo grobem podobna, so pa med njimi tudi razlike. Za razliko od prej, sta si tu bolj podobna Sevnica in Maribor. Ponudb za poklicno stopnjo (ali manj) je pri obeh okoli 65%. Ljubljana pa izstopa predvsem po več ponudbah z visoko strokovno in višjimi stopnjami (svetlo morda, temno zelena in rumeno zelena).

Najbrž ste že sami poskušali primerjati zadnja dva grafa med seboj. Pa si poglejmo zvezdne grafe. Dodal sem še razmerje (rumena), ki predstavlja število iskalcev na eno ponudbo dela.

Grafi prikažejo presenetljivo podobne poteze in če vprašate mene tudi nekatere presenetljive opazke:

 • Pri vseh treh vidimo navzkrižje med srednjo poklicno in srednjo šolo: vsi trije imajo največ ponudbe dela za srednjo poklicno in največ iskalcev pri srednji šoli. In tudi razmerje pri srednji šoli je pri vseh treh med najslabšimi.
 • Sodeč po tem grafu, v Mariboru in Ljubljani službo najtežje dobiš z univerzitetno dodiplomsko izobrazbo. V Sevnici pa je to malo prehitela visoka strokovna. Potem po problematičnosti sledi srednja šola.
 • Spet, sodeč po tem grafu imajo najboljše možnosti tisti s srednjo poklicno, z višjo strokovno in podiplomsko.
 • Pri slednjih (če pogledate prejšnje grafe) je srednja poklicna kvantitativno daleč največja skupina, višja strokovna je dosti manjša, podiplomska pa je zelo minimalna. To je treba  upoštevati: npr. v Sevnici lahko iščejo par zdravnikov doktorjev in to ne koristi dosti podiplomcem vseh ostalih strok, to pa je lahko že cela ponudba.

Moji zaključki in opazke so pač moje. Če sem kje narobe sklepal, me prosim popravite v komentarjih ali na email in vsekakor sklepajte in razmišljajte sami. Moje služijo le kot primer.

Grafi so bili narejeni v upanju, da bodo čimbolj pravilno predstavili realno stanje. Če opazite kakšno napako, mi sporočite v komentarjih ali pišite na dataoko AFNA fastmail.fm . Uporabljeni podatki so bili pridobljeni iz javne strani http://www.ess.gov.si .

Če potrebujete kakšno podobno obdelavo podatkov ali programiranje, mi prav tako pišite na dataoko AFNA fastmail.fm .

Oglejte si še sorodno objavo iz aprila: Prosta delovna mesta (april 2012)

Articles on fracking

We parsed and crunched online articles about fracking from one of the biggest mainstream magazines to see, if anything interesting comes out. Well, this is the result, we are not claiming any specific success, judge for yourself.

Visit the Wikipedia is you are not sure what fracking is.

2012, first quarter

2011 second quarter

2011 third quarter

2011 last quarter

2012 first quarter

Heatmap of words

The lighter the color the bigger the role those words had in that quarter. Subjects with similar activity maps are clustered together to some degree.

Casual observations of the heatmap

As we see, in 2011 Q1 whole thing just started getting publicity, just few words like “climate”, “public”, “protest” and “commite” were amongst more active.

In Q2 “methane” and safety were the big themes, “climate” enhanced and some new themes were open.

Q3 is very pronounced in whole lower cluster of words like “council”, “planning”, “people”, “government” and “safety”, “fear” and “exploration”. “Climate” made it’s peak and there was not much talk about “methane” any more.

Again in Q4 whole upper cluster of words becomes very active. The most pronounced seem to be “protesters”, “committee”, “chemicals”, “concerns” and “tremors” and “pressure”. In the bottom “water” pops out.

2012 Q1 things got more calm. The theme that was slowly growing and seems enhanced here are “earthquakes” and “safe” becomes more prominent again. The theme of “water” and “oil” persist from the previous quarter.

Word associations

At the end we decided to look into words associated with words that have higher human/social context in our view. Bigger font means bigger association.

Well that’s it. We do this because we are interested in data visualization and like to practice on real examples. We also believe any additional overview of the information that touches lives of the people is in general public good. We don’t claim we found out anything special based on this work. Don’t claim anything based on our results and work, make your own work if you want that!

If you have any comments or questions about it, write them below or email us at dataoko AT fastmail.fm.

While the information in this blogpost is believed to be true at the date of its publication, neither the authors, the editors, nor the publisher can accept any legal responsibility for any errors or omissions that may be made. The publisher makes NO warranty, express or implied, with respect to the material contained herein.

Prosta delovna mesta (april 2012)

Število prostih delovnih mest

Število iskalcev zaposlitev

Iskalci zaposlitev (svetlo rdeče) in prosta delovna mesta (zeleno)

Zemljevid (c) OpenStreetMap contributors, CCBYSA

Št. iskalcev zaposlitev na eno prosto delovno mesto

Št. iskalcev zaposlitev na eno prosto delovno mesto (svetlo rdeče)

Temno rdeč krog pomeni 50 iskalcev na eno prosto delovno mesto. Dodan je za lažje primerjanje.

Zemljevid (c) OpenStreetMap contributors, CCBYSA

Moje naključne opazke:

 • Nekoliko nenavadna razporeditev zavodov.
 • V negativno smer izstopata dve področji: grozd zasavlje-Celje-Velenje in Prekmurje.
 • Nisem pričakoval, da bo Sevnica na drugem mestu.
 • Zaradi večkrat črnih novic, nisem pričakoval, da bo Maribor boljši kot Novo Mesto in Nova Gorica.
  (predvidevam da sta slabši, ker pokrivata več odročnejših krajev: Bela Krajina, Trenta?)
 • Za Celje sem mislil, da je v boljšem stanju.

Viri in obdelava

vir podatkov: spletna stran http://www.ess.gov.si/

obdelava: le neposredna uporaba, skripte bom objavil na github.

Opomba

Graf je narejen na osnovi podatkov, ki jih vsak lahko kadarkoli vidi na spletni strani zavoda za zaposlovanje. Prikazal sem jih, ker me vizualizacija podatkov zanima in rad vadim v praksi.

Če potrebujete podobno vizualizacijo ali obdelavo podatkov, mi pišite na dataoko@fastmail.fm

To je ponovna objava članka, ker sem preselil stran na WordPress.com.

ACTA SLO

To je objava starih vizualizacij iz obdobja ko je bilo govora o ACTI.

Oblak besed Slovenske različice

 

Oblak besed angleške različice (verzije 2010 in 2012)

 

Razlike med prvo 2010 verzijo ACTE in 2012