Lapin yliopiston oikeusinformatiikan instituutti oli kutsunut professori Monica Palmiranin Bolognan yliopistosta luennoimaan semanttisesta webistä ja avoimesta datasta ”Open data and semantic web”-seminaariin. On aina ilo kuunnella asiantuntijaa, joka tuntee esittämänsä asian läpikotaisin ja on lisäksi innostunut aiheestaan. Muita luennoitsijoita olivat oikeusinformatiikan johtaja professori Ahti Saarenpää, oikeusinformatiikan professori Rauno Korhonen, tutkijat Dino Girardi sekä Aleksander Wiatrowski.
Semanttinen webbi
Semanttinen webbi voidaan ymmärtää nykyisen internetin laajennuksena. Informaatiolle pyritään antamaan hyvin määritelty merkitys, jonka tietokoneet ymmärtävät. Ensimmäisessä vaiheessa tavoiteltiin sitä, että koneet ymmärtäisivät asioiden suhteita ja vuorovaikutuksia entistä paremmin. Nyt tavoitellaan sitä, että koneet ymmärtäisivät informaation merkityksiä. Tällöin yhtä ja samaa dataa voitaisiin käyttää entistäkin helpommin eri sovelluksissa. Dokumentit tallennetaan XML-standardin mukaisesti.
- Web 1.0 tarkoittaa yhteyttä internet-verkon staattisiin HTML-sivuihin. HTML-merkintäkielessä on syntaksi, mutta ei semantiikkaa.
- Web 2.0 tarkoittaa sosiaalista verkostoa, jossa käyttäjälle vihjataan mitä muuta informaatiota on tarjolla selattavaksi.
- Web 3.0 tarkoittaa sitä, että käyttäjä löytää tiedon mitä hän on etsinyt. Semanttinen webbi perustu pohjimmiltaan käsitteisiin. Dokumenttien webbi muuttuu asioiden semanttiseksi webiksi. Ontologioiden lisäksi tarvitaan loogisia sääntöjä XML-tiedon mallintamiseen.
Voivatko tietokoneet ymmärtää informaation takaa merkityksen? Jos voivat, kyseessä on semanttinen webbi. Koneita ja ohjelmistoja on kuitenkin vaikea saada ymmärtämään luonnollisen kielen semanttisia merkityksiä. Siksi helpompi tie on ”alhaalta ylöspäin” eli tallennusvaiheessa lisätään merkintöjä dataan RDF-standardin mukaisesti. RDF (Resource Description Framework) -standardi on kehitetty kuvaamaan webin resursseja. Sama voidaan esittää arvoketjuna: data -> informaatio -> tietämys -> viisaus.
Avoin data
Avoin data on ennen kaikkea uusi paradigma! Julkisen sektorin hallinnassa olevaa tietoa jaetaan kaikkien halukkaiden maksuttomaan käyttöön yksityisyyden ja tietosuojan mahdollistamisissa rajoissa.
Koska kansalaisten on vaikeahko pystyä hyödyntämään raakamateriaalia eli dataa sellaisenaan, on ajateltu, että yritykset investoisivat appseihin eli välineisiin, joilla data saadaan hyödyttämään tietokoneiden, tablettien ja älypuhelinten välityksellä kansalaisia ja kansalaisjärjestöjä.
Yritykset investoivat vain jos uskovat saavansa joskus rahallista voittoa. Liiketoimintamalleja kehitellään jatkuvasti. Kansalaisia kiinnostavat esim. julkisen sektorin rahankäyttöön, ympäristön tilaan ja matkailuun liittyvät avoimen datan sovellukset. Avoin data tukee ns. onnekasta sattumaa (serendipityä).
Avoimen datan käytössä on ratkaistava paljon yksityisyyteen ja tietoturvaan liittyviä ongelmia. On estettävä se, että tiedonlouhinnalla (data mining) saataisiin yksittäistä ihmistä koskevaa arkaluonteista tietoa esille.
Euroopan unionin jäsenmaissa keskeisessä asemassa on PSI-direktiivi (2003/98/EY) eli Public sector information -direktiivi. Direktiivissä säädetään julkisen sektorin hallussa olevien tietojen uudelleenkäytöstä. EU:n komissio on uudistamassa PSI-direktiiviä (KOM 2011:882). Direktiivi laajennetaan koskemaan mm. kirjastoja (myös yliopistokirjastoja), arkistoja ja museoita tekijänoikeudet huomioon ottaen. Viranomainen tai organisaatio ei voi pääsääntöisesti veloittaa muuta kuin jäljentämisestä ja jakelusta aiheutuvat lisäkustannukset. Tavoitteena on myös eurooppalaisen dataportaalin luominen. Direktiivi rohkaisee organisaatioita julkaisemaan dataa koneluettavassa muodossa.
Oikeusinformatiikan näkökulma
Oikeustieteilijöitä kiinnostavat tietenkin avoimen datan monet oikeudelliset kysymykset, kuten kysymykset yksityisyydestä ja tietosuojasta. Lisäksi Lapin professori Ahti Saarenpää korosti miten tärkeää on juristien asiantuntemus oikeudellisen tiedon tallennuksessa.
Oikeudellista aineistoa kuten lainsäädäntöä, valtiopäiväasiakirjoja tai lakien esitöitä on melko mukavasti tarjolla internetin kautta. Parlamentit ja tuomioistuimet ovatkin näihin aikoihin asti keskittyneet asiakirjojen saatavuuden edistämiseen. Palmiranin mielestä ’open access’ kuitenkin tarkoittaa myös sitä, että asiakirjat luokitetaan ja järjestetään yhdenmukaisesti. Tämän lisäksi asiakirjojen sisältö tulee rakentua mielekkäistä koneluettavista elementeistä, joita eri sovellukset voivat lukea ja ymmärtää.
Oikeudellisen tekstin semanttiset tasot ovat seuraavat:
5. Tiedon mallintaminen, logiikka
4. Ontologiat
3. Metadata
2. Rakenne, oikeudellisten tekstien XML-rakenne
1. Teksti
Teksti, rakenne ja metadata lienevät kirjastoihmisille tuttuja. Ontologiat mahdollistavat käsitteiden ja käsitteiden suhteiden tarkan määrittelyn sekä mahdollistavat käsitteellisiä päättelyketjuja. Ylimmäinen taso tarkoittaa tekstin merkityksen oikeudellista tulkintaa ja mallintamista. Monimutkainen informaatio pyritään esittämään formaalin logiikan mukaisesti. Tällöin esim. oikeudelliset normit muunnetaan formaaleiksi säännöiksi.
Rainer Salosensaari
EU-informaatikko, Lapin korkeakoulukirjasto, yliopisto