Friday, October 17, 2025

Wikidatasta vauhtia GEO- eli tekoälyoptimointiin?

Viime syksynä osallistuin viiden tunnin Wikidata-koulutukseen, jonka Wikimedia UK tarjosi Wikipedia-kouluttajaringilleen. Kiitos siitä! ❤️ 

Koulutuksen jälkeen olin aivan liekeissä: tätä tietoa haluan välittää Suomessa. Koulutuksen näkökulma oli muistiorganisaatiot, GLAM-organisaatiot, ja siksi lähdin itsekin tarjoamaan Wikidata-osaamistani siihen suuntaan. 

Wikidataa ei ole suunnattu tavallisille ihmisille, sen tutkiminen ei ole kovin mielekästä lauseita kaipaaville ihmisille. Harvempi kai lukee taulukoita huvikseen?

Wikidatasta saa kuitenkin SPARQL-hakukyselyillä valtavan määrän tietoa, jota ei löydy mistään muualta. Wikidata yhdistää tiedot niin erikielisistä Wikipedia-artikkeleista kuin myös monista muistakin Wikimedia-projekteista. Wikidataan voi linkittää esimerkiksi Wikimedia Commonsin kuvia. Wikidata sopisi siis hyvin esimerkiksi tutkijoiden työkaluksi. Ymmärrettävistä syistä (lue: pienet resurssit) yhteydenottoni GLAMiin eivät johtaneet mihinkään. Harmi.

Viime aikoina olen kuitenkin löytänyt enemmän vastakaikua Wikidatalle, kun olen kertonut asiasta muutamille yrityksissä ja julkisissa organisaatioissa työskenteleville asiakkailleni. Wikidatan kautta tieto päätyy tekoälyn jauhettavaksi, eikä AI välitä alustan teknisyydestä, päinvastoin. 😁 

Luulen, ettei missään vielä kouluteta yrityksille sitä, miten ne voisivat tehdä tekoälyoptimointia Wikidatan avulla. Valmista koulutuspakettia minullakaan ei ole, mutta sen sijaan on intoa opetella asiaa yhä useamman tahon kanssa. 

Näin nimittäin viime viikolla yhden silmiä avaavan esimerkin: Wikidataa osataan jo hyödyntää, kun tarve on suuri. Toivon siis löytäväni muutaman pilottiasiakkaan, jotka kertovat minulle näkyvyystarpeistaan.

Wikidataan on vähän helpompi* luoda sisältöjä kuin Wikipediaan, sillä merkittävyyskynnys on siellä pienempi. (*Teknisesti se on kyllä haastavampaa.)

Esimerkiksi minulla on siellä oma item eli kohde:

Johanna Janhonen kuuluu ihmisten (Q5) porukkaan.

Lisäsin itseni Wikidataan alunperin päästäkseni Metaan (älä sekoita Zuckerbergin Metaan, myös Wikimedialla on Meta eli Meta wiki) vierailevien wikipedistien eli residenssiwikipedistien listalle. Koska meitä on maailmassa niin vähän, olemme Wikidatassa automaattisesti merkittäviä, eli voimme tehdä itsellemme kohteen. :)

Tutkiessani millaista tietoa Wikidatan ja tekoälyn yhteiselosta löytyy, törmäsin tuoreeseen uutiseen

Tämän kuun alussa Wikimedia Deutschland, Wikidatan luoja ja yksi Wikimedia-liikkeen suurimmista toimijoista Wikimedia-liikkeessä, teki uuden avauksen. Wikidata Embedding Project käyttää vektoripohjaista semanttista hakua, joka auttaa tietokoneita ymmärtämään sanojen välisiä suhteita. Uuden MCP-protokollan avulla LLM-palveluiden on entistä helpompi hyödyntää Wikidataa. Protokolla on kehitetty yhteistyössä neuraalihakuihin keskittyneen Jina.AI:n ja IBM:n omistaman DataStax-yhtiön kanssa.

Wikidatassa on noin 120 miljoonaa kohdetta. Uusin niistä oli äsken

Wikidata-kehittäjien huumorintajusta kertoo, että 

kohde Q1 on universumi, 
Q2 maa, 
Q3 elämä, 
Q4 kuolema, 
Q5 ihminen, 
Q6, Q7, Q9 ja Q10 ovat tyhjiä, 
mutta Q8 merkitsee onnellisuutta. 

Arvaatko, mitä Q42 tarkoittaa tai mikä on Suomen kohteen tunnus?

Otapa siis yhteyttä, jos haluat miettiä kanssani sitä, miten voisimme kehittää teidän näkyvyyttänne Wikidatassa. 

Alla vielä esimerkki Wikidata-kohteesta, josta jo äsken mainitsin. 

Kohteiden mahdollisia ominaisuuksia on todella suuri määrä, arvoja ja tarkenteita vielä enemmän. Niiden kanssa saa päänsä helposti sekaisin, siksi arvelen, että pääset helpommin kärryille, kun opetan sinulle alkeet tai teen teidän organisaatiolle alustavan muokkauskierroksen, jota voimme ideoida ja iteroida myös yhdessä.


Datamodel in Wikidata fi

Kuunvaihteessa pääsen muuten opiskelemaan lisää Wikidatasta seminaarissa, joka järjestetään kahden vuoden välein. Jes!


Jos sinä haluat oppia lisää Wikidatasta, niin voit

1. Tutkia, mitä Wikipedia siitä kertoo
2. Kysyä, mitä käyttämäsi tekoäly aiheesta kertoo.

Minä kysyin ChatGPT:ltä käyttävätkö tekoälypalvelut Wikidataa. :) Näin se vastasi:

Hyvä kysymys — vastaus on kyllä, mutta epäsuorasti ja vaihtelevasti. Selvennän tarkemmin:

 1. Wikidatan käyttö avoimena tietolähteenä

Monet tekoälypalvelut (erityisesti kielimallit, kuten ChatGPT, Google Gemini, Claude, yms.) ovat saattaneet hyödyntää Wikidataa epäsuorasti, koska Wikidata on avoimen lisenssin (CC0) tietokanta. Tämä tarkoittaa, että kuka tahansa voi käyttää sen tietoja vapaasti, myös tekoälyn koulutukseen.

Käyttö tapahtuu tyypillisesti kahdella tavalla:

  • Koulutusaineistona: Wikidatan rakenne (kuten faktat henkilöistä, paikoista, organisaatioista jne.) voidaan sisällyttää mallin koulutusvaiheessa.

  • Taustatietolähteenä reaaliajassa: Joissain palveluissa (esim. Googlen ja Wikipedian hakujärjestelmissä) tekoäly voi hakea ajantasaisia faktoja suoraan Wikidatasta kyselyn aikana.

 2. Esimerkkejä Wikidataa käyttävistä järjestelmistä

  • Wikimedia-projektit (kuten Wikipedia ja Wiktionary) käyttävät Wikidataa suoraan tietolähteenä.

  • Google Knowledge Graph ja Bing Knowledge Graph hyödyntävät ainakin osittain Wikidatan tietoja.

  • OpenAI:n GPT-mallit (kuten ChatGPT) ovat voineet saada osan tiedoistaan Wikidatan kautta, mutta eivät käytä sitä reaaliajassa — eli tieto on voinut tulla mukaan koulutusvaiheessa, ei dynaamisesti kyselyn aikana.

  • Assistant-palvelut (kuten Siri ja Alexa) voivat hyödyntää Wikidataa epäsuorasti muiden tietolähteiden kautta.

 3. Miksi käyttö on "epäsuoraa"

Useimmat tekoälypalvelut eivät ilmoita tarkasti, mitä julkisia tietokantoja ne ovat käyttäneet koulutukseen. Kuitenkin avoimen lisenssin lähteet, kuten Wikipedia ja Wikidata, ovat todennäköisiä lähteitä, koska ne tarjoavat laajaa ja luotettavaa strukturoitua tietoa ilman lisenssimaksuja.

Lue myös uudempi bloggaukseni: Mitä hyötyä Wikidatasta on

No comments:

Post a Comment

Kiva kun kommentoit! Voit kommentoida myös anonyymisti, mutta spammikommentit poistetaan heti kun ehditään.