Wednesday, November 19, 2025

Wikipedia haku- ja tekoälyoptimoinnin työkaluna

Viime viikkoina olen intoillut enemmän Wikidatasta kuin Wikipediasta. Nyt aloin kuitenkin miettiä, olenko koskaan sanonut blogissani suoraan, että myös (ja etenkin!) 

Wikipedia on tekoälyoptimoinnin työkalu. 

Pari vuotta sitten opin Wikimaniassa, että Wikipedia on suurin yksittäinen opetusaineisto, jota ChatGPT käyttää. Muistaakseni se edusti noin 15 prosenttia koko aineiston koosta.

Erikielisiä Wikipedioita on satoja ja niiden artikkelit ovat yleensä itsenäisiä, eli niiden sisällöt eroavat toisistaan.

Eilen Andrew Lih kertoi  residenssiwikipedistien kuukausittaisessa WIR-miitissä uudesta tutkimuksesta. 

Singaporelainen Ahrefs on kehittänyt yrityksille suunnatun Brand Radar -nimisen työkalun, joka näyttää, miten LLM-pohjaiset tekoälypalvelut hyödyntävät yritysten tietoja. Työkalua mainostaessaan yhtiön sisältömanageri Louise Linehan analysoi työkalun avulla saatua listaa tuhannesta ChatGPT:n eniten siteeramasta nettisivusta. Aineisto muodostui syyskuussa 2025 käytetyistä sitaateista, joten selvitys on varsin tuore.


Hän luokitteli sivustot Clauden avulla. Sen mukaan

1000 ChatGPT:n eniten siteeramman nettisivun joukossa oli:

  • 297 Wikipedia-artikkelia
  • 238 nettisivua tai lasketumissivua
  • 194 opetussivustoa 
  • 66 app store -linkkiä
  • 58 arvostelua
  • 52 medialinkkiä (uutisia)
  • 40 kieleen tai kielioppiin liittyvää sivustoa
  • 22 tietosanakirjaa tai vastavaa
  • 19 blogikirjoitusta tai kolumnia
  • 9 Q&A/yhteistö/forum-sivua
  • 5 korporaatiosivua (about us, contact us, yritysprofiilisivu)
Medioiden pienestä osuudesta ei kannata hämääntyä, ovathan monet mediat rajoittaneet tekoälybottien vierailuja. 

Asiakkailleni sanon, että hyvät mediaosumat kannattaa ottaa talteen Wikipediaan, jossa medialähteitä arvostetaan paljon enemmän kuin yhtiön tekemiä lehdistötiedotteita.

Louisen esimies Ryan Law sanoo kuulemma, että 

Wikipedia, homepages, app store pages are “dead” citations

– you can’t easily influence them.


No, Wikipediaan voi kyllä vaikuttaa, mutta ei sitä ihan helpoksi ole tehty.

Afrefs on jakanut blogissaan myös ChatGPT:n sata siteeratuinta sivustoa. Esittelen tässä top-kympit, ja kehotan sinua katsomaan loput heidän blogistaan. Saat sieltä myös vinkkejä siihen, miten pääsee ChatGPT:n siteeraamaksi!

ChatGPT:n eniten käyttämät lähteet Yhdysvalloissa top-10 syyskuussa 2025:
(# Domain Mentions)

  1. www.reddit.com 847.338
  2. en.wikipedia.org 431.710
  3. www.amazon.com 97.457 
  4. www.forbes.com 48.052 
  5. www.businessinsider.com 37.712 
  6. www.thespruce.com 36.195 
  7. nypost.com 29.927 
  8. www.bhg.com 28.897 
  9. www.wired.com 28.611 
  10. people.com 28.515 

ChatGPT:n siteeratuimmat sivustot koko maailmassa syyskuussa 2025, top-10:

  1. www.reddit.com 4.389.496 
  2. en.wikipedia.org 2.715.125 
  3. es.wikipedia.org 364.361 
  4. de.wikipedia.org 252.761 
  5. www.amazon.com 214.993 
  6. www.techradar.com 210.698 
  7. www.thesun.co.uk 201.622 
  8. timesofindia.indiatimes.com 198.100 
  9. fr.wikipedia.org 191.494 
  10. www.forbes.com 184.479 
Globaalille top-100-listalle pääsivät myös nämä Wikipediat:
18. portugali
32. italia
78. venäjä

Kielien järjestys lienee yhteydessä puhujien määrään.

Wikipedia vaikuttaa myös hakukoneoptimointiin.

Otan esimerkiksi Helsingin.

Googlen etusivulla Helsingin oma sivu on ykkösenä, Wikipedia toisena.
Osa tietolaatikon tiedoista on peräisin Wikipediasta.


Kun googlasin Helsinkiä, ensimmäinen osuma oli kaupungin oma sivusto. Toisena tuli suomenkielinen Wikipedia-artikkeli. Huomioni kiinnittyi  myös tietolaatikkoon. Siinä luki lähes sanasta sanaan sama teksti kuin Wikipediassa

Helsinki (ruots. Helsingfors) on Suomen pääkaupunki ja Uudenmaan maakuntakeskus, joka sijaitsee Etelä-Suomessa Suomenlahden pohjoisrannalla. Helsingin kaupungissa asuu noin 690 000 henkilöä ja laajemmin koko seudulla asuu noin 1 617 000 henkilöä. Asukasluvultaan Helsinki on Suomen suurin kunta ja lähikuntineen suurin kaupunkialue.


En tiedä, mistä Google pinta-alan nappaa, se on ainakin erilainen kuin Wikipedian ja Wikidatan ilmoittamat luvut (jotka nekin eroavat toisistaan). Myös väkiluku eroaa Wikimedia-projekteissa ilmoitetusta. Tietolaatikon ikäjakauma näyttää olevan sama kuin Wikipedia-artikkelin tietolaatikossa, samoin kuin puolueiden paikat kaupunginvaltuustossa.

(Ihmettelen muuten kovasti, mistä Google päättelee Helsingin kaupunkinosat. Maalaiselle Tali ja Aurinkolahti ovat ihan vieraita paikkoja.)

Ensimmäisten Googlen kuvahakutulosten joukossa on
kaksi Wikipediassa käytettyä kuvaa


Jos taas valitsee käyttöön Googlen tekoälytilan, saa näkyviin kolme linkkiä. 

Google käyttää tekoälytilassa lähteenä englanninkielistä Wikipediaa.




Ensimmäinen lähde on englanninkielinen Wikipedia, josta on saatu tekstiä vastauksen introon.

Seuraavaksi näytän, mitä ChatGPT Helsingistä kertoo. 


ChatGPT hyödyntää Wikipedian tietoja ja kuvia.

Tämäkin kuvausteksti näyttää perustuvan englanninkieliseen Wikipediaan. 

Helsinki[a] (Swedish: Helsingfors)[b] is the capital and most populous city in Finland. It is on the shore of the Gulf of Finland and is the seat of southern Finland's Uusimaa region. About 690,000 people live in the municipality, with 1.3 million in the capital region and 1.6 million in the metropolitan area. As the most populous urban area in Finland, it is the country's most significant centre for politics, education, finance, culture, and research. Helsinki is 80 kilometres (50 mi) north of Tallinn, Estonia, 400 kilometres (250 mi) east of Stockholm, Sweden, and 300 kilometres (190 mi) west of Saint Petersburg, Russia. Together with the cities of Espoo, Vantaa and Kauniainenand surrounding commuter towns,[12] including the neighbouring municipality of Sipoo to the east[13]Helsinki forms a metropolitan area.



Kuvista kaksi on Wikimediasta, ilmakuva Wikimedia Commonsista ja tuomiokirkko englanninkielisestä Wikipediasta. 

Kurkataan vielä Perplexityyn.

Perplexity käyttää lähteenä muun muassa suomenkielistä Wikipediaa.




Tutkin tarkemmin Perplexityn käyttämiä kuvia.

Lähes kaikki Perplexityn ensimmäisten joukossa käyttämät kuvat ovat
erikielisistä Wikipedioista, yksi Wikimediaan kuuluvasta Wikivoyage-palvelusta.


----------------

Toiseksi esimerkiksi otin Myssyfarmi-yrityksen. Valitsin tarkoituksella esimerkin, jolla on vain suomenkielinen Wikipedia-artikkeli. Läpinäkyvyyden nimissä kerron, ettei Myssyfarmi ole minun asiakkaani, enkä ole sen (tai Helsingin) Wikipedia-artikkelia muokannut.


Perushaussa Google nosti Myssyfarmin Wikipedia-artikkelin ykköseksi. Sivulla näkyvässä tekoälyvastauksessa hallusinoidaan myssymummasta (po. myssymummo).



Googlen tekoälytila käytti vastauksessaan 10 sivustoa, ei kuitenkaan Wikipediaa.



ChatGPT hyödynsi vastauksessaan suomenkielistä Wikipediaa.


Perplexity ilmoittaa  käyttäneensä yhdeksää lähdettä, ensimmäinen niistä on Wikipedia.


----

Jos haluat apua teidän Wikipedia/Wikimedia-sisältöjen kanssa, ota yhteyttä! Viimeksi kun katsoin, olin tehnyt 35 000 muokkausta erilaisiin Wikimedia-projekteihin. Verkkokaupastani löydät muun muassa avoimia koulutuksiani, jotka pidän vielä kertaalleen tänä vuonna. 


No comments:

Post a Comment

Kiva kun kommentoit! Voit kommentoida myös anonyymisti, mutta spammikommentit poistetaan heti kun ehditään.