Uusi indeksointijärjestelmämme: Caffeine

keskiviikkona, heinäkuuta 21, 2010 | 17.10

Labels: , ,


Uusi verkkoindeksointijärjestelmämme Caffeine valmistui kesäkuussa. Caffeinen avulla verkkohaut ovat 50 prosenttia tuoreempia kuin aiemmassa järjestelmässämme, ja kyseessä on suurin koskaan tarjoamamme kokoelma verkkosisältöä. Olipa kyseessä uutisaihe, blogi tai keskusteluryhmän kirjoitus, löydät linkkejä osuvaan sisältöön paljon nopeammin materiaalin julkaisun jälkeen kuin aiemmin oli mahdollista.

Tässä joitakin taustatietoja teille, jotka ette rakenna hakukoneita työksenne kuten me: kun teet Google-haun, et varsinaisesti hae internetistä. Sen sijaan haku tehdään Googlen verkkohakemistoon, joka kirjan sisällysluettelon tapaan kertoo sinulle, missä haluamasi tieto sijaitsee. (Tässä hyvä selitys siitä, miten kaikki tämä toimii.)

Mutta miksi halusimme rakentaa uuden verkkoindeksointijärjestelmän? Verkkosisältö elää kultakauttaan. Sisältö kasvaa sekä mittakaavassa että määrässä, ja uuden verkkomateriaalin kuten videoiden, kuvien, uutisten ja reaaliaikaisten päivityksien myötä tavallisista verkkosivuista tulee jatkuvasti monipuolisempia ja tietorikkaampia. Lisäksi ihmisillä on aikaisempaa suuremmat odotukset verkkohakua kohtaan. Hakijat haluavat löytää uusimman osuvan tiedon, ja materiaalin julkaisijat olettavat oman materiaalinsa olevan löydettävissä heti sen julkaisemisen jälkeen.

Loimme Caffeinen vastauksena käyttäjien kasvaviin odotuksiin ja pysyäksemme mukana internetin kehityksessä. Alla olevassa kuvassa n
äkyy aiemman indeksointijärjestelmämme toiminta Caffeineen verrattuna:





Aiemmassa hakemistossamme oli useita kerroksia, joista osa päivitettiin toisia nopeammin ja pääkerros aina muutaman viikon välein. Päivittääksemme vanhan hakemiston kerroksen analysoimme koko verkon, minkä vuoksi sivun löytymisen ja sen hakemistoon lisäämisen välillä oli selkeä viive.

Caffeine analysoi verkkoa pienemmissä palasissa, joten hakemisto päivittyy jatkuvasti ja maailmanlaajuisesti. Uudet sivut ja päivitettyjen sivujen tiedot lisätään hakemistoon heti. Löydät siis tuoreempaa tietoa kuin koskaan aikaisemmin huolimatta siitä, missä tai milloin materiaali on julkaistu.

Caffeinen avulla voimme indeksoida verkkosivuja valtavassa mittakaavassa. Järjestelmä käsittelee satoja tuhansia sivuja yhtä aikaa joka sekunti. Jos kyseessä olisi paperipino, se kasvaisi joka sekunti noin 5 kilometriä korkeammaksi. Caffeine tallentaa noin 100 miljoonaa gigatavua yhteen tietokantaan ja lisää uutta tietoa satoja tuhansia gigatavuja päivittäin. Näin suuren tietomäärän tallentamiseen tarvittaisiin 625 000 suurinta iPodia, ja jos ne asetettaisiin vieri viereen, iPod-jono olisi yli 65 kilometrin mittainen.

Rakensimme Caffeinen tulevaisuutta ajatellen. Järjestelmä on tuoreempi, ja sen tehokkaan pohjan avulla voimme rakentaa vielä nopeamman ja kattavamman hakukoneen, joka kasvaa yhdessä internetissä olevan tietomäärän kasvun kanssa ja tarjoaa käyttäjilleen entistä enemmän osuvia hakutuloksia. Pysy siis kuulolla, kerromme lisäuudistuksista tulevien kuukausien aikana.

0 kommentteja :