Internet

Zoeken op het Web: de weg is lang (10/02/1996)

Deze Internet column verschijnt elke zaterdag in de bijlage Ter Zake van De Morgen

door Jozef Schildermans

Iemand die alle World Wide Web-pagina's ter wereld opvraagt en ze een minuut lang bekijkt is daar 33 jaar mee bezig en mag in al die tijd geen minuut pauze nemen. Je weg vinden tussen al die informatie is onbegonnen werk. Heel wat individuen en bedrijven houden zich bezig met het handmatig indexeren van het Web. De twee student-oprichters van Yahoo werden er beroemd en rijk door. Doch het handmatig indexeren van alle Web-pagina's is onbegonnen werk. De meeste indexen worden daarom gedeeltelijk automatisch aangevuld. Mensen die een Web-pagina maken kunnen een formuliertje invullen met de beschrijving van hun pagina. Die informatie verschijnt dan na een tijdje in de index (soms na een korte controle door een medewerker van de index). Zelfs dan nog bevat Yahoo, de grootste index van het Web, nauwelijks honderdduizend pagina's, een fractie van wat er is gepubliceerd.

De meeste indexen zijn thematisch ingedeeld. Een index is heel handig als je niet precies weet wat je zoekt maar wel een idee hebt in welke categorie het gezochte thuishoort. Door de categorieën te doorbladeren kom je uiteindelijk terecht bij de Web-pagina's die handelen over het onderwerp waar je naar op zoek bent. Deze manier van zoeken is omslachtig en wordt nog omslachtiger naarmate de indexen groeien. Het duurt soms lang om alle categorieën af te gaan. Bovendien bestaat er geen standaard classificatie voor Internet- of Web-informatie: elke index gebruikt zijn eigen classificatiemethode.

Gelukkig kun je in de meeste indexen zoeken op steekwoorden. Ook bestaan er databases van Web-pagina's die automatisch (door robots) worden aangelegd. Sommige databases bevatten alleen de titel en de korte inhoud van de geïndexeerde Web-pagina's. Andere proberen alle woorden van alle bezochte Web-pagina's te indexeren. Digital's Alta Vista bevat 16 miljoen URLs en is daarmee de grootste zoekmachine die er momenteel op World Wide Web draait. Elke URL (Universal Resource Locator, een uniek adres voor het terugvinden van informatie op Internet) vertegenwoordigt een Web-pagina. Je kunt dus zeggen dat er zestien miljoen Web-pagina's bestaan op Internet. Dat zijn lang niet allemaal unieke pagina's, maar het aantal Web-pagina's met unieke informatie zal toch wel in de miljoenen lopen.

Zoeken op steekwoorden is vooral handig als je precies weet wat je zoekt. Je tikt een zoekterm en met een beetje geluk rollen de pagina's over het scherm. Doch ook deze manier van zoeken stelt zo zijn problemen. Alleen al het vinden van de juiste zoekterm kan een hele klus zijn. Stel, je bent op zoek naar informatie over de Cro-Magnon mens. Dan moet je precies weten hoe Cro-Magnon wordt geschreven om documenten terug te vinden (zoeken naar "cromagnon" zal bijvoorbeeld weinig opleveren).

Ben je op zoek naar een begrip dat niet in één woord is te vangen dan is het nog veel moeilijker om een goede "query" op te stellen. Ook hier bestaan er geen standaarden: elke zoekmachine gebruikt zo zijn eigen zoekmethode. Als je de zoekmethode niet goed onder de knie hebt, wordt het erg moeilijk om iets met succes terug te vinden. Doorzoek je een database zoals Alta Vista die alle woorden indexeert dan kan zelfs een gedetailleerde query meerdere duizenden pagina's teruggeven. Duizenden verwijzingen doorbladeren blijft onbegonnen werk. Een database die eerder een beperkt aantal woorden en/of pagina's indexeert levert misschien niet genoeg verwijzingen op of bevat juist niet die verwijzingen die van belang zijn voor jou.

Volgende week bespreken we hoe u, ondanks deze problemen, toch met succes u weg vindt op Internet.


Bijgewerkt op 2/06/96 / jozef@datatestlab.com / © Copyright 1995-96 by DTL bvba, Oud-Turnhout, Belgium
Data TestLab® is a registered trademark of DTL bvba, Oud-Turnhout, Belgium