Vyhľadávanie informácií na Internete

Internet sprístupňuje množstvo informácii z firiem, knižníc, univerzít na celom svete. Umožňuje síce prístup, ale často neviem, kde sa tieto informácie nachádzajú. Najčastejšia otázka, ktorú si kladú začiatočníci aj skúsení používatelia Internetu je: 'Tuším, že informácie, ktoré hľadám sú niekde tu, ale ako ich nájsť?'

Pre tento účel vzniklo viacero WWW servrov, ktoré pomáhajú vyhľadávať informácie na Internete. Tieto servre udržiavajú obrovské databázy umožňujúce vyhľadávať informácie pomocou kľúčových slov a rôznych kritérií. Okrem vyhľadávacích servrov existujú aj tzv. katalógy, v ktorých sú informácie roztriedené podľa oblastí. Zoznam vyhľadávacích servrov a adresárov môžem získať aj priamo pomocou programu Netscape (pozri časť Aké ďalšie informácie môžem získať).

AltaVista

V decembri 1995 firma Digital Equipment Corporation sprístupnila verejnú službu AltaVista Search Public Service (http://www.altavista.digital.com). Ide o novú triedu Internet technológií, ktoré boli vyvinuté vo výskumných laboratóriách firmy Digital. AltaVista je kombináciou inteligentných programových systémov a výkonných počítačových systémov, ktoré dokážu vytvoriť aktuálny a kompletný index celej siete Internet. Pomocou AltaVista je možný prístup k ľubovoľnej informácii dostupnej na Internete v priebehu niekoľkých sekúnd. AltaVista denne spracuje viac ako 29 miliónov požiadaviek, index zahrňuje viac ako 17 miliárd slov, z viac ako 32 miliónov WWW stránok, z viac ako 275 600 WWW servrov celého sveta a zo 4 miliónov článkov z 15 tisíc diskusných skupín USENET.

Pohľad z perspektívy používateľa

AltaVista je dotazovací systém na vyhľadávanie užitočných informácií na Internete, prístupný prostredníctvom WWW pomocou prehliadača (napr. Netscape Navigator). Poskytuje jednoduché rozhranie pre definovanie požiadavky prostredníctvom niekoľkých slov (pozri Ako naformulujem otázku pre AltaVistu), ktoré bližšie špecifikujú predmet môjho záujmu. Výsledkom je zoznam WWW stránok, ktoré obsahujú slová špecifikované v požiadavke a príslušné odkazy na uvedené WWW stránky. Vyhľadanie trvá niekoľko sekúnd a ovplyvňuje ho viac-menej iba rýchlosť liniek. Naviac, ak sa niečo nové objaví na Internete, AltaVista Search to objaví tiež. Databáza systému obsahuje viac ako 17 miliárd indexovaných slov z viac ako 32 miliónov WWW stránok.

Ako funguje AltaVista ?

Programové vybavenie systému AltaVista pozostáva zo štyroch komponentov:
  • zberač dát typu 'super-spider' , ktorý sa nazýva scooter,
  • generátor indexov resp. indexer,
  • index servre, na ktorých sú uložené databázy indexov,
  • rozhranie na vybavovanie požiadaviek.

  • Tieto programy sú optimalizované pre 64 bitovú Alpha technológiu firmy Digital, ktorá umožňuje spracovanie a vybavovanie požiadaviek neuveriteľne rýchlo.

    Scooter

    Scooter je jeden z najrýchlejších zberačov dát na svete, ktorý dokáže denne prehľadať viac než 3 milióny WWW stránok a ich obsah poskytnúť generátoru indexov na indexovanie. Scooter spĺňa štandard SRE (Standard for Robot Exclusion) čo znamená, že scooter rešpektuje obsah špeciálneho súboru na servri, ktorý môže obsahovať zoznam WWW stránok daného servra, na ktoré má scooter zakázaný prístup. Scooter počas prehľadávania a prenosu obsahu WWW stránok nikdy nevyužíva viac ako 1% zdrojov systému daného WWW servra. Scooter pozostáva z AlphaStation DEC4100 s 1 GB pamäti typu RAM, 48 GB diskovej pamäti typu RAID a príslušného softvéru.

    Generátor indexov

    Scooterom stiahnuté stránky je treba analyzovať a zostaviť index v nich obsiahnutých slov. Generátor indexov dokáže indexovať viac ako 1 GB textu za hodinu. Dôležitou črtou generátora indexov je ohodnotenie výskytu slova v danom dokumente, čo znamená, že pri odpovedi na požiadavku sa dokumenty, v ktorých sa dané slovo nachádza, zobrazujú v poradí podľa ohodnotenia, čo zrýchľuje prístup k dokumentu, ktorý je žiadaný. Generátor indexov je vybudovaný na platforme AlphaServer 4100 s 2 procesormi a s pamäťou 1 GB.

    Index servre

    Po vygenerovaní indexov generátorom indexov sa indexy pravidelne kopírujú na index servre, na ktoré sa potom obracajú systémy, ktoré sú rozhraním na vybavovanie požiadaviek. Index servre sú kľúčovým článkom AltaVista z hľadiska výkonnosti. Index servre pozostávajú zo šiestich AlphaServer 8400 5/300, pričom každý z nich má 10 procesorov, 6 GB pamäti RAM a 210 GB diskovej pamäti typu RAID. Na každom z nich sa nachádza kópia databázy indexov, ktorej ve?kosť v sú?asnosti je viac ako 55 GB. Doba odozvy každého servra je menej ako 1 sekunda.

    Rozhranie na vybavovanie dotazov

    Rozhranie na vybavovanie požiadaviek pozostáva z troch WWW servrov, na ktoré sa obraciam prostredníctvom adresy http://www.altavista.digital.com. Úlohou rozhrania je zabezpečovať komunikáciu používateľa s AltaVistou. Rozhranie prijme moju požiadavku, pošle ju na index servre a spätne mi poskytne získané odpovede. 90% všetkých požiadaviek sa týka WWW a 10% sa týka diskusných skupín. Požiadavky sú spracovávané na troch AlphaStation 500/333, pričom každá z nich je vybavená 256 GB RAM pamäťou a 4 GB diskovou pamäťou.

    Bude služba AltaVista aj v Európe ?

    Rýchly rast Internetu a počtu jeho používateľov vedie aj k rozširovaniu služby AltaVista. Sú plánované implementácie AltaVista v Európe, Ázii, Austrálii, Afrike a Južnej Amerike, ktoré budú 'zrkadlom' pôvodnej domovskej služby lokalizovanej v USA, v Palo Alto v Kalifornii. To znamená, že všetky lokality budú používať rovnaký indexovací, vyhľadávací a dotazovací systém ako domovská služba v Palo Alto (http://www.altavista.digital.com). Služba bude vždy adaptovaná na príslušnú lokalitu (používateľské rozhranie a pomocné stránky v lokálnom jazyku, lokálne reklamy a pod.). V súčasnosti už existuje zrkadlová lokalita AltaVista v severnej Európe vo Švédsku na adrese (http://www.altavista.telia.com) a v Austrálii.

    Ako naformulujem otázku pre AltaVistu?

    Domovská stránka AltaVista je zobrazená na obrázku. Pre jednoduché vyhľadávanie môžem otázku naformovať do riadku na stránke AltaVista z viacerých slov. AltaVista nájdené dokumenty ohodnotí a usporiada, pričom najlepšie sú hodnotené dokumenty, kde:

  • hľadané slová sa nachádzajú medzi prvými slovami dokumentu (v titule, v nadpisoch),
  • hľadané slová sa v dokumente nachádzajú navzájom blízko seba,
  • dokument obsahuje hľadané slová viackrát.

  • Pri zadávaní slov, ktoré chcem hľadať ich poradie nemá význam. Napríklad otázka programovací jazyk nájde dokumenty obsahujúce aspoň jedno z týchto slov, takže okrem iných aj dokumenty o jazykoch z oblasti lingvistického výskumu. Symbol + použijem, ak chcem aby sa slovo určite nachádzalo v hľadanom dokumente. Napríklad príkaz +programovací +jazyk vráti iba tie dokumenty, v ktorých sa nachádzajú obe slová, nemusia však byť za sebou. Ak požadujem určité poradie, musím vytvoriť tzv. frázu. Frázu vytvorím tak, že slová uzavriem do úvodzoviek, napr. príkaz "programovací jazyk". Ak chcem nájsť dokumenty o programovacích jazykoch, avšak nechcem dokumenty o Pascale, použijem symbol - napr. +programovací +jazyk -pascal. Slovo pascal som napísal malými písmenami, lebo takto AltaVista nájde pascal, Pascal, PASCAL alebo paSCAL. Ak by som uviedol Pascal, AltaVista nájde iba dokumenty so slovom Pascal, kde je prvé písmeno ve?ké a ostatné malé. Symbol * nahradzuje 0-5 písmen. Napríklad príkaz jazyk* nájde dokumenty obsahujúce niektoré zo slov jazyk, jazyka, jazykov, jazyky atď. ale aj jazykoveda. Preto symbol * používam opatrne.

    Ako naformulujem komplikovanejšiu otázku ?

    Keď chcem zadať komplikovanejšiu otázku, na domovskej stránke http://www.altavista.digital.com kliknem na odkaz Advanced Search (v obrázku). 

    Na kombinovanie slov v otázke pre komplexné vyhľadávanie používam binárne operátory AND, OR, NEAR a unárny NOT. Napríklad príkaz programovací AND jazyk nájde iba dokumenty obsahujúce obe slová. Príkaz pascal OR prolog nájde dokumenty obsahujúce alebo slovo pascal, alebo prolog, alebo obe. Príkaz jazyk NEAR pascal nájde dokumenty, kde slová jazyk a pascal nie sú oddelené viac ako 10-timi slovami. V jednom príkaze môžem použiť aj viac operátorov: príkaz programovací AND jazyk AND NOT pascal nájde dokumenty obsahujúce slová programovací a jazyk ale neobsahujúce slovo pascal. Operátory nemajú rovnakú prioritu, preto pri použití viacerých operátorov odporúčam použiť zátvorky. Napríklad z troch príkazov

    zlato OR striebro AND platina
    zlato OR (striebro AND platina)
    (zlato OR striebro) AND platina

    prvý a druhý odkaz znamenajú to isté, tretí sa od prvých dvoch líši. Podobne ako pre jednoduché vyhľadávanie môžem pomocou úvodzoviek zo slov vytvárať frázu a môžem používať aj symbol *. Komplexné vyhľadávanie ponúka ešte aj ďalšie možnosti na usmernenie prehľadávania. Ich popis získam ak vyvolám odkaz Help zo stránky pre Advanced Search AltaVista.

    Vyhľadávacia služba Mám to !

    Ako vyhľadám nejakú stránku pomocou služby Mám to ?

    Mám to! - je kategorizovaná 'yahoo-like' (Yahoo je najznámejší zoznam na Internete dostupný na adrese http://www.yahoo.com.) vyhľadávacia služba firmy Internet Systems a.s na adrese http://www.mamto.sk, ktorá mi uľahčí orientáciu v slovenskej časti Internetu. Slúži ako obsahovo roztriedený zoznam internetovských stránok zo Slovenska a umožňuje mi vyhľadať stránky z tématickej oblasti, ktorá ma práve zaujíma. Tieto oblasti sú zaradené do 14 kategórií podľa zamerania (Obchod, Technika, Vzdelávanie, Zábava, ....), ktoré majú svoje odkazy na domovskej stránke služby Mám to!.

    Každá kategória sa delí na ďalšie podkategórie napr. Technika má podkategórie Hardware (33), Internet (53), Multimédiá (4), Nákup cez Internet (2), Programovanie (6), Software (17) . Niektoré z nich sú uvedené ako odkazy už na domovskej stránke (v uvedenej kategórii sú to tie podčiarknuté). Vďaka nim môžem 'preskočiť' jednu úroveň hľadania, tie ostatné nájdem až na stránke zvolenej hlavnej kategórie. čísla v zátvorkách udávajú aktuálne počty odkazov v jednotlivých podkategóriách.

    Na najnižšej úrovni už nájdem samotný zoznam odkazov zo zvoleného okruhu zoradený podľa abecedy. Za názvom odkazu nasleduje stručný popis odkazu, napríklad:

  • Internet Café v Košiciach i-net kaviareň
  • Internet Systems a.s. Internet Service Provider
  • ..........
  • V podkategórii Cool v rámci kategórie Zábava nájdem aj odkaz na Lampáreň, želania a sťažnosti, kde si môžem posťažovať na čo len chcem Ja.

    Ako môžem zaradiť webovskú stránku do Mám to ?

    Keď chcem pridať odkaz na svoju webovskú stránku do Mám to!, vyplním formulár v ktorom uvediem kategóriu, názov stránky, jej popis, URL adresu a svoju elektronickú adresu. Po overení údajov je stránka zaradená do databázy. Naviac sú do zoznamu pridávané stránky pomocou viacerých vyhľadávacích systémov. Z databázy stránok sa potom pomocou špeciálneho programu vygenerujú HTML stránky jednotlivých kategórií a ich podkategórií a následne sa publikujú na WWW.

    Vyhľadávacia služba Mám to! mi ponúka aj niektoré informačné doplnky (autor sľubuje postupné zaradenie ďalších). Jedným z nich je Aktuálne počasie - výber grafických správ z rozličných agentúr (aktuálny satelitný záber Európy z Meteo France, štvordňová predpoveď pre Bratislavu od Intellicast, mapa teplôt v niektorých európskych mestách, predpovedná mapa počasia pre Európu zo CNN), Svetový čas - interaktívny Java applet pre výpočet času vo vybraných mestách sveta., Meniny - Java applet, oznamujúci kto má dnes meniny, Burza - stav slovenskej a českej koruny ako aj niektorých vybraných firiem na burze vo Wall Street .

    V budúcnosti sa Mám to! bude meniť na plne interaktívny zoznam novej generácie založený na platforme Active-X a Javy.