Vyhľadávanie informácií na Internete
Internet sprístupňuje množstvo informácii
z firiem, knižníc, univerzít na celom svete. Umožňuje síce prístup, ale
často neviem, kde sa tieto informácie nachádzajú. Najčastejšia otázka,
ktorú si kladú začiatočníci aj skúsení používatelia Internetu je: 'Tuším,
že informácie, ktoré hľadám sú niekde tu, ale ako ich nájsť?'
Pre tento účel vzniklo viacero WWW
servrov, ktoré pomáhajú vyhľadávať informácie na Internete. Tieto servre
udržiavajú obrovské databázy umožňujúce vyhľadávať informácie pomocou kľúčových
slov a rôznych kritérií. Okrem vyhľadávacích servrov existujú aj tzv. katalógy,
v ktorých sú informácie roztriedené podľa oblastí. Zoznam vyhľadávacích
servrov a adresárov môžem získať aj priamo pomocou programu Netscape
(pozri časť Aké ďalšie informácie môžem získať).
AltaVista
V decembri 1995 firma Digital Equipment
Corporation sprístupnila verejnú službu AltaVista Search Public Service
(http://www.altavista.digital.com). Ide o novú triedu Internet technológií,
ktoré boli vyvinuté vo výskumných laboratóriách firmy Digital. AltaVista
je kombináciou inteligentných programových systémov a výkonných počítačových
systémov, ktoré dokážu vytvoriť aktuálny a kompletný index celej siete
Internet. Pomocou AltaVista je možný prístup k ľubovoľnej informácii
dostupnej na Internete v priebehu niekoľkých sekúnd. AltaVista denne
spracuje viac ako 29 miliónov požiadaviek, index zahrňuje viac ako 17 miliárd
slov, z viac ako 32 miliónov WWW stránok, z viac ako 275 600 WWW servrov
celého sveta a zo 4 miliónov článkov z 15 tisíc diskusných skupín USENET.
Pohľad z perspektívy
používateľa
AltaVista je dotazovací systém
na vyhľadávanie užitočných informácií na Internete, prístupný prostredníctvom
WWW pomocou prehliadača (napr. Netscape Navigator). Poskytuje jednoduché
rozhranie pre definovanie požiadavky prostredníctvom niekoľkých slov (pozri
Ako naformulujem otázku pre AltaVistu), ktoré bližšie
špecifikujú predmet môjho záujmu. Výsledkom je zoznam WWW stránok, ktoré
obsahujú slová špecifikované v požiadavke a príslušné odkazy na uvedené
WWW stránky. Vyhľadanie trvá niekoľko sekúnd a ovplyvňuje ho viac-menej
iba rýchlosť liniek. Naviac, ak sa niečo nové objaví na Internete, AltaVista
Search to objaví tiež. Databáza systému obsahuje viac ako 17 miliárd
indexovaných slov z viac ako 32 miliónov WWW stránok.
Ako funguje AltaVista
?
Programové vybavenie systému AltaVista
pozostáva zo štyroch komponentov:
zberač dát typu 'super-spider' , ktorý
sa nazýva scooter,
generátor indexov resp. indexer,
index servre, na ktorých sú uložené databázy
indexov,
rozhranie na vybavovanie požiadaviek.
Tieto programy sú optimalizované pre
64 bitovú Alpha technológiu firmy Digital, ktorá umožňuje spracovanie a
vybavovanie požiadaviek neuveriteľne rýchlo.
Scooter
Scooter je jeden z najrýchlejších
zberačov dát na svete, ktorý dokáže denne prehľadať viac než 3 milióny
WWW stránok a ich obsah poskytnúť generátoru indexov na indexovanie. Scooter
spĺňa štandard SRE (Standard for Robot Exclusion) čo znamená, že scooter
rešpektuje obsah špeciálneho súboru na servri, ktorý môže obsahovať zoznam
WWW stránok daného servra, na ktoré má scooter zakázaný prístup.
Scooter počas prehľadávania a prenosu obsahu WWW stránok nikdy nevyužíva
viac ako 1% zdrojov systému daného WWW servra. Scooter pozostáva
z AlphaStation DEC4100 s 1 GB pamäti typu RAM, 48 GB diskovej pamäti typu
RAID a príslušného softvéru.
Generátor indexov
Scooterom stiahnuté stránky
je treba analyzovať a zostaviť index v nich obsiahnutých slov. Generátor
indexov dokáže indexovať viac ako 1 GB textu za hodinu. Dôležitou črtou
generátora indexov je ohodnotenie výskytu slova v danom dokumente,
čo znamená, že pri odpovedi na požiadavku sa dokumenty, v ktorých sa dané
slovo nachádza, zobrazujú v poradí podľa ohodnotenia, čo zrýchľuje prístup
k dokumentu, ktorý je žiadaný. Generátor indexov je vybudovaný na
platforme AlphaServer 4100 s 2 procesormi a s pamäťou 1 GB.
Index servre
Po vygenerovaní indexov generátorom
indexov sa indexy pravidelne kopírujú na index servre, na ktoré
sa potom obracajú systémy, ktoré sú rozhraním na vybavovanie požiadaviek.
Index servre sú kľúčovým článkom AltaVista z hľadiska výkonnosti.
Index servre pozostávajú zo šiestich AlphaServer 8400 5/300, pričom
každý z nich má 10 procesorov, 6 GB pamäti RAM a 210 GB diskovej pamäti
typu RAID. Na každom z nich sa nachádza kópia databázy indexov, ktorej
ve?kosť v sú?asnosti je viac ako 55 GB. Doba odozvy každého servra je menej
ako 1 sekunda.
Rozhranie na vybavovanie dotazov
Rozhranie na vybavovanie požiadaviek
pozostáva z troch WWW servrov, na ktoré sa obraciam prostredníctvom adresy
http://www.altavista.digital.com.
Úlohou rozhrania je zabezpečovať komunikáciu používateľa s AltaVistou.
Rozhranie prijme moju požiadavku, pošle ju na index servre a spätne
mi poskytne získané odpovede. 90% všetkých požiadaviek sa týka WWW a 10%
sa týka diskusných skupín. Požiadavky sú spracovávané na troch AlphaStation
500/333, pričom každá z nich je vybavená 256 GB RAM pamäťou a 4 GB diskovou
pamäťou.
Bude služba AltaVista
aj v Európe ?
Rýchly rast Internetu a počtu jeho používateľov
vedie aj k rozširovaniu služby AltaVista. Sú plánované implementácie
AltaVista v Európe, Ázii, Austrálii, Afrike a Južnej Amerike, ktoré
budú 'zrkadlom' pôvodnej domovskej služby lokalizovanej v USA, v Palo Alto
v Kalifornii. To znamená, že všetky lokality budú používať rovnaký indexovací,
vyhľadávací a dotazovací systém ako domovská služba v Palo Alto (http://www.altavista.digital.com).
Služba bude vždy adaptovaná na príslušnú lokalitu (používateľské rozhranie
a pomocné stránky v lokálnom jazyku, lokálne reklamy a pod.). V súčasnosti
už existuje zrkadlová lokalita AltaVista v severnej Európe vo Švédsku
na adrese (http://www.altavista.telia.com) a v Austrálii.
Ako naformulujem
otázku pre AltaVistu?
Domovská stránka AltaVista je
zobrazená na obrázku. Pre jednoduché vyhľadávanie môžem otázku naformovať
do riadku na stránke AltaVista z viacerých slov. AltaVista
nájdené dokumenty ohodnotí a usporiada, pričom najlepšie sú hodnotené dokumenty,
kde:
hľadané slová sa nachádzajú medzi prvými
slovami dokumentu (v titule, v nadpisoch),
hľadané slová sa v dokumente nachádzajú
navzájom blízko seba,
dokument obsahuje hľadané slová viackrát.
Pri zadávaní slov, ktoré chcem hľadať
ich poradie nemá význam. Napríklad otázka programovací
jazyk nájde dokumenty obsahujúce aspoň jedno z
týchto slov, takže okrem iných aj dokumenty o jazykoch z oblasti lingvistického
výskumu. Symbol + použijem,
ak chcem aby sa slovo určite nachádzalo v hľadanom dokumente. Napríklad
príkaz +programovací +jazyk
vráti iba tie dokumenty, v ktorých sa nachádzajú obe slová, nemusia však
byť za sebou. Ak požadujem určité poradie, musím vytvoriť tzv. frázu.
Frázu vytvorím tak, že slová uzavriem do úvodzoviek, napr. príkaz "programovací
jazyk". Ak chcem nájsť dokumenty o programovacích
jazykoch, avšak nechcem dokumenty o Pascale, použijem symbol -
napr. +programovací +jazyk -pascal.
Slovo pascal som napísal
malými písmenami, lebo takto AltaVista nájde pascal, Pascal,
PASCAL alebo paSCAL. Ak by som uviedol Pascal, AltaVista nájde
iba dokumenty so slovom Pascal, kde je prvé písmeno ve?ké a ostatné
malé. Symbol * nahradzuje
0-5 písmen. Napríklad príkaz jazyk*
nájde dokumenty obsahujúce niektoré zo slov jazyk, jazyka, jazykov,
jazyky atď. ale aj jazykoveda. Preto symbol *
používam opatrne.
Ako naformulujem
komplikovanejšiu otázku ?
Keď chcem zadať komplikovanejšiu otázku,
na domovskej stránke http://www.altavista.digital.com
kliknem na odkaz Advanced Search
(v obrázku).
Na kombinovanie slov v otázke pre komplexné
vyhľadávanie používam binárne operátory AND,
OR, NEAR
a unárny NOT. Napríklad
príkaz programovací AND jazyk nájde
iba dokumenty obsahujúce obe slová. Príkaz pascal
OR prolog nájde dokumenty obsahujúce
alebo slovo pascal, alebo prolog, alebo obe. Príkaz jazyk
NEAR pascal nájde dokumenty, kde
slová jazyk a pascal nie sú oddelené viac ako 10-timi slovami.
V jednom príkaze môžem použiť aj viac operátorov: príkaz programovací
AND jazyk AND NOT pascal nájde
dokumenty obsahujúce slová programovací a jazyk ale neobsahujúce
slovo pascal. Operátory nemajú rovnakú prioritu, preto pri použití
viacerých operátorov odporúčam použiť zátvorky. Napríklad z troch príkazov
zlato OR striebro AND platina
zlato OR (striebro AND platina)
(zlato OR striebro) AND platina
prvý a druhý odkaz znamenajú to isté,
tretí sa od prvých dvoch líši. Podobne ako pre jednoduché vyhľadávanie
môžem pomocou úvodzoviek zo slov vytvárať frázu a môžem používať aj symbol
*. Komplexné vyhľadávanie
ponúka ešte aj ďalšie možnosti na usmernenie prehľadávania. Ich popis získam
ak vyvolám odkaz Help
zo stránky pre Advanced Search AltaVista.
Vyhľadávacia služba
Mám to !
Ako vyhľadám nejakú
stránku pomocou služby Mám to ?
Mám to! - je kategorizovaná 'yahoo-like'
(Yahoo je najznámejší zoznam na Internete dostupný na adrese http://www.yahoo.com.)
vyhľadávacia služba firmy Internet Systems a.s na adrese http://www.mamto.sk,
ktorá mi uľahčí orientáciu v slovenskej časti Internetu. Slúži ako obsahovo
roztriedený zoznam internetovských stránok zo Slovenska a umožňuje mi vyhľadať
stránky z tématickej oblasti, ktorá ma práve zaujíma. Tieto oblasti sú
zaradené do 14 kategórií podľa zamerania (Obchod,
Technika, Vzdelávanie,
Zábava, ....), ktoré majú
svoje odkazy na domovskej stránke služby Mám to!.
Každá kategória sa delí na ďalšie podkategórie
napr. Technika má podkategórie
Hardware (33), Internet (53), Multimédiá (4), Nákup cez Internet (2), Programovanie
(6), Software (17) . Niektoré z nich sú uvedené
ako odkazy už na domovskej stránke (v uvedenej kategórii sú to tie podčiarknuté).
Vďaka nim môžem 'preskočiť' jednu úroveň hľadania, tie ostatné nájdem až
na stránke zvolenej hlavnej kategórie. čísla v zátvorkách udávajú aktuálne
počty odkazov v jednotlivých podkategóriách.
Na najnižšej úrovni už nájdem samotný
zoznam odkazov zo zvoleného okruhu zoradený podľa abecedy. Za názvom odkazu
nasleduje stručný popis odkazu, napríklad:
Internet Café v Košiciach
i-net kaviareň
Internet Systems a.s. Internet
Service Provider
..........
V podkategórii Cool
v rámci kategórie Zábava
nájdem aj odkaz na Lampáreň, želania a sťažnosti,
kde si môžem posťažovať na čo len chcem Ja.
Ako môžem zaradiť
webovskú stránku do Mám to ?
Keď chcem pridať odkaz na svoju webovskú
stránku do Mám to!, vyplním formulár v ktorom uvediem kategóriu,
názov stránky, jej popis, URL adresu a svoju elektronickú adresu. Po overení
údajov je stránka zaradená do databázy. Naviac sú do zoznamu pridávané
stránky pomocou viacerých vyhľadávacích systémov. Z databázy stránok sa
potom pomocou špeciálneho programu vygenerujú HTML stránky jednotlivých
kategórií a ich podkategórií a následne sa publikujú na WWW.
Vyhľadávacia služba Mám to!
mi ponúka aj niektoré informačné doplnky (autor sľubuje postupné zaradenie
ďalších). Jedným z nich je Aktuálne počasie
- výber grafických správ z rozličných agentúr (aktuálny satelitný záber
Európy z Meteo France, štvordňová predpoveď pre Bratislavu od
Intellicast, mapa teplôt v niektorých európskych mestách, predpovedná
mapa počasia pre Európu zo CNN), Svetový
čas - interaktívny Java applet pre výpočet času
vo vybraných mestách sveta., Meniny
- Java applet, oznamujúci kto má dnes meniny, Burza
- stav slovenskej a českej koruny ako aj niektorých vybraných firiem na
burze vo Wall Street .
V budúcnosti sa Mám to! bude
meniť na plne interaktívny zoznam novej generácie založený na platforme
Active-X a Javy.