Hledání na vlastním serveru

Cizí vyhledávač pro moje stránky - Google - Jyxo - Atomz - A další - Vlastní řešení vyhledávání

Možnosti, jak prohledávat vlastní stránky:

Cizí vyhledávač pro moje stránky

Jak to funguje:

Možná to vysvětluju moc složitě. Lepší budou příklady. Ukážu, jak pro prohledávání vlastních stránek nasadit Google, Jyxo nebo Atomz, což jsou varianty, které se běžně vídají. Pravděpodobně by se daly využít i jiné vyhledávače, ale ještě nikde jsem to neviděl, takže to asi nebude tak výhodné.

Google

Prohledávat vlastní stránky pomocí Google se dá v tom případě, že stránky zaplňují celou doménu. Mám-li například adresu stránek www.sweb.cz/yuhu/, tak ty Googlem prohledávat nemůžu, protože by mi prohledával celý www.sweb.cz a ne jenom to /yuhu/. (Sice na Google píšou, že řešení tohohle problému se má hledat ve FAQ, ale nic tam není. V takovém případě je nutno nasadit Atomz.) Aby Google něco na mých stránkách našel, musejí ty stránky být také trošku starší a musejí na ně vést odkazy z nějakých důležitých stránek, aby je Google vůbec znal.

Úplně nejjednodušší je udělat prostě parazitní formulář googlovského pokročilého hledání, například z tohoto dotazu:

http://www.google.com/search?as_q=pokus&as_sitesearch=jakpsatweb.cz&num=10

HTML kód formuláře:

<form action="http://www.google.com/search" target="_blank">
<input type="text" name="as_q" size=20>
<input type="hidden" name="as_sitesearch" value="jakpsatweb.cz">
<input type="hidden" name="num" value="10">
<input type="submit" value="Vyhledat">
</form> 

Bude se hledat na serveru jakpsatweb.cz. Vyhledávání na tomto serveru Googlem:

Když si změníte adresu, bude to prohledávat jiný server.

Obarvení výsledků Google

Předchozí příklad vracel výsledky v normálním designu Google, modro-bílé. Dá se zařídit, aby to Google vracel v barvách, které si navolíte. Dělá se to na stránce Vše o Google > Search solutions > Free search > Sign me up for free search. Je potřeba zadat svojí doménu a navolit barvy (jdou případně změnit později). Do výsledků se dá přidat i vlastní logo. Google vzápětí poskytne kód formuláře (hodně prasáckej), který se po prostě vloží do stránky, ale je lepší ho vyčistit na něco takového:

<form action="http://www.google.com/custom">
<input type="text" name="q" size="31">
<input type="submit" value="Vyhledat Googlem na tomto webu">
<input type="hidden" name="cof" value="GIMP:#666666;T:black;LW:131;ALC:red;L:http://www.jakpsatweb.cz/images/jakpw.gif;GFNT:#44AA66;LC:#333366;LH:88;BGC:white;AH:center;VLC:#3344bb;GL:1;S:http://www.jakpsatweb.cz;GALT:#333366;AWFID:cd3b0da9086e6693;">
<input type="hidden" name="domains" value="jakpsatweb.cz">
<input type="hidden" name="sitesearch" value="jakpsatweb.cz">
</form>

Ten šílený řádek name="cof" s tím mořem parametrů je pravděpodobně nastavení barev výsledku. Nehrál jsem si s tím, takže si nejsem jistý. Kdesi jsem se dočetl, že lze uvést kódování stránky s fomulářem, aby to memrvilo češtinu výsledků:  <input type="hidden" name="ie" value="ISO-8859-2">

Výhodou hledání pomocí Google je zejména to, že řadí výsledky podle velmi propracovaných algoritmů (narozdíl od Atomz). Také častěji indexuje stránky, které se často mění. Více o Google.

Jyxo

Jyxo je asi nejlepší český vyhledávač (psáno 2003). Stejně jako Google umožňuje omezit hledání na doménu. Dělá to pomocí parametru d, který přidává do svého dotazu. Například pro jakpsatweb.cz je dotaz pro hledání slova "pokus":

http://jyxo.cz/search.php?s=pokus&stem=on&d=cz@jakpsatweb.cz

Z toho se dá uplácat jednoduchý formulář:

<form action="http://jyxo.cz/search.php" target="_blank">
Zadej dotaz: <input type="text" name="s">
<input type="hidden" name="stem" value="on"><!-- diakritika zapnuta -->
<input type="hidden" name="d" value="cz@jakpsatweb.cz">
<input type="submit" value="Jyxo hledá na tomto serveru">
</form>

Zadej dotaz:

Takže když přepíšete tu doménu na svojí, tak by to mělo fungovat. Na adrese http://jyxo.cz/doc.php?d=free se dá najít trochu hezčí verze formuláře. Nevím, zda se pomocí Jyxo dá prohledávat i stránka, která má v cestě lomítko a adresář, to jsem nezkoušel. Vlastní barvy a vzhled zatím do Jyxa zapracovat nejde, ale všiml jsem si, že když se napíše parametr look=sova, tak se v záhlaví hledání objeví logo Sovy v síti. Asi se tak Marek Prokop domluvil s autorem Jyxa Michalem Illichem.

Jyxo při hledání bere ohled na tvar českých slov. To je zejména u větších stránek s mnoha texty rozhodující výhoda. Jyxo má podle mých pozorování v českých stránkách větší index než Google, takže je dobrý pro ty stránky, které Google zatím ignoruje.

Atomz

Na serveru Atomz.com se lze zaregistrovat do trial programu, což je zdarma. Atomz potom prohledává moje stránky. Má to spoustu výhod:

A nevýhody:

Příklad formuláře, který hledá na těchto stránkách:

<form action="http://search.atomz.com/search" target="_blank">
<input type="hidden" value="00062d0d-sp00000000" name="sp-a">
<input type="hidden" value="0" name="sp-advanced">
<input type="hidden" value="1" name="sp-w-control">
<input type="hidden" name="sp-k">
<p>Hledání:<br>
<input class="text" name="sp-q" size="20">
<input class="submit" type="submit" value="hledej Atomzem"> </p>
</form>

Ten řetězec 00062d0d-sp00000000 je unikátní pro mou registraci (Atomz ví, že patří k mým stránkám). Při registraci dostanete svůj.

A další

Existují i jiné servery podobné Atomzu. Moc jich neznám. Napište mi prosím svoje zkušenosti s dalšími podobnými službami.

Freefind

Karol Bohm-Klein mi doporučil službu freefind.com:

Pro fulltextové prohledávání svých stránek používám službu freefind (www.freefind.com) - je také plně přizpůsobitelná, fulltextová, indexuje stránky každý den (pokud si to nastavíš). Také nabízí funkční mapu stránek (site map), která se dá také zcela upravit podle chuti. (Doporučil KBK, bylo to slovensky, přepsal jsem to.)

Příklad hledání službou FreeFind.com na tomto webu.

Websearch

O centrumácké službě www.websearch.cz  mi napsal Marek a připojil pár heslovitých vlastností:

Nevýhoda: kdo má více jak 500 stránek, musí platit, ale to má málo kdo. V případě služby zdarma chtějí asi formulář se svým designem (lze zredukovat).

Pozn. Yuhů: Websearch jsem netestoval. S výjimkou českého rozhraní mi přijde stejný jako Atomz (leč vlastně dražší).

Vlastní řešení vyhledávání

Na vlastním serveru můžete nainstalovat nějaké již existující vyhledávací řešení, nějaký hledací program. Žádný pořádný neznám, ale jsem si jist, že existují a fungují. Každý takový program má specifické omezení, takže na určitý server se dají nainstalovat jenom některá řešení. Je to dost komplikované a vím o tom málo.

Vlastní hledací řešení doporučuji volit jen na uzavřeném intranetu. Všude jinde se dá nasadit Atomz nebo Google. Jsou firmy, které se zabývají prohledáváním intranetu.

Příkladem existujícího vyhledávacího řešení (které uvádím, protože jsem to narozdíl od jiných viděl fungovat), je hledací FrontPage komponenta. Kdysi jsem se v tom hrabal. Hodně správců serverů se to ale bojí instalovat, protože FrontPage komponenty jsou dost pochybné a potenciálně nebezpečné. Pak také existují komerční řešení serverů se zabudovaným hledáním, je to většinou drahý jak svině. Nevím, zda existují solidní laciná nebo freewarová řešení. Napište mi, prosím.

Zdatní programátoři si mohou napsat vlastní vyhledávač, třeba napojený na databázi. Ten by měl mít 3 moduly:

Nejjednodušší představitelná databáze má tři tabulky: tabulku slov, tabulku stránek a tabulku propojení, která říká, zda se slovo ve stránce vyskytuje. V praxi bývají databáze řádově mnohem složitější.

Jiný případ nastává, pokud je veškerý obsah serveru generovaný z databáze. Potom není potřeba psát crawlera a indexovač, stačí trochu lépe indexovat data a prohledat databázi obsahů. Takhle to běžně dělají internetové obchody, zpravodajské servery a samozřejmě portály.

o tvorbě, údržbě a zlepšování internetových stránek

Píše Yuhů, dusan@pc-slany.cz

Hledání:

Jak psát web: www.jakpsatweb.cz

Píše Yuhů: http://dusan.pc-slany.cz, mail: dusan@pc-slany.cz

Poslední aktualizace 10.12.2003