O Google

Podle čeho Google řadí - Page Rank - Duplicitní obsah - Penalizace - Co Google nevidí - Proč je Google důležitý - Co umožňuje Google webmasterům - Meta tag googlebot

Tento text je určen provozovatelům stránek, kteří se chtějí trochu zorientovat v tom,

jak Google funguje
a co webmasterům nabízí.

Profíci na optimalizaci pro vyhledávače mě za formu podání budou asi proklínat, ale snažím se to zjednodušit.

Podle čeho Google řadí

Nikdo přesně neví, podle čeho Google řadí výsledky hledání. Google si to drží jako tajemství.

Budu hledat slovo W. Jak vysoko bude moje stránka A ve výsledcích? Co na to má vliv:

V první řadě Google samozřejmě prohledává text stránky, titulek a adresu a hledá v nich
slovo W (jako to dělaly předchozí úspěšné vyhledávače), ale to zdaleka není jediné kritérium.
Každá stránka má Page Rank, číslo vyjadřující důležitost stránky. Je tím vyšší, čím více jiných stránek na stránku A odkazuje.
Strašně důležitý je text odkazů zvenku, které na stránku A míří, zejména pokud obsahují hledané slovo W.
Google každou stránku A zařazuje do jakýchsi tematických skupin podle toho, jaké jiné stránky na stránku A míří a jaká obsahují důležitá slova.
Záleží na tom, kde ve stránce se hledané slovo W nachází. V titulku a v nadpisech má větší váhu než v ostatním textu.
Možná existují i další kritéria, která neznám.
Pro výslednou pozici stránky A ve výsledcích hledání slov se to nějak nakombinuje. Přesný způsob kombinace je jednak pravděpodobně tajný a jednak se dost často mění.

Page Rank

Page Rank je číslo přiřazené každé stránce. Vyjadřuje něco jako věrohodnost nebo důležitost stránky, dosahuje hodnot od nuly do jedné. Google si Page Rank počítá (zjednodušeně řečeno) podle toho, kolik a jak důležitých stránek na tu počítanou stránku odkazuje. Existuje na to vzoreček (originální dokumentace má vzoreček trochu chybný). Vzoreček se dá zjednodušeně přetlumočit tak, že stránka předá část svého PageRanku stránkám, na které odkazuje.

Tím, že stránka obsahuje odkazy, o svůj PR nepřichází. Spíše než o "předávání" bych měl mluvit o "kopírování" nebo "přeposílání" PageRanku. Čím méně má stránka odkazů, tím víc Page Ranku se každým odkazem přeposílá.

PageRank nijak nezávisí na hledaném slově (je to veličina skalární). Page Rank má každá jednotlivá stránka, nikoliv celý web dohromady (site, doména).

Čím má stránka vyšší PageRank, tím bude pravděpodobně výše ve výsledcích. Pozor! Page Rank zdaleka není jediné kritérium pro nalezení stránky v Google. Poslední dobou kolem Page Ranku vypukla na webu doslova hysterie. Page Rank je jistě velmi důležitý, ale jeho význam je podle mého názoru přeceňován.

Jak zjistit Page Rank

Nainstalujte si Google Toolbar, malý prográmek dostupný zdarma na Google (v létě 2003 byla uvolněna druhá verze). Kromě jednodušší práce s hledáním se pomocí Google Toolbar přibližně dozvíte, jak velký PR má právě prohlížená stránka.

Na toolbaru se objevuje měřítko Page Ranku od 0 do 10. Google Toolbar má velmi dobrou nápovědu (maká se na české verzi), ze které se dozvíte podrobnosti. Zejména to, že:

PageRank zobrazený na Toolbaru není skutečný PageRank, ale nějaká jeho odvozenina (patrně logaritmická). (PR šest na toolbaru může znamenat třeba skutečný PR=0,00000008.) Tento na toolbaru zobrazovaný PR říkejte, až se vás někdo zeptá, jaký máte PageRank.
Pokud se ukazuje PR 0, může to znamenat dvě věci. Buďto Google stránku ještě nezná (neindexoval ji), nebo je stránka natolik nevýznamná, že má skutečně PR = 0
Pokud se neukazuje nic, stránka není v Google indexu nebo má toolbar na chvilku výpadek. Je potřeba to zkusit po nějakém čase znovu.

Před prázdninami 2003 Google toolbar u neznámých stránek zobrazovaný Page Rank odhadoval podle hloubky zanoření v adresářích. Teď už to nedělá.

Jak zvýšit svým stránkám PR

Postarejte se, aby na stránku vedlo co nejvíc odkazů ze stránek, které mají vysoký PR. Jinak to nejde. To se nejsnáze dělá v katalozích. Jakmile ale nemá vyhlédnutá stránka katalogu na toolbaru PR alespoň 4, je otázka, zda má cenu mít na takové stránce odkaz. Dobrý nápad je oslovovat spřízněné weby se žádostí o výměnu odkazů. Čím méně je na zdrojové stránce odkazů, tím je odkaz hodnotnější.

Existují matematické modely, které ukazují, jak se dá vzájemným prolinkováním stránek na určitých stránkách webu koncentrovat PR z jiných stránek. Nejčastěji se doporučuje mít na každé stránce odkaz na domovskou stránku. Je to jedna z mnoha metod a rozhodně není univerzální, někdy je dokonce kontraproduktivní (to když je na hlavní stránce málo hodnotného obsahu).

Jednoduchým výsledkem modelů je to, že by se na stránky mělo dávat co nejméně "odkazů pryč" mířících na cizí stránky ven z webu, aby se na stránkách koncentroval Page Rank. Podle mých výpočtů to ale není zas tak podstatné. Je to zbytečné škudlení. Mnohem lepšího výsledku než odstraněním vnějšího linku se dá dosáhnout přidáním další stránky s hodnotným (nejlépe unikátním) obsahem.

Duplicitní obsah

Dost lidí má naprosto stejný obsah na různých stránkách nebo doménách. Kdyby vyhledávače neuměly rozeznat, že jde o stejný obsah, uživatelům by se to nelíbilo, protože by ve výsledcích dostávali mnoho naprosto stejných stránek. Možná si pamatujete, že se tak ještě nedávno mnoho vyhledávačů chovalo.

Takže vyhledávače mají algoritmy, kterými zjišťují, zda jde o stejní obsah. Dokonce jsou prý schopné poznat, že se stránka liší třeba jen navigací. Ty algoritmy asi nikdo přesně nezná. Pokud vyhledávače dupicitu zjistí, chovají se různě.

Google duplicitní stránky indexuje tak, že si vybere jednu stránku z mnoha stejných a ostatní ignoruje. To je dost rozumné chování. Je na to ale potřeba myslet, když obsah někam kopírujete, protože se vám může stát, že Google zaindexuje zcela jinou stránku, než chcete.

Zásadní doporučení proto zní: nekopírujte obsah zbytečně. Pokud musíte mít obsah na více místech, zvažte použití nějakého přesměrování na jednu stránku, nejlépe přesměrování na straně serveru.

Google počítá každé duplicitní stránce (url) PageRank zvlášť. Zní to logicky, ale je to nepříjemné u výchozích souborů (index, default apod.). Příklad: mám stránku

http://www.doména.cz/

Google ji chápe jako jinou stránku než

http://www.doména.cz/index.html

Z odkazů, které vedou do rootu /, počítá PageRank pro root, z odkazů, které vedou na index, se počít PageRank pro index.html. Co z toho plyne: rozhodněte se, jaké url budete prefereovat a na něj směřujte (a doporučte směřovat) všechny odkazy.

Penalizace

Na základě znalosti vzorečku pro Page Rank dají vytvořit "klikací farmy" (množiny navzájem prolinkovaných stránek s náhodným obsahem). Webmasteři používají ke zmatení vyhledávačů i skrytý text obsahující klíčová slova, neviditelné odkazy a jiné metody. To se Googlu nelíbí, a tak přistoupil k penalizaci takových praktik.

Pravděpodobně to dělají nějakým algoritmem, který podvodné stránky vyhledává. Pracovníci Google navíc sami takové stránky sami vyhledávají. Také se jim dá napovědět. Znáte-li stránku používající nějaké takové nekalé praktiky, můžete ji nabonzovat na stránce Spam report (anglicky). Pokud lidé z Google usoudí, že máte pravdu, podvodnou stránku z indexu vyřadí nebo jí nastaví nějakou jinou penalizaci. Dá se to použít na likvidaci nekalé konkurence :-)

Co Google nevidí

Jsou způsoby, jak zaručit (chtěně či nechtěně), aby na stránku Google nepřišel či ji nebral v úvahu:

nenamířit na stránku žádný odkaz
pomocí meta tagů robots nebo pomocí souboru robots.txt zakázat indexování
udělat ji nějak zakódovanou nebo v blbém formátu (prezentace Poverpointu fakt není to pravé)
dát do adresy za otazník proměnnou id= , např. http://cokoliv.cz/page.php?id=1235 Google pravděpodobně nezaindexuje, protože to id považuje za sešnu (to je spíš chyba Googlu)

Dále se uvádí, že má Google nerad moc komplikované adresy, které mají za otazníkem příliš mnoho parametrů. Ale nyní (podzim 2003) je indexuje mnohem více než dříve.

Proč je Google důležitý

Přes vyhledávání Google chodí na české stránky už asi třetina lidí (psáno na jaře 2003, druhou třetinu zaujímá podle mých měření Seznam) a tento podíl se bude dále zvyšovat.

Google je důležitý nejen protože přes něj hledá strašně moc lidí, ale hlavně tím, že jej všechny vyhledávače budou napodobovat. I kdyby o svojí pozici nejlepšího vyhledávače přišel, jeho nástupci budou mít hodně podobné algoritmy a zásady. Např. nejlepší český vyhledávač Jyxo se částečně inspiruje Googlem a netají se tím.

Co Google umožňuje webmasterům

Znáte to většinou sami. Kromě normálního hledání:

pokročilé hledání podle data, formátu souboru
hledání obrázků
archivování stránek
nalezení odkazů mířících na konkrétní stránku
spoustu dalších věcí
a vyhledávání v rámci jedné domény

Prohledání jednoho webu

Pro webmastery je právě klíčově důležité prohledávání jedné domény. Dá se tak udělat hledací formulář na vlastní stránky. Jsou dva způsoby:

zkusit si pokročilé hledání omezené na moji doménu a z výsledků udělat parazitní formulář
nebo se u Google zaregistrovat na free search. Pošlou kód formuláře a navíc lze barvy výsledku přizpůsobit vzhledu vlastního webu.

Kde je registrace: Vše o Google > Search solutions > Free search > Register. Odkliká se registrace a vyberou se barvy výsledků. Vizte příklad formuláře hledajícího na stránkách dusan.pc-slany.cz a příklad obarvených výsledků hledání slova "pokus".

Hlavní nevýhodou "googleovského prohledání webu" je to, že když je v adrese webu adresář, např. doména.cz/adresář/, tak Google pochopí jako web to doména.cz, hledá tam všude a na adresář nebere zřetel. Takže když má třeba někdo stránky na Swebu na adrese třeba www.sweb.cz/adresář/, tak má prostě smůlu a googleovský hledací formulář na prohledávání těch stránek použít nemůže, protože by to hledalo na celém www.sweb.cz. (Na prohledávání takového webu se dá použít Atomz.)

Když chcete něco najít na konkrétním cizím webu, nemusíte přes pokročilé hledání. Stačí do normálního hledání napsat třeba:

xhtml site:www.sovavsiti.cz

a bude to hledat informace o xhtml na serveru www.sovavsiti.cz. Nebo

Feynman site:cz

hledá infromace o nejgeniálnější bytosti dvacátého století v doméně cz. Pozor, to není totéž co hledat v češtině. Pozor, za dvojtečkou není mezera.

Hledání na vlastním serveru -- více informací a další možnosti.

Zpětné odkazy

Pokročilé hledání Google umožňuje zjistit, jaké stránky odkazují na tu vaši. Je tam možnost "najít stránky odkazující na stránku:" a místo pro zadání adresy. Nebo se to dá i z normálního hledání zápisem

link:http://ta.adresa.cz

najít stránky odkazující na konkrétní stránku. To je pro autory stránek velice zajímavá informace. Pozor, jsou vypisovány pouze důležité stránky. Pokud na nějakou stránku míří odkaz z nepodstatné stránky (PageRank menší než asi 4), Google ji nevypíše.

Meta tag googlebot

Kromě klasického meta tagu robots akceptuje indexovač Google jeden zvláštní meta tag googlebot

<meta name="googlebot" content="nosnippet,noarchive">

snippet / nosnippet

Vypisovat / nevypisovat úryvky (ukázky) ze stránky. Pokud je nastaven "nosnippet", nevypisuje Google žádné úryvky v textu stránky. Maximálně se jako popisek objeví katalogový popis stránky z ODP, to je obvykle text uvedený v <meta name="Description" content="popis stránek">, ale stránka musí být zařazena v ODP a tam může být popisek změněn.

archive / noarchive

Archivovat / nearchivovat verzi stránek v archivu (neboli cache) Googla. Pokud dám noarchive, nedostanete se ke staré verzi mých stránek, pokud ji z webu odstraním. V opačném případě bude mít Google uchovanou kopii mých stránek a i když je z webu odstraním, tak například právě přes Google se na ně dostanu, přestože již fyzicky neexistují.

Yuhů: Osobně doporučuji meta tag googlebot moc nepoužívat. Když se nezadá, tak to Google chápe jako snippet,archive. Takové nastavení umožňuje přesnější vyhledávání (Google si udržuje cache kvůli přesnosti) a je větší šance, že si na to uživatel klikne, když uvidí hledané slovo v kontextu (snippet).

Vizte též: Vyhledávací servery, jak fungují, Služby vzdálených serverů, Parazitní formuláře, Hledání na vlastním serveru
Odkaz mimo: Google, Pokročilé hledání, Archiv konference optimalizace pro vyhledávání (česky), Google dance (Martin Kopta), Vysvětlení výpočtu PageRanku (anglicky)

o tvorbě, údržbě a zlepšování internetových stránek

Návody HTML CSS JavaScript FrontPage

Píše Yuhů, dusan@pc-slany.cz

Jak psát web: www.jakpsatweb.cz

Píše Yuhů: http://dusan.pc-slany.cz, mail: dusan@pc-slany.cz

Poslední aktualizace 10.12.2003