Podle čeho Google řadí - Page Rank - Duplicitní obsah - Penalizace - Co Google nevidí - Proč je Google důležitý - Co umožňuje Google webmasterům - Meta tag googlebot
Tento text je určen provozovatelům stránek, kteří se chtějí trochu zorientovat v tom,
Profíci na optimalizaci pro vyhledávače mě za formu podání budou asi proklínat, ale snažím se to zjednodušit.
Nikdo přesně neví, podle čeho Google řadí výsledky hledání. Google si to drží jako tajemství.
Budu hledat slovo W. Jak vysoko bude moje stránka A ve výsledcích? Co na to má vliv:
Page Rank je číslo přiřazené každé stránce. Vyjadřuje něco jako věrohodnost nebo důležitost stránky, dosahuje hodnot od nuly do jedné. Google si Page Rank počítá (zjednodušeně řečeno) podle toho, kolik a jak důležitých stránek na tu počítanou stránku odkazuje. Existuje na to vzoreček (originální dokumentace má vzoreček trochu chybný). Vzoreček se dá zjednodušeně přetlumočit tak, že stránka předá část svého PageRanku stránkám, na které odkazuje.
Tím, že stránka obsahuje odkazy, o svůj PR nepřichází. Spíše než o "předávání" bych měl mluvit o "kopírování" nebo "přeposílání" PageRanku. Čím méně má stránka odkazů, tím víc Page Ranku se každým odkazem přeposílá.
PageRank nijak nezávisí na hledaném slově (je to veličina skalární). Page Rank má každá jednotlivá stránka, nikoliv celý web dohromady (site, doména).
Čím má stránka vyšší PageRank, tím bude pravděpodobně výše ve výsledcích. Pozor! Page Rank zdaleka není jediné kritérium pro nalezení stránky v Google. Poslední dobou kolem Page Ranku vypukla na webu doslova hysterie. Page Rank je jistě velmi důležitý, ale jeho význam je podle mého názoru přeceňován.
Nainstalujte si Google Toolbar, malý prográmek dostupný zdarma na Google (v létě 2003 byla uvolněna druhá verze). Kromě jednodušší práce s hledáním se pomocí Google Toolbar přibližně dozvíte, jak velký PR má právě prohlížená stránka.
Na toolbaru se objevuje měřítko Page Ranku od 0 do 10. Google Toolbar má velmi dobrou nápovědu (maká se na české verzi), ze které se dozvíte podrobnosti. Zejména to, že:
Před prázdninami 2003 Google toolbar u neznámých stránek zobrazovaný Page Rank odhadoval podle hloubky zanoření v adresářích. Teď už to nedělá.
Postarejte se, aby na stránku vedlo co nejvíc odkazů ze stránek, které mají vysoký PR. Jinak to nejde. To se nejsnáze dělá v katalozích. Jakmile ale nemá vyhlédnutá stránka katalogu na toolbaru PR alespoň 4, je otázka, zda má cenu mít na takové stránce odkaz. Dobrý nápad je oslovovat spřízněné weby se žádostí o výměnu odkazů. Čím méně je na zdrojové stránce odkazů, tím je odkaz hodnotnější.
Existují matematické modely, které ukazují, jak se dá vzájemným prolinkováním stránek na určitých stránkách webu koncentrovat PR z jiných stránek. Nejčastěji se doporučuje mít na každé stránce odkaz na domovskou stránku. Je to jedna z mnoha metod a rozhodně není univerzální, někdy je dokonce kontraproduktivní (to když je na hlavní stránce málo hodnotného obsahu).
Jednoduchým výsledkem modelů je to, že by se na stránky mělo dávat co nejméně "odkazů pryč" mířících na cizí stránky ven z webu, aby se na stránkách koncentroval Page Rank. Podle mých výpočtů to ale není zas tak podstatné. Je to zbytečné škudlení. Mnohem lepšího výsledku než odstraněním vnějšího linku se dá dosáhnout přidáním další stránky s hodnotným (nejlépe unikátním) obsahem.
Dost lidí má naprosto stejný obsah na různých stránkách nebo doménách. Kdyby vyhledávače neuměly rozeznat, že jde o stejný obsah, uživatelům by se to nelíbilo, protože by ve výsledcích dostávali mnoho naprosto stejných stránek. Možná si pamatujete, že se tak ještě nedávno mnoho vyhledávačů chovalo.
Takže vyhledávače mají algoritmy, kterými zjišťují, zda jde o stejní obsah. Dokonce jsou prý schopné poznat, že se stránka liší třeba jen navigací. Ty algoritmy asi nikdo přesně nezná. Pokud vyhledávače dupicitu zjistí, chovají se různě.
Google duplicitní stránky indexuje tak, že si vybere jednu stránku z mnoha stejných a ostatní ignoruje. To je dost rozumné chování. Je na to ale potřeba myslet, když obsah někam kopírujete, protože se vám může stát, že Google zaindexuje zcela jinou stránku, než chcete.
Zásadní doporučení proto zní: nekopírujte obsah zbytečně. Pokud musíte mít obsah na více místech, zvažte použití nějakého přesměrování na jednu stránku, nejlépe přesměrování na straně serveru.
Google počítá každé duplicitní stránce (url) PageRank zvlášť. Zní to logicky, ale je to nepříjemné u výchozích souborů (index, default apod.). Příklad: mám stránku
http://www.doména.cz/
Google ji chápe jako jinou stránku než
http://www.doména.cz/index.html
Z odkazů, které vedou do rootu /, počítá PageRank pro root, z odkazů, které vedou na index, se počít PageRank pro index.html. Co z toho plyne: rozhodněte se, jaké url budete prefereovat a na něj směřujte (a doporučte směřovat) všechny odkazy.
Na základě znalosti vzorečku pro Page Rank dají vytvořit "klikací farmy" (množiny navzájem prolinkovaných stránek s náhodným obsahem). Webmasteři používají ke zmatení vyhledávačů i skrytý text obsahující klíčová slova, neviditelné odkazy a jiné metody. To se Googlu nelíbí, a tak přistoupil k penalizaci takových praktik.
Pravděpodobně to dělají nějakým algoritmem, který podvodné stránky vyhledává. Pracovníci Google navíc sami takové stránky sami vyhledávají. Také se jim dá napovědět. Znáte-li stránku používající nějaké takové nekalé praktiky, můžete ji nabonzovat na stránce Spam report (anglicky). Pokud lidé z Google usoudí, že máte pravdu, podvodnou stránku z indexu vyřadí nebo jí nastaví nějakou jinou penalizaci. Dá se to použít na likvidaci nekalé konkurence :-)
Jsou způsoby, jak zaručit (chtěně či nechtěně), aby na stránku Google nepřišel či ji nebral v úvahu:
Dále se uvádí, že má Google nerad moc komplikované adresy, které mají za otazníkem příliš mnoho parametrů. Ale nyní (podzim 2003) je indexuje mnohem více než dříve.
Přes vyhledávání Google chodí na české stránky už asi třetina lidí (psáno na jaře 2003, druhou třetinu zaujímá podle mých měření Seznam) a tento podíl se bude dále zvyšovat.
Google je důležitý nejen protože přes něj hledá strašně moc lidí, ale hlavně tím, že jej všechny vyhledávače budou napodobovat. I kdyby o svojí pozici nejlepšího vyhledávače přišel, jeho nástupci budou mít hodně podobné algoritmy a zásady. Např. nejlepší český vyhledávač Jyxo se částečně inspiruje Googlem a netají se tím.
Znáte to většinou sami. Kromě normálního hledání:
Pro webmastery je právě klíčově důležité prohledávání jedné domény. Dá se tak udělat hledací formulář na vlastní stránky. Jsou dva způsoby:
Kde je registrace: Vše o Google > Search solutions > Free search > Register. Odkliká se registrace a vyberou se barvy výsledků. Vizte příklad formuláře hledajícího na stránkách dusan.pc-slany.cz a příklad obarvených výsledků hledání slova "pokus".
Hlavní nevýhodou "googleovského prohledání webu" je to, že když je v adrese webu adresář, např. doména.cz/adresář/, tak Google pochopí jako web to doména.cz, hledá tam všude a na adresář nebere zřetel. Takže když má třeba někdo stránky na Swebu na adrese třeba www.sweb.cz/adresář/, tak má prostě smůlu a googleovský hledací formulář na prohledávání těch stránek použít nemůže, protože by to hledalo na celém www.sweb.cz. (Na prohledávání takového webu se dá použít Atomz.)
Když chcete něco najít na konkrétním cizím webu, nemusíte přes pokročilé hledání. Stačí do normálního hledání napsat třeba:
xhtml site:www.sovavsiti.cz
a bude to hledat informace o xhtml na serveru www.sovavsiti.cz. Nebo
Feynman site:cz
hledá infromace o nejgeniálnější bytosti dvacátého století v doméně cz. Pozor, to není totéž co hledat v češtině. Pozor, za dvojtečkou není mezera.
Hledání na vlastním serveru -- více informací a další možnosti.
Pokročilé hledání Google umožňuje zjistit, jaké stránky odkazují na tu vaši. Je tam možnost "najít stránky odkazující na stránku:" a místo pro zadání adresy. Nebo se to dá i z normálního hledání zápisem
link:http://ta.adresa.cz
najít stránky odkazující na konkrétní stránku. To je pro autory stránek velice zajímavá informace. Pozor, jsou vypisovány pouze důležité stránky. Pokud na nějakou stránku míří odkaz z nepodstatné stránky (PageRank menší než asi 4), Google ji nevypíše.
Kromě klasického meta tagu robots akceptuje indexovač Google jeden zvláštní meta tag googlebot
<meta name="googlebot" content="nosnippet,noarchive">
Vypisovat / nevypisovat úryvky (ukázky) ze stránky. Pokud je nastaven "nosnippet", nevypisuje Google žádné úryvky v textu stránky. Maximálně se jako popisek objeví katalogový popis stránky z ODP, to je obvykle text uvedený v <meta name="Description" content="popis stránek">, ale stránka musí být zařazena v ODP a tam může být popisek změněn.
Archivovat / nearchivovat verzi stránek v archivu (neboli cache) Googla. Pokud dám noarchive, nedostanete se ke staré verzi mých stránek, pokud ji z webu odstraním. V opačném případě bude mít Google uchovanou kopii mých stránek a i když je z webu odstraním, tak například právě přes Google se na ně dostanu, přestože již fyzicky neexistují.
Yuhů: Osobně doporučuji meta tag googlebot moc nepoužívat. Když se nezadá, tak to Google chápe jako snippet,archive. Takové nastavení umožňuje přesnější vyhledávání (Google si udržuje cache kvůli přesnosti) a je větší šance, že si na to uživatel klikne, když uvidí hledané slovo v kontextu (snippet).
Vizte též: Vyhledávací servery, jak fungují,
Služby vzdálených serverů,
Parazitní formuláře,
Hledání na vlastním serveru
Odkaz mimo: Google,
Pokročilé hledání,
Archiv konference optimalizace pro
vyhledávání (česky),
Google dance (Martin Kopta),
Vysvětlení výpočtu
PageRanku (anglicky)
o tvorbě, údržbě a zlepšování internetových stránek