Proč je crawlability pořád podceňovaná
Mnoho webů řeší obsah, odkazy a metatagy, ale zapomíná na úplně základní vrstvu: jestli se k tomu všemu vyhledávací bot vůbec dostane. Googlebot, Bingbot i roboti AI vyhledávání pracují s omezenými zdroji. Když narazí na zbytečně hlubokou strukturu, nekonečné parametry, chybnou interní navigaci nebo pomalé odpovědi serveru, začnou web procházet méně efektivně. Výsledek? Část obsahu se indexuje pozdě, některé URL se dostanou do indexu v horší kvalitě a důležité stránky ztrácí šanci na dobré pozice.
U větších webů je to přímo měřitelný problém. V praxi se často ukazuje, že 20 % URL generuje 80 % organické návštěvnosti, ale zbytek webu spotřebovává crawl budget a odvádí boty od důležitých stránek. U menších webů bývá problém spíš v tom, že robot „nevidí“ novinky, produktové varianty nebo lokální landing pages včas. V éře AI Overviews a zero-click výsledků je navíc rychlé a přesné pochopení obsahu ještě důležitější než dřív.
Jak poznat, že bot uvízl na vašem webu
První signál bývá v Google Search Console. Sledujte hlavně report Stránky a stav indexace. Pokud vidíte hodně URL v kategoriích jako Prozkoumáno – momentálně neindexováno, Objeveno – momentálně neindexováno nebo časté problémy s duplicitou, je to varování. U velkých webů si všímejte i trendu počtu procházených stránek v reportu Statistiky procházení.
Další praktický signál je rozdíl mezi tím, co má web skutečně v indexu, a tím, co by v indexu být mělo. Když máte například e-shop s 50 000 produktovými URL, ale v indexu je jen 18 000, je potřeba zjistit proč. Naopak když je index plný parametrických, filtrovacích nebo duplicitních adres, bot se věnuje šumu místo hodnoty.
- Search Console: reporty Stránky, Statistiky procházení, Kontrola URL
- Serverové logy: skutečné chování botů, frekvence crawlů, chybové odpovědi
- Ahrefs / Screaming Frog / Sitebulb: interní audit struktury, hloubka kliknutí, duplicity
- Google Analytics 4: nepřímo odhalí stránky s vysokým bouncem a nízkou interakcí, které mohou být špatně napojené
Nejspolehlivější je kombinace dat. Crawl tool ukáže, co je na webu technicky dostupné, logy ukážou, co skutečně prochází bot, a Search Console odhalí, co Google považuje za problém. Jediný nástroj nestačí.
Nejčastější pasti: duplicity, parametry a zbytečná hloubka
Největší problémy obvykle nevznikají „velkou chybou“, ale stovkami drobností. Typický příklad: e-shop má stejné produkty dostupné přes více kategorií, filtrů a parametrických URL. Bez správné canonical logiky a pravidel pro indexaci vzniknou desítky tisíc duplicitních adres. Bot pak tráví čas procházením variant, které nemají samostatnou hodnotu.
Další častá chyba je přílišná hloubka webu. Pokud se důležitá stránka dostane na úroveň 4–6 kliknutí od homepage, její objevení a prioritizace je horší. U obsahových webů to bývá vidět u starších článků, které jsou schované hluboko v archivech. U e-commerce zase u produktů, které jsou dostupné jen přes filtry a interní vyhledávání.
Praktická pravidla, která fungují:
- Důležitý obsah držte do 3 kliknutí od homepage.
- Parametrické URL neindexujte, pokud nepřinášejí unikátní vyhledávací hodnotu.
- Canonical používejte konzistentně, ne jako náplast na chaos.
- 404 a 301 pravidelně čistěte, aby bot netrávil čas slepými uličkami.
U webů s miliony URL má i malá úspora crawlů obrovský dopad. Pokud odstraníte 15 % zbytečných URL a zkrátíte cestu k prioritním stránkám, bot se začne chovat výrazně efektivněji. To se často projeví během několika týdnů na rychlejší indexaci nového obsahu.
Robots.txt, sitemap.xml a interní odkazy: trojice, která rozhoduje
Robots.txt není jen seznam zakázaných cest. Je to navigace pro roboty. Špatně napsaný robots.txt umí zablokovat důležité CSS, JavaScript nebo celé sekce webu. To pak ovlivní nejen crawl, ale i rendering a vyhodnocení stránky. Zároveň ale pozor na opačný extrém: příliš široké povolení všeho vede k tomu, že bot začne procházet smetí.
sitemap.xml by neměl být odpadkový koš všech URL, ale řízený seznam prioritních adres. Pokud do sitemap zahrnete stránky s parametry, duplicity nebo nekanonické verze, posíláte robotovi špatný signál. Správná sitemap má obsahovat jen URL, které chcete indexovat a které mají reálnou hodnotu pro uživatele.
Interní odkazy jsou často podceňované, přestože pro bota fungují jako mapa důležitosti. Stránky, na které vede málo odkazů, jsou pro robota méně atraktivní. V praxi se osvědčuje:
- propojit tematicky související články do topic clusters,
- z kategorií odkazovat na nejdůležitější landing pages,
- používat smysluplné anchor texty, ne „klikněte zde“,
- pravidelně kontrolovat orphan pages – stránky bez interních odkazů.
Ve Screaming Frogu si snadno vytáhnete orphan pages i hloubku kliknutí. U větších webů se vyplatí data spojit s logy a sledovat, zda bot skutečně navštěvuje stránky, které považujete za důležité. Často se ukáže, že interní link equity teče úplně jinam, než si tým myslel.
Rychlost serveru, rendering a JavaScript: technika, která brzdí crawl
Bot uvízne i tehdy, když web odpovídá pomalu nebo je příliš náročný na rendering. Google sice zvládá moderní JavaScript lépe než dřív, ale stále platí, že čím složitější je frontend, tím větší riziko zpoždění. U webů postavených na Next.js, headless CMS nebo SPA architekturách je potřeba hlídat, aby důležitý obsah byl dostupný co nejdříve v HTML a nečekal až na klientský rendering.
Prakticky sledujte tyto metriky:
- TTFB – vysoké hodnoty zpomalují celý crawl
- LCP – nepřímo ukazuje, zda je obsah rychle dostupný i pro uživatele
- INP – důležitý pro interaktivitu, zejména na mobilu
- počet redirectů – každý další skok prodlužuje cestu bota
Pokud má server TTFB přes 600–800 ms na běžných stránkách, je to už problém. U velkých webů se vyplatí řešit caching, optimalizaci databázových dotazů, CDN a omezení zbytečných skriptů. U WordPressu často pomůže kombinace kvalitního hostingu, page cache, objektové cache a omezení pluginů, které generují nadbytečné query.
U JavaScriptových webů je klíčové ověřit, co bot skutečně dostane v prvním renderu. Použijte URL Inspection v Search Console, případně nástroje jako Rich Results Test a Mobile-Friendly Test. Pokud v HTML není hlavní text, nadpisy nebo interní odkazy, může být problém v indexaci i v pochopení relevance stránky.
Jak nastavit kontrolu, aby problém nevracel zpět
Technické SEO není jednorázová oprava. Jakmile web roste, vznikají nové chyby: nové filtry, nové šablony, nové produktové varianty, nové jazykové mutace. Proto je potřeba nastavit průběžný monitoring. Ideálně si vytvořte měsíční rutinu, která bude kombinovat crawl audit, log analýzu a kontrolu indexace.
Dobře fungující kontrolní seznam může vypadat takto:
- 1× měsíčně projít Search Console a porovnat změny v indexaci.
- 1× měsíčně spustit crawl ve Screaming Frogu nebo Sitebulbu.
- 1× měsíčně zkontrolovat serverové logy a podíl Googlebotu na prioritních URL.
- Po každém větším release zkontrolovat robots.txt, sitemap.xml, canonicaly a redirecty.
- U e-shopů hlídat, zda filtry a sorty nevytvářejí nový indexační balast.
Pokud pracujete s vývojovým týmem, nastavte technické SEO jako součást release procesu. Každý deploy by měl mít kontrolu na: dostupnost důležitých stránek, správné status kódy, canonical tagy, robots direktivy, strukturovaná data a interní odkazy. Tím výrazně snížíte riziko, že se bot ztratí po nové úpravě šablony nebo po nasazení filtru.
Největší přínos má kombinace prevence a rychlé reakce. Když se problém s crawlabilitou zachytí během dnů, ne měsíců, web si udrží stabilní indexaci i výkon. A právě to je rozdíl mezi webem, který jen „nějak funguje“, a webem, který dlouhodobě roste v organickém vyhledávání i v AI odpovědích, kde je struktura a dostupnost obsahu čím dál důležitější.














