Jestliže chcete, aby vyhledávače braly v potaz (resp. indexovaly) každou stránku vašeho webu, nespoléhejte pouze na jejich roboty a ulehčete jim práci! V podstatě všechny významnější vyhledávače podporují sitemap.xml, což je jednoduchý (de facto textový) soubor, obsahující odkazy na všechny stránky webu. Vyhledávač se tak nemusí zabývat procházením složité struktury, kterou mnohdy ani neprojde celou, ale načte si odkazy z tohoto souboru a následně jednotlivé stránky zaindexuje.
Jak takový soubor vytvořit? Možností je více – například mnohé redakční systémy generují sitemap.xml automaticky. Co ale dělat v případě, kdy máte pouze statický web, nebo váš redakční systém tuto funkci neumí? Pomoci vám může Sitemap Generator. Hlavní výhodou je nulová cena a velmi jednoduché ovládání.
Co je Sitemap Generator?
Jde o program, nabízený zcela zdarma, který umí vytvořit mapu webu v mnoha formátech, včetně XML pro Google či Seznam, nebo TXT pro Yahoo!. Kromě toho dokáže generovat seznam stránek například v CSV či HTML. Autor Sitemap Generatoru vysvětluje vznik této aplikace nedostatečnou nabídkou v daném segmentu. Je pravda, že většina konkurenčních produktů má zpravidla nějaké omezení – například maximální počet indexovaných stránek, což je u větších webů poměrně limitující.
Jak funguje?
Nejprve zadáte adresu webu, pro který chcete vytvořit seznam adres. Sitemap Generator se pak chová jako klasický webový robot – tedy otevře si požadovanou stránku, vyhledá v ní všechny odkazy, načte odkazované stránky, opět v nich najde odkazy a tak pokračuje, dokud nenalezne všechny stránky, na které se dá “doklikat.” Následně vytvoří seznam adres, které nalezl a převede ho do požadovaného formátu.
Instalace
Stáhněte si instalační balíček, který není velký – má jen 1,2 MB. Po jeho spuštění se vás ujme klasický průvodce instalací, který je sice v angličtině, ale jednotlivé kroky jsou pochopitelné i pro naprostého začátečníka. Budete muset odsouhlasit licenční ujednání, můžete změnit cílovou složku, kam bude program nainstalován, vybrat název složky v menu Start a rozhodnout, zda chcete vytvořit zástupce na ploše a v panelu rychlého spuštění. Pokud nebudete chtít měnit některý z parametrů, vystačíte s klikáním na tlačítka Next a Install, přičemž celá instalace nezabere ani na slabším počítači více než minutu.
Indexujeme
Po spuštění programu se zobrazí na první pohled poměrně komplikované okno se sedmi záložkami. Nelekejte se – k základním operacím budete potřebovat pouze řádek Extracts Links From Site, do kterého zadáte adresu webu, jež chcete indexovat (nezadávejte http://). Pak už jen stisknete tlačítko Start a čekáte. Během své činnosti program v dolní části okna vypisuje adresy stránek, které už navštívil, vpravo dole pak informuje o tom, kolik stránek otevřel, kolik jich má v plánu navštívit (toto číslo se samozřejmě zvyšuje podle toho, jak Sitemap Generator nachází další odkazy), jaká je rychlost procházení (ve stránkách za minutu) a aktuální dosažený čas. Rychlost procházení je skutečně úctyhodná – například na našem blogu jsme dosahovali více než 200 odbavených stránek za minutu a k prozkoumání 4626 odkazů stačilo lehce přes 19 minut. U skutečně rozsáhlých webů, čítajících desetitisíce stránek, ale počítejte třeba i s několika hodinami.
Pro starší a pokročilé
Pokud byste chtěli zasáhnout do nastavení programu, máte celou řadu možností. Například na úvodní obrazovce v sekci Spider Settings můžete pod položkou Max. Simultaneous Connections nastavit maximální počet vláken, která budou použita pro stahování stránek. Doporučujeme ale nenastavovat příliš vysokou hodnotu, abyste si nezahltili internetové připojení nebo příliš nezatížili testovaný web.
O něco níže zase lze určit stránky, jež mají být z procházení vynechány (Exclude Patterns) či naopak které Sitemap Generator nesmí minout (Must-Follow Patterns).
Další volby jsou schovány pod tlačítkem Settings, kde lze nastavit například maximální velikost souboru, který bude ještě robotem stahován, maximální délku adresy či dobu, jakou se má čekat na odezvu a prodlevu mezi dvěma po sobě jdoucími stránkami.
Jak uložit sitemap.xml?
Poté, co program dokončí procházení webu, můžete procházet po jednotlivých záložkách, které nabízejí různé výstupy. Například soubor sitemap.xml najdete na druhé záložce Google Sitemap / XML. Obsah můžete buď zkopírovat do schránky (tlačítko Copy to Clipboard), nebo uložit do souboru (Save to file). Další možností je vytvoření souboru ve formátu TXT, který využívá například Yahoo, sestavení HTML mapy stránek, nebo export odkazů do CSV.
Doporučený postup
- Na záložce Google Sitemap / XML stiskněte Save to File a uložte soubor jako sitemap.xml.
- Následně tento soubor nahrajte do kořenového adresáře svého webu.
Většina vyhledávačů tento soubor hledá automaticky, nicméně můžete jim trošku pomoci. Například na Seznamu zadejte do Přidání stránky do vyhledávání adresu na váš XML soubor (tj. například www.vašedoména.cz/sitemap.xml), opište kontrolní kód a stiskněte Přidat. U Googlu je postup o něco náročnější – zde je nutné zaregistrovat svůj web do Webmaster Tools a následně v menu Konfigurace stránek – Soubory Sitemap zvolit Odeslat soubor Sitemap. Je dobré si pohlídat, zda Google akceptoval celý soubor; po nějaké době se v administraci Webmaster Tools objeví vedle adresy souboru buď “fajfka” (tedy vše v pořádku), nebo křížek (něco se stalo a soubor nebyl načten celý).
Jak ale bylo řečeno: vyhledávače tento soubor zpravidla hledají automaticky, takže pokud ho nahrajete do kořene svého webu, zaindexují jeho obsah samy.
Pozor, chyba!
Sitemap Generator má jednu chybičku: jestliže je v adrese použit znak &, Google odmítne Sitemap indexovat s tím, že je v něm chyba. V takovém případě je nutné ručně nahradit všechny & v adresách za & (samozřejmě nejrychlejší je použití klasického Úpravy-Nahradit například v Poznámkovém bloku).
Doplněno: Pozor na velikost stránek!
Jeden ze čtenářů se na mne obrátil s problémem, kdy Sitemap Generator odmítal načíst úvodní stránku jeho webu a tudíž neprocházel a neindexoval ani odkazy vedoucí z této stránky.
Nejprve jsem zkontroloval, zda jako hyperlinky nepoužívá flash či JavaScript, který by mohl procházení robota znemožnit. Zde jsem ale chybu nenašel – až na několik drobných problémů s validitou byla stránka v pořádku.
Problém byl v tom, že úvodní stránka webu měla asi 280 KB, což sice není mnoho (leckteré weby mají i mnohem více), leč Sitemap Generator má jako výchozí nastaveno procházení stránek s maximální velikostí do 250 KB. Jakoukoli větší stránku pak přeskakuje, čímž samozřejmě ignoruje i všechny z ní vedoucí odkazy. Řešení je jednoduché: stačí nastavit vyšší hodnotu velikosti stránek, které bude program akceptovat. Na úvodní obrazovce aplikace tedy klikněte na tlačítko Settings a položku Max. file size (skip bigger) nastavte například na 1 MB.
Další užitečné funkce jako bonus
Jistě se sem tam může stát, že se uklepnete v nějakém odkazu a ten pak vede na neexistující stránku. Sitemap Generator tyto chybné odkazy shromažďuje do záložky Failed URLs, odkud je možné je exportovat do textového souboru nebo kopírovat do schránky. Jediným nedostatkem je, že vypisuje pouze nefunkční cíle, nikoli ale ze které stránky byly odkazovány. Pro kontrolu platnosti odkazů lze doporučit Xenu Link Sleuth, který poskytuje velice podrobné reporty o tom, co a kde vašim stránkám chybí.
Na předposlední záložce pak naleznete všechny externí odkazy vedoucí na weby mimo vaší doménu.
Resumé
Sitemap Generator je jednoduchý způsob, jak můžete vytvořit soubory, jež ulehčují vyhledávačům práci s prohledáváním vašeho webu. Hlavní výhodou je nulová cena a absence jakýchkoli omezení, díky čemuž lze program použít i na poměrně rozsáhlé projekty. Z uživatelského pohledu dělá aplikace to, co má, aniž by vyžadovala nějaké odborné znalosti. Jistě by se našla celá řada možností, jak by se Sitemap Generator dal vylepšit (napadá mě například možnost nahrání souborů pro vyhledávače přes FTP přímo na web), nicméně i tak se jedná o užitečného pomocníka.
Informace o Sitemap Generatoru
- Testovaná verze: 0.95 beta
- Stránky výrobce: http://wonderwebware.com/sitemap-generator/
- Velikost souboru: 1,2 MB
- Licence: freeware
- Podporované operační systémy: Windows 98/2000/XP/Vista/7 (?)
- Minimální požadavky: Windows 98, 256 MB RAM, 100 MB na pevném disku, Internet Explorer 5.5
- Odkaz ke stažení: http://wonderwebware.com/sitemap-generator/SiteMapG.exe
0 komentářů