Crawl budget to zakres stron, jaki jest w stanie zindeksować Googleboot podczas jednej sesji. Zobacz, jak zmaksymalizować budżet indeksowania i dlaczego to jest takie ważne w kontekście widoczności witryny w wyszukiwarce.
Indeks stron
Zanim nowa witryna internetowa pojawi się w wynikach wyszukiwania (nie mówiąc już o czołówkach rankingów), musi zostać przez wyszukiwarkę zindeksowana, tzn. wpisana do indeksu. Nim stronę będziemy mogli znaleźć w bazie danych – indeksie wyszukiwarki, musi ona zostać do niej dodana. Indeksowanie dotyczy nie tylko stron internetowych, ale także różnego rodzaju plików (m.in. PDF czy JavaScript i CSS). To systemowa analiza tych plików przy pomocy specjalnego narzędzia. W przypadku najpopularniejszej na naszym rynku wyszukiwarki będzie to Googleboot. Podczas operacji indeksowania robot przemierza przez stronę w celu zapoznania się z nią. Podczas przeglądania strony zbiera także kierunkowe informacje, które pozwolą mu w dalszym etapie prawidłowo przyporządkowywać stronę do zapytań. Google w procesie indeksowania wyróżnia trzy powiązane, następująco po sobie etapy:
- Skanowanie witryny – roboty sieciowe nieustannie poszukują nowych adresów URL, kiedy na taki trafią to przystępują do crawlowania. Skanowana jest zarówno zawartość, jak i struktura kodu.
- Indeksowanie strony – analiza nowego adresu pod kątem zawartości. Roboty najchętniej przeglądają teksty, z ich odczytaniem radzą sobie zdecydowanie lepiej, niż na przykład z innymi formatami (zdjęcia, filmy).
- Pozycjonowanie strony – to znaczy klasyfikacja stron zbieżnych tematycznie pod względem jakości. Celem wyszukiwarki jest dostarczanie użytkownikom jak najlepszych odpowiedzi (wyczerpujących i aktualnych) na ich zapytania. Google musi wiedzieć, która strona będzie najlepiej pasowała do zapytania, która zapewni użytkownikowi najlepszą odpowiedź, to znaczy jest najlepsza pod względem jakości treści i użyteczności.
Crawl budget – co to jest?
Crawl budget (budżet indeksowania) to liczba stron, które wyszukiwarka jest w stanie zindeksować w określonym czasie – podczas jednej sesji. Wyszukiwarki ten budżet ustalają na podstawie dwóch czynników:
- Crawl Rate Limit (limit indeksowania/obciążenie serwera) – jaką skalę indeksowania jest w stanie obsłużyć witryna i jakie preferencje ma w tym zakresie właściciel witryny. Trzeba pamiętać, że roboty indeksujące są tak zaprojektowane, aby nie powodować przeciążeń serwera. Zdają sobie sprawę, że nadmierna liczba zapytań do serwera może powodować problemy z dostępem do niej przez użytkowników, i dlatego są nad wyraz ostrożne. Limit indeksowania zależy od wydajności serwera (roboty badają, jak często żądane adresy URL przekraczają limit czasu lub zwracają błędy serwera) i ilości witryn działających na jednym hoście (jeśli nasza strona znajduje się na wspólnej platformie hostingowej z innymi, a na dodatek jest mocno rozbudowana, to limit indeksowania będzie bardzo ograniczony, ponieważ będzie on tylko częścią głównego limitu, który jest przez wyszukiwarkę określany na poziomie adresu gospodarza). W tym kontekście o wiele lepszym rozwiązaniem jest serwer dedykowany, który gwarantuje krótszy czas ładowania strony.
- Crawl Demand (zapotrzebowanie na indeksowanie/planowanie indeksowania) – które adresy URL warto zindeksować ponownie – ta lista ustalana jest na podstawie popularności strony (liczba linków przychodzących i liczba zapytań, na które strona jest wyświetlana w wynikach), częstotliwości aktualizacji i typu strony (np. strony kategorii produktowych zmieniają się nieustannie, dlatego te strony wymagają nieustannej indeksacji).
Wyszukiwarki określają budżet indeksowania dla każdej strony z powodów czysto technicznych. Po prostu nie mają nieograniczonych możliwości w tym zakresie (zasobów i sił) i muszą dzielić swoją uwagę na miliony witryn internetowych. To sprawia, że konieczne staje się ustalenie priorytetów indeksowania. Pomocnym w tym zakresie jest właśnie budżet indeksowania, który wyznaczany jest dla każdej strony. Budżet indeksowania można sprawdzić w Google Search Console>Crawl.Crawl Stats – (można tam zobaczyć, ile stron Google indeksuje dziennie). Nie można także zapomnieć o możliwościach indeksowania całego systemu. Choć są one dosyć duże, to pod koniec dnia słabną z uwagi przejścia większości (80%) centrów danych Google w tryb offline. To z kolei znacznie ogranicza budżety indeksowania poszczególnych stron.
Crawl budget a SEO
Działania mające na celu maksymalizację budżetu indeksowania mają kluczowe znaczenie w kontekście procesu pozycjonowania. Im więcej stron Googleboot zindeksuje, tym większa szansa na pojawienie się ich w wynikach wyszukiwania. Wydajność SEO jest ściśle związana z budżetem indeksowania. Oczywiście jego wielkość będzie determinowała sukces bardzo dużych witryn (powyżej 10 tys. stron), te mniejsze nie są tak wrażliwe na wielkość budżetu indeksowania (inżynierowie Google wskazywali niejednokrotnie, że właściciele witryn nieprzekraczających 300 stron nie powinni się przejmować indeksowaniem). Im większy budżet indeksowania, tym większa widoczność strony w wyszukiwarce.
Jeśli chcesz, aby wyszukiwarka indeksowała jak najwięcej stron i robiła to jak najszybciej (to szczególnie istotne w przypadku zarówno nowych stron, jak i tych często aktualizowanych), tak, aby zmiany pojawiły się niezwłocznie w wynikach, należy pomyśleć o optymalizacji budżetu indeksowania. Dzięki temu Google znajdzie i zrozumie wszystkie strony, na których zależy firmie. Optymalizacja ma zapobiec marnowaniu budżetu indeksowania, sprawić, aby roboty wyszukiwarki przemierzały w pierwszej kolejności najważniejsze strony, a nie marnowały czas na podstronach bez większego wpływu na sprzedaż sklepu czy popularność serwisu. Jeśli strony nie zostaną odkryte przez Googleboota to nie trafią do nich klienci lub czytelnicy. W branży SEO w kontekście tematu crawl budget można nierzadko usłyszeć powiedzenie „Jesteś tym, co je Googleboot”. To znaczy, że rankingi i widoczność strony są bezpośrednio związane nie tylko z tym, ile zindeksuje Google w Twojej witrynie, ale także częstotliwością wykonywania tej operacji. Powszechnie się wskazuje, że jeśli Googlebootowi na stronie zabraknie treści lub ominie najważniejsze elementy strony z powodu niezoptymalizowania budżetu indeksowania, to strona ma nikłe szanse na wejście do TOP3.
Crawl budget – optymalizacja
Optymalizacja witryny internetowej w kontekście indeksowania to zespół działań mających na celu zachęcenie Googleboota do zindeksowania kluczowych stron witryny. Warto takie działania podjąć nie tylko w przypadku nowej witryny, ale także takiej, która została gruntownie zaktualizowana i chcemy, aby robot ponownie przeanalizował nowe treści i zindeksował podstrony. Jednak nie należy zmuszać robotów indeksujących do powrotu do witryny, gdy w ostatnim czasie w jej zawartości nie zaszły jakieś gruntowne zmiany. Rozczarowane maszyny mogą potem długo nie zajrzeć do naszej wirtualnej przystani.
Optymalizacja budżetu inwestowania:
- Zniechęcenie Googleboota do indeksowania mało istotnych stron oraz takich, które nie muszą być zindeksowane (a nawet niewskazane jest ich indeksowanie: strony logowania, formularze kontaktowe, obrazy, strony bez treści i generujące błędy) poprzez zastosowanie robots.txt lub użycie metadanaych (noindex, nofollow) – dzięki temu roboty znacznie łatwiej są w stanie odnaleźć kluczowe podstrony i je zaindeksować. Wyszukiwarka w zakresie indeksowania ma pewien ograniczony potencjał, dlatego warto zrobić wszystko, aby został on wykorzystany na zindeksowanie tych stron, na których nam najbardziej zależy i są kluczowe z punktu widzenia celów biznesowych.
Zachęcenie Googleboota do zindeksowania najważniejszych stron witryny:
– wdrożenie płaskiej architektury witryny, tak, aby maksymalnie ułatwić pracę robotom indeksujących,
– zastosowanie wewnętrznego linkowania stron z dużą ilością linków zwrotnych do stron, które chcemy zindeksować,
– przyśpieszenie czasu ładowania strony – szybsze ładowanie witryny sprawia, że Google może zindeksować więcej adresów URL w tym samy czasie. Trzeba pamiętać, że szybsze ładowanie przyśpiesza indeksację, a to z kolei sprawia, że szybciej zobaczymy efekty naszych działań w postaci wysokich rankingów strony w wynikach wyszukiwania.
– zwiększenie autorytetu witryny – w tym zakresie najskuteczniejsze sposoby to dodanie wartościowych treści i pozyskanie mocnych linków z serwisów cieszących się zarówno popularnością, jak i uznaniem ekspertów.
Usunięcie przeszkód na drodze robotów indeksujących:
– Duplicate content – zmniejsza skuteczności w zakresie indeksowania nowych treści,
– Thin Content – zaburzony stosunek treści do kodu HTML, to znaczy za mało treści w kontekście architektury witryny. W takiej sytuacji Google może uznać podstronę za tzw. soft 404 i ograniczyć indeksowanie.
– Niepoprawna lub słaba struktura linków wewnętrznych – dzięki dobrze zaplanowanej sieci linków, roboty indeksujące będą poruszać się po witrynie jak po sznurku. Uszkodzone linki negatywnie wpływają na budżet indeksowania, dlatego należy je naprawić.
– Mała wydajność serwera.
– Błędy 404/410.
Podsumowanie
Optymalizacja budżetu indeksowania to kluczowy czynnik, szczególnie w przypadku rozbudowanych witryn, w kontekście widoczności stron w wynikach wyszukiwania. Niezindeksowane strony nie mają szans na pojawienie się w rankingach, co w praktyce czynie je bezużytecznymi w zakresie osiągania celów biznesowych.