Roboty <meta "robots, googlebot">

W jaki sposób ułatwić indeksowanie (wyszukanie) strony WWW przez roboty wyszukiwarek sieciowych (Google) lub sprawić, aby strona nie była odnajdowana przez wyszukiwarki?

Roboty <meta "robots">

<head>
	<meta name="robots" content="dyrektywy">
</head>

gdzie jako "dyrektywy" należy wpisać:

"index" - strona, na której wstawiono polecenie, będzie indeksowana przez roboty sieciowe (indeksery) - domyślnie
"noindex" - strona, na której wstawiono polecenie, nie będzie indeksowana
"follow" - przechodzenie do stron, do których odnoszą się odsyłacze, znajdujące się w dokumencie - domyślnie
"nofollow" - robot nie przechodzi do stron stron wskazywanych przez odsyłacze wstawione na stronie, ale może je zaindeksować, jeżeli istnieją inne linki umieszczone na stronach bez tego zakazu
"index, nofollow" - indeksuje stronę, nie przechodzi do stron wskazywanych przez odsyłacze
"noindex, follow" - nie indeksuje strony, na której wstawiono polecenie, przechodzi do stron wskazywanych przez odsyłacze
"all" = "index, follow" - indeksuje wszystko (domyślnie)
"none" = "noindex, nofollow" - nie indeksuje nic

Polecenie określa sposób zachowania się robotów-indekserów, czyli specjalnych programów zbierających informacje o stronach w Internecie, wykorzystywane później przez wyszukiwarki. Stosuj noindex tylko wtedy, gdy nie chcesz, aby Twoja strona była odnaleziona przez wyszukiwarki (bo np. treści na niej zawarte są ściśle tajne 🙂). Niestety całkowitej pewności nie będzie nigdy, ponieważ nie wszystkie roboty interpretują to polecenie.

Pamiętaj, że domyślnym zachowaniem robotów wyszukiwarek sieciowych jest indeksowanie wszystkich dokumentów. To oznacza, że dyrektywa "index, follow" może być pominięta, a zamiast wpisywać "noindex, follow" czy "index, nofollow" zwykle wystarczy wpisać odpowiednio: "noindex" i "nofollow". W przypadku zupełnego braku znacznika <meta name="robots" content="..."> robot zaindeksuje wszystkie strony serwisu, dlatego dodaje się go zwykle tylko, kiedy chcemy zablokować dostęp robotowi do wybranych stron.

Zwróć uwagę, że wartość "nofollow" blokuje jedynie podążanie za odnośnikami, a to oznacza, że może nie zapobiec indeksowaniu stron, do których prowadzą linki umieszczone w dokumencie. Jeżeli na innych stronach - możliwe, że w zupełnie innym serwisie - znajdą się linki do tych stron, zostaną one normalnie zaindeksowane. Aby temu zapobiec, należy wstawić dyrektywę "noindex" na stronach, które nie powinny być zaindeksowane.

Specyfikacja HTML 4.01 wskazuje tylko następujące wartości tego elementu: all, index, nofollow, noindex. Choć inne specyfikacje jasno wskazują na dodatkowe wartości, to jeśli chcesz mieć największą pewność, że dyrektywy zostaną uwzględnione, zamiast "none" możesz użyć "noindex, nofollow".

Jeśli chcesz poznać bardziej zaawansowane sposoby sterowania indeksowaniem elementów strony, zobacz także rozdziały: Plik robots.txt, Strona kanoniczna, Blokada indeksowania fragmentów treści, Blokada indeksowania odsyłaczy.

Niestandardowe dyrektywy robotów

Roboty mogą interpretować dodatkowe, niestandardowe dyrektywy (wszystkie poniższe są rozpoznawane przez robota wyszukiwarki Google):

"noarchive" - blokada archiwizowania kopii strony w pamięci podręcznej wyszukiwarki
"nosnippet" - blokada wyświetlania opisu strony w wynikach wyszukiwania
"max-snippet:liczba" - ograniczenie długości opisu w wynikach wyszukiwania do podanej liczby znaków
"notranslate" - blokada proponowania tłumaczenia strony na inny język
"noimageindex" - blokada indeksowania obrazków wstawionych na stronie (sama strona nadal może być indeksowana)
"nositelinkssearchbox" - uniemożliwia wyświetlenie w wynikach dodatkowego pola wyszukiwania w witrynie i innych linków z niej pochodzących
"noindex, indexifembedded" - umożliwia indeksowanie stron załadowanych wewnątrz ramek, kiedy indeksowanie dokumentu, w którym są wstawione te ramki, zostało zablokowane ("noindex")
"unavailable_after: data/czas" - uniemożliwia wyświetlanie strony w wynikach wyszukiwania po określonej dacie/czasie. Datę i czas można podać w formacie ISO 8601.
"max-image-preview:rozmiar" - steruje rozmiarem podglądu zdjęć ze strony, które mogą się wyświetlać w wynikach wyszukiwania. Jako rozmiar należy podać jedną z następujących wartości:
- none - w wynikach wyszukiwania nigdy nie będzie wyświetlany żaden podgląd zdjęć ze strony
- standard - podgląd zdjęć ze strony w domyślnym rozmiarze
- large - wyszukiwarka będzie mogła wyświetlić duży podgląd zdjęć ze strony (nawet pełnoekranowy)
"max-video-preview:czas" - jeżeli na stronie są osadzone materiały wideo, w wynikach wyszukiwania może się wyświetlać ich podgląd. Za pomocą tej dyrektywy możemy określić maksymalny czas trwania (wyrażony w sekundach) filmu z tym podglądem. Podanie wartości zero ("max-video-preview:0") oznacza, że w podglądzie będzie mogło się wyświetlić co najwyżej statyczne zdjęcie z filmu (atrybut poster="...") - zgodnie z ustawieniami dyrektywy "max-image-preview".

Dyrektywa "noarchive" blokuje archiwizowanie dokumentu. Wyszukiwarki sieciowe często zapisują kopię indeksowanych stron w swojej pamięci podręcznej. Użytkownicy korzystający z wyszukiwarki mogą otworzyć taką kopię strony np. kiedy oryginalna witryna jest chwilowo niedostępna. Aby otworzyć stronę z pamięci podręcznej wyszukiwarki Google, należy na liście wyników wyszukiwania kliknąć link "Kopia".

Wyszukiwarki często przy popularnych stronach wyświetlają dodatkową zawartość związaną z witryną. Może to być specjalne pole, które umożliwi użytkownikowi szybkie odnalezienie innych treści z tego serwisu. Mogą to być również linki do najpopularniejszych stron w obrębie tej witryny. Jeśli z jakiegoś powodu nie chcemy, aby nasza strona prezentowała się w ten sposób w wynikach wyszukiwania, możemy użyć dyrektywy "nositelinkssearchbox". Jednak prawdę mówiąc trudno jest znaleźć rozsądny powód, dlaczego ktoś chciałby to zablokować 😉 Taki sposób prezentacji jest przecież zarezerwowany dla szczególnie popularnych stron i może zwiększyć prawdopodobieństwo, że użytkownik przejdzie do naszej witryny.

Jeśli prowadzimy serwis np. z listą wydarzeń albo organizujemy konkursy, prawdopodobnie nie chcielibyśmy otrzymywać niepotrzebnych zapytań od użytkowników, którzy trafili na takie strony już po zakończeniu wydarzenia bądź rozstrzygnięciu konkursu. Dlatego jeśli w nagłówku strony umieścimy np. taki znacznik:

<meta name="robots" content="unavailable_after: 2023-06-04">

to powinna ona zniknąć z wyników wyszukiwania 5 czerwca 2023 roku - czyli zaraz po dacie podanej w dyrektywie.

Zdarza się, że twórcy obawiają się zmniejszenia ruchu na swojej stronie, ponieważ użytkownicy będą mogli otrzymać wszystkie interesujące ich informacje bezpośrednio w wynikach wyszukiwania. Na przykład jeśli prowadzimy stronę zawierającą listę cytatów sławnych ludzi, mogłoby się zdarzyć, że treść wyjątkowo krótkiego cytatu znalazłaby się w całości w wynikach wyszukiwania. Możemy się przed tym zabezpieczyć określając maksymalną dozwoloną długość opisu strony w wynikach wyszukiwania - za pomocą dyrektywy "max-snippet:liczba". Może to mieć również znaczenie zwłaszcza dla stron z bardzo krótkimi materiałami wideo. Jeśli ktoś będzie w stanie obejrzeć cały taki filmik bez wychodzenia z wyników wyszukiwania, po co miałby jeszcze przechodzić do strony docelowej? Aby uniknąć takich sytuacji, użyj dyrektywy "max-video-preview:0". Z drugiej strony być może właśnie możliwość otworzenia podglądu zdjęcia w trybie pełnoekranowym zachęci użytkownika do poznania innych naszych prac? Jeśli tak uważasz, użyj dyrektywy: "max-image-preview:large".

Aby połączyć dyrektywy standardowe z niestandardowymi, nie należy wpisywać kilku osobnych znaczników <meta name="robots">, ale podać pełną listę po przecinku, np.:

<meta name="robots" content="nofollow, noarchive">

Googlebot <meta "googlebot">

Wyszukiwarka Google wprowadziła specjalny znacznik, który pozwala wydać dyrektywy tylko dla robota Googlebot. Na przykład aby zablokować robotowi Google dostęp do strony, ale jednocześnie pozwolić na to robotom innych wyszukiwarek, można wpisać:

<meta name="googlebot" content="noindex, nofollow">

Pytania i odpowiedzi <meta "robots">

Co to są roboty HTML?

Witryn w całym Internecie jest tak dużo, że niemożliwe byłoby przeszukiwanie ich wszystkich w czasie rzeczywistym - tak jak plików na dysku lokalnym komputera. Dlatego każda wyszukiwarka internetowa (np. Google) posiada własnego robota (albo w skrócie po prostu bota). Jest to specjalny program, który nieustannie odwiedza wszystkie strony w Internecie i zapisuje ich przetworzoną treść w swojej bazie danych. Następnie kiedy użytkownicy wpisują określone słowa kluczowe, wyszukiwarka odczytuje potrzebne informacje z tej bazy danych, aby błyskawicznie wyświetlić jak najlepiej pasujące wyniki. Należy się liczyć z tym, że baza danych wyszukiwarek może nie być cały czas aktualna. Dlatego jeśli wprowadzisz na swojej stronie jakieś zmiany albo dodasz nową podstronę, efekt będzie widoczny w wynikach dopiero, kiedy robot wyszukiwarki ponownie odwiedzi i przetworzy Twoją stronę.

Co to jest meta robots?

To znacznik, który można wstawić w nagłówku dokumentu HTML - czyli wewnątrz elementu <head>...</head>. Pozwala on sterować widocznością strony w wynikach wyszukiwania np. Google. Na przykład <meta name="robots" content="noindex"> spowoduje, że strona nie powinna być w ogóle widoczna w wynikach wyszukiwania.

Komentarze

Zobacz więcej komentarzy