Co to są roboty HTML? - Kurs HTML i CSS
Co to są roboty HTML?
Witryn w całym Internecie jest tak dużo, że niemożliwe byłoby przeszukiwanie ich wszystkich w czasie rzeczywistym - tak jak plików na dysku lokalnym komputera. Dlatego każda wyszukiwarka internetowa (np. Google) posiada własnego robota (albo w skrócie po prostu bota). Jest to specjalny program, który nieustannie odwiedza wszystkie strony w Internecie i zapisuje ich przetworzoną treść w swojej bazie danych. Następnie kiedy użytkownicy wpisują określone słowa kluczowe, wyszukiwarka odczytuje potrzebne informacje z tej bazy danych, aby błyskawicznie wyświetlić jak najlepiej pasujące wyniki. Należy się liczyć z tym, że baza danych wyszukiwarek może nie być cały czas aktualna. Dlatego jeśli wprowadzisz na swojej stronie jakieś zmiany albo dodasz nową podstronę, efekt będzie widoczny w wynikach dopiero, kiedy robot wyszukiwarki ponownie odwiedzi i przetworzy Twoją stronę.
- Nagłówek i treść HTML / Roboty <meta "robots, googlebot">
...content="dyrektywy"> </head> gdzie jako "dyrektywy" należy wpisać: "index" - strona, na której wstawiono polecenie, będzie indeksowana przez roboty sieciowe (indeksery) - domyślnie "noindex" - strona, na której wstawiono polecenie, nie będzie indeksowana "follow" - przechodzenie do stron, do których odnoszą się odsyłacze, znajdujące się w dokumencie - domyślnie "nofollow" - robot nie przechodzi do stron stron wskazywanych przez odsyłacze wstawione na stronie, ale może je...
- Nagłówek i treść HTML / Plik robots.txt
...User-Agent Disallow Allow Wzorce dopasowania robots.txt Znacznik <meta name="robots"> jest przydatny w celu określania dostępu przez roboty do pojedynczych dokumentów HTML. Okazuje się jednak mało praktyczny, jeśli chcielibyśmy zablokować dostęp robotom-indekserom np. do wszystkich dokumentów z określonego katalogu serwisu albo wręcz hurtowo do wszystkich plików witryny, tak aby nie pojawiały się w wynikach wyszukiwania np. Google. Znacznik ten okazuje się wręcz zupełnie...
- Podcast HTML / #2 Nagłówek i treść HTML
...<meta name="robots"> steruje zachowaniem robotów-indekserów, określając, czy strona ma być indeksowana ("index") czy nie ("noindex") oraz czy roboty mają podążać za odsyłaczami ("follow" lub "nofollow"). Dodatkowe funkcje i linki W nagłówku dokumentu można także umieścić inne elementy <link> lub <meta>, które dodają specjalne funkcje lub wskazują na powiązane dokumenty. Strona Kanoniczna: w celu usunięcia zduplikowanych stron z wyników wyszukiwania (powielona treść pod różnymi...
- Nagłówek i treść HTML / Strona kanoniczna <link "canonical">
...wyszukiwania. W tym przypadku nie powinno się używać względnej ścieżki dostępu, ponieważ taki zapis może nie być prawidłowo zinterpretowany przez roboty indeksujące wyszukiwarek sieciowych. Warto zwrócić uwagę, że nie należy w ten sposób oznaczać dokumentów, które nie stanowią jedynie innej wersji strony kanonicznej (podstawowej), ponieważ wywoła to tylko ich niepotrzebną eliminację z wyników wyszukiwania. Trzeba również mieć świadomość, że znacznik ten stanowi jedynie sugestię dla robota...
- Podcast HTML / #3 Tekst HTML
Pobierz plik MP3... Zobacz więcej... Wszystkie odcinki podcastu HTML: #1 HTML dla zielonych #2 Nagłówek i treść HTML #3 Tekst HTML #4 Odsyłacze HTML #5 Tabele HTML #6 Multimedia HTML #7 Widżety HTML #8 Formularze HTML #9 HTML5 Modele wyświetlania znaczników HTML Język HTML przewiduje dwa podstawowe modele wyświetlania treści znaczników: W bloku: Automatycznie dodawane są znaki końca linii przed i po elemencie. Elementy blokowe, takie jak nagłówki (od <h1> do <h6>) oraz...
- Podcast HTML / #4 Odsyłacze HTML
...lub sklasyfikowania wybranych odnośników przez wyszukiwarki sieciowe, takie jak Google. Blokada indeksowania (rel="nofollow"): powoduje, że roboty wyszukiwarek nie podążają za tym linkiem, co jest często stosowane np. w systemach komentarzy, aby zniechęcić spamerów. Treść tworzona przez użytkowników (rel="ugc"): wskazuje, że link został umieszczony przez użytkownika serwisu (ang. user generated content), co pomaga chronić reputację strony. Linki sponsorowane (rel="sponsored")...
- Oprawa graficzna / Zamiennik obrazkowy
...używa przeglądarek graficznych, w związku z czym na ekranie ich monitorów wyświetlają się wszystkie grafiki osadzone na stronie, podczas gdy roboty indeksujące wyszukiwarek czytają tylko tekst. Może zatem powstać pewien rozdźwięk: robot odczyta tekst ukryty metodą zamiennika obrazkowego, a użytkownik zobaczy grafikę. W ten sposób można by podsunąć robotom inną treść, która zawiera wiele popularnych słów kluczowych, dzięki czemu strona mogłaby znaleźć się wyżej w wynikach wyszukiwania...
- Wykaz generatorów
...niezamierzonym usunięciem z indeksu wyszukiwarek poważnej części serwisu. Tutaj możesz się również przekonać, jak mogą się zachować starsze roboty, które nie w pełni obsługują standard. Generator ikony strony HTML Stwórz własną ikonę strony przy pomocy kilku kliknięć. Przekształć dowolny symbol emoji (emotikonę) na plik graficzny. Generator wykazów HTML Sprawdź, jak łatwo zbudować profesjonalny wykaz lub numerację z listą punktów i podpunktów. Generator tabel HTML Tworzenie...
- Tekst HTML / Kod poprawny semantycznie
...ona przyjazna dla robotów wyszukiwarek, ponieważ inaczej trudno go będzie komukolwiek odszukać. Może to zabrzmi dziwnie, ale można powiedzieć, że roboty wyszukiwarek są "niewidome"! Dlatego na pewno docenią, że chcesz im pomóc w prawidłowym zaindeksowaniu (zapisaniu informacji o stronie w ich bazie danych) swojej strony. Mogą się odwdzięczyć oczywiście wyższą pozycją na liście wyszukiwania, co bezpośrednio wpłynie na popularność Twojego serwisu WWW. Dla robotów wyszukiwarek sieciowych nie...


