W dniu: wtorek, luty 13, 2007
Jak wyszukiwarka widzi Twoją stronę?
Bardzo często pytacie nas w jaki sposób działa silnik wyszukiwarki internetowej oraz (konkretniej) jak działa wyszukiwarka Google. Skąd Google wie, które elementy strony www mają być upublicznione w wyszukiwarce? Czy jesteście w stanie wybrać strony, które mają być dostępne, a inne oznaczyć jako prywatne? Odpowiedź na to pytanie jest jednoznaczna: jako webmasterzy jesteście w stanie całkowicie kontrolować dostępność swojej strony i w każdej chwili wprowadzać dowolne zmiany.
Kluczem do sukcesu jest plik robots.txt. Pełni on funkcję drzwi w witrynie, przez które można kontrolowac dostęp wyszukiwarki do zawartości Waszej strony. Prawidłowa konfiguracja tego pliku pozwala na zdefiniowanie, które elementy witryny maja być publicznie dostępne w wynikach wyszukiwania. Można wybrać czy ma to być cała strona, poszczególne katalogi, poszczególne strony, wynik wyszukiwania można wręcz zawęzić do jednej konkretnej strony. Odpowiednia modyfikacja pliku robots.txt daje więc Wam pełną kontrolę nad procesem przeszukiwania stron przez roboty wyszukiwarek.
Co robi plik robots.txt?
Wyszukiwarki internetowe, takie jak Google, przeglądając całą sieć, tworzą jej swoisty indeks. Indeks ten pozwala później wyszukiwarce „odpowiedzieć” na zapytanie użytkownika w postaci listy stron zawierających dane słowo kluczowe. Aby takie działanie było możliwe, komputery Google systematycznie przeszukują internet i tworzą listę zindeksowanych stron. Wszystkie te maszyny tworzą nasz system wyszukiwania, który znany jest pod nazwą „Googlebot”.
Najczęściej piszecie do nas z prośbą, by Wasze strony zostały odnalezione przez Googlebota i w konsekwencji znalazły się na liście wyników wyszukiwania Google. Jednak niekoniecznie każdy webmaster chce, aby wszystkie jego strony były publicznie dostępne. Przykładem może być strona zawierająca treści artykułów prasowych, dostępne wyłącznie po wcześniejszym zalogowaniu i uiszczeniu odpowiedniej opłaty. W tym momencie z pomocą przychodzi plik robots.txt – utworzenie takiego pliku w katalogu głównym oraz umieszczenie w nim listy stron, do których Googlebot nie może mieć dostępu jest bardzo proste.
Pełna kontrola
Razem z plikiem robots.txt -- który umożliwia bardzo konkretne zdefiniowanie instrukcji działania robota w odniesieniu do wszystkich stron w indeksie witryny -- możecie także wykorzystać znaczniki META w plikach HTML, aby kontrolować „zachowanie” poszczególnych stron w indeksie.
Prosty przykład
Oto przykład pliku robots.txt:
Linia User-Agent oznacza, że dalsza część pliku przeznaczona jest dla robota Googlebot. Wszystkie największe wyszukiwarki internetowe czytają i przestrzegają instrukcji umieszczonych w pliku robots.txt, możecie więc utworzyć różne reguły i poziomy dostępu dla różnych wyszukiwarek. Linia Disallow zakazuje Googlebotowi dostępu do plików znajdujących się w podkatalogu logs na serwerze. W wyniku tego działania strony umieszczone w katalogu logs posiadanej strony nie będą zindeksowane przez Google i nie będą wyświetlane w wynikach wyszukiwania.User-Agent: Googlebot
Disallow: /logs
Zakaz dostępu do pliku
Jeżeli na Waszej stronie znajduje się artykuł, do którego dostęp ograniczony jest do zarejestrowanych użytkowników, również możecie usunąć taką stronę z wyników wyszukiwania Google. Aby to zrobić, dodajcie znacznik META do pliku HTML, tak aby kod zaczynał się od:
Google nie zindeksuje tak opisanego pliku. Znaczniki META są szczególnie przydatne jeżeli macie możliwość edytowania wyłącznie poszczególnych stron, a nie macie dostępu do pliku robots.txt na serwerze. Znaczniki pozwalają także określać bardziej zaawansowane poziomy dostępu dla poszczególnych stron.<html>
<head>
<meta name="googlebot" content="noindex">
...
Dowiedz się więcej
Aby dowiedzieć się czegoś więcej na temat działania pliku robots.txt zachęcam do odwiedzenia strony http://www.robotstxt.org/ (w języku angielskim) lub w Centrum pomocy dla webmasterów, które zawiera wiele przydatnych informacji:
- Jak utworzyć plik robots.txt?
- Jak zablokować Googlebota?
- Nie chcę podawać poszczególnych plików, które mają być blokowane. Czy mogę zastosować wzorzec dopasowania?
- Jeśli zmienię lub umieszczę na serwerze nowy plik robots.txt, jak szybko zostanie to uwzględnione?
Polecam również odwiedzenie strony http://www.robotstxt.org/wc/active/html/index.html, gdzie znajdziecie listę robotów wykorzystywanych przez najpopularniejsze wyszukiwarki internetowe.
W kolejnym poście o…
Już niedługo kolejny post omawiający szczegółowe zastosowanie pliku robots.txt oraz znaczników meta, a także wiele przykładów.
