Blog (37)
Komentarze (1.1k)
Recenzje (2)

Googlebot widzi więcej. Ty też możesz.

@Szuri21Googlebot widzi więcej. Ty też możesz.21.12.2010 14:00

Słowem wstępu

Na początek wyjaśnię pokrótce, że Googlebot to robot indeksujący sieć. Robot ten pobiera niezliczone ilości stron. Podczas tego procesu Googlebot wykrywa nowe lub też zaktualizowane strony i dodaje je do indeksu Google. Taki proces sprawia, że robot widzi o wiele więcej niż widzi przeciętny użytkownik. Kiedy Googlebot trafia już na stronę to na początku zawsze sprawdza czy dostępny jest plik robots.txt, który służy do zawężenia zakresu działania robota na stronie. Tak więc istnieje możliwość ominięcia kilku miejsc przez bota i niezaindeksowanie ich. Najczęściej jednak zakazuje się wstępu (disallow) do katalogów cgi-bin, prywatnych, tymczasowych. Jednak cała reszta strony jest dostępna do wglądu dla robota.

Zrób dobrze a wejdziesz

W Internecie można spotkać wiele stron do których użytkownik nie ma dostępu. Idąc jednak tropem podanym we wstępie można śmiało stwierdzić, że jednak do części takich stron Google ma dostęp. Sprawa ta jest zapewne dla wielu z Was irytująca, dodatkowo jeśli kiedyś dostęp do danej strony nie był kłopotem. Do takich sytuacji można zaliczyć wszelakie fora internetowe, portale z informacjami, poradnikami czy też opracowaniami gdzie widoczny jest tylko sam wstęp oraz magiczny odnośnik pokaż więcej. Po kliknięciu na magiczny odnośnik okazuje się, że aby zobaczyć dalszą część tego artykułu należy się w najlepszym wypadku zarejestrować, a w najgorszym wysłać SMS i wykupić sobie dostęp do witryny. Jak się okazuje często są to rzeczy zupełnie nie potrzebne, bowiem często Google widzi te strony w całości. A dokładniej rzecz ujmując to dostęp do całej strony ma Googlebot.

Przebieranie – udawanie

Tak więc czemu tego nie wykorzystać? Przebierzmy się za Googlebota i poudawajmy go. Jak zapewne wielu z Was wie nasze przeglądarki dysponują czymś co nazywane jest User Agent, czyli nagłówkami służącymi serwisom internetowym do rozpoznawania programu klienckiego.

Poniżej podam kilka UAStringów:

Opera/9.80 (Windows NT 6.1; U; pl) Presto/2.7.62 Version/11.00
Mozilla/5.0 (Windows NT 5.1; rv:2.0b7) Gecko/20100101 Firefox/4.0b7
Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.15 (KHTML, like Gecko) Chrome 10.0.612.1 Safari/534.15
Mozilla/5.0 (iPad; U; CPU OS 3_2_1 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Mobile/7B405
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) 
W3C_Validator/1.305.2.148 libwww-perl/5.803, Jigsaw/2.2.3 W3C_CSS_Validator_JFouffa/2.0 
Googlebot/2.1 (+http://www.googlebot.com/bot.html)

Same User Agenty przeglądarek powinny być użytkownikom dobrze znane. Tym bardziej, że coraz więcej portali daje możliwość podglądnięcia nie tylko swojego User Agenta ale też pozostałych internautów np. komentujących. Trzy ostanie przykłady UAStringów to identyfikatory popularnych robotów internetowych. I tak kolejno mamy Slupr - robot Yahoo, walidator W3C i Googlebota. Nas oczywiście w kontekście całego wpisu interesuje ostatni User Agent.

Opera

Tak więc mając podstawową wiedzę można przystąpić do działania. Na początek pokażę jak przebrać Operę za robota Google. Sprawa jest bardzo prosta i sprowadza się do edycji jednej opcji spod przeglądarki. Mianowicie naszym zadaniem jest zmiana wartości ID w sekcji ISP w edytorze preferencji. Wystarczy wkleić w pole adresu:

opera:config#ISP|Id

i automatycznie zostaniemy przekierowani do omawianej opcji. Teraz nie pozostaje nam nic innego jak wpisać wartość:

googlebot/2.1

zapisać i zrestartować Operę. Teraz możemy się cieszyć dostępem do całej witryny, która wcześniej była niedostępna w całości.

Firefox

Podobnie można postąpić w przypadku przeglądarki Firefox. Na pasku adresu wpisujemy about:config, a na liście wyszukujemy parametr:

general.useragent.extra.firefox

i wpisujemy nową wartość:

Googlebot 2.1

zapisuje i restartujemy przeglądarkę.

Internet Explorer

Uruchamiamy edytor rejestru (uruchom: regedit), odnajdujemy klucz:

HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Internet Settings\5.0\User Agent

(jeśli klucz nie istnieje należy go utworzyć)

W tej lokalizacji powinna znajdować się wartość (Domyślna), a typ to REG_SZ. Teraz należy tę wartość zmodyfikować i jako "Dane wartości" podać:

Googlebot/2.1 (+http://www.googlebot.com/bot.html)

Chrome

W Chrome istnieją dwa sposoby na zmianę User Agenta. Można to zrobić na stałe modyfikując plik chrome.dll za pomocą edytora heksadecymalnego lub też można wykonać zmianę chwilową. Opiszę tutaj sposób drugi, który jest łatwiejszy a zarazem częściej wykorzystywany. Jednak jeśli zajdzie taka potrzeba i w komentarzach znajdą się prośby o pokazanie jak wykonać zmianę w chrome.dll to uzupełnię wpis.

Tak więc aby wykonać chwilową zmianę User Agent, na jedno uruchomienie, należy skorzystać z wiersza poleceń systemu Windows (uruchom: cmd). Gdy już mamy przed sobą command line musimy przejść do katalogu Google Chrome. Domyślnie przeglądarka jest zainstalowana w katalogu:

 %HomePath%\AppData\Local\Google\Chrome\Application

W tym celu wpisujemy w wiersz poleceń komendę:

cd "%HomePath%\AppData\Local\Google\Chrome\Application" 

zatwierdzając przyciskiem Enter. Następnie należy wykonać polecenie:

chrome --user-agent=" Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

Efekty powinny być widoczne tak samo jak w pozostałych przeglądarkach.

Aby nie być gołosłownym przedstawiam screenshot wykonany pod Operą, na którym widać, że po drobnej zmianie, dostępny jest cały wpis:

Nie wszystko złoto, co się świeci

We wpisie tym pokazałem jak wykorzystać Googlebota. Jednak fragment dotyczący zmian User Agentów w przeglądarkach może Wam posłużyć jako mały instruktaż właśnie do zmian w nagłówkach przeglądarek. Wcale nie jest powiedziane, że musicie tam wpisywać UAString Googlebota. Może będziecie chcieli zmienić identyfikator Waszej przeglądarki na inną, wtedy również możecie kierować się tym wpisem. Pamiętajcie jednak, że zmiana UAStringów pomimo wielu swoich zalet niesie za sobą kilka zagrożeń. Podstawowym z nich jest fakt, że wiele stron zostało napisanych w kilku wersjach przygotowanych dla kilku przeglądarek. Tak więc zmieniając identyfikator możemy natrafić na nieoczekiwane problemy. Może to być na przykład zmiana budowy strony, która w efekcie uniemożliwia nam korzystanie z danej witryny. Najczęściej dzieje się tak gdy zmienimy nasz identyfikator na User Agent urządzeń mobilnych (identyfikator przeglądarki na systemy mobilne, takie jak Android, BadaOS, BlackBerry OS, iOS, Symbian, Windows Mobile/Phone). Zdarza się jednak też, że właśnie zmiana identyfikatora na któregokolwiek bota, również wywołuje problemy. Tak więc należy o tym pamiętać i zdawać sobie z tego sprawę, a zmieniony UAString używać tylko wtedy, kiedy jest to naprawdę konieczne.

Powyższy wpis jest tylko instruktażem oraz pokazuje zalążek szerszej działalności nazywanej Google Hacking. Wpis ma charakter bardziej teoretyczny niż praktyczny. Używać powyższej metody należy zgodnie z prawem.

Wybrane dla Ciebie
Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.