Strona używa cookies (ciasteczek). Dowiedz się więcej o celu ich używania i zmianach ustawień. Korzystając ze strony wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.    X

Googlebot widzi więcej. Ty też możesz.

Słowem wstępu

Na początek wyjaśnię pokrótce, że Googlebot to robot indeksujący sieć. Robot ten pobiera niezliczone ilości stron. Podczas tego procesu Googlebot wykrywa nowe lub też zaktualizowane strony i dodaje je do indeksu Google. Taki proces sprawia, że robot widzi o wiele więcej niż widzi przeciętny użytkownik. Kiedy Googlebot trafia już na stronę to na początku zawsze sprawdza czy dostępny jest plik robots.txt, który służy do zawężenia zakresu działania robota na stronie. Tak więc istnieje możliwość ominięcia kilku miejsc przez bota i niezaindeksowanie ich. Najczęściej jednak zakazuje się wstępu (disallow) do katalogów cgi-bin, prywatnych, tymczasowych. Jednak cała reszta strony jest dostępna do wglądu dla robota.

Zrób dobrze a wejdziesz

W Internecie można spotkać wiele stron do których użytkownik nie ma dostępu. Idąc jednak tropem podanym we wstępie można śmiało stwierdzić, że jednak do części takich stron Google ma dostęp. Sprawa ta jest zapewne dla wielu z Was irytująca, dodatkowo jeśli kiedyś dostęp do danej strony nie był kłopotem. Do takich sytuacji można zaliczyć wszelakie fora internetowe, portale z informacjami, poradnikami czy też opracowaniami gdzie widoczny jest tylko sam wstęp oraz magiczny odnośnik pokaż więcej. Po kliknięciu na magiczny odnośnik okazuje się, że aby zobaczyć dalszą część tego artykułu należy się w najlepszym wypadku zarejestrować, a w najgorszym wysłać SMS i wykupić sobie dostęp do witryny. Jak się okazuje często są to rzeczy zupełnie nie potrzebne, bowiem często Google widzi te strony w całości. A dokładniej rzecz ujmując to dostęp do całej strony ma Googlebot.

Przebieranie – udawanie

Tak więc czemu tego nie wykorzystać? Przebierzmy się za Googlebota i poudawajmy go. Jak zapewne wielu z Was wie nasze przeglądarki dysponują czymś co nazywane jest User Agent, czyli nagłówkami służącymi serwisom internetowym do rozpoznawania programu klienckiego.

Poniżej podam kilka UAStringów:

Opera/9.80 (Windows NT 6.1; U; pl) Presto/2.7.62 Version/11.00 Mozilla/5.0 (Windows NT 5.1; rv:2.0b7) Gecko/20100101 Firefox/4.0b7 Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.15 (KHTML, like Gecko) Chrome 10.0.612.1 Safari/534.15 Mozilla/5.0 (iPad; U; CPU OS 3_2_1 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Mobile/7B405 Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) W3C_Validator/1.305.2.148 libwww-perl/5.803, Jigsaw/2.2.3 W3C_CSS_Validator_JFouffa/2.0 Googlebot/2.1 (+http://www.googlebot.com/bot.html)

Same User Agenty przeglądarek powinny być użytkownikom dobrze znane. Tym bardziej, że coraz więcej portali daje możliwość podglądnięcia nie tylko swojego User Agenta ale też pozostałych internautów np. komentujących. Trzy ostanie przykłady UAStringów to identyfikatory popularnych robotów internetowych. I tak kolejno mamy Slupr - robot Yahoo, walidator W3C i Googlebota. Nas oczywiście w kontekście całego wpisu interesuje ostatni User Agent.

Opera

Tak więc mając podstawową wiedzę można przystąpić do działania. Na początek pokażę jak przebrać Operę za robota Google. Sprawa jest bardzo prosta i sprowadza się do edycji jednej opcji spod przeglądarki. Mianowicie naszym zadaniem jest zmiana wartości ID w sekcji ISP w edytorze preferencji. Wystarczy wkleić w pole adresu: opera:config#ISP|Idi automatycznie zostaniemy przekierowani do omawianej opcji. Teraz nie pozostaje nam nic innego jak wpisać wartość: googlebot/2.1zapisać i zrestartować Operę. Teraz możemy się cieszyć dostępem do całej witryny, która wcześniej była niedostępna w całości.

Firefox

Podobnie można postąpić w przypadku przeglądarki Firefox. Na pasku adresu wpisujemy about:config, a na liście wyszukujemy parametr:general.useragent.extra.firefox

i wpisujemy nową wartość: Googlebot 2.1

zapisuje i restartujemy przeglądarkę.

Internet Explorer

Uruchamiamy edytor rejestru (uruchom: regedit), odnajdujemy klucz:

HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Internet Settings\5.0\User Agent (jeśli klucz nie istnieje należy go utworzyć)

W tej lokalizacji powinna znajdować się wartość (Domyślna), a typ to REG_SZ. Teraz należy tę wartość zmodyfikować i jako "Dane wartości" podać:

Googlebot/2.1 (+http://www.googlebot.com/bot.html)

Chrome

W Chrome istnieją dwa sposoby na zmianę User Agenta. Można to zrobić na stałe modyfikując plik chrome.dll za pomocą edytora heksadecymalnego lub też można wykonać zmianę chwilową. Opiszę tutaj sposób drugi, który jest łatwiejszy a zarazem częściej wykorzystywany. Jednak jeśli zajdzie taka potrzeba i w komentarzach znajdą się prośby o pokazanie jak wykonać zmianę w chrome.dll to uzupełnię wpis.

Tak więc aby wykonać chwilową zmianę User Agent, na jedno uruchomienie, należy skorzystać z wiersza poleceń systemu Windows (uruchom: cmd).
Gdy już mamy przed sobą command line musimy przejść do katalogu Google Chrome. Domyślnie przeglądarka jest zainstalowana w katalogu:

%HomePath%\AppData\Local\Google\Chrome\Application W tym celu wpisujemy w wiersz poleceń komendę:

cd "%HomePath%\AppData\Local\Google\Chrome\Application"

zatwierdzając przyciskiem Enter. Następnie należy wykonać polecenie:

chrome --user-agent=" Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

Efekty powinny być widoczne tak samo jak w pozostałych przeglądarkach.

Aby nie być gołosłownym przedstawiam screenshot wykonany pod Operą, na którym widać, że po drobnej zmianie, dostępny jest cały wpis:

Nie wszystko złoto, co się świeci

We wpisie tym pokazałem jak wykorzystać Googlebota. Jednak fragment dotyczący zmian User Agentów w przeglądarkach może Wam posłużyć jako mały instruktaż właśnie do zmian w nagłówkach przeglądarek. Wcale nie jest powiedziane, że musicie tam wpisywać UAString Googlebota. Może będziecie chcieli zmienić identyfikator Waszej przeglądarki na inną, wtedy również możecie kierować się tym wpisem. Pamiętajcie jednak, że zmiana UAStringów pomimo wielu swoich zalet niesie za sobą kilka zagrożeń. Podstawowym z nich jest fakt, że wiele stron zostało napisanych w kilku wersjach przygotowanych dla kilku przeglądarek. Tak więc zmieniając identyfikator możemy natrafić na nieoczekiwane problemy. Może to być na przykład zmiana budowy strony, która w efekcie uniemożliwia nam korzystanie z danej witryny. Najczęściej dzieje się tak gdy zmienimy nasz identyfikator na User Agent urządzeń mobilnych (identyfikator przeglądarki na systemy mobilne, takie jak Android, BadaOS, BlackBerry OS, iOS, Symbian, Windows Mobile/Phone). Zdarza się jednak też, że właśnie zmiana identyfikatora na któregokolwiek bota, również wywołuje problemy. Tak więc należy o tym pamiętać i zdawać sobie z tego sprawę, a zmieniony UAString używać tylko wtedy, kiedy jest to naprawdę konieczne.

Powyższy wpis jest tylko instruktażem oraz pokazuje zalążek szerszej działalności nazywanej Google Hacking. Wpis ma charakter bardziej teoretyczny niż praktyczny. Używać powyższej metody należy zgodnie z prawem. 

Komentarze

0 nowych
Kintoki   6 #1 21.12.2010 13:55

Ale ciiiii bo co poniektórzy się dowiedzą że w łatwy sposób można to obejść :) Swoją drogą węszenie UA to nie jedyny sposób na podrzucanie botom dodatkowego contentu

TheUsh   7 #2 21.12.2010 14:14

Hmm, tak się zastanawiam czy takie podszywanie się pod googlebota, które daje nam dostęp do całej treści strony bez wnoszenia stosownej opłaty, nie jest przypadkiem rodzajem kradzieży własności intelektualnej? ;)

Szuri21   17 #3 21.12.2010 14:32

@TheUsh | 21.12.2010 14:14

Może masz rację. Taki akurat przykład podałem. Natomiast czytając regulamin tego serwisu, z którego pochodzi screenshot wynika, że użytkownik zamieszczający tam swoje prace wyraża zgodę na udostępnienie je innym i się na to zgadza. Nigdzie nie jest napisane, że materiały będą udostępniane odpłatnie. Ktoś może mieć chęć podzielenia się z innymi umieści tam swoją pracę a potem koledzy nie będą mogli z tego skorzystać bo będą musieli zapłacić. Zresztą puki co możemy mówić co najwyżej o nieautoryzowanym dostępnie, a nie o naruszeniu własności intelektualnej.

przemor25   14 #4 21.12.2010 14:34

Właśnie... czy jest to legalne?

Szuri21   17 #5 21.12.2010 14:45

@przemor25 | 21.12.2010 14:34

W takim razie zadajmy sobie pytanie czy działalność Googlebota jest legalna?

Przecież to on a nie ja ma dostęp tam gdzie niekoniecznie powinien.

Szuri21   17 #6 21.12.2010 15:01

Żeby jednak nie było niedomówień, ja nie zachęcam do kradzieży, piractwa i ogólnie łamania prawa. Jednak czasami można sobie wiele uprościć życie omijając całkiem legalnie i zgodnie z prawem kilka nie potrzebnych kroków.

Dodatkowo wspomnę tylko, że SMS'a wysłałem aby potem nie było, że uzyskałem nieautoryzowany dostęp, natomiast screenshot wykonałem podszywając się pod Googlebota. Dodatkowo screnshot pokazujący ominięcie blokaady SMS jest dużo bardziej wymowny niż ominięcie uzupełnienia np. ankiety.

oprych   13 #7 21.12.2010 15:17

a jeszcze jedna kwestia, często twórcy nie chcą, aby jakieś treści były widziane przez google :)

Czy w takim przypadku nie ograniczymy sobie dostępu do nich? :P

Szuri21   17 #8 21.12.2010 15:35

@oprych | 21.12.2010 15:17

To jest nieco inna kwestia. Googlebot jest jakby to powiedzieć grzecznym robotem. Zagląda sobie do robots.txt i się do tego stosuje. Natomiast złe roboty czyli spamboty czy inne złośliwe boty mają plik robots.txt gdzieś. Dodatkowo jeśli robot jest sprytny i wyczyta, że w robots.txt jest wyłączony z indeksowania np. katalog prywatny to być może zacznie właśnie od niego przeszukiwanie w celu wyłapania jakiegoś ciekawego znaleziska. Natomiast nasz Firefox czy Opera nie jest botem i żadna blokada indeksowania nie powstrzyma naszej przeglądarki od wejścia tam. Tak więc sytuacje, że zobaczymy za mało działając z UAStringu Googlebota jest mało prawdopodobna, ale możliwa.

oprych   13 #9 21.12.2010 15:42

@Szuri21
Nie twierdze, że tak jest :P
Tylko się tak zastanawiałem, no bo skoro jeśli po wykorzystaniu tego triku możemy widzieć więcej, to może to też dziać odwrotnie?
Ale to tylko moja niepoparta niczym teoria :)

Szuri21   17 #10 21.12.2010 15:49

@oprych | 21.12.2010 15:42

A ja nie twierdzę, że Ty tak twierdziłeś. Po prostu odpowiedziałem. :)

Natomiast jako odpowiedź na Wasze pytanie czy taki dostęp jest legalny mam pytanie dla Was.

Czy uzyskując dostęp do tej samej strony omijając płatność SMS, wchodząc na nią bezpośrednio z wyników Google klikając po prostu KOPIA łamię prawo?

  #11 21.12.2010 17:43

nie wiem, jak u Was, ale u mnie z takim UA niemożliwe staje się zalogowanie na forum.dobreprogramy.pl. czyli nadaje się to na łatwiejszy niż rejestracja i wysyłanie SMS sposób na dotarcie do pewnych treści, ale nie do codziennej pracy.

kuba144   5 #12 21.12.2010 17:45

Łał, świetny wpis, nie spodziewałem się po tej zmianie rzeczywiście to zadziała

walker13150   4 #13 21.12.2010 18:16

Dziękuję za sposób zmiany useragenta w chrome (długo szukałem windowsowego odpowiednika do terminalowych komend w ubuntu ;))

TestamenT   12 #14 21.12.2010 18:45

Ostrzegam prze jednym. Jeżeli jakieś forum jest przystosowane do Googlebota to może wystąpić problem z zalogowaniem na forum.
Ponieważ może takie forum rozpoznać użytkownika jako bota.

Szuri21   17 #15 21.12.2010 18:52

@Anonim (niezalogowany) | 21.12.2010 17:43
@TestamenT | 21.12.2010 18:45

Może się tak właśnie zdarzyć, że strona będzie się właśnie prawidłowo wyświetlać, ale nie będzie w 100% funkcjonalna. Dlatego też na zakończenie napisałem, że używając zmienionego UAStringa istnieje ryzyko pojawienia się nieprzewidzianych komplikacji i zmianę User Agenta polecam tylko wtedy, kiedy jest to konieczne.

Torwald   4 #16 21.12.2010 23:25

Jeśli ktoś myśli, że przy zmienionym UA (na GB) będzie mógł normalnie korzystać z przeglądarki i w magiczny sposób zyska dostęp do płatnych treści - to jest chyba niepoważny :D

Do małolatów napalonych na darmowe cycki czy amatorów płatnych materiałów - profesjonalnie zrobiona strona NIGDY nie da dostępu do takich treści botom wyszukiwarek. Jeśli da - to znaczy, że robili ją partacze ;)

PS. 'Podszywanie się' pod bota wyszukiwarki i uzyskiwanie dostępu do różnego rodzaju 'treści' nie jest nielegalne...

rocanon   3 #17 21.12.2010 23:25

Fajna sprawa. Kilka dni temu zastanawiałem się jak to się robi. Wujek Google trochę podpowiedział, a szanowny user Szuri21 resztę. Dzięki.

roobal   15 #18 21.12.2010 23:42

@Anonim

Nie mam 100% pewności ale jakiś czas temu na forum pojawiła się pewna dyskusja, temat został zablokowany i był niedostępny dla zwykłych użytkowników forum ale nadal można było znaleźć na Googlach kopię tego tematu. Po tym wydarzeniu dostęp dla botów prawdopodobnie został zablokowany i pewnie dlatego logowanie jako bot u Ciebie nie działa.

Pozdrawiam!

Kranken   2 #19 02.02.2011 08:36

Trochę odgrzany kotlet, ale odnośnie chroma. Zamiast uruchamiać CMD wystarczy utworzyć skrót i dopisać w "element docelowy" --user-agent... i działa tak samo dobrze :)

  #20 18.02.2011 17:53

z ciekawości zmieniłem w opera portable UA i wszedłem na http://whatsmyuseragent.com/ wyświetliło mi się :

Your User Agent: Opera/9.80 (Windows NT 5.1; U; googlebot/2.1; en) Presto/2.7.62 Version/11.00

Więc niestety nadal wyświetla się że to opera.