Strona używa cookies (ciasteczek). Dowiedz się więcej o celu ich używania i zmianach ustawień. Korzystając ze strony wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.    X

Przepisz mi to jeszcze raz, Sam

Już nieomal od kiedy człowiek wpadł na pomysł tworzenia czegokolwiek, pojawił się pomysł by to coś skopiować. No... może odrobina przesady. Ale plagiat towarzyszy ludzkości od bardzo dawna. I mimo tego, iż niektórzy uważają, że wszystko zostało już wymyślone i stworzone, a więc cokolwiek powstaje współcześnie to kopia, to proceder kradzieży własności intelektualnej pozostaje wielce naganny.
A Internet i technologia dają nieprawdopodobną możliwość by kopiowanie, podszywanie się pod autorów, przepisywanie stało się nagminne i bardzo, bardzo łatwe.

Podrap ekran.

ScreenScraping to technologia bardzo prosta, wręcz oczywista. Każdy wie, że dane w bazach są uporządkowane, poukładane, przejrzyste i czytelne. Zupełnie inaczej wygląda sytuacja, gdy próbujemy odczytać kod strony internetowej. Standardy standardami, tymczasem kod html pochodzić może z kilku źródeł, niejednokrotnie źródła te mają bardzo odmienne zdanie na temat tych standardów. Do tego dochodzą wszystkie tagi formatujące. I już czytanie kodu przestaje być proste. A my przecież chcemy tylko dowiedzieć się ile kosztuje kostka pamięci ram u naszego dostawcy, który akurat nie udostępnia WebSerivceu albo API. Albo umieścić najnowszą informację na naszej stronie pochodzącą z ulubionego serwisu informacyjnego. Albo potrzebujemy informację o średniej temperatur w południowych stanach USA, które przez przypadek udało się odszukać na pewnej stronie.
I tutaj przychodzi nam z pomocą automat. Co jest potrzebne do stworzenia najprostszego automatu? Na przykładzie języka php. Funkcja file_get_conents($url) pobieramy cały output strony podanej w zmiennej $url. I możemy zrobić już z tym stringiem co chcemy. A co jeśli się musimy zalogować, podać konkretne dane do formularza i dopiero ten output analizować? Tutaj (w przypadku php) naprzeciw wychodzi nam biblioteka curl. W przypadku innych języków (perl, c# itp.) zadanie jest podobnie łatwe.

Przepraszam, czy tu biją?

Sposób ten jest tak łatwy, że pozostaje pytanie do postawienia. Jak się zabezpieczyć? Najprostszą metodą jest analiza połączeń pochodzących od konkretnego adresu ip. To oczywiście mało doskonały i ograniczony sposób. Adres ip można zmienić, nikt nie zdecyduje się także na blokowanie na przykład całej klasy adresów dajmy na to- neostrady. Cookies? File_get_contents() nie obsługuje. cURL owszem, ale przecież można tym zarządzać po swojemu. Analiza treści pobieranych (automaty pobierają najczęściej tylko content strony, pomijając multimedia) i eliminacja pojedynczych źródeł w systemie czasowym? No można, ale przecież ip można... itd. Szyfrowanie? cURL z ssl, c# bez problemów również.
Wniosek? Skoro nie da się przeciw temu zabezpieczyć należy… Zaprzestać zawracać sobie głowę. Najlepszym o dziwo rozwiązaniem jest wręcz udostępnienie dostępu do tego typu informacji, czy to przez API, czy to przez web service, czy to nawet przez rss. Wiem z doświadczenia, że firmy, które chcą być postrzegane za odpowiedzialne i za poważne, wolą zapłacić za tego typu dostęp i informacje, niż zdobywać go w ten odbiegający od legalności sposób. A obiekt screenscrapingu uwolni się od niszczących wydajność serwerów i łączy zintensyfikowanych requestów.

Gort! Klaatu barada nikto!

Robotów, automatów, screenscraperów w Internecie jest niezliczona liczba. Nie jest zagadką, że część botów jest witana na stronie z otwartymi szeroko ramionami. Nie jest już pewnie dla nikogo niespodzianką, że to boty googla. Może więc uda sie odrobinę odkoszmarzyć pojęcie bota? 

Komentarze

0 nowych
Meszuge   16 #1 20.01.2010 13:36

A swoją drogą, gdzie te czasy, gdy w sieci wszyscy dzielili się wszystkim ze wszystkimi… Teraz to nawet na Allegro żałosnej jakości zdjęcia mają znaki wodne i inne takie, żeby przypadkiem ktoś nie skorzystał z tego co JA zrobiłem.
Upadają obyczaje…

jzaam   8 #2 20.01.2010 16:50

Pieniądz rządzi światem, a jak nie wiadomo o co chodzi to na pewno chodzi o pieniądze. Zrobiłem coś, coś stworzyłem to chce na tym zarobić i przecież nie ma w tym nic złego. Zaczyna się gonitwa, wyścig między tymi co chcą zarobić, sprzedać a tymi co chcą to coś mieć nie płacą za to ani grosza.

Extraordinarykid   6 #3 20.01.2010 17:02

jzaam

Zgodzę się z tobą, jednak nie do końca..
Tak, jak napisał Meszuge.
Znaki wodne na zdjęciach i inny sposób ograniczania dostępu do treści, która bardzo często jest wolna do użytkowania ..
Najprostszym przykładem są zdjęcia na Allegro ze znakiem wodnym, które i tak do autora nie należą, bo albo są to zdjęcia producenta produktu, albo żywcem skradzione z jakiegoś portalu/wortalu ..

Ale cóż - pieniądz, to podstawa ; )

  #4 21.01.2010 20:17

http://nonsensopedia.wikia.com/wiki/W%C5%82asno%C5%9B%C4%87_intelektualna

Tutaj jest bardzo mądrze opisane czym właściwie jest tzw. "własność intelektualna". Całkowicie się z tym zgadzam.

Co do twojego wpisu, to prawie w pełni się zgadzam. Twoja praca jednak trochę się kupy nie trzyma. Ty opisujesz sposoby na wykorzystanie czyjeś pracy, a może chcesz to naganić?

  #5 21.01.2010 20:19

@Meszuge | 20.01.2010 13:36 : Bez sensu. Przecież zdjęcia na allegro, to zdjęcia przedmiotów dostępnych w sprzedaży. W interesie sprzedającego jest możliwie najlepsze ich rozpowszechnienie. Niektórzy ludzie sprzedają na allegro wyroby własnej produkcji, więc im jakieś przeszkadzanie w popularyzacji ich fotek jest szczególnie nie na rękę.

(oczywiście wiem, że znaki wodne, to najlepszy złoty środek, by pogodzić wiele różnych interesów; znaki wodne nie przeszkadzają też w kopiowaniu, ale ich pojawienie się trochę odstrasza).

MaRa   8 #6 22.01.2010 09:19

W Allegro znaki wodne są automatycznie wstawiane do fotek, trzeba tylko zaznaczyć odpowiednią opcję.