Blog (4)
Komentarze (35)
Recenzje (0)

Wyciąganie danych ze stron - BeautifulSoup

@sylwek3100Wyciąganie danych ze stron - BeautifulSoup26.11.2012 17:34

W poprzednim wpisie zajęliśmy się wyciąganiem danych ze stron HTML za pomocą biblioteki dla Pythona o nazwie lxml. Dzisiaj jednak zajmiemy się inną biblioteką a mianowicie BeautifulSoup.

1. Skąd wziąć tę zupę?

Naszym pierwszym krokiem który należy wykonać jest zdobycie jej. Możemy ją pobrać za pomocą wielu repozytoriów w systemach Liniksopochodnych oraz za pomocą strony projektu.

2. Zupa jako jedno z dan?

Aby dodać Beautiful Soup do naszego projektu należy zaimportować bibliotekę

import BeautifulSoup

Następnym elementem jest wybrać źródło. Ja standardowo wybrałem stronę pobraną za pomocą urllib2 a później zainicjować dla przykładu używając:

zupa = BeautifulSoup.BeautifulSoup(dane)

gdzie zmienna zupa oznacza kontener którym się będziemy posługiwać dalej a dane oznaczają zmienną string z zawartością strony.

3. Własne danie na bazie zupy

Przejdźmy teraz do praktycznej części w której zajmiemy się kilkoma metodami wyciągania danych za pomocą BeautifulSoup.

3.1 Pobranie wszystkich tagów

To zadanie wykonuje funkcja :


BeautifulSoup.findAll(
         tag, # nazwa poszukiwanego taga
         atrybuty = {} #słownik atrybutów
          )

Zwraca ona listę struktur zawartych w danym tagu Dla przykładu pobierzemy strukture wewnątrz wszystkich tagów

:



zupa = BeautifulSoup.BeautifulSoup(dane) #inicjujemy użycie biblioteki

elementy = zupa.findAll('div') # wyszukujemy po określonym tagu
for element in elementy:
        print element #wyświetlamy strukture każdego diva

3.2 Pobranie jednego taga

To zadanie wykonuje funkcja :


BeautifulSoup.find(
         tag, # nazwa poszukiwanego taga
         atrybuty = {} #słownik atrybutów
          )

Zwraca ona zawartość jednego taga

Aby wyświetlić zawartość taga bez żadnych struktur (tzw czysty tekst) musimy wyodrębnić za pomocą contents[0]

Co jeśli jednak sama nazwa taga nam nie wystarczy do wyszukiwania odpowiedniego elementu ze struktury ?

Wtedy możemy zastosować drugi atrybut funkcji find i findAll w formacie:

{pierwszyatrybut:wartosc,drugiatrybug:wartosc}

4. Propozycja podania

Aby trochę pokazać na przykładzie jak operować tą biblioteką bierzemy na warsztat skrypt podobny do wczorajszego jednak go trochę ulepszymy:

import urllib2
import BeautifulSoup

def blog(uzytkownik):
	dane = urllib2.urlopen('http://www.dobreprogramy.pl/'+uzytkownik).read()

	zupa = BeautifulSoup.BeautifulSoup(dane)
	try:
		artykuly = zupa.findAll('article')
		for element in artykuly:
			tytul = element.find('a')
			czas =  element.find('time')
			print tytul.contents[0]
			print czas.contents[0]
	except AttributeError:
		print 'Ten uzytkownik nie prowadzi bloga'

blog('sylwek3100')
blog('ulth')

Zadanie skryptu to pobieranie tytułów i czasu elementów na blogu. Jednak w tym wypadku zabezpieczyliśmy skrypt przed użytkownikiem który może nie posiadać jeszcze żadnego wpisu wychwytując wyjątek AttributeError i dając komunikat w razie takowego wykrycia. Można zobaczyć to na przykładzie 2 użytkowników. Co jeśli jednak to nam nie wystarczy i będziemy chcieli pobrać jeszcze ilość komentarzy pod danym wpisem na blogu ?

Wykorzystujemy drugi parametr funkcji find i nim przekazujemy atrybuty danego taga w tym wypadku to wygląda tak:


komentarzy =  element.find('span',{'class':'text-h0'})
print komentarzy.contents[0]

Warto jednak zaznaczyć że dalej to musimy przechowywać w tej samej pętli co poprzednie elementy (tytuł, czas).

Jeśli masz jakieś wątpliwości daj znać w komentarzu.

Dziękuje wszystkim czytającym za cierpliwość i uwagę

Wybrane dla Ciebie
Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.