Blog (4)
Komentarze (35)
Recenzje (0)

Wyciąganie danych ze stron - lxml

@sylwek3100Wyciąganie danych ze stron - lxml25.11.2012 15:10

Nie raz zdarza się nam że potrzebujemy jakiś danych z jakiś stron. Co jednak gdy na stronie jest dużo różnych elementów nam całkowicie niepotrzebnych lub potrzebujemy pobrać z wielu podstron ? Z pomocą przychodzi nam biblioteka lxml

1. lmxl - Co to takiego?

Jest to biblioteka dla języka Python która pozwala nam przetwarzać dane z plików XML i HTML. Można znaleźć ją w standardowych repozytoriach dystrybucji z rodziny Linux lub pobrać z strony projektu

2. Jak zacząć zabawę?

Pierwszym krokiem trzeba będzie zaimportować do naszego skryptu tą bibliotekę a robimy to następująco

import lxml.html

Teraz pozostaje nam wybrać źródło którym mogą być strony na dysku bądź gdzieś zdalnej lokacji korzystając np z biblioteki urllib2 lub podobnej

3. Co dalej?

Aby można było przetwarzać dane za pomocą lxml trzeba sprowadzić je do postaci stringa a następnie użyć:

szkielet = lxml.html.fromstring(dane).

Gdzie zmienna "dane" oznaczają nazwę zmiennej przechowującą surową strukturę pliku

Dla przykładu teraz jeśli chcemy pobrać nazwy i linki z wszystkich tagów na portalu


for element in szkielet.cssselect('a'):
	
	print element.text   # Zwraca zawartość każdego tagu
	print element.attrib['href'] # zwraca atrybut każdego tagu gdzie w nawiasach musi być nazwa tego atrybutu

ale co jeśli chcemy pobrać tylko jeden?

Wtedy stosujemy zamiast pętli takie coś:


element = szkielet.cssselect('a')[0]
print element.text
print element.attrib['href']

4. Wyciąganie elementów z rozbudowanych struktur

W poprzednich akapitach mogliście zobaczyć jak się pobiera wszystkie linki ze strony. Co jeśli jednak potrzebujemy tylko tego konkretnego ?

Na warsztat weźmiemy taki fragment pliku HTML:


<div>
    <span> jakiś tekst</span>
    <a href="http://dobreprogramy.p">Nasz portal</a>
</div>
<div>
    <span> jakiś tekst</span>
    <div id='zly'>
       <a href="http://zleprogramy.p">Konkurencyjny portal</a>
    </div>
</div>

Naszym zadaniem jest pobranie linki z tagu "div" z identyfikatorem "zly"



element = szkielet.cssselect('div#zly a')[0]
print element.attrib['href']

Tu wprowadzamy w cssselect "div#zly" gdyż zły jest identyfikatorem ale jeśli w miejsce id było by class wtedy stosujemy "div.zly

Pamiętajmy aby ostrożnie stosować poruszanie się po dynamicznych stronach gdyż bez zabezpieczonego skryptu przed wykryciem wyjątku w razie braku jakiegokolwiek tagu może dojść do awarii skryptu a co za tym idzie nieprawidłowego działania i wprowadzenia danych

5. Wyciąganie tytułów wpisów z blogu


import urllib2
import lxml.html

dane = urllib2.urlopen('http://www.dobreprogramy.pl/sylwek3100').read() #pobieramy dane z mojego bloga

szkielet = lxml.html.fromstring(dane) #ładujemy je do szkieletu 

for artykul in szkielet.cssselect('article'): #inicjujemy pętle pobierającą wszystkie tagi <a rel="nofollow"rticle>

	tytul = artykul.cssselect('header a')[0] #wyciągamy linka z wewnątrz tagu <header>
	print tytul.text #wyswietlamy zawartość linka

Dziękuje wszystkim za uwagę.

Wybrane dla Ciebie
Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.