
Stephen Dolan dokonał ciekawej analizy linków na
Wikipedii.
W jej wyniku stwierdził, że Wikipedia posiada 2301486 artykułów,
które są połączone za pomocą 55 550 003 linków. 190 006 haseł jest
niezlinkowanych. Hasłem, z którego najłatwiej jest się doklikać do
innych jest "2007". Średnio potrzeba wykonać 3,45 kliknięcia aby
dostać się ze strony o roku ubiegłym do każdej z pozostałych 2 111
479. Kolejne takie hasła to: "Deaths in 2004", "2006", "2004",
"List of accidents and incidents on commercial aircraft", "Star
Alliance destinations", "1990s", "List of town tramway systems in
North America", "2005" i "1967". Jeśli odrzucimy strony z datami i
listami haseł okaże się, że do dowolnego zlinkowanego miejsca w
Wikipedii najłatwiej można się dostać z hasła "United Kingdom".
Można więc powiedzieć, że jest to środek Wikipedii. Kolejne takie
miejsca zajmują "Billie Jean King" i "United States". Dolan w
swojej analizie nie sprawdzał do jakiego artykułu najłatwiej się
dostać.
W analizie został wykorzystany plik zawierający wszystkie artykuły
w Wikipedii tworzony co kilka miesięcy przez administratorów
Wikipedii. Jest to 3,5 GB skompresowanego kodu XML, 150 GB po
dekompresji. Przed właściwą analizą sparsowano ten plik aby wydobyć
tylko niezbędne elementy. Co ciekawe 150 GB to także rozmiar
skompresowanego pliku, który zawiera dodatkowo także dyskusje i
historię edycji artykułów.