Strona używa cookies (ciasteczek). Dowiedz się więcej o celu ich używania i zmianach ustawień. Korzystając ze strony wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.    X

Big Data – gwałtownie rośnie ilość gromadzonych danych

W ciągu ostatnich dwóch lat ilość danych gromadzonych na serwerach firm działających w internecie wzrosła o 90 %. Zapisano ich w tym czasie więcej niż wszystko co ludzkość zapisała od zejścia z drzewa. Do 2020 roku co sekundę będzie się produkować 1.7 MB danych na każdego człowieka na Ziemi i osiągnie wartość 44 ZB (zetta bajtów) Użytkownicy w samej tylko wyszukiwarce Google zadają 40 000 zapytań w ciągu sekundy, co daje 1,2 biliona zapytań rocznie. Od sierpnia br. ponad miliard ludzi używa Facebooka codziennie zostawiając około 31 milionów wiadomości i prawie 3 miliony filmów na minutę. Na YouTube przybywa około 300 godzin materiałów filmowych na minutę. W tym roku około miliarda zdjęć użytkownicy zostawią w chmurach.

Większą ilość tych danych produkują telefony komórkowe. Tymczasem przewiduje się, że w tym roku zostanie sprzedanych 1,7 miliarda nowych telefonów, a do roku 2020 będzie już działać ich ponad 6 miliarda. Ale to wszystko może okazać się niczym w porównaniu do przewidywanych 50 miliardów urządzeń Internetu Rzeczy. A przy tym coraz więcej danych jakie tworzymy na różnych urządzeniach przechodzi przez chmury i w prognozowanym 2020 roku trzecia ich część będzie tam trafiać.

Big Data jest dla wielu firm źródłem wzrostu dochodów. Ocenia się, że około 73% dużych kompani w USA planuje rozwój w tej dziedzinie. W największych firmach wzrost o 10% ilości danych skutkuje wzrostem dochodów rzędu 65 milionów, a w firmach handlowych pełne wykorzystanie gromadzenia i przetwarzania danych może dać przyrosty przychodów rzędu 60%. Sam Biały Dom ostatnio zainwestował 200 mln dolarów w projekty związane z Big Data. A analiza wydatków na system opieki zdrowotnej wskazuje, że poprawienie ilości i jakości przetwarzania danych medycznych może dać oszczędności roczne na poziomie 1000 dolarów na jednego pacjenta.

Wszystkie te informacje dotyczą tylko tych danych, którymi firmy chwalą się oficjalnie. A ile jeszcze danych jest gromadzonych w sposób mniej jawny. Jaką masę danych o użytkownikach gromadzi Google, Microsoft i inne firmy IT, nie wspominając już o NSA.

Problemy gromadzenia i przetwarzania danych

Najciekawszy w tym wszystkim jest fakt, że obecnie tylko niecałe 0,5% tych danych jest odpowiednio przetwarzane i wykorzystywane. Wygląda na to, że firmy gromadzą je na zapas i nie są w stanie ogarnąć całości i zrobić z nich użytek. Oczywiście powód jest jasny, danych jest bardzo dużo, trudno je już przechowywać, a co dopiero przetwarzać. Można by próbować przetwarzać je natychmiast gdy przychodzą, ale po pierwsze wymagało by to olbrzymich mocy obliczeniowych, a po drugie chcąc znaleźć związek między dwoma zdarzeniami musimy móc odnaleźć kilka z nich, które zaszły w różnym czasie.

Gromadzenie danych - systemy plików

Musimy więc gdzieś składować te dane i potem pobierać, a że nie zmieszczą się one na jednej maszynie to potrzebujemy sieciowych systemów plików. Jednym z pierwszych powstałych tego typu rozwiązań jest system GFS (Google File System). Przechowuje on dane w dużych 64MB plikach, które przechowywane są na tzw. Chunk Servers, Dane są zapisane nadmiarowo (redundancja) w celu zabezpieczenia przed stratą, a dostęp do nich odbywa się za pośrednictwem serwera Master, który przechowuje metadane wszystkich plików. Ponieważ służą one głównie wyszukiwarce to metadane mapują hasła wyszukiwania do odpowiednich plików. Często używane dane znajdują się w cache Mastera, ale jeśli nie ma ich tam to muszą zostać odnalezione i ściągnięte do niego. Zatem gdy wyszukujemy czegoś,co jest mało popularne w sieci, trwa to nieco dłużej.
System plików Google jest rozwiązaniem własnościowym (podobnie jak Amazon S3) i inne firmy musiały wypracować własne rozwiązania. Jednak dzięki rozwojowi ruchu Open Source i chęci współpracy firm przy jego rozwoju, nie każdy musi wymyślać koło od nowa i pisać własne rozwiązania. Dominującym rozwiązaniem stosowanym przez większość firm zapisujących Big Data jest Hadoop (Hadoop Distributed File System – HDFS). System ten został napisany w języku Java, a inspiracją był oczywiście GFS wraz z modelem MapReduce zapoczątkowanym przez tę samą firmę.
Hadoop tworzony jest pod egidą organizacji Apache Fundation i rzecz jasna wydawany jest na licencji Apache 2.0. Sprawia to, że każda firma zamiast tworzyć własne rozwiązania woli korzystać z HDFS. Sam system plików jest też częścią całego frameworka, w skład który wchodzą potrzebne biblioteki, narzędzia czy MapReduce. Na nim opiera się cały ekosystem różnych modułów i projektów jak przykładowo: Apache Zookeeper, Apache Spark, Apache Hive, Apache Storm itp.
Istnieją również inne rozwiązania, zarówno otwarto-źródłowe jak i zamknięte. Ich popularność jednak jest niewielka i ograniczona do określonych zastosowań.

Bazy danych

Do przechowywania i wyszukiwania danych nie korzysta się z baz SQL, tylko NoSQL. Najprostszy sposób to użycie bazy takiej jak przykładowo MongoDB. Nie wymaga ona tworzenia klastrów z HDSF-em. Wystarczą zwykłe komputery z zainstalowanymi bazami, na których konfiguruje się replikację i rolę danej maszyny. Dla bardzo dużych ilości danych bazy te są zbyt mało wydajne (znane są przykłady przechowywania niecałych 0,5PB danych).
Inne bazy NoSQL dla dużej ilości przechowywanych informacji to np.: HBase (należące do ekosystemu Hadoop), Cassandra, BigTable (Google), Riak. To tylko niektóre najpopularniejsze, a jest w czym wybierać.

Pobieranie, dostarczanie i przesyłanie treści.

Przetwarzanie danych wygląda z grubsza w taki sposób, że dane musimy pobrać, przetworzyć dane i z powrotem zapisać. Można pobierać dane z bazy, bezpośrednio z sieciowego systemu plików (np. HDSF), serwerów mailowych, stron internetowych itp. Oprogramowanie pracujące nad danymi może pobierać i odsyłać je równocześnie do wielu różnorodnych źródeł i miejsc docelowych ich przechowywania.

Przydatnym narzędziem jest oprogramowanie pośredniczące między źródłami i miejscami składowania przetworzonych danych, czyli tzw. message broker. Najbardziej popularnym tego typu oprogramowaniem jest Kafka (dla Big Data)

Dzięki niemu programiści nie muszą się zastanawiać w jaki sposób pobierać i przesyłać dane w sieci. Dostarczyciele danych, nazywani producentami, mogą być różnego typu, tak samo jak odbiorcy, czyli konsumenci.

Konsumentami treści najczęściej są frameworki, które pomagają stworzyć schemat analizy danych. Dane mogą być wielokrotnie przetwarzane co wymaga stworzenia kolejności ich przetwarzania, najczęściej w formie grafu acyklicznego. Dwa najpopularniejsze systemy tego typu to: Apache Storm i Apache Spark. Ten drugi to obecnie chyba najpotężniejsze i najbardziej wielostronne narzędzie tego typu.

Posiada on takie dodatkowe moduły jak Machnie Learning (uczenie maszynowe), czy moduł naśladujący zachowanie bazy danych SQL.

Język programowania

Omówione narzędzia są frameworkami wymagającymi napisania kodu, który je wykorzysta. Większość oprogramowania do Big Data dostarcza API w takich językach jak Java, Scala, Python czy R. Jednak najbardziej znaczący wydaje się fakt, że wiele z tego oprogramowania (może nawet większość z najpopularniejszych rozwiązań) została napisana w Scali, w tym Apache Spark i Kafka (Storm napisano w Clojure). Wykorzystują one schemat przetwarzania typowy dla języków funkcyjnych, stosują się też do Reactive Manifesto. Użycie Scali wynika właśnie z jej funkcyjnego charakteru, wygodnej składni, która nie zmusza do pisania tylko w stylu funkcyjnym, ale umożliwia również pisanie zarówno obiektowe jak i w stylu imperatywnym.
Jednym z głównych elementów przyciągających programistów do używania Scali jest framework Akka, implementujący model aktorów (po raz pierwszy użyty w Erlangu). Pozwala on w dużo prostszy i bezpieczniejszy sposób tworzyć wydajne i lekkie aplikacja wielowątkowe.
Dzięki użyciu Scali możemy zarówno wykorzystać API frameworków, ale również rozbudować je o własne elementy w wygodny i szybszy sposób niż przy użyciu innych narzędzi. Zatem jeśli nie chcemy tylko wykorzystać standardowych możliwości tych frameworków warto zastanowić się nad użyciem Scali. Nie trudno też zrozumieć skąd w najpopularniejszych językach programowania (np. w Javie) widzimy takie parcie na elementy funkcyjne. Ułatwiają one pisanie kodu dla systemów współbieżnych, skracają często ilość linii i świetnie sprawdzają się przy przetwarzaniu dużych danych.

Widać, że gałąź IT związana z Big Data będzie w najbliższych latach gwałtownie rosnąć. Być może warto zainteresować się tym tematem i pokierować swoją ścieżkę rozwoju zawodowego tę stronę. Jeśli nawet Microsoft szuka programistów Scali to coś musi być na rzeczy ;)

Źródło:forbes.com

 

internet programowanie

Komentarze

0 nowych
  #1 18.10.2015 17:50

Microsoft szuka, bo chce umożliwić programowanie za pomocą języka Scala w Azure i ktoś musi napisać wygodne biblioteki do ich usług.

A co do różnic w wydajności C++ vs Java w chmurze to:
http://www.scylladb.com/technology/cassandra-vs-scylla-benchmark-cluster-1/

  #2 18.10.2015 18:23

wiekszosc to pewnie pornole

mly   7 #3 18.10.2015 18:35

Coraz mniej to ogarniam, po co i komu tyle danych przechowywać ? Przecież 99 % tych danych to informacyjne śmieci. Albo ja się starzeję albo idzie to w złym kierunku.

bart86   10 #4 18.10.2015 18:41

ludzie chomikują ;)

ktoś tam   8 #5 18.10.2015 18:42

1,7 MB co sekundę, na każdego człowieka!? Przecież to jest ponad 140 GB dziennie. To wystarczyłoby, żeby chodzić całą pół doby (edit: mała poprawka) z kamerą 4k na czole i wszystko nagrywać.

Autor edytował komentarz.
mikolaj_s   14 #6 18.10.2015 18:45

@mly: A wiesz, że są ludzie, którzy właśnie ze śmieci wyrzucanych przez innych potrafią wyciągnąć więcej informacji o nich niż można wyczytać z jakichkolwiek dokumentów. Mogą wiedzieć o nim więcej niż gdyby byli jego przyjaciółmi ;)
Ale ogólnie takie dane mogą służyć bardzo różnym rzeczą. Ponoć statystycznie ludzie są bardzo przewidywalni, trzeba mieć tylko dane, których sami pełno rozsiewami w sieci.

@ktoś tam Tylko, że to nie zwykły człowiek będzie tych danych dostarczać tylko głównie wszelkie urządzenie IoT, drony itd. Tylko pytanie czy będziemy je w stanie przechować i wykorzystać.

Autor edytował komentarz.
funbooster   8 #7 18.10.2015 18:52

hehe

Autor edytował komentarz.
ktoś tam   8 #8 18.10.2015 18:59

@mikolaj_s: Wiadomo, ale to i tak strasznie dużo. Nie wiem, co za dane trzeba zbierać, żeby tyle tego wyszło.

Przez ponad rok nie zapełniłem swojego 60 GB SSD, a mam na nim Windowsa 10, Minta i kilka GB programów.

Ryychuu   6 #10 18.10.2015 19:07

@mly: w bardzo prostym celu, bo ludzie skłonni są za to zapłacić ;) Za przechowywanie i przetwarzanie dużej ilości danych ludzie są skłonni płacić i to robią mimo często bezsensowności tego wszystkiego ;P

Poza tym to dużo szersze zagadnienie by stwierdzić, że to sensowne lub nie, z pewnością często wystarczyłaby kartka i papier zamiast 3 data center ale ludzie są ludźmi i lubią marnotrawić zasoby ;)

msnet   19 #11 18.10.2015 19:13

@ktoś tam: Odpowiedź jest bardzo prosta - zbiera się wszystko, co da się zbierać :)

zaba285   7 #12 18.10.2015 19:19

ciekawy artykuł, będziesz kontynuował temat? może jakieś wprowadzenie od strony programistycznej do Hadoop czy innych frameworków?

  #13 18.10.2015 19:32

@ktoś tam: A jak instalowałeś Linux na tym dysku tworzyłeś SWAP i osobną partycję HOME na drugim dysku HDD?

FaUst   12 #14 18.10.2015 19:41

@ktoś tam: A ile danych generujesz zapytaniami do internetu, wrzucaniem plików na dropboxa, facebooka, google'a itp? Generowane dane to co innego niż "posiadane"

mikolaj_s   14 #15 18.10.2015 19:41

@zaba285: Możesz się spodziewać, że napiszę coś bliżej o Akka, ale za jakiś czas ;)

  #16 18.10.2015 19:53

Ludzie mogliby masowo umieszczać regularnie całe Gigabajty śmieciowych informacji w Chmurze - porządnie zaszyfrowanych 10 x - żeby NSA miało co gromadzić i nad czym pracować - może w końcu by się im to znudziło, albo by stwierdzili że za dużo energii to kosztuje... xD

tylko_prawda   11 #17 18.10.2015 20:11

@ktoś tam: Chodzi o 140 GB na osobę?

zaba285   7 #18 18.10.2015 20:19

@mikolaj_s: jako programista Java chętnie poczytam o Akka w naszym języku ojczystym :)

Zulowski   8 #19 18.10.2015 20:34

@FaUst: , @ktoś tam i weźcie pod uwagę, że jak np wasze zapytanie zajmowało 70kbit, to w internecie zajmuje 210kbit! Po pierwsze logi ISP, po drugie Google, po trzecie NSA, i ciul wie co jeszcze ;p

dzikiwiepsz   12 #20 18.10.2015 21:23

Im więcej korzystamy z internetu tym więcej zostawiamy w nim danych :)

Trebron   8 #21 18.10.2015 21:24

@mly, dla władzy i pieniędzy oczywiście :). Ze stosu niby śmieciowych nic nieznaczących danych można wyciągnąć na prawdę świetne perełki. Np.: obciachowy filmik z imprezy sam w sobie może być bezwartościowy, ale za 20 lat ten sam filmik może być bezcenny, jeżeli jedna z osób jest np.: kandydatem na prezydenta :). Do tego całe to BigData, analiza zachowań, przewidywanie trendów, wyciąganie wiedzy - np jeżeli kierowcy aut w kolorze pomarańczowym powodują mniej wypadków, można klientowi z takim samochodem zaproponować lepsze warunki ubezpieczenia. Mając taką wiedzę automatycznie jesteśmy krok przed konkurencją.

ktoś tam   8 #22 18.10.2015 21:54

@FaUst: Rozumiem różnicę. Nie rozumem natomiast, skąd taka ilość generowanych danych. Ile można tam wrzucać? Nie sądzę, żeby średnia przekraczała 2 GB dziennie na osobę. Zapytaniami też raczej się za dużo nie wygeneruje

@Zulowski Mowa o ujawnionych statystykach, więc NSA odpada. Ale zbierających te dane tak, czy inaczej jest dużo.

@tylko_prawda Tak.

Autor edytował komentarz.
_tommy_   16 #23 18.10.2015 22:05

@ktoś tam: Are you kidding me? ;p
Nie wiem jak to możliwe, że upchałeś 2 systemy + soft na 60 GB, szczególnie, że do optymalnej pracy SSD potrzebuje ok 10-15% wolnego miejsca.
Windows + soft zajmuje (u mnie) ~60GB więc nie wiem czego Ty używasz, skoro masz 2 systemy i GB oprogramowania :p

ktoś tam   8 #24 18.10.2015 22:19

@_tommy_: 24,4 Windows (2,6 wolne), 12,6 pliki dla obu systemów i soft dla Windowsa i reszta (ok. 20) dla Minta i jego softu.

Ogólnie mógłbym jeszcze zwolnić ze 2 GB z partycji Windowsa.

Autor edytował komentarz.
_tommy_   16 #25 18.10.2015 22:33

@ktoś tam: Oczekujesz wpisu do księgi rekordów Guinessa? ;)

ktoś tam   8 #26 18.10.2015 22:48

@_tommy_: Nie :) Po prostu tak to jest, jak się potrzebuje, a sprzęt odmawia posłuszeństwa.

Ernest Magnus   8 #27 19.10.2015 05:53

@ktoś tam: "To wystarczyłoby, żeby chodzić całą dobę z kamerą 4k na czole i wszystko nagrywać."

Chciał bym sobie kupić taką kamerę i wszystko nagrywać 24 h ...pewnie sobie kupie :)

zyrol81   9 #28 19.10.2015 08:46

Problem polega na tym, że 90% z tego to informacje stare i w większości nieaktualne. Weźmy pierwsze z brzegu zapytanie w google i dostajemy informacje sprzed 5-6 lat. Informacja przedawniona. Nie prościej takie rzeczy po prostu usuwać? Po co mi informacje np o smartfonie sprzed kilku lat? Jak wpisuje "dobry telefon do 1000zł" dostaje informacje z roku 2010. Jak wpisuje "jak zainstalować cośtam" wyskakują mi informacje z Ubuntu 9.10. Po co? Używa ktoś jeszcze tego? Nie prościej wdrożyć jakis system który będzie usówać np informacje do których nikt nie zaglądał od roku? W sieci można znaleźć moje posty i zapytania sprzed 5 lat. Po co? Założę się, że wyszukiwanie w internecie byłoby przyjemniejsze i szybsze. A tak... jak nie dodam filtra, to google wyszuka mi dawno nieaktualne i dawno niepotrzebne rzeczy. Bez sensu.

  #29 19.10.2015 09:16

Jak milo, ze ktos porusza tematy ze swiata BigData. Tak sie sklada, ze troche w tym siedze... Wiec cieszy promocja tego tematu. A trzeba przyznac, ze to dopiero poczatki i potencjal dla kazdej firmy jest niesamowity. Nie dziwota, ze wszyscy sie tam pchaja. Znajac potrzeby klientow, albo jak sie zachowuja moga pomoc stworzyc, badz ulepszyc produkt. Np. jesli wiesz, ze Twoj komputer/samochod badz cos co tam sprzedajesz posiada funkcje, ktorej nikt nie uzywa to mozesz sie zastanowic, czy na pewno potrzebujesz tej rzeczy. A podobnych pytan sa setki, jesli nie tysiace. W zaleznosci jak skomplikowany jest produkt.

Praca wciagajaca i dajaca duzo satysfakcji.

PS. System plikow jest HDFS (nie HDSF).
PPS. To, ze MS szuka pracownikow do pracy w Scala, to raczej sredni przyklad. Oni maja mase do nadrobienia jesli chodzi o BigData... No, ale praca w MS to tez w pewnym sensie troche prestiz...

MiL-   9 #30 19.10.2015 09:18

@zyrol81: Jak to po co? A jeżeli ktoś szuka smartfona sprzed 4 lat to co wtedy? Ma się pokazać napis: Sorry brak danych?

pdok66   3 #31 19.10.2015 09:24

swietny artykul. To bardzo przyszlosciowy kierunek. W branzy finansowej (w jakiej pracuje) to wielki temat.

pilot67   3 #32 19.10.2015 09:26

Ciekawe ile z tego, to dane wysyłane do wszelakich chmur przez nieświadomych użytkowników smartfonów i innych zabawek?

zyrol81   9 #33 19.10.2015 09:46

@MiL-: Dlatego powinny być mechanizmy które to kontrolują. Co innego informacje na temat danego telefonu, a co innego temat na forum.

  #34 19.10.2015 10:01

Cytat" Ale to wszystko może okazać się niczym w porównaniu do przewidywanych 50 miliardów urządzeń Internetu Rzeczy."

ktoś wytłumaczy co autor miał na myśli?

  #35 19.10.2015 10:03

@zyrol81: A jak bedziesz odsiewal "wartosciowe" od "niewartosciowych" danych? To co dla Ciebie jest zbedne, dla innej osoby jest na wage zlota. Np. ktos kupil laptopa z drugiej reki i szuka jak rozwiazac swoj problem. Ktory de facto byl opisany 5 lat wczesniej. Dlaczego ta informacja z forum mialaby byc zniszczona?

Po drugie to od osoby zarzadzajacej szukana fraza zalezy jaki wynik dostanie. Jak masz problem z wyszukiwarka to sprecyzuj zapytanie.

Albo mozesz czekac, az wyniki wyszukiwania zostana spersalizowane do Ciebie. Ale pewnie bedziesz musial podac wiecej danych o sobie i o tym co posiadasz, etc.

mikolaj_s   14 #36 19.10.2015 10:36

@zyrol81: To właśnie jest zadanie dla inżynierów zajmujących się Big Data. Jak już napisałem jesteśmy na etapie gromadzenia danych, ale problemem jest ich przetworzenie. Tylko niewielka część z tych danych jest dobrze wykorzystywana. Potrzebny jest dalszy rozwój Machine Learning i technologii przetwarzania danych. Bo kto miałby przefiltrowywać i usuwać te dane, które są nieaktualne. Nie można tego robić tylko na podstawie daty, bo są rzeczy, które będą ważne jeszcze za sto lat, a są takie, które po miesiącu nie mają już znaczenia. Potrzebne są samouczące się algorytmy, które przesieją dane.

@ktoś tam Ilość danych zbieranych na użytkownika wyznacza się na podstawie dotychczasowego wzrostu i dopasowywania krzywych matematycznych oraz ich ekstrapolacji. Owa treść została zacytowana z poniższej pracy: http://www.whizpr.be/upload/medialab/21/company/Media_Presentation_2012_DigiUniv...

Autor edytował komentarz.
bbkr   4 #37 19.10.2015 12:04

@ktoś tam: Skad 140GB?

1. Dane produkujesz rowniez pasywnie. Twoje konto bankowe, Twoj dostawca pradu, Twoj operator sieci komorkowej, caly aparat panstwa. Kazdy z nich generuje i loguje dane zwiazane z obsluga uslug dla Ciebie.

2. Raz wyprodukowane dane sa zwielokrotniane pod analize wieloaspektowa. Przykladowo jak cos wpiszesz na Pejsbooku to Twoj 1KB post zamienia sie w kilkanascie MB danych przygotowanych w rozny sposob dla roznych systemow statystycznych i wnioskujacych.

Te 140GB to nie sa wylacznie dane, ktore Ty wyprodukujesz osobiscie.

Frankfurterium   10 #38 19.10.2015 12:06

@zyrol81: Patrzysz na to ze złej strony. BigData nie jest dla ciebie, szarego użytkownika internetu. Stworzono je po to, żeby móc na tobie zarabiać. Przykładowo - cztery lata temu rzuciłeś parę zapytań o tablet. Może go kupiłeś, a cztery lata to odpowiedni czas na wymianę, więc warto ci wyświetlić stosowną reklamę nowego sprzętu. Albo taki Facebook, który zapisuje ogromne ilości wiadomości na sekundę. Teraz ma narzędzia, żeby je względnie szybko przeanalizować i odpowiednio szybko zareagować (ponownie reklama albo ban na IP). Albo urząd podatkowy, który może zacząć zastanawiać się, skąd masz fundusze na to wszystko, o czym rozpisujesz po internetach.

Autor edytował komentarz.
mikolaj_s   14 #39 19.10.2015 17:51

@Anonim (niezalogowany): "Cytat" Ale to wszystko może okazać się niczym w porównaniu do przewidywanych 50 miliardów urządzeń Internetu Rzeczy."

ktoś wytłumaczy co autor miał na myśli?"

Internet Rzeczy, czyli inteligentna sieć czujników, przełączników, maszyn połączony z serwerami i komputerami sterującymi, będzie zbierać nieustannie masę informacji z tych wszystkich czujników (w tym również nagrywanie obrazów i dźwięków), zapamiętywać wszystkie zdarzenia i działania podjęte przez ludzi i same komputery sterujące. To wytworzy większą ilość danych niż focie, które sobie ludzie napstrykają.

ktoś tam   8 #40 19.10.2015 18:57

@Ernest Magnus: Wybacz, liczyłem na podstawie jednego filmu. W nazwie pliku było HD, uznałem to za 1080p, a było to 720p. Z poprawionych wyliczeń wychodzi mi ok 12 h. Dzięki, już poprawiam.

@bbkr "Do 2020 roku co sekundę będzie się produkować 1.7 MB danych na każdego człowieka na Ziemi..."
Tak więc:
60 * 60 * 24 * 1,7 = 3600 * 24 * 1,7 = 86400 * 1,7 = 146880
czyli 146,880 GB lub 143,4375 GB, zależnie od tego, jak liczymy.

Rozumiem, jak powstają te dane. Dziwi mnie tylko, że tak dużo. Przyjmując, że używamy dysków 1 TB, to co tydzień potrzeba by było 1 mld nowych dysków. Uwzględniając przyrost naturalny pewnie ok 1,2 mld.

Autor edytował komentarz.
Ernest Magnus   8 #41 19.10.2015 21:27

@ktoś tam: Nawet nie zwróciłem uwagi na obliczenia :) Chodziło mi o samą koncepcje nagrywania wszystkiego co się widzi - zbieranie danych dla siebie samego było by ciekawe.

mikolaj_s   14 #42 19.10.2015 21:47

@ktoś tam: "Dziwi mnie tylko, że tak dużo."
Teraz mamy jakieś 0,4MB na sekundę na osobę. Do 2020 wzrośnie 4 razy, jeśli tendencja się utrzyma. A dyski będą robić coraz bardziej pojemne. Oczywiście problem przechowywania polega nie tylko na tym ile się zbiera, ale jak długo się przechowuje stare dane.

En_der   9 #43 19.10.2015 22:55

Mocny wpis, dawno nie spotkałem tak ciekawie zestawionych informacji - Pogratulować wiedzy i pracy włożonej w napisanie tego artykułu.
PS.
Te 44 ZB, to osiągniemy bez wysiłku, ponieważ 364 dni w roku, spędzane w sieci, musi dawać wyniki- Jednak boje się, że kiedy oddamy Internetowi, ten jeden, ostatni dzień, przeznaczony na telewizję- liczba 44 może drastycznie zostać pomnożona przez dwa, a odpowiedzialność za taki stan będzie ponosiła wszechobecna reklama, która zabija ochotę na użytkowanie czegokolwiek.

Autor edytował komentarz.
zyrol81   9 #44 20.10.2015 15:33

@Frankfurterium: Innymi słowy, mam rozumieć, że wszystko co napisałem i wysłałem do internetu może być w jakiś sposób wykorzystane przez podmioty trzecie i nie można ich usuwać? Rozumiem zatem, że dane generalnie nieużytkowe i zbędne dla kogoś takiego jak ja sa używane do inwigilacji ludzików.

ktoś tam   8 #45 20.10.2015 18:10

@mikolaj_s: To także ciekawa kwestia. Trzeba zwalniać miejsce, a danych jest za dużo, żeby je wcześniej przeanalizować. Ciekawe, co z nimi robią i jaka jest selekcja.

@Ernest Magnus Były już projekty tego rodzaju. Zakładali ochotnikom małe kamerki na ubrania, które robiły zdjęcia co określoną ilość czasu. Później sklejali to w film.

@En_der A rok przestępny? :D Jak dla mnie telewizja powinna przestać istnieć. Sama jej koncepcja nie ma dzisiaj sensu. Płaci się zwykle tyle, co za internet, przy czym internet także trzeba mieć, brak wyboru, co chce się oglądać, denna treść programów, masa reklam i kompletny brak interaktywności. Lepiej już wykupić lepsze łącze i oglądać, co się chce w internecie. Mniejsze koszta, szeroki wybór, treść i tematyka, taka, jaką wybierzemy (w takim wypadku znacznie by wzrosła, ze względu na zwiększoną konkurencję), mniej reklam i kontakt z innymi. Do tego oczywiście lepsze łącze i szybszy rozwój sieci.

Autor edytował komentarz.
Frankfurterium   10 #46 20.10.2015 18:48

@zyrol81: W sumie tak. Dane były zbierane (i sprzedawane) od zawsze. Kiedy gdziekolwiek się rejestrujesz albo cokolwiek podpisujesz, prawie zawsze zgadzasz się (jakieś checkboxy, polityki prywatności albo sama treść licencji/regulaminu) na zbieranie i/lub przetwarzanie pozornie niewiele znaczących informacji. Ty zezwalałeś, oni wreszcie mają narzędzie. Z drugiej strony może nie warto zakładać, że jedynym celem wykorzystania danych jest zrobienie ci przykrości. Google wyświetli ci reklamę, ale np.Tesla będzie uczył sztuczną inteligencję autonomicznego pojazdu, a jakiś uniwersytet wykorzysta dane do badań naukowych. BigData to, jak nóż, tylko narzędzie.

zyrol81   9 #47 22.10.2015 08:55

@Frankfurterium: W sumie masz trochę racji. Z góry zakłada się że dane są wykorzystywane do zrobienia człowiekowi rzeczy złych i niedobrych i w ogóle do gnębienia obywatela. Tymczasem tak na prawdę nie wiadomo do czego one są wykorzystywane. Moga być, tak jak mówisz, zbierane do dobrych celów. :) Miło w sumie to tak na to patrzeć. Chyba muszę przemyśleć sprawę. :)