1920584781 analiza danych - fotoInternet to potężny zbiór informacji, z którego tylko ok. 10 proc. jest zaindeksowana w wyszukiwarce Google. Do pozostaÅ‚ych starajÄ… siÄ™ dotrzeć badacze z Centrum Rafinacji Informacji, którzy dziÄ™ki opracowanej technologii sÄ… w stanie zebrać, oczyÅ›cić i przeanalizować dane z wielu cyfrowych źródeÅ‚. Zebrane informacje pozwalajÄ… im nie tylko okreÅ›lić zachodzÄ…ce aktualnie procesy, lecz także prognozować np. preferencje wyborcze, zmiany gospodarcze czy nastroje spoÅ‚eczne

 

Internet rozrósÅ‚ siÄ™ do takich rozmiarów, że bez pomocy zaawansowanych programów rafinacyjnych przeprowadzenie miarodajnej analizy jest niemożliwe. Do 2020 roku Å›wiat wyprodukuje 44 zettabajtów danych (1 zettabajt to bilion gigabajtów). Korzystanie z wyszukiwarki Google w celu monitorowania bieżących trendów w sieci nie wystarczy, aby przeprowadzić wiarygodne badania naukowe.

 

– Szukamy źródeÅ‚ internetowych, szukamy różnego rodzaju repozytoriów, dostÄ™pu do bibliotek. W niektórych tematach możemy również posiÅ‚kować siÄ™ mediami spoÅ‚ecznoÅ›ciowymi, które sÄ… otwarte. Może siÄ™ pojawić zarzut, dlaczego nie korzystamy z Google? W Google znajduje siÄ™ nie wiÄ™cej jak 10 proc. tej rzeczywistoÅ›ci wirtualnej, z którÄ… mamy do czynienia, musimy do tych danych dotrzeć samodzielnie, próbujemy to robić i robimy to chyba dosyć skutecznie ­â€“ mówi agencji informacyjnej Newseria Innowacje WiesÅ‚aw Cetera z Centrum Rafinacji Informacji.

 

W poczÄ…tkowej fazie każdego projektu roboty pobierajÄ… informacje z otwartych źródeÅ‚. Dane zbierane sÄ… w różnej postaci, a nastÄ™pnie sprowadzane sÄ… do postaci cyfrowej. W ten sposób powstajÄ… tzw. brudne dane. Po ich oczyszczeniu (rafinacji) przystÄ™puje siÄ™ do analizy poprzez wyszukiwanie najbardziej istotnych słów oraz powiÄ…zanych z nimi innych słów (sentymentów), majÄ…cych wydźwiÄ™k pozytywny lub negatywny.

 

– Wyszukujemy terminy podstawowe, czyli sÅ‚owa klucze, artefakty czy sÅ‚owa sÅ‚upy, nastÄ™pnie szukamy tego, co wokół nich siÄ™ znajduje, nie przetwarzamy caÅ‚oÅ›ci, ale szukamy tego co najważniejsze, i na tej podstawie jesteÅ›my w stanie okreÅ›lić, czy termin zwiÄ…zany z tematem naszych badaÅ„ zmienia siÄ™ pozytywnie, negatywnie, rozwija siÄ™ bÄ…dź po prostu zanika. Ta dokÅ‚adność prognoz jest dosyć duża, bo w przeciwieÅ„stwie do badaÅ„ ankietowych nie mamy do czynienia z populacjÄ… 200 czy 1000 badanych, ale przetwarzamy terabajty danych – mówi WiesÅ‚aw Cetera.

 

W ramach projektu Culturnomics 2.0, naukowcy z Uniwersytetu Harvarda udowodnili, że algorytmy rafinacyjne sprawdzajÄ… siÄ™ do identyfikacji i przewidywania procesów, które majÄ… dopiero nastÄ…pić. Badacze analizowali informacje upubliczniane przez media tradycyjne i cyfrowe w czasie rzeczywistym w celu okreÅ›lenia nadchodzÄ…cych zmian spoÅ‚eczno-kulturalnych. WykorzystujÄ…c tÄ™ technologiÄ™, trafnie przewidziano m.in. wybuch rewolucji na Bliskim Wschodzie, ustÄ…pienie prezydenta Egiptu Hosniego Mubaraka, a nawet przybliżone miejsce pobytu Osamy bin Ladena.

 

– Badania rafinacji informacji przede wszystkim można wykorzystać do identyfikowania różnego rodzaju procesów, które zachodzÄ… w przestrzeni gospodarczej i spoÅ‚ecznej. To preferencje wyborcze, trendy gospodarcze, udziaÅ‚y w rynku, pomiary marki itd., ale możemy też spróbować odpowiedzieć na pytanie: jak bÄ™dzie? Jeżeli znajdziemy jakiÅ› odnoÅ›nik czy proces, który toczy siÄ™ obiektywnie, który jest mierzalny i znajdziemy relacjÄ™ miÄ™dzy Å›wiatem wirtualnym a danymi rzeczywistymi, to możemy poprzez po pierwsze korelacje, po drugie analizÄ™ regresji, starać siÄ™ przewidzieć, co bÄ™dzie w przyszÅ‚oÅ›ci – przekonuje ekspert.

 

Analitycy Research Cosmos szacujÄ…, że wartość narzÄ™dzi analitycznych Big Data ma siÄ™gnąć 9 mld dol. w 2023 roku, przy Å›redniorocznym tempie wzrostu na poziomie 21,15 proc. WedÅ‚ug szacunków Cisco w 2017 roku użytkownicy internetu przesyÅ‚ali każdego miesiÄ…ca 94,55 eksabajty danych, a do 2021 roku wartość ta ma wzrosnąć do 235,66 eksabajtów.

 

 

 

Źródło: Newseria