Metode analize velikih podatkov. Veliki podatki v sodobnem svetu

(dobesedno - veliki podatki)? Poglejmo najprej Oxfordov slovar:

Podatki - količine, znake ali simbole, s katerimi računalnik deluje in jih je mogoče shraniti in prenašati v obliki električnih signalov, posnetih na magnetnih, optičnih ali mehanskih medijih.

Izraz Veliki podatki se uporablja za opis velikega nabora podatkov, ki s časom eksponentno raste. Če želite obdelati to količino podatkov, ne morete brez strojnega učenja.

Prednosti, ki jih nudijo veliki podatki:

Zbiranje podatkov iz različnih virov.
Izboljšanje poslovnih procesov s sprotno analitiko.
Shranjevanje ogromne količine podatkov.
Vpogledi. Big Data je bolj razsoden glede skritih informacij s strukturiranimi in polstrukturiranimi podatki.
Big Data vam pomaga zmanjšati tveganje in sprejeti pametne odločitve s pravo analizo tveganja

Primeri velikih podatkov

Newyorška borza ustvarja vsak dan 1 terabajt podatki o poslih za zadnjo sejo.

Socialni mediji: statistika kaže, da baza podatkov facebook podatki dnevno naložen 500 terabajtov novi podatki nastanejo predvsem zaradi nalaganja fotografij in videoposnetkov na strežnike družbenega omrežja, sporočanja, komentarjev pod objavami itd.

Reaktivni motor ustvarja 10 terabajtov podatkov med letom vsakih 30 minut. Ker vsak dan opravijo na tisoče letov, obseg podatkov doseže petabajte.

Klasifikacija velikih podatkov

Obrazci za velike podatke:

Strukturirano
Nestrukturirano
Polstrukturiran

Strukturirana oblika

Podatki, ki jih je mogoče shraniti, do njih dostopati in jih obdelati v določeni obliki, se imenujejo strukturirani. V preteklih letih je računalništvo zelo napredovalo pri izboljševanju tehnik dela s tovrstnimi podatki (kjer je format vnaprej znan) in se naučilo, kako lahko koristi. Vendar pa že danes obstajajo težave, povezane z naraščanjem količin na velikosti, izmerjene v območju več zettabajtov.

1 zettabajt je enak milijardi terabajtov

Če pogledamo te številke, je enostavno preveriti resničnost izraza Veliki podatki in težave, povezane z obdelavo in shranjevanjem takih podatkov.

Podatki, shranjeni v relacijski bazi podatkov, so strukturirani in izgledajo na primer kot tabele zaposlenih v podjetju

Nestrukturirana oblika

Podatki neznane strukture so razvrščeni kot nestrukturirani. Poleg velike oblike je za to obliko značilna še vrsta težav pri obdelavi in \u200b\u200bpridobivanju koristnih informacij. Tipičen primer nestrukturiranih podatkov je heterogen vir, ki vsebuje kombinacijo preprostih besedilnih datotek, slik in videoposnetkov. Današnje organizacije imajo dostop do velikih količin neobdelanih ali nestrukturiranih podatkov, vendar ne vedo, kako bi jim koristile.

Polstrukturirana oblika

Ta kategorija vsebuje oboje zgoraj, zato imajo polstrukturirani podatki neko obliko, vendar v resnici niso definirani s pomočjo tabel v relacijskih zbirkah podatkov. Primer te kategorije so osebni podatki, predstavljeni v datoteki XML.

Prashant raoMoški35 Seema R.Ženska41 Satenasta grivaMoški29 Subrato RoyMoški26 Jeremiah J.Moški35

Značilnosti velikih podatkov

Rast velikih podatkov skozi čas:

Modra barva predstavlja strukturirane podatke (podatki podjetja), ki so shranjeni v relacijskih zbirkah podatkov. Druge barve so nestrukturirani podatki iz različnih virov (IP telefonija, naprave in senzorji, socialna omrežja in spletne aplikacije).

Po Gartnerju se veliki podatki razlikujejo po obsegu, stopnji generiranja, sorti in variabilnosti. Oglejmo si te značilnosti podrobneje.

Glasnost... Izraz Veliki podatki je povezan z velikostjo. Velikost podatkov je najpomembnejša meritev pri določanju nadomestljive vrednosti. Digitalne medije vsak dan uporablja 6 milijonov ljudi, ki naj bi ustvarili 2,5 kvintiljona bajtov podatkov. Zato je prostornina prva značilnost, ki jo je treba upoštevati.
Raznolikost - naslednji vidik. Sklicuje se na heterogene vire in naravo podatkov, ki so lahko strukturirani ali nestrukturirani. V preteklosti so bile preglednice in zbirke podatkov edini vir informacij, ki so ga upoštevali v večini aplikacij. Danes se v analitičnih aplikacijah upoštevajo tudi podatki v obliki e-pošte, fotografij, video posnetkov, datotek PDF, zvoka. Ta vrsta nestrukturiranih podatkov povzroča težave pri shranjevanju, izdelavi in \u200b\u200banalizi: 27% podjetij ni prepričanih, da dela s pravimi podatki.
Hitrost generacije... Kako hitro se podatki zbirajo in obdelujejo, da izpolnjujejo zahteve, določa potencial. Hitrost določa hitrost dotoka informacij iz virov - poslovnih procesov, dnevnikov aplikacij, spletnih mest in medijev za družabna omrežja, senzorjev, mobilnih naprav. Pretok podatkov je skozi čas ogromen in neprekinjen.
Spremenljivost opisuje nestanovitnost podatkov v določenem trenutku, kar otežuje obdelavo in upravljanje. Tako je na primer večina podatkov nestrukturirane narave.

Analitika velikih podatkov: kakšna je uporaba velikih podatkov

Promocija blaga in storitev: Dostop do podatkov iz iskalnikov in spletnih mest, kot sta Facebook in Twitter, omogoča podjetjem, da bolje oblikujejo svoje tržne strategije.

Izboljšanje storitev za stranke: Tradicionalni sistemi povratnih informacij strank se nadomeščajo z novimi, ki za obdelavo in ocenjevanje povratnih informacij strank uporabljajo obdelavo velikih podatkov in naravni jezik.

Izračun tveganjapovezane z izdajo novega izdelka ali storitve.

Operativna učinkovitost: Veliki podatki so strukturirani tako, da hitreje pridobivajo potrebne podatke in hitro prinašajo natančne rezultate. Ta kombinacija velikih podatkov in tehnologij shranjevanja pomaga organizacijam optimizirati delo z redko uporabljenimi informacijami.

Volkova Yulia Sergeevna, študentka 4. letnika, Finančna univerza pri vladi Ruske federacije, podružnica Kaluga, Kaluga [e-pošta zaščitena]

Veliki podatki v sodobnem svetu

Povzetek: Članek je namenjen uvajanju tehnologij velikih podatkov v našo sodobno družbo. Preučene so glavne značilnosti velikih podatkov, upoštevana so glavna področja uporabe, kot so bančništvo, trgovina na drobno, zasebni in javni sektor ter celo vsakdanje življenje. Študija je pokazala pomanjkljivosti uporabe tehnologij Big Data. Nakazana je potreba po razvoju normativne ureditve uporabe velikih podatkov Ključne besede: veliki podatki, banke, bančništvo, trgovina na drobno, zasebni sektor, javni sektor.

Ko stopnja vgradljivosti informacijskih tehnologij v različna področja sodobne družbe narašča, se povečujejo zahteve po njihovi prilagodljivosti za reševanje novih problemov, ki vključujejo ogromne količine podatkov. Obstaja veliko informacij, ki jih ni mogoče obdelati na tradicionalne načine, vključno s strukturiranimi podatki, medijskimi podatki in naključnimi predmeti. In če se analiza prvih tehnologij, ki obstajajo danes, spopada slabše, potem analiza druge in tretje praktično ostaja povratno delo. Študije kažejo, da se obseg medijskih podatkov, kot so video nadzor, aerofotografija, digitalne zdravstvene informacije in naključni predmeti, shranjeni v številnih arhivih in oblakih, iz leta v leto povečuje. Dela tujih in ruskih znanstvenikov so posvečena proučevanju velikih podatkov: James Manyika, Michael Chui, Toporkov V.V., Budzko V.I. Velika podjetja, kot so McKinsey & Company, СNews Analytics, SAP, Oracle, IBM, Microsoft, Teradata in številna druga, pomembno prispevajo k proučevanju te tehnologije. Podatke obdelujejo in analizirajo ter gradijo programsko in strojno opremo na podlagi velikih podatkov. Po poročilu inštituta McKinsey je "Big Data nabor podatkov, ki je večji od običajnih zbirk podatkov programskih orodij za zajem, shranjevanje, upravljanje in analizo podatkov." Koncept velikih podatkov v bistvu pomeni delo z informacijami velikega obsega in raznolikosti, ki se nenehno posodabljajo in nahajajo v različnih virih, da bi povečali učinkovitost, ustvarili nove izdelke in povečali konkurenčnost. Svetovalno podjetje Forrester poda kratko in precej razumljivo formulacijo: »Veliki podatki združujejo tehnike in tehnologije, ki iz podatkov črpajo pomen na skrajni meji praktičnosti.« Danes je za področje velikih podatkov značilne naslednje značilnosti: Količina - obseg, nabrana baza podatkov je velika količina informacij .Hitrost –hitrost, ta znak označuje naraščajočo stopnjo kopičenja podatkov (v zadnjih 2 letih je bilo zbranih 90% informacij) Sorta - sorta, tj. možnost hkratne obdelave strukturiranih in nestrukturiranih informacij več formatov. Marketinški strokovnjaki radi dodajajo svoje Vs. Nekateri govorijo tudi o verodostojnosti, drugi dodajajo, da morajo tehnologije velikih podatkov zagotovo prinesti vrednost podjetju. Pričakuje se, da se bo do leta 2020 skupni obseg informacij na planetu vsaki dve leti podvojil. Zaradi obilice podatkov jih želite uporabiti za analizo in napovedovanje. Kolosalne količine zahtevajo ustrezne tehnologije. Današnja podjetja morajo obdelovati ogromne količine podatkov v količinah, ki si jih je težko predstavljati, kar vodi v dejstvo, da se tradicionalne zbirke podatkov ne morejo spoprijeti s takšno nalogo, kar vodi v potrebo po uvajanju tehnologij velikih podatkov. Tabela predstavlja primerjalno značilnost velikih podatkov in tradicionalnih zbirk podatkov. Osnova za oblikovanje te tabele je bila raziskava V. I. Budzka in Moskovske borze Tabela 1 Primerjalne značilnosti velikih podatkov in tradicionalnih podatkov

Tradicionalne zbirke podatkov Big Data Applications

Eno ali več predmetnih področij Obseg tehnologij velikih podatkov je velik. Od prepoznavanja preferenc kupcev do analize tveganja Karakteristike podatkov Samo strukturirani podatki Ogromne količine informacij s kompleksno heterogeno in / ali nedoločeno strukturo Metoda shranjevanja podatkov Centralizirano Decentralizirano Model shranjevanja in obdelave podatkov Vertikalni model Horizontalni model Število informacij za obdelavo Od gigabajtov (109 bajtov) do terabajtov (1015 bajtov) do 10 bajtov (1015 bajtov) (1015 bajtov) (1015 bajtov) (1015 bajtov) (1015 bajtov) (1015 bajtov) (1015 bajtov) (1015 bajtov) (10 bajtov) (10 bajtov) (10 bajtov) Na primer, obseg tradicionalnih baz podatkov zajema le eno ali več, taka področja pa morajo vsebovati le strukturirane podatke. Kar zadeva Big Data, je obseg njihove uporabe obsežen z ogromno količino informacij s kompleksno strukturo.Po rezultatih raziskave СNews Analytics, predstavljeni na sliki 1, ruski trg prihaja do takega pojava, kot so Big Data, kar kaže na povečanje stopnje zrelosti podjetij. Mnoga podjetja zaradi obsega svojih obdelanih podatkov prehajajo na tehnologije velikih podatkov, zdaj jih že več kot 44% ustvari približno 100 terabajtov, za 13% pa \u200b\u200bta količina presega 500 terabajtov.

Slika 1. Obseg informacij, obdelanih v podjetjih

Takšnih količin ni mogoče obdelati s tradicionalnimi zbirkami podatkov, zato takšna podjetja vidijo rešitev prehoda na Big Data ne le kot obdelavo ogromnih količin, temveč tudi kot povečanje konkurenčnosti, povečanje zvestobe kupcev do svojih izdelkov in privabljanje novih. Najaktivnejši kupci takšnih rešitev so banke, telekomunikacije in trgovina na drobno, njihov odstotek je prikazan na sliki 2. Manj opazno je število podjetij, ki uporabljajo ali so pripravljena na uporabo velikih podatkov v prometnem, energetskem in industrijskem sektorju. Prvi primeri uporabe velikih podatkov so se pojavili v javnem sektorju.

Slika 2. Industrijska struktura uporabe velikih podatkov

Kar zadeva zahodne vlade, naj bi digitalno gospodarstvo predstavljalo med 3% in 21% BDP G20. Ruski javni sektor pri delu z velikimi podatki še ni dosegel pomembnih rezultatov. Danes v Rusiji takšne tehnologije zanimajo predvsem komercialna podjetja: trgovske verige, banke, telekomunikacijska podjetja.Po podatkih Ruskega združenja za elektronske komunikacije obseg digitalnega gospodarstva v RF znaša le 1 bilijon. vtrite. -približno 1,5% BDP. Kljub temu ima URF velik potencial za rast digitalnega gospodarstva. Kljub kratkemu življenju sektorja velikih podatkov že obstajajo ocene učinkovite uporabe teh tehnologij, ki temeljijo na resničnih primerih. Danes banke v povprečju obdelujejo približno 3,8 petobajta podatkov, za doseganje določenih nalog uporabljajo tehnologije velikih podatkov:  zbiranje podatkov o uporabi kreditnih kartic;  zbiranje podatkov o zavarovanju s premoženjem;  zbiranje podatkov o posojilih; 44% 16% 13% 7% 20% Banke Telekom Maloprodaja Javni sektor Drugo • Zbiranje podatkov o profilih strank • Zbiranje podatkov o prihrankih strank Banke trdijo, da od začetka uporabe tehnologij Big Data lahko privabijo nove stranke, bolje komunicirajo tako z novimi kot s starimi strankami in ohranijo svojo zvestobo. Leta 2015 je CNews Analytics med tridesetimi največjimi ruskimi bankami opravil raziskavo glede na bilančno vsoto, da bi ugotovil, katere tehnologije za velike podatke uporabljajo in za katere namene. V primerjavi z raziskavo iz leta 2014 se je povečalo število 30 najboljših bank, ki poročajo o uporabi velikih podatkov, vendar je ta sprememba verjetnejša zaradi spremembe sestave prvih 30 bank. Na sliki 3 je prikazana primerjava raziskave iz leta 2015 v primerjavi z letom 2014 na podlagi raziskave A. Kiryanove.

Slika: 3. Uporaba velikih podatkov v najboljših 30 ruskih bankah

Po poročanju IBS 80% bank, ki so odgovorile pozitivno, uvaja Big Data Appliance - programsko in strojno opremo za shranjevanje in obdelavo podatkov. Te rešitve običajno delujejo kot analitični ali transakcijski pomnilnik, katerega glavna prednost je visoka zmogljivost pri delu z velikimi količinami podatkov, vendar je praksa uporabe velikih podatkov v ruskih bankah šele v povojih. Razlog za tako počasno prilagajanje v Rusiji se kaže v previdnem odnosu IT-strokovnjakov do novih tehnologij. Niso prepričani, da bodo tehnologije velikih podatkov pomagale rešiti težave v celoti, a za ameriški trg so banke že nabrale 1 eksabajt podatkov, kar lahko primerjamo z 275 milijardami mp3 zapisov. Število virov, iz katerih prihajajo informacije, je ogromno, med katerimi lahko ločimo klasične:  obiske strank v poslovalnicah banke;  evidence telefonskih klicev;  vedenje strank v družabnih omrežjih;  informacije o transakcijah s kreditnimi karticami  in drugi. Spletna trgovina na drobno uporablja velike podatke za analizirajte vedenje kupcev, oblikujte poti skozi prodajni prostor, pravilno uredite blago, načrtujte nakupe in navsezadnje povečajte prodajo. V spletni trgovini na drobno je sam prodajni mehanizem zgrajen na velikih podatkih: uporabnikom se ponudi blago na podlagi prejšnjih nakupov in njihovih osebnih preferenc, informacije o katerih se na primer zbirajo v družbenih omrežjih. Analiza velikih podatkov v obeh primerih pomaga znižati stroške, povečati zvestobo kupcev in doseči veliko občinstvo.Kot se trgovinski potencial podjetij razvija, tradicionalne zbirke podatkov ne izpolnjujejo več naraščajočih poslovnih zahtev, zato sistem ne more zagotoviti potrebne razdrobljenosti upravljavskega računovodstva. S prehodom na velike podatke nove tehnologije omogočajo optimizacijo upravljanja blagovnega prometa, doseganje ustreznosti podatkov in učinkovitost njihove obdelave za oceno posledic odločitev poslovodstva ter hitro ustvarjanje poročil o upravljanju. Skupna količina zbranih podatkov je več kot 100 eksabajtov, medtem ko le Walmart uporablja velike podatke za obdelavo 2,5 petabajtov podatkov na uro. Poleg tega se zaradi uporabe tehnologij Big Data dobičkonosnost poslovanja poveča za 60%, po statistiki Hadoop pa se po uvedbi Big Data zmogljivost analitike poveča na obdelavo 120 algoritmov, dobiček pa raste za 710%. Podatki šele začenjajo pobirati paro, saj je procesna vrzel zelo različna. Na primer, spletnih trgovcev je 18-krat manj kot na Kitajskem, celotni promet podatkov, ki se zgodi pri spletnem prodajalcu, pa je 4,5-krat manjši od ene Amazonove trgovine. Poleg tega je v Rusiji število spletnih trgovin, ki uporabljajo Big Data, manj kot 40 tisoč, v Evropi pa več kot 550 tisoč. Za ruski maloprodajni trg je značilno, da se še razvija in ni v celoti oblikovan. Kar zadeva naše vsakdanje življenje, se tukaj uporabljajo tudi tehnologije Big Data, na katere nismo niti pomislili. 15 milijonov pesmi vsak dan, kar je približno 1,5 ~ 2 petabajta, obdeluje shazam, glasbeno storitev po vsem svetu in temelji na potem glasbeni producenti napovedujejo njegovo priljubljenost. Veliki podatki se uporabljajo tudi za obdelavo podatkov o kreditnih karticah, kot sta mastercard in visa. Tako Mastercard obdela 65 milijard transakcij na leto z 1,9 milijarde kartic pri 32 milijonih trgovcev, da napove trgovinske trende. Ljudje po vsem svetu vsak dan objavijo 19 terabajtov podatkov v družabnih omrežjih, kot sta twitter in facebook. Nalagajo in obdelujejo fotografije, pišejo, posredujejo sporočila itd. Infrastruktura ima koristi tudi od tehnologij Big Data, od trolejbusov do letal in raket. Torej, v londonski metroju vsak dan turneje zabeležijo približno 20 milijonov prehodov, kot rezultat analize, ki temelji na tehnologijah Big Data, je bilo ugotovljenih 10 različnih epicentrov, kar se upošteva tudi pri nadaljnjem razvoju metroja. Nedvomno je raznolikost in obseg podatkov, ki izhajajo iz vseh vrst interakcij, močna podlaga za podjetje, da gradi in izboljšuje napovedi, prepoznava vzorce, ocenjuje učinkovitost itd. Vse pa ima svoje pomanjkljivosti, ki jih je treba tudi pravilno upoštevati. Kljub očitnim in potencialnim prednostim uporabe Big Data ima njihova uporaba tudi pomanjkljivosti, ki so povezane predvsem z velikimi količinami informacij, različnimi načini dostopa do njih in pogosto nezadostno zagotavljanjem virov funkcije informacijske varnosti v organizacijah. Težave, povezane z uporabo tehnologij velikih podatkov, so predstavljene na sliki 4.

Slika: 4. Težave pri uporabi velikih podatkov

Vse te težave vodijo do dejstva, da so številna podjetja previdna pri uvajanju velikih podatkovnih tehnologij, saj se pri delu s tretjimi osebami soočajo s problemom razkritja notranjih informacij, ki jih podjetje ne bi moglo razkriti le z lastnimi sredstvi. Po mojem mnenju je najpomembnejši korak na poti do popolne uporabe tehnologij, ki temeljijo na velikih podatkih, bi moral biti ravno zakonodajni vidik. Zdaj že obstajajo zakoni, ki omejujejo zbiranje, uporabo, shranjevanje določenih vrst osebnih podatkov, vendar velikih podatkov ne omejujejo popolnoma, zato bi morali zanje obstajati posebne zakonodajne norme. Za uskladitev s hitro spreminjajočimi se in novimi zakoni morajo podjetja najprej opraviti popis ustreznih regulativnih pravnih aktov in ta seznam redno posodabljati. Kljub vsem zgoraj naštetim pomanjkljivostim pa, kot kažejo izkušnje zahodnih predstavnikov, tehnologije Big Data pomagajo uspešno rešiti , tako sodobne poslovne naloge in povečevanje konkurenčnosti kot naloge, povezane neposredno z življenjem ljudi. Ruska podjetja so že na poti uvajanja tehnologij Big Data tako na področju proizvodnje kot na področju javnosti, saj se količina informacij vsako leto skoraj podvoji. Sčasoma se bodo številna področja našega življenja pod vplivom velikih podatkov spreminjala.

Sklici na vire 1.BudzkoV. I. Sistemi visoke razpoložljivosti in veliki podatki // Veliki podatki v nacionalnem gospodarstvu 2013. P. 1619.2. Korotkova T. "EMC Data Lake 2.0 - sredstvo za prehod na analitiko velikih podatkov in digitalno gospodarstvo" http://bigdata.cnews.ru/ news / line / 20151203_emc_data_lake_20_pomozhet_perejti_k_analitike. 3.Kiryanova A. »Veliki podatki v ruskih bankah niso postali običajni« http://www.cnews.ru/news/top/bolshie_dannye_ne_stali_mejnstrimsom: : //bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu. morajo biti prikrita, da se ohranijo izvirni viri podatkov, podjetja morajo biti prepričana, da se vse varnostne zahteve v zvezi s podatki spremljajo in podpirajo z izvajanjem rešitev Big Data vodijo k ustvarjanju ali odkrivanju predhodno zaupnih informacij Upravljanje podatkov Ohranjanje zahtev glede varnosti podatkov Pravni predpisi Ponovna identifikacija tveganja 6.CNews "Infographics: BigData Technologies" http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka.7.CNewsInfographics: Kaj lahko vsebujejo veliki podatki banke "http://bigdata.cnews.ru/articles/infografika_chto_mogut_bolshie_dannye. 8. Moskovska borza" Analitični pregled trga BigData "http://habrahabr.ru/company/moex/blog/256747/9.Veliki podatki (BigData). http://www.tadviser.ru/index.php/Article: Big_data_ (Big_Data) .10.BigData– elektrika XXI stoletja http://bit.samag.ru/archive/article/1463.11.McKinsey Globalni inštitut “Bigdata: The naslednja meja za inovacije, konkurenčnost in produktivnost “(junij 2011).

Veliki podatki so širok izraz za nekonvencionalne strategije in tehnologije, potrebne za zbiranje, organiziranje in upravljanje informacij iz velikih naborov podatkov. Čeprav težava pri obdelavi podatkov, ki presegajo procesorsko moč ali zmogljivost shranjevanja posameznega računalnika, ni nova, se je obseg in vrednost te vrste računalništva v zadnjih letih močno razširila.

V tem članku boste našli osnovne koncepte, s katerimi se lahko srečate pri raziskovanju velikih podatkov. Razpravlja tudi o nekaterih postopkih in tehnologijah, ki se trenutno uporabljajo na tem področju.

Kaj so veliki podatki?

Natančno opredelitev velikih podatkov je težko izraziti, ker ga projekti, prodajalci, izvajalci in poslovni strokovnjaki uporabljajo na zelo različne načine. Glede na to lahko velike podatke definiramo kot:

Veliki nabori podatkov.
Kategorija računskih strategij in tehnologij, ki se uporabljajo za obdelavo velikih naborov podatkov.

V tem kontekstu „velik nabor podatkov“ pomeni nabor podatkov, ki je prevelik za obdelavo ali shranjevanje s tradicionalnimi orodji ali v enem računalniku. To pomeni, da se splošni obseg velikih naborov podatkov nenehno spreminja in se lahko od primera do primera bistveno razlikuje.

Sistemi velikih podatkov

Osnovne zahteve za delo z velikimi podatki so enake kot pri katerem koli drugem naboru podatkov. Vendar obsežen obseg, hitrost obdelave in značilnosti podatkov, s katerimi se srečujemo v vsaki fazi postopka, predstavljajo velike nove izzive pri načrtovanju orodij. Cilj večine velikih podatkovnih sistemov je razumeti in komunicirati z velikimi količinami heterogenih podatkov, kar pri običajnih metodah ne bi bilo mogoče.

Leta 2001 je Doug Laney iz Gartnerja predstavil "Tri Vs velikih podatkov", da bi opisal nekatere značilnosti, ki ločujejo obdelavo velikih podatkov od drugih vrst obdelave podatkov:

Obseg (obseg podatkov).
Hitrost (hitrost zbiranja in obdelave podatkov).
Raznolikost (raznolikost vrst obdelanih podatkov).

Obseg podatkov

Obseg obdelanih informacij pomaga določiti sisteme velikih podatkov. Ti nabori podatkov so lahko za velikost večji od običajnih naborov podatkov, kar zahteva več pozornosti na vsaki stopnji obdelave in shranjevanja.

Ker zahteve presegajo zmožnosti enega samega računalnika, je pogosto težko združiti, razporediti in uskladiti vire iz računalniških skupin. Na tem področju postajajo vse pomembnejši nadzor grozdov in algoritmi, ki lahko razdelijo naloge na manjše dele.

Hitrost kopičenja in obdelave

Druga značilnost, ki ločuje velike podatke od drugih podatkovnih sistemov, je hitrost, s katero se informacije premikajo skozi sistem. Podatki pogosto prihajajo v sistem iz več virov in jih je treba v realnem času obdelati, da se posodobi trenutno stanje sistema.

Ta poudarek na takojšnjih povratnih informacijah je mnoge izvajalce opustil paketno usmerjen pristop k sistemu za pretakanje v realnem času. Podatki se nenehno dodajajo, obdelujejo in analizirajo, da sledijo prilivu novih informacij in dobijo dragocene podatke že v zgodnji fazi, ko je to najbolj pomembno. Za to so potrebni zanesljivi sistemi z visoko razpoložljivimi komponentami za zaščito pred napakami po podatkovnem cevovodu.

Raznolikost vrst obdelanih podatkov

Veliki podatki imajo številne edinstvene izzive, povezane s široko paleto obdelanih virov in njihovo relativno kakovostjo.

Podatki lahko prihajajo iz notranjih sistemov, kot so dnevniki aplikacij in strežnikov, viri družabnih omrežij in drugi zunanji API-ji, senzorji fizičnih naprav in drugi viri. Namen sistemov velikih podatkov je obdelava potencialno koristnih podatkov, ne glede na njihov izvor, z združevanjem vseh informacij v en sam sistem.

Oblike in vrste predstavnosti se lahko tudi precej razlikujejo. Predstavnostne datoteke (slike, video in zvok) so kombinirane z besedilnimi datotekami, strukturiranimi dnevniki itd. Bolj tradicionalni sistemi za obdelavo podatkov pričakujejo, da bodo podatki vstopili v cevovod že označeni, formatirani in organizirani, vendar sistemi velikih podatkov običajno sprejemajo in shranjujejo podatke s poskusom ohranijo prvotno stanje. V idealnem primeru se med predelavo v pomnilniku pojavijo kakršne koli spremembe ali spremembe surovih podatkov.

Druge značilnosti

Sčasoma so strokovnjaki in organizacije predlagali razširitev prvotnih treh V-jev, čeprav te novosti običajno opisujejo težave in ne značilnosti velikih podatkov.

Verodostojnost: raznolikost virov in zapletenost obdelave lahko privede do težav pri ocenjevanju kakovosti podatkov (in s tem kakovosti nastale analize)
Spremenljivost: spreminjanje podatkov povzroči velike spremembe v kakovosti. Za prepoznavanje, obdelavo ali filtriranje podatkov nizke kakovosti bodo morda potrebni dodatni viri, ki lahko izboljšajo kakovost podatkov.
Vrednost: Končni cilj velikih podatkov je vrednost. Včasih so sistemi in procesi zelo zapleteni, kar otežuje uporabo podatkov in pridobivanje dejanskih vrednosti.

Življenjski cikel velikih podatkov

Torej, kako se dejansko obdelujejo veliki podatki? Obstaja več različnih pristopov k izvajanju, vendar obstajajo podobnosti v strategijah in programski opremi.

Vnos podatkov v sistem
Shranjevanje podatkov v pomnilnik
Izračun in analiza podatkov
Vizualizacija rezultatov

Preden se poglobimo v te štiri kategorije delovnih tokov, se pogovorimo o računalništvu v gručah, pomembni strategiji, ki jo uporabljajo številna orodja za velike podatke. Nastavitev računske grozde je hrbtenica tehnologije, ki se uporablja v vsaki fazi življenjskega cikla.

Računalništvo grozdov

Zaradi kakovosti velikih podatkov posamezni računalniki niso primerni za obdelavo podatkov. Grozdi so za to primernejši, saj se lahko spoprimejo s potrebami po shranjevanju in računskih podatkih velikih podatkov.

Programska oprema za združevanje velikih podatkov združuje vire številnih majhnih strojev, katerih cilj je zagotoviti številne prednosti:

Združevanje virov: obdelava velikih naborov podatkov zahteva veliko procesorskih in pomnilniških virov ter veliko razpoložljivega prostora za shranjevanje.
Visoka razpoložljivost: Grozdi lahko zagotavljajo različne stopnje odpornosti in razpoložljivosti napak, tako da okvare strojne ali programske opreme ne vplivajo na dostop in obdelavo podatkov. To je še posebej pomembno za sprotno analitiko.
Razširljivost: Grozdi podpirajo hitro zmanjševanje (dodajanje novih strojev v gručo).

Delo v gruči zahteva orodja za upravljanje članstva v gruči, usklajevanje dodeljevanja virov in načrtovanje dela s posameznimi vozlišči. Članstvo v grozdih in dodelitev virov je mogoče rešiti s programi, kot sta Hadoop YARN (Yet Another Resource Negotiator) ali Apache Mesos.

Montažna računalniška grozd pogosto deluje kot hrbtenica, s katero druga programska oprema sodeluje pri obdelavi podatkov. Stroji, ki sodelujejo v računski gruči, so običajno povezani tudi z upravljanjem porazdeljenega sistema za shranjevanje.

Prejemanje podatkov

Prejem podatkov je postopek dodajanja neobdelanih podatkov v sistem. Zapletenost te operacije je v veliki meri odvisna od oblike in kakovosti podatkovnih virov ter od tega, kako dobro podatki izpolnjujejo zahteve za obdelavo.

V sistem lahko s posebnimi orodji dodate velike podatke. Tehnologije, kot je Apache Sqoop, lahko obstoječe podatke vzamejo iz relacijskih baz podatkov in jih dodajo v sistem velikih podatkov. Uporabite lahko tudi Apache Flume in Apache Chukwa - projekta za združevanje in uvoz dnevnikov aplikacij in strežnika. Posredniki sporočil, kot je Apache Kafka, se lahko uporabljajo kot vmesnik med različnimi generatorji podatkov in velikim podatkovnim sistemom. Okvirji, kot je Gobblin, lahko kombinirajo in optimizirajo rezultate vseh instrumentov na koncu plinovoda.

Analiza, razvrščanje in označevanje se običajno izvaja med zbiranjem podatkov. Ta postopek se včasih imenuje ETL (ekstrakt, preoblikovanje, nalaganje), kar pomeni ekstrakcijo, preoblikovanje in nalaganje. Čeprav se izraz običajno nanaša na starejše procese shranjevanja, se včasih uporablja tudi za sisteme velikih podatkov. Tipične operacije vključujejo spreminjanje dohodnih podatkov za formatiranje, kategoriziranje in označevanje, filtriranje ali preverjanje skladnosti podatkov.

V idealnem primeru vhodni podatki prehajajo v minimalno oblikovanje.

Shranjevanje podatkov

Po prejemu se podatki posredujejo komponentam, ki upravljajo shrambo.

Običajno porazdeljeni datotečni sistemi se uporabljajo za shranjevanje neobdelanih podatkov. Rešitve, kot je HDFS iz Apache Hadoop, omogočajo zapisovanje velikih količin podatkov v več vozlišč v gruči. Ta sistem omogoča računskim virom dostop do podatkov, lahko naloži podatke v RAM gruče za pomnilniške operacije in obravnava napake komponent. Namesto HDFS se lahko uporabljajo drugi porazdeljeni datotečni sistemi, vključno s Ceph in GlusterFS.

Podatke lahko uvozite tudi v druge porazdeljene sisteme za bolj strukturiran dostop. Porazdeljene baze podatkov, zlasti baze podatkov NoSQL, so zelo primerne za to vlogo, saj lahko obdelujejo heterogene podatke. Obstaja veliko različnih vrst porazdeljenih baz podatkov, izbira je odvisna od tega, kako želite organizirati in predstaviti svoje podatke.

Izračun in analiza podatkov

Ko so podatki na voljo, lahko sistem začne z obdelavo. Računska plast je morda najbolj svoboden del sistema, saj se zahteve in pristopi tukaj lahko zelo razlikujejo glede na vrsto informacij. Podatki so pogosto obdelani z enim samim orodjem ali z vrsto orodij za obdelavo različnih vrst podatkov.

Šaržna obdelava je ena od metod za računanje velikih naborov podatkov. Ta postopek vključuje razčlenitev podatkov na manjše koščke, načrtovanje obdelave vsakega kosa na ločenem stroju, prerazporeditev podatkov na podlagi vmesnih rezultatov ter nato izračunavanje in zbiranje končnega rezultata. To strategijo uporablja MapReduce iz Apache Hadoop. Šaržna obdelava je najbolj uporabna pri delu z zelo velikimi nabori podatkov, ki zahtevajo veliko računanja.

Za druge delovne obremenitve je potrebna obdelava v realnem času. Hkrati je treba informacije takoj obdelati in pripraviti, sistem pa se mora pravočasno odzvati, ko bodo nove informacije na voljo. Eden od načinov za sprotno obdelavo je obdelava neprekinjenega toka podatkov iz ločenih elementov. Druga pogosta značilnost procesorjev v realnem času je izračun podatkov v pomnilniku grozda, s čimer se izognemo zapisovanju na disk.

Apache Storm, Apache Flink in Apache Spark ponujajo različne načine za izvajanje obdelave v realnem času. Te prilagodljive tehnologije vam omogočajo, da izberete najboljši pristop za vsak poseben problem. Na splošno je obdelava v realnem času najbolj primerna za analizo majhnih podatkov, ki se spremenijo ali hitro dodajo v sistem.

Vsi ti programi so okviri. Vendar pa obstaja veliko drugih načinov za izračun ali analizo podatkov v sistemu velikih podatkov. Ta orodja se pogosto vključijo v zgornje okvire in nudijo dodatne vmesnike za interakcijo z osnovnimi sloji. Na primer, Apache Hive ponuja vmesnik podatkovnega skladišča za Hadoop, Apache Pig ponuja vmesnik za poizvedbe, interakcije s podatki SQL pa so na voljo s pomočjo Apache Drill, Apache Impala, Apache Spark SQL in Presto. Strojno učenje uporablja Apache SystemML, Apache Mahout in MLlib iz Apache Spark. Za neposredno analitično programiranje, ki ga močno podpira podatkovni ekosistem, se uporabljata R in Python.

Vizualizacija rezultatov

Prepoznavanje trendov ali sprememb podatkov skozi čas je pogosto pomembnejše od pridobljenih vrednosti. Vizualizacija podatkov je eden najbolj uporabnih načinov za prepoznavanje trendov in organiziranje velikega števila podatkovnih točk.

Obdelava v realnem času se uporablja za vizualizacijo meritev aplikacij in strežnikov. Podatki se pogosto spreminjajo in velik razpon meritev običajno kaže na pomemben vpliv na zdravje sistemov ali organizacij. Projekti, kot je Prometheus, se lahko uporabljajo za obdelavo in vizualizacijo podatkovnih tokov in časovnih vrst.

Eden od priljubljenih načinov za vizualizacijo podatkov je sklad Elastic, prej znan kot sklad ELK. Logstash se uporablja za zbiranje podatkov, Elasticsearch za indeksiranje podatkov in Kibana za vizualizacijo. Elastični kup lahko deluje z velikimi podatki, vizualizira rezultate izračunov ali komunicira s surovimi meritvami. Podoben kup lahko dobimo tako, da združimo Apache Solr za indeksiranje z vilicami Kibana, imenovano Banana, za upodabljanje. Ta kup se imenuje Silk.

Druga tehnologija vizualizacije za interaktivno delo s podatki so dokumenti. Takšni projekti omogočajo interaktivno raziskovanje in vizualizacijo podatkov v obliki, ki je enostavna za skupno rabo in predstavitev podatkov. Jupyter Notebook in Apache Zeppelin sta priljubljena primera te vrste vmesnika.

Slovarček velikih podatkov

Veliki podatki so širok izraz za nabore podatkov, ki jih običajni računalniki ali orodja ne morejo pravilno obdelati zaradi svoje velikosti, hitrosti prihoda in raznolikosti. Izraz se pogosto uporablja tudi za tehnologije in strategije za delo s takimi podatki.
Šaržna obdelava je računska strategija, ki vključuje obdelavo velikih naborov podatkov. Običajno je ta metoda idealna za obdelavo podatkov, ki niso nujni.
Grozdeno računalništvo je praksa združevanja virov več strojev in upravljanja njihovih skupnih zmogljivosti za dokončanje nalog. To zahteva plast za upravljanje gruče, ki ureja komunikacijo med posameznimi vozlišči.
Podatkovno jezero je veliko skladišče zbranih podatkov v razmeroma surovem stanju. Ta izraz se pogosto uporablja za nestrukturirane in pogosto spreminjajoče se velike podatke.
Podatkovno rudarjenje je širok izraz za različne prakse iskanja vzorcev v velikih naborih podatkov. To je poskus organiziranja množice podatkov v bolj razumljiv in skladen nabor informacij.
Podatkovno skladišče je velika, urejena shramba za analizo in poročanje. Za razliko od podatkovnega jezera je skladišče sestavljeno iz formatiranih in urejenih podatkov, ki so integrirani z drugimi viri. Podatkovna skladišča se pogosto omenjajo v zvezi z velikimi podatki, vendar so pogosto sestavni deli običajnih sistemov za obdelavo podatkov.
ETL (ekstrahiraj, pretvori in naloži) - ekstrahiraj, pretvori in naloži podatke. Tako je videti postopek pridobivanja in priprave surovih podatkov za uporabo. To je povezano s podatkovnimi skladišči, vendar so značilnosti tega postopka tudi v cevovodih za velike podatke.
Hadoop je odprtokodni projekt Apache za velike podatke. Sestavljen je iz porazdeljenega datotečnega sistema, imenovanega HDFS, in načrtovalnika gruč in virov, imenovanega YARN. Možnosti paketne obdelave zagotavlja računalniški mehanizem MapReduce. Drugi računalniški in analitični sistemi se lahko izvajajo z MapReduce v sodobnih uvedbah Hadoop.
Izračun v pomnilniku je strategija, ki vključuje premikanje vseh delujočih naborov podatkov v pomnilnik gruč. Vmesni izračuni niso zapisani na disk, temveč so shranjeni v pomnilniku. To daje sistemom veliko hitrostno prednost pred sistemi, povezanimi z V / I.
Strojno učenje je raziskava in praksa oblikovanja sistemov, ki se lahko učijo, prilagajajo in izboljšujejo na podlagi podatkov, ki so mu posredovani. Običajno to pomeni izvajanje napovednih in statističnih algoritmov.
Map Reduce (ne smemo ga zamenjati s Hadoopovim MapReduce) je algoritem za razporejanje računske gruče. Postopek vključuje delitev naloge med vozlišči in pridobitev vmesnih rezultatov, premešanje in nato izpisovanje ene same vrednosti za vsak niz.
NoSQL je širok izraz za zbirke podatkov, razvite zunaj tradicionalnega relacijskega modela. Baze podatkov NoSQL so zaradi svoje prilagodljivosti in porazdeljene arhitekture zelo primerne za velike podatke.
Pretakanje je praksa izračunavanja posameznih podatkovnih postavk, ko se premikajo skozi sistem. To omogoča analizo podatkov v realnem času in je primeren za obravnavanje nujnih transakcij z uporabo hitrih meritev.

Oznake :,

Na podlagi materialov iz raziskav in trendov

Big Data, "Big Data", že nekaj let govori o mestu v informacijskem in marketinškem tisku. In to je razumljivo: digitalne tehnologije so prežele življenje sodobnega človeka, "vse je zapisano". Obseg podatkov o različnih vidikih življenja narašča, hkrati pa naraščajo možnosti za shranjevanje informacij.

Globalne tehnologije za shranjevanje informacij

Vir: Hilbert in Lopez, "Svetovne tehnološke zmogljivosti za shranjevanje, sporočanje in računanje informacij," Science, 2011 Global.

Večina strokovnjakov se strinja, da je pospeševanje rasti podatkov objektivna realnost. Socialna omrežja, mobilne naprave, podatki merilnih naprav, poslovne informacije so le nekatere vrste virov, ki lahko ustvarijo ogromno informacij. Glede na raziskave IDCDigitalno vesolje objavljeno leta 2012, bo naslednjih 8 let količina podatkov na svetu dosegla 40 Zb (zettabajtov), \u200b\u200bkar ustreza 5200 GB za vsakega prebivalca planeta.

Rast zbranih digitalnih informacij v ZDA

Vir: IDC

Pomemben del informacij ne ustvarijo ljudje, temveč roboti, ki medsebojno sodelujejo in z drugimi podatkovnimi omrežji, kot so na primer senzorji in pametne naprave. S takšnimi stopnjami rasti se bo količina podatkov na svetu po napovedih raziskovalcev vsako leto podvojila. Število navideznih in fizičnih strežnikov na svetu se bo zaradi širitve in ustvarjanja novih podatkovnih centrov povečalo za desetkrat. V zvezi s tem narašča potreba po učinkoviti uporabi in monetizaciji teh podatkov. Ker uporaba velikih podatkov v podjetju zahteva veliko naložb, morate jasno razumeti situacijo. In v bistvu je preprosto: učinkovitost vašega podjetja lahko povečate tako, da zmanjšate stroške in / in povečate prodajo.

Za kaj so namenjeni veliki podatki?

Paradigma velikih podatkov opredeljuje tri glavne vrste nalog.

Shranjevanje in upravljanje na stotine terabajtov ali petabajtov podatkov, ki jih običajne relacijske baze podatkov ne morejo učinkovito uporabiti.
Organizacija nestrukturiranih informacij, sestavljenih iz besedila, slik, videoposnetkov in drugih vrst podatkov.
Analiza Big Data, ki postavlja vprašanje, kako delati z nestrukturiranimi informacijami, generiranje analitičnih poročil, pa tudi izvajanje napovednih modelov.

Trg projektov Big Data se seka s trgom poslovne inteligence (BA), katerega obseg je po ocenah strokovnjakov leta 2012 znašal približno 100 milijard dolarjev. Vključuje komponente omrežne tehnologije, strežnike, programsko opremo in tehnične storitve.

Uporaba tehnologij Big Data je pomembna tudi za rešitve razreda zajamčenega dohodka (RA), namenjene avtomatizaciji dejavnosti podjetij. Sodobni sistemi garancija za dohodek vključuje orodja za odkrivanje neskladnosti in poglobljeno analizo podatkov, ki omogočajo pravočasno odkrivanje morebitnih izgub ali izkrivljanja informacij, ki lahko vodijo do zmanjšanja finančnih rezultatov. Glede na to ruska podjetja, ki potrjujejo prisotnost povpraševanja po tehnologijah velikih podatkov na domačem trgu, ugotavljajo, da so dejavniki, ki spodbujajo razvoj velikih podatkov v Rusiji, rast podatkov, pospešitev sprejemanja upravljavskih odločitev in izboljšanje njihove kakovosti.

Kaj preprečuje delo z velikimi podatki

Danes se analizira le 0,5% nakopičenih digitalnih podatkov, kljub temu da obstajajo objektivne naloge po celotni panogi, ki jih je mogoče rešiti z analitičnimi rešitvami razreda Big Data. Razviti trgi IT že imajo rezultate, s katerimi lahko ocenimo pričakovanja, povezana s kopičenjem in obdelavo velikih podatkov.

Poleg visokih stroškov je upoštevan tudi eden glavnih dejavnikov, ki ovira izvajanje projektov velikih podatkov problem izbire podatkov za obdelavo: to je določitev, katere podatke je treba pridobiti, shraniti in analizirati in katerih ne bi smeli upoštevati.

Številni predstavniki podjetij ugotavljajo, da so težave pri izvajanju projektov Big Data povezane s pomanjkanjem strokovnjakov - tržnikov in analitikov. Stopnja donosnosti naložbe v Big Data je neposredno odvisna od kakovosti dela zaposlenih, ki se ukvarjajo s poglobljeno in napovedno analitiko. Ogromen potencial podatkov, ki že obstajajo v organizaciji, tržniki sami pogosto ne morejo učinkovito uporabiti zaradi zastarelih poslovnih procesov ali notranjih predpisov. Zato podjetja podjetja Big Data projekte pogosto dojemajo kot težke ne samo pri njihovi izvedbi, temveč tudi pri ocenjevanju rezultatov: vrednosti zbranih podatkov. Posebnosti dela s podatki zahtevajo, da tržniki in analitiki svojo pozornost preusmerijo s tehnologije in ustvarijo poročila za reševanje določenih poslovnih težav.

Zaradi velikega obsega in velike hitrosti pretoka podatkov postopek zbiranja podatkov vključuje postopke ETL v realnem času. Za referenco:ETL - odangleščinaIzvleček, Preobrazba, Naloži - dobesedno "pridobivanje, preoblikovanje, nalaganje") - eden glavnih procesov v upravljanju podatkovna skladišča, ki vključuje: pridobivanje podatkov iz zunanjih virov, njihovo preoblikovanje in čiščenje, ki ustreza potrebam Na ETL ne bi smeli gledati le kot na postopek prenosa podatkov iz ene aplikacije v drugo, temveč tudi kot orodje za pripravo podatkov na analizo.

In potem morajo vprašanja zagotavljanja varnosti podatkov, ki prihajajo iz zunanjih virov, imeti rešitve, ki ustrezajo količini zbranih informacij. Ker se metode analize velikih podatkov zaenkrat razvijajo šele po rasti obsega podatkov, ima pomembno vlogo lastnost analitičnih platform, da uporabljajo nove metode priprave in združevanja podatkov. To nakazuje, da so na primer podatki o potencialnih strankah ali množična shramba podatkov z zgodovino klikov na spletnih mestih trgovin lahko zanimivi za reševanje različnih težav.

Težave se ne ustavijo

Kljub vsem težavam z izvajanjem Big Data namerava podjetje povečati naložbe na tem področju. Po podatkih Gartnerja je leta 2013 64% največjih svetovnih podjetij že investiralo oziroma namerava vlagati v uvajanje tehnologij Big Data za svoje poslovanje, medtem ko jih je bilo leta 2012 58%. Glede na Gartnerjevo študijo so vodilni v panogah, ki vlagajo v Big Data, medijska podjetja, telekomunikacije, bančništvo in storitvena podjetja. Uspešne rezultate izvajanja velikih podatkov so že dosegli številni pomembni akterji v maloprodajnem sektorju v smislu uporabe podatkov, pridobljenih z uporabo orodij za radiofrekvenčno identifikacijo, logističnih in replikacijskih sistemov (iz angleščine. dopolnitev - kopičenje, dopolnitev - R&T), pa tudi iz programov zvestobe. Uspešne maloprodajne izkušnje spodbujajo druge panoge na trgu, da najdejo nove in učinkovite načine za monetizacijo velikih podatkov, da svojo analizo spremenijo v vir za razvoj podjetja. Zahvaljujoč temu se bodo po mnenju strokovnjakov v obdobju do leta 2020 naložbe v upravljanje, shranjevanje na gigabajt podatkov zmanjšale z 2 na 0,2 USD, vendar bosta študija in analiza tehnoloških lastnosti Big Data zrasla le za 40%.

Stroški, predstavljeni v različnih investicijskih projektih na področju velikih podatkov, so drugačne narave. Postavke stroškov so odvisne od vrst izdelkov, ki so izbrani na podlagi določene odločitve... Po mnenju strokovnjakov največji del stroškov pri naložbenih projektih pade na izdelke, povezane z zbiranjem, strukturiranjem podatkov, čiščenjem in upravljanjem informacij.

Kako se to naredi

Obstaja veliko kombinacij programske in strojne opreme, ki vam omogočajo, da ustvarite učinkovite rešitve Big Data za različne poslovne discipline: od družbenih medijev in mobilnih aplikacij do rudarjenja in vizualizacije poslovnih podatkov. Pomembna prednost Big Data je združljivost novih orodij s podatkovnimi bazami, ki se pogosto uporabljajo v poslu, kar je še posebej pomembno pri delu z meddisciplinarnimi projekti, na primer pri organiziranju večkanalne prodaje in podpori strankam.

Zaporedje dela z velikimi podatki je sestavljeno iz zbiranja podatkov, strukturiranja prejetih informacij s pomočjo poročil in nadzornih plošč, ustvarjanja vpogledov in kontekstov ter oblikovanja priporočil za ukrepanje. Ker delo z velikimi podatki pomeni velike stroške zbiranja podatkov, katerih rezultat ni znan vnaprej, je glavna naloga jasno razumeti, čemu podatki služijo, in ne, koliko so na voljo. V tem primeru se zbiranje podatkov spremeni v postopek pridobivanja informacij, ki so izredno potrebne za reševanje določenih problemov.

Na primer, ponudniki telekomunikacij združujejo ogromno podatkov, vključno s podatki o geolokaciji, ki se nenehno posodabljajo. Te informacije so lahko v komercialnem interesu za oglaševalske agencije, ki jih lahko uporabljajo za prikazovanje ciljnih in lokalnih oglasov, pa tudi za trgovce na drobno in banke. Takšni podatki lahko igrajo pomembno vlogo pri odločanju o odprtju prodajalne na določeni lokaciji na podlagi podatkov o prisotnosti močnega ciljnega pretoka ljudi. Obstaja primer merjenja učinkovitosti oglaševanja na zunanjih panojih v Londonu. Zdaj je doseg takšnega oglaševanja mogoče izmeriti le tako, da ljudi postavimo s posebno napravo, ki šteje mimoidoče v bližini oglasnih struktur. V primerjavi s to vrsto merjenja učinkovitosti oglaševanja ima mobilni operater veliko več možnosti - natančno ve, kje so naročniki, pozna njihove demografske značilnosti, spol, starost, zakonski stan itd.

Na podlagi takšnih podatkov se v prihodnosti odpre možnost spreminjanja vsebine oglasnega sporočila z uporabo preferenc določene osebe, ki gre mimo oglasnega panoja. Če podatki kažejo, da oseba, ki gre mimo, veliko potuje, se ji lahko prikaže oglas za letovišče. Organizatorji nogometnih tekem lahko ocenijo število navijačev šele, ko pridejo na tekmo. Če pa bi imeli priložnost vprašati operaterja celična komunikacija informacije o tem, kje so bili obiskovalci uro, dan ali mesec pred tekmo, bi organizatorjem omogočili, da načrtujejo mesta za oglaševanje naslednjih tekem.

Drug primer je, kako lahko banke uporabljajo velike podatke za preprečevanje goljufij. Če stranka trdi, da je kartico izgubila, in pri nakupu z njo banka v realnem času vidi lokacijo strankinega telefona na območju nakupa, kjer poteka transakcija, lahko banka na zahtevo stranke preveri podatke, ali ga je poskušala prevarati. Ali pa nasprotno, ko stranka opravi nakup v trgovini, banka vidi, da sta kartica, ki je bila uporabljena za transakcijo, in telefon stranke na istem mestu, lahko banka ugotovi, da kartico uporablja njen lastnik. Zahvaljujoč tem prednostim velikih podatkov se meje, s katerimi so obdarjena tradicionalna skladišča podatkov, širijo.

Za uspešno odločitev o uvedbi rešitev Big Data mora podjetje izračunati primer naložbe, kar povzroča velike težave zaradi številnih neznanih komponent. Paradoks analitike v takih primerih je napovedovanje prihodnosti na podlagi preteklosti, za katero pogosto primanjkuje podatkov. V tem primeru je jasen načrt vaših začetnih ukrepov pomemben dejavnik:

Najprej je treba določiti en poseben poslovni problem, za rešitev katerega bodo uporabljene tehnologije Big Data, ta naloga bo postala jedro ugotavljanja pravilnosti izbranega koncepta. Osredotočiti se morate na zbiranje podatkov, ki so značilni za to nalogo, in dokazilo o konceptu vam bo omogočilo uporabo različnih orodij, procesov in tehnik upravljanja, da boste lahko v prihodnosti sprejemali boljše odločitve.
Drugič, malo verjetno je, da bo podjetje brez veščin in izkušenj s področja analitike podatkov lahko uspešno izvedlo projekt Big Data. Potrebno znanje vedno izhaja iz predhodnih analitičnih izkušenj, ki so glavni dejavnik, ki vpliva na kakovost dela s podatki. Kultura uporabe podatkov je pomembna, ker pogosto analiza informacij razkrije ostro resnico o poslu, in da bi to resnico sprejeli in delali z njo, so potrebne razvite metode dela s podatki.
Tretjič, vrednost tehnologij velikih podatkov je v zagotavljanju vpogledov. Dobrih analitikov na trgu še vedno primanjkuje. V navado jih imenujemo strokovnjaki, ki dobro poznajo komercialni pomen podatkov in jih znajo pravilno uporabljati. Analiza podatkov je sredstvo za doseganje poslovnih ciljev in za razumevanje vrednosti velikih podatkov potrebujete ustrezen model vedenja in razumevanja svojih dejanj. V tem primeru bodo veliki podatki ponudili obilo koristnih informacij o potrošnikih, na podlagi katerih lahko sprejemate odločitve, ki so koristne za vaše podjetje.

Kljub temu da se ruski trg velikih podatkov šele začenja oblikovati, se posamezni projekti na tem področju že dokaj uspešno izvajajo. Nekateri med njimi so uspešni na področju zbiranja podatkov, na primer projekti za Zvezno davčno službo in Tinkoff Credit Systems Bank, drugi - v smislu analize podatkov in praktične uporabe njegovih rezultatov: gre za projekt Synqera.

Tinkoff Credit Systems Bank je izvedla projekt za uvedbo platforme EMC2 Greenplum, ki je orodje za množično vzporedno računalništvo. V zadnjih letih je banka povečala zahteve po hitrosti obdelave nakopičenih informacij in analiziranju podatkov v realnem času, kar je posledica visoke stopnje rasti števila uporabnikov kreditnih kartic. Banka je napovedala načrte za razširitev uporabe tehnologij Big Data, zlasti za obdelavo nestrukturiranih podatkov in delo z informacijami o podjetjih, prejetih iz različnih virov.

Zvezna davčna služba Rusije trenutno ustvarja analitično plast za zvezno podatkovno skladišče. Na njegovi podlagi se ustvari enoten informacijski prostor in tehnologija dostopa do davčnih podatkov za statistično in analitično obdelavo. Med izvajanjem projekta se izvajajo centralizirane analitične informacije z več kot 1200 viri na lokalni ravni IFTS.

Še en zanimiv primer analize velikih podatkov v realnem času je ruski zagon Synqera, ki je razvil platformo Simplate. Rešitev temelji na obdelavi velikih količin podatkov, program analizira podatke o kupcih, njihovo zgodovino nakupov, starost, spol in celo razpoloženje. Na blagajnah v verigi kozmetičnih trgovin so bili nameščeni zasloni na dotik s senzorji, ki prepoznajo čustva kupcev. Program določa razpoloženje osebe, analizira podatke o njem, določi čas dneva in skenira bazo popustov trgovine, nakar kupcu pošlje ciljna sporočila o akcijah in posebnih ponudbah. Ta rešitev povečuje zvestobo kupcev in povečuje prodajo na drobno.

Če govorimo o uspešnih tujih primerih, so v tem pogledu zanimive izkušnje uporabe tehnologij Big Data v Dunkin`Donuts, ki za prodajo izdelkov uporabljajo podatke v realnem času. Digitalni zasloni v trgovinah prikazujejo ponudbe, ki se izmenjujejo vsako minuto, odvisno od ure in razpoložljivosti izdelkov. Podjetje prejema podatke iz blagajniških blagajniških blagajn, ponudbe pa so od kupcev najbolj odzvale. Ta pristop k obdelavi podatkov je omogočil povečanje dobička in prometa blaga v skladišču.

Kot kažejo izkušnje z izvajanjem projektov Big Data, je to področje zasnovano za uspešno reševanje sodobnih poslovnih problemov. Hkrati je pomemben dejavnik pri doseganju komercialnih ciljev pri delu z velikimi podatki izbira prave strategije, ki vključuje analitiko, ki prepoznava potrebe potrošnikov, pa tudi uporabo inovativnih tehnologij na področju velikih podatkov.

Po globalni raziskavi, ki jo Econsultancy in Adobe vsako leto med trgovci podjetij vsako leto izvajata, lahko "veliki podatki" o tem, kako ljudje delujejo v internetu, naredijo veliko. So sposobni optimizirati poslovne procese brez povezave, pomagati razumeti, kako jih lastniki mobilnih naprav uporabljajo za iskanje informacij, ali preprosto »izboljšati trženje«, tj. bolj učinkovit. Poleg tega je zadnja funkcija iz leta v leto bolj priljubljena, kot izhaja iz diagrama, ki smo ga predstavili.

Ključna področja dela za internetne tržnike v smislu odnosov s strankami

Vir: Econsultancy in Adobe, objavljeno - emarketer.com

Upoštevajte, da državljanstvo anketirancev ni veliko pomembno. Kot kaže raziskava, ki jo je leta 2013 izvedla KPMG, je delež "optimistov", tj. tistih, ki pri razvoju poslovne strategije uporabljajo velike podatke, je 56%, nihanja med regijami pa so majhna: od 63% v severnoameriških državah do 50% v EMEA.

Uporaba velikih podatkov v različnih regijah sveta

Vir: KPMG, objavljeno - emarketer.com

Medtem pa odnos tržnikov do takšnih "modnih trendov" nekoliko spominja na znano anekdoto:

Povej mi, Vano, ali imaš rad paradižnik?
- Rad jem, ampak ne.

Kljub temu, da tržniki z besedami "ljubijo" Big Data in se zdi, da ga celo uporabljajo, je v resnici "vse zapleteno", kot pišejo o svojih srčnih naklonjenostih na družbenih omrežjih.

Glede na raziskavo, ki jo je januarja 2014 med evropskimi tržniki opravil Circle Research, 4 od 5 anketirancev ne uporablja Big Data (kljub temu, da jim je to seveda "všeč"). Razlogi so različni. Redkih dvomljivcev je malo - 17% in popolnoma enako kot njihovi antipodi, tj. tisti, ki samozavestno odgovorijo z "da". Ostali so neodločni in dvomljivi, "močvirje". Izogibajo se neposrednim odgovorom pod verjetnimi izgovori, kot so "še ne, ampak kmalu" ali "počakajmo, da začnejo drugi".

Uporaba velikih podatkov s strani tržnikov, Evropa, januar 2014

Vir:dnx, objavljeno -emarketer.com

Kaj jih zmede? Čiste malenkosti. Nekateri (natančno polovica) tem podatkom preprosto ne verjamejo. Drugi (prav tako jih je veliko - 55%) pa nabore "podatkov" in "uporabnikov" težko povežejo med seboj. Nekateri ljudje (recimo temu politično korektno) imajo notranji kaos v podjetju: podatki se potikajo med tržnimi oddelki in IT strukturami. Za druge se programska oprema ne more spoprijeti z dotokom dela. In tako naprej. Ker skupni deleži znatno presegajo 100%, je jasno, da se razmere "več ovir" pojavljajo pogosto.

Ovire, ki ovirajo uporabo velikih podatkov pri trženju

Vir:dnx, objavljeno -emarketer.com

Tako moramo priznati, da so "veliki podatki" velik potencial, ki ga je še treba izkoristiti. Mimogrede je to lahko razlog, da Big Data izgublja halo "modnega trenda", kar dokazujejo podatki raziskave, ki jo je izvedlo že omenjeno podjetje Econsultancy.

Najpomembnejši trendi v digitalnem trženju 2013-2014

Vir: Econsultancy in Adobe

Nadomešča jih drug kralj vsebinskega marketinga. Kako dolgo?

To ne pomeni, da so Big Data nekakšen bistveno nov pojav. Veliki viri podatkov obstajajo že leta: baze podatkov o nakupih strank, kreditne zgodovine, življenjski slog. Znanstveniki že leta uporabljajo te podatke za pomoč podjetjem pri oceni tveganja in napovedovanju prihodnjih potreb strank. Vendar pa so se danes razmere spremenile v dveh vidikih:

Pojavila so se bolj dovršena orodja in tehnike za analizo in kombiniranje različnih naborov podatkov;

Ta analitična orodja dopolnjuje plaz novih virov podatkov, ki jih poganja digitalizacija tako rekoč vseh metod zbiranja in merjenja podatkov.

Nabor razpoložljivih informacij je navdihujoč in zastrašujoč za raziskovalce, ki so odraščali v strukturiranem raziskovalnem okolju. Potrošniška mnenja zajemajo spletna mesta in vse vrste družabnih medijev. Dejstva o gledanju oglaševanja ne beležijo samo televizijski sprejemniki, temveč tudi digitalne oznake in mobilne napravekomunikacijo s televizorjem.

Vedenjski podatki (na primer klici, nakupovalne navade in nakupi) so zdaj na voljo v realnem času. Tako lahko veliko tistega, kar je bilo prej na voljo z raziskavami, zdaj izvemo z velikimi viri podatkov. In vsa ta informacijska sredstva se ustvarjajo nenehno, ne glede na kakršne koli raziskovalne procese. Te spremembe nas sprašujejo, ali lahko veliki podatki nadomestijo klasične tržne raziskave.

Ne gre za podatke, ampak za vprašanja in odgovore

Preden se naročimo na smrt klasičnih študij, se moramo spomniti, da ni ključna prisotnost določenega podatkovnega sredstva, temveč nekaj drugega. Kaj natanko? Kakšna je naša sposobnost odgovarjanja na vprašanja. Smešno pri novem svetu velikih podatkov je, da rezultati novih informacijskih sredstev vodijo do še več vprašanj in na ta vprašanja običajno najbolje odgovorijo tradicionalne raziskave. Tako z rastjo velikih podatkov opažamo vzporedno povečanje razpoložljivosti in povpraševanja po "majhnih podatkih", ki lahko dajo odgovore na vprašanja iz sveta velikih podatkov.

Upoštevajte situacijo: velik oglaševalec sproti spremlja promet in prodajo v trgovinah. Obstoječe raziskovalne metode (v katerih se pogovarjamo s panelisti o njihovih motivacijah za nakup in vedenju POS) nam pomagajo bolje ciljati na določene segmente kupcev. Te tehnike je mogoče razširiti tako, da vključujejo večji obseg sredstev za velike podatke, do te mere, da veliki podatki postanejo pasivno orodje za nadzor, raziskave pa trajna, usmerjena študija sprememb ali dogodkov, ki jih je treba preučiti. Tako lahko veliki podatki osvobodijo raziskav. Primarne raziskave se ne bi smele več osredotočati na dogajanje (veliki podatki bodo). Namesto tega se lahko primarne raziskave osredotočijo na razlago, zakaj vidimo trende ali odstopanja od trendov. Raziskovalec bo lahko manj razmišljal o pridobivanju podatkov, več pa o tem, kako jih analizirati in uporabiti.

Hkrati vidimo, da veliki podatki rešujejo enega naših največjih problemov - problem predolgih raziskav. Preučevanje samih študij je pokazalo, da preveč napihnjena raziskovalna orodja negativno vplivajo na kakovost podatkov. Številni strokovnjaki že dolgo priznavajo to težavo, vendar so se vedno odzvali z besedami: "Vendar te informacije potrebujem za višje vodstvo," in dolge ankete so se nadaljevale.

V svetu velikih podatkov, kjer lahko kvantitativne kazalnike dobimo s pasivnim opazovanjem, to vprašanje postane kontroverzno. Ponovno si oglejmo vse te študije, povezane s porabo. Če nam veliki podatki omogočajo vpogled v porabo s pasivnim opazovanjem, potem primarnim raziskavam v obliki anket ni več treba zbirati tovrstnih informacij in končno lahko svojo vizijo kratkih anket podpremo ne le z dobrimi željami, ampak tudi z nečim resničnim.

Big Data potrebuje vašo pomoč

Končno je "velik" le ena od značilnosti velikih podatkov. Značilnost »velik« se nanaša na velikost in obseg podatkov. To je seveda glavna značilnost, saj količina teh podatkov presega vse, s čimer smo že delali. Pomembne pa so tudi druge značilnosti teh novih podatkovnih tokov: pogosto so slabo formatirani, nestrukturirani (ali v najboljšem primeru delno strukturirani) in polni negotovosti. Pojavljajoče se področje upravljanja podatkov, ki se imenuje analitika entitet, je namenjeno reševanju problema premagovanja hrupa v velikih podatkih. Njegova naloga je analizirati te nabore podatkov in ugotoviti, koliko opazovanj je za isto osebo, katera opazovanja so aktualna in katera uporabna.

Tovrstno čiščenje podatkov je potrebno za odstranjevanje šuma ali napačnih podatkov pri delu z velikimi ali majhnimi podatkovnimi sredstvi, vendar ni dovolj. Prav tako moramo ustvariti kontekst okoli sredstev velikega podatkov na podlagi naših prejšnjih izkušenj, analitike in znanja o kategorijah. Številni analitiki dejansko opozarjajo na sposobnost obvladovanja negotovosti, povezane z velikimi podatki, kot na vir konkurenčne prednosti, saj omogoča boljše odločanje.

Tu primarne raziskave velikih podatkov ne osvobodijo le rutine, temveč tudi prispevajo k ustvarjanju in analizi vsebin znotraj velikih podatkov.

Vrhunski primer tega je uporaba našega bistveno drugačnega okvira lastniškega imena blagovne znamke na družbenih medijih. (govorimo o razvitem vMillward rjav nov pristop k merjenju vrednosti blagovne znamkeThe Smiselno Drugačen Okvir - "Paradigma pomembnih razlik" -R & T ). Ta model je bil preizkušen glede vedenja na določenih trgih, izvaja se na standardni osnovi in \u200b\u200bje enostaven za uporabo v drugih tržnih navodilih in informacijskih sistemih za podporo odločanju. Z drugimi besedami, naš anketni model lastniškega kapitala (čeprav ne izključno) ima vse lastnosti, potrebne za premagovanje nestrukturirane, ločene in negotove narave velikih podatkov.

Upoštevajte podatke o razpoloženju potrošnikov, ki jih posredujejo družbeni mediji. V surovi obliki so vrhovi in \u200b\u200bdoline v razpoloženju potrošnikov zelo pogosto minimalno povezani z lastniškimi in vedenjskimi parametri blagovne znamke: v podatkih je preprosto preveč hrupa. Toda ta hrup lahko zmanjšamo z uporabo naših modelov potrošniškega občutka, diferenciacije blagovne znamke, dinamike in diferenciacije za surove podatke o občutkih potrošnikov - način obdelave in združevanja podatkov v družabnih medijih v teh dimenzijah.

Ko so podatki organizirani v skladu z našim okvirnim modelom, se opredeljeni trendi običajno ujemajo z meritvami lastniškega kapitala in vedenja zunaj spleta. Podatki družbenih medijev v bistvu ne morejo govoriti sami zase. Za njihovo uporabo v ta namen je potrebno naše strokovno znanje in modeli, usmerjeni v blagovno znamko. Ko nam družabni mediji zagotavljajo edinstvene informacije, izražene v jeziku, ki ga potrošniki uporabljajo za opis blagovnih znamk, moramo ta jezik uporabiti v svojih raziskavah, da bi bile primarne raziskave veliko bolj učinkovite.

Prednosti izvzetih raziskav

To nas vrne k dejstvu, da veliki podatki ne nadomeščajo toliko raziskav, kot jih sproščajo. Raziskovalci bodo razbremenjeni potrebe po izdelavi nove študije za vsak nov primer. Vedno večja sredstva za velike podatke lahko uporabimo za različne raziskovalne teme, kar omogoča nadaljnjim primarnim raziskavam, da se poglobijo v temo in zapolnijo vrzeli. Raziskovalci bodo oproščeni potrebe po zanašanju na pretirane ankete. Namesto tega bodo lahko uporabili kratke ankete in se osredotočili na najpomembnejše parametre, kar izboljša kakovost podatkov.

S to izdajo bodo raziskovalci lahko s svojimi preizkušenimi načeli in idejami dodali natančnost in pomen velikim podatkom, kar bo vodilo do novih področij za anketne raziskave. Ta cikel bi moral voditi do globljega razumevanja vrste strateških vprašanj in navsezadnje do premika k tistemu, kar bi moral biti vedno naš glavni cilj - obveščanje in izboljšanje kakovosti odločitev v zvezi z blagovno znamko in komunikacijami.

Nekoč sem od Nemca Grefa (vodje Sberbank) slišal izraz »veliki podatki«. Pravijo, da zdaj aktivno delajo na izvedbi, saj jim bo to pomagalo skrajšati čas dela z vsako stranko.

Drugič sem se s tem konceptom srečal v strankini spletni trgovini, pri kateri smo delali in povečali obseg z nekaj tisoč na nekaj deset tisoč izdelkov.

Tretjič, ko sem videl, da Yandex potrebuje velikega analitika podatkov. Potem sem se odločil, da se poglobim v to temo in hkrati napišem članek, ki vam bo povedal, kakšen izraz je to, ki vznemirja misli najvišjih menedžerjev in internetnega prostora.

Kaj je

Običajno začnem kateri koli članek z razlago, za kakšen izraz gre. Ta članek ne bo nobena izjema.

Vendar tega v prvi vrsti ne povzroča želja pokazati, kako pametna sem, ampak dejstvo, da je tema resnično zapletena in zahteva natančno razlago.

Na primer, lahko preberete, kaj so veliki podatki na Wikipediji, ne razumete ničesar in se nato vrnete v ta članek, da še vedno razumete definicijo in uporabnost za podjetja. Začnimo torej z opisom in nato s poslovnimi primeri.

Veliki podatki so veliki podatki. Neverjetno, kaj? Pravzaprav je to iz angleščine prevedeno kot "veliki podatki". Toda ta opredelitev, lahko bi rekli, je za lutke.

Tehnologija velikih podatkov Je pristop / metoda obdelave več podatkov za pridobivanje novih informacij, ki jih je težko obdelati na običajen način.

Podatki so lahko obdelani (strukturirani) ali razdrobljeni (torej nestrukturirani).

Sam izraz se je pojavil relativno nedavno. Leta 2008 je bil v znanstveni reviji ta pristop napovedan kot nekaj, kar je potrebno za delo z veliko količino informacij, ki se eksponentno povečujejo.

Na primer, vsako leto se informacije na internetu, ki jih je treba shraniti in obdelati same, povečajo za 40%. Še enkrat: + 40% vsako leto se na internetu pojavijo nove informacije.

Če so natisnjeni dokumenti razumljivi in \u200b\u200bso razumljivi tudi načini njihove obdelave (prenos v elektronsko obliko, šiv v eno mapo, oštevilčeni), kaj potem storiti z informacijami, ki so predstavljene v popolnoma različnih "medijih" in v drugih zvezkih:

Internetni dokumenti;
Blogi in socialna omrežja;
Avdio / video viri;
Merilne naprave.

Obstajajo značilnosti, ki omogočajo razvrščanje informacij in podatkov med velike podatke. To pomeni, da vsi podatki morda niso primerni za analitiko. Te značilnosti vsebujejo ključni koncept velikega datuma. Vsi se prilegajo v tri V.

Glasnost(iz angleškega zvezka). Podatki se merijo glede na fizični obseg "dokumenta", ki ga je treba analizirati;
Hitrost(iz angleškega velocity). Podatki ne stojijo v svojem razvoju, ampak nenehno rastejo, zato jih je treba hitro obdelati, da dosežemo rezultate;
Razdelilnik(iz angleške sorte). Podatki morda niso enobarvni. To pomeni, da so lahko razpršeni, strukturirani ali delno strukturirani.

Občasno pa se VVV doda četrti V (verodostojnost - zanesljivost / verodostojnost podatkov) in celo peti V (v nekaterih primerih je to sposobnost preživetja, v drugih pa vrednost - vrednost).

Nekje sem celo videl 7V, ki označuje podatke, povezane z velikim datumom. Ampak po mojem mnenju je to iz serije (kjer se občasno doda P, čeprav so začetne 4 dovolj za razumevanje).

SMO ŽE VEČ KOT 29.000 ljudi.
VKLOPITI

Kdo ga potrebuje

Pojavi se logično vprašanje, kako lahko uporabimo informacije (če sploh, velik datum je na stotine in tisoče terabajtov)?

Niti tega ne. Tu so informacije. Zakaj ste potem pripravili velik zmenek? Kakšna je uporaba velikih podatkov v trženju in poslu?

Navadne zbirke podatkov ne morejo shranjevati in obdelovati (zdaj niti ne govorim o analitiki, ampak le o shranjevanju in obdelavi) ogromne količine informacij.
Velik datum rešuje to glavno težavo. Uspešno shranjuje in upravlja obsežne informacije;
Informacije v različnih virih (video, slike, zvočni in besedilni dokumenti) združi v eno samo, razumljivo in prebavljivo obliko;
Oblikovanje analitike in ustvarjanje natančnih napovedi na podlagi strukturiranih in obdelanih informacij.

Zapleteno je. Preprosto povedano, vsak prodajalec, ki razume, da lahko, če preučite veliko količino informacij (o vas, vašem podjetju, konkurenci in industriji), dosežete zelo spodobne rezultate:

Popolno razumevanje vašega podjetja in vašega podjetja v smislu številk;
Preučite svoje tekmece. To pa bo omogočilo napredovanje zaradi njihove razširjenosti;
Poiščite nove informacije o svojih strankah.

In ravno zato, ker tehnologija velikih podatkov daje naslednje rezultate, vsi hitijo z njo. To podjetje poskušajo priviti v svoje podjetje, da bi povečali prodajo in zmanjšali stroške. In natančneje, potem:

Povečati navzkrižno prodajo in dodatno prodajo z boljšim poznavanjem preferenc kupcev;
Poiščite priljubljene izdelke in razloge, zakaj so kupljeni (in obratno);
Izboljšanje izdelka ali storitve;
Izboljšanje ravni storitve;
Povečana zvestoba in osredotočenost na kupca;
Preprečevanje goljufij (bolj pomembno za bančni sektor);
Zmanjšanje nepotrebnih stroškov.

Najpogostejši primer v vseh virih je seveda Apple, ki zbira podatke o svojih uporabnikih (telefon, ura, računalnik).

Korporacija prav zaradi prisotnosti ekosistema ve toliko o svojih uporabnikih, nato pa z njim ustvari dobiček.

Te in druge primere uporabe lahko preberete v katerem koli drugem članku poleg tega.

Sodoben primer

Povedala vam bom o drugem projektu. Namesto tega o osebi, ki gradi prihodnost z rešitvami za velike podatke.

To je Elon Musk in njegovo podjetje Tesla. Njegove glavne sanje so avtomobili avtonomni, to pomeni, da se usedete za volan, vklopite avtopilot od Moskve do Vladivostoka in ... zaspite, saj avtomobila sploh ni treba voziti, saj bo vse naredil sam.

Zdi se fantastično? Vendar ne! Elon je bil veliko pametnejši od Googla, ki nadzoruje avtomobile, ki uporabljajo desetine satelitov. In šel je v drugo smer:

Vsak prodani avto je opremljen z računalnikom, ki zbira vse informacije.
Vse na splošno pomeni vse. O vozniku, njegovem načinu vožnje, cestah naokoli, gibanju drugih avtomobilov. Obseg takih podatkov doseže 20-30 GB na uro;
Nadalje se te informacije prek satelitske komunikacije prenašajo na centralni računalnik, ki te podatke obdeluje;
Na podlagi velikih podatkov, ki jih ta računalnik obdeluje, je izdelan model brezpilotnega vozila.

Mimogrede, če Googlu gre precej slabo in se njihovi avtomobili ves čas znajdejo v nesrečah, potem je Musk zaradi dejstva, da poteka delo z velikimi podatki, veliko boljši, saj testni modeli kažejo zelo dobre rezultate.

Ampak ... vse je v gospodarstvu. Kaj vse imamo pri dobičku, o dobičku? Veliko tega, kar lahko reši velik zmenek, nima nič skupnega z zaslužkom in denarjem.

Googlove statistike, ki temeljijo na velikih podatkih, kažejo zanimivost.

Preden zdravniki objavijo začetek epidemije bolezni v določeni regiji, se število iskanj za zdravljenje te bolezni v tej regiji znatno poveča.

Tako lahko pravilna preučitev podatkov in njihova analiza oblikujeta napovedi in napovedujeta začetek epidemije (in s tem tudi njeno preprečevanje) veliko hitreje kot sklepi oblasti in njihova dejanja.

Uporaba v Rusiji

Vendar pa Rusija, kot vedno, nekoliko upočasni. Torej, sama definicija velikih podatkov v Rusiji se je pojavila pred največ petimi leti (zdaj govorim o običajnih podjetjih).

In to kljub temu, da gre za enega najhitreje rastočih trgov na svetu (droge in orožje živčno kadijo ob strani), saj vsako leto trg programske opreme za zbiranje in analizo velikih podatkov naraste za 32%.

Za opis velikega podatkovnega trga v Rusiji se spomnim na staro šalo. Velik zmenek je kot seks mlajši od 18 let. Vsi govorijo o tem, okoli njega je veliko hrupa in malo resničnih akcij in vsi se sramujejo, ko priznajo, da sami tega ne počnejo. V resnici je okoli tega veliko hrupa, a malo resničnih ukrepov.

Čeprav je znano raziskovalno podjetje Gartner leta 2015 napovedalo, da velik datum ni več naraščajoč trend (kot je, mimogrede, umetna inteligenca), temveč povsem neodvisna orodja za analizo in razvoj naprednih tehnologij.

Najaktivnejše niše, kjer se v Rusiji uporabljajo veliki podatki, so banke / zavarovalništvo (ta članek sem brez razloga začel z vodjo Sberbank), telekomunikacije, trgovina na drobno, nepremičnine in ... javni sektor.

Kot primer vam bom podrobneje povedal nekaj gospodarskih sektorjev, ki uporabljajo algoritme velikih podatkov.

1. Banke

Začnimo pri bankah in informacijah, ki jih zbirajo o nas in naših dejanjih. Za primer sem vzel TOP-5 ruskih bank, ki aktivno vlagajo v velike podatke:

Sberbank;
Gazprombank;
VTB 24;
Alfa banka;
Tinkoff banka.

Še posebej prijetno je videti Alfo Bank med ruskimi voditelji. Vsaj lepo je vedeti, da banka, katere uradni partner ste, razume potrebo po uvedbi novih marketinških orodij v svoje podjetje.

Želim pa prikazati primere uporabe in uspešne implementacije velikih podatkov o banki, ki so mi všeč zaradi nestandardnega videza in dejanj njenega ustanovitelja.

Govorim o banki Tinkoff. Njihova glavna naloga je bila razviti sistem za sprotno analizo velikih podatkov zaradi naraščajoče baze strank.

Rezultati: čas notranjih procesov se je zmanjšal za vsaj 10-krat, pri nekaterih pa tudi več kot 100-krat.

No, malo motečega. Veste, zakaj sem začel govoriti o nestandardnih norčijah in dejanjih Olega Tinkova? Preprosto po mojem mnenju so mu prav oni pomagali, da se je od povprečnega poslovneža, ki ga je v Rusiji na tisoče, spremenil v enega najbolj znanih in prepoznavnih podjetnikov. Da to dokažete, si oglejte ta nenavaden in zanimiv video:

2. Nepremičnina

Pri nepremičninah je vse veliko bolj zapleteno. In ravno to je primer, ki vam ga želim dati za razumevanje velikega datuma običajnega posla. Začetni podatki:

Velika količina besedilne dokumentacije;
Odprtokodni (zasebni sateliti, ki prenašajo podatke o spremembi zemlje);
Ogromno nenadzorovanih informacij na internetu;
Nenehne spremembe virov in podatkov.

In na podlagi tega je treba pripraviti in oceniti vrednost zemljišča, na primer blizu Uralske vasi. Strokovnjak bo trajal teden dni.

Rusko združenje ocenjevalcev in ROSEKO, ki je dejansko izvedlo analizo velikih podatkov s pomočjo programske opreme, ne bo potrebovalo več kot 30 minut lagodnega dela. Primerjaj, teden in 30 minut. Kolosalna razlika.

Orodja za ustvarjanje

Na preprostih trdih diskih seveda ni mogoče shraniti in obdelati ogromnih količin informacij.

IN programske opremeda so strukture in analize podatkov na splošno intelektualna lastnina in vsakič, ko so avtorji. Vendar pa obstajajo orodja, na podlagi katerih nastane vsa ta lepota:

Hadoop & MapReduce;
Zbirke podatkov NoSQL;
Orodja razreda za odkrivanje podatkov.

Če sem iskren, vam ne bom mogel jasno razložiti, kako se med seboj razlikujejo, saj se poznavanje in delo s temi stvarmi poučuje na fizikalno-matematičnih inštitutih.

Zakaj sem potem začel govoriti o tem, če ne znam razložiti? Se spomnite, da v vseh filmih roparji vstopijo v katero koli banko in vidijo ogromno vseh vrst železa, povezanih z žicami? Enako velja za velik zmenek. Tu je na primer model, ki je trenutno eden vodilnih na trgu.

Orodje za velike zmenke

Stroški v največji konfiguraciji dosežejo 27 milijonov rubljev na stojalo. To je seveda luksuzna različica. Želim, da vnaprej poskusite ustvariti velike podatke v svojem podjetju.

Na kratko o glavnem

Lahko se vprašate, zakaj morate mala in srednje velika podjetja delati z velikimi podatki?

Na to vam bom odgovoril s citatom ene osebe: "V bližnji prihodnosti bodo stranke povpraševane po podjetjih, ki bolje razumejo njihovo vedenje, navade in se jim čim bolj ujemajo."

Ampak priznajmo. Za uvajanje velikih podatkov v majhno podjetje je treba imeti ne le velike proračune za razvoj in izvajanje programske opreme, temveč tudi za vzdrževanje strokovnjakov, vsaj na primer analitika za velike podatke in sistemskega skrbnika.

In zdaj molčim o tem, da morate imeti take podatke za obdelavo.

V redu. Za mala podjetja tema skorajda ni uporabna. Toda to ne pomeni, da morate pozabiti na vse, kar ste prebrali zgoraj. Samo ne preučujte svojih podatkov, temveč rezultate analitike podatkov znanih tujih in ruskih podjetij.

Trgovska veriga Target je na primer z analitiko velikih podatkov ugotovila, da nosečnice pred drugim trimesečjem nosečnosti (od 1. do 12. tedna nosečnosti) aktivno kupujejo nearomatizirane izdelke.

Zahvaljujoč tem informacijam jim pošljejo kupone za popust za nearomatizirane izdelke z omejenim trajanjem.

In če ste na primer zelo majhna kavarna? Zelo preprosto je. Uporabite aplikacijo zvestobe. Čez nekaj časa in zahvaljujoč nabranim informacijam boste strankam lahko ponudili ne samo jedi, ki ustrezajo njihovim potrebam, ampak tudi v nekaj klikih videli najbolj neprodane in najbolj obrobne jedi.

Od tod sklep. Za malo podjetje se skoraj ne splača uvajati velikih podatkov, vendar je uporaba rezultatov in razvoja drugih podjetij nujna.