Metody analýzy velkých dat velkých dat. Velká data v moderním světě

(doslova - velká data)? Obraťme se první na slovník Oxford:

Data - Hodnoty, znaky nebo symboly, které provozují počítač a které mohou být uloženy a přenášeny ve formě elektrických signálů, zaznamenaných na magnetických, optických nebo mechanických médiích.

Období Velká data. Používá se k popisu velkého a pěstování exponenciálně s nastaveným datem. Zpracovat takový počet dat, nedělejte bez strojního učení.

Výhody, že velká data stanoví:

  1. Sběr dat z různých zdrojů.
  2. Zlepšení obchodních procesů prostřednictvím analytiky v reálném čase.
  3. Ukládání obrovského množství dat.
  4. Poznámky. Velká data jsou vhodnější pro skryté informace pomocí strukturovaných a polostrukturovaných dat.
  5. Velká data pomáhají snížit riziko a provádět inteligentní řešení v důsledku vhodného rizika analytiky.

Příklady velkých dat.

New York Stock Exchange Denní generovány 1 Terabyte. Údaje o obchodování nad minulým zasedáním.

Sociální média: Statistiky ukazují, že v základně facebooková data Denní stahování 500 terabajtů Nová data jsou generována hlavně díky stahování fotografií a videí na serverech sociálních sítí, zasílání zpráv, komentáře pod příspěvky a tak dále.

Tryskový motor Generuje 10 Terabytes. Data každých 30 minut během letu. Vzhledem k tomu, že tisíce letů jsou prováděny denně, množství dat dosahuje Petabajtů.

Klasifikace velká data.

Formy velkých dat:

  • Strukturovaný
  • Nestrukturovaný
  • Polostrukturovaný

Strukturovaná forma

Data, která mohou být uložena, jsou k dispozici a zpracována ve tvaru s pevným formátem se nazývá strukturovaná. Po dlouhou dobu, počítačové vědy dosáhly velkého úspěchu při zlepšování technika pracovat s tímto typem dat (kde je formát znám předem) a naučil se prospěch. Dnes však existují problémy spojené s rostoucími svazky na velikost měřenou v rozsahu několika Zeettabites.

1 Zettabyte odpovídá miliardě Terabyte

Při pohledu na tato čísla je snadné ověřit pravdivost termínu velkých dat a obtíží konjugátu se zpracováním a skladováním těchto dat.

Data uložená v relační základně jsou strukturovány a mají formulář, například tabulka zaměstnanců společnosti

Nestrukturovaná forma

Data neznámá struktura jsou klasifikována jako nestrukturovaná. Kromě velkých velikostí je tato forma charakterizována řadou obtíží pro zpracování a extrakci užitečné informace. Typickým příkladem nestrukturovaných dat je heterogenní zdroj obsahující kombinaci jednoduchých textových souborů, obrázků a videa. Organizace mají dnes přístup k velkému objemu surových nebo nestrukturovaných dat, ale nevědí, jak těžit z nich.

Polostrukturovaná forma

Tato kategorie obsahuje oba popsané výše, proto polostrukturovaná data mají nějakou formu, ale ve skutečnosti nejsou definovány pomocí tabulek v relačních základnách. Příkladem této kategorie je osobní údaje uvedené v souboru XML.

Prashant Rao.mužský35 Seema R.ženský41 Satish Mane.mužský29 Subro Roy.mužský26 Jeremiáš J.mužský35

Charakteristika velká data.

Růst velká data s časem:

Modré prezentované strukturované daty (podniková data), která jsou uložena v relačních základnách. Další barvy jsou nestrukturovaná data z různých zdrojů (IP telefonie, zařízení a senzorů, sociálních sítí a webových aplikací).

V souladu s gartnerem se velká data liší objemu, sazby generování, rozmanitosti a variability. Zvažte tyto vlastnosti podrobněji.

  1. Objem. Termín velká data je sama o sobě spojena s velkou velikostí. Velikost dat je nejdůležitějším indikátorem při určování možnosti obnovitelné hodnoty. Denní 6 milionů lidí používá digitální média, které předběžné odhady generují 2,5 quintillion dat bajtů. Proto je objem, který je prvním zvážením charakteristiky.
  2. Rozmanitost - další aspekt. Odkazuje na heterogenní zdroje a povahu dat, které mohou být strukturované i nestrukturované. Dříve, tabulky a databáze byly jedinými zdroji informací zvažovaných ve většině aplikací. Dnes, data ve formě e-mailů, fotografií, videa, soubory PDF, zvuk je také zvažován v analytických aplikacích. Taková řada nestrukturovaných dat vede k problémům při skladování, těžbě a analýze: 27% firem není přesvědčeno, že pracují s vhodnými údaji.
  3. Míra generace. Jak rychle se data akumulují a zpracovává tak, aby splňovaly požadavky, určuje potenciál. Rychlost určuje rychlost přílivu informací ze zdrojů - obchodní procesy, aplikačních protokolů, sociálních sítí a médií, senzorů, mobilních zařízení. Tok dat je obrovský a kontinuální v čase.
  4. Variabilita Popisuje inhonstanci dat v některých bodech v čase, který komplikuje zpracování a řízení. Například většina dat je nestrukturovaná povahou.

Velká data Analytics: Jaká je výhoda velkých dat

Propagace zboží a služeb: Přístup k datům z vyhledávačů a stránek, jako je Facebook a Twitter, umožňuje podnikům přesněji rozvíjet marketingové strategie.

Zlepšení služby pro kupující: Tradiční systémy zpětné vazby kupující jsou nahrazeny novými, ve kterých jsou velká data a zpracování přirozeného jazyka slouží ke čtení a hodnocení recenze zákazníka.

Výpočet rizikspojené s vydáním nového produktu nebo služby.

Provozní účinnost: Velká data jsou strukturována tak, aby rychle odstranila potřebné informace a okamžitě poskytli přesný výsledek. Taková kombinace velkých datových technologií a skladů pomáhá organizacím optimalizovat práci se zřídkakdy používanými informacemi.

Volkova Julia Sergeevna, čtyřletý student, finanční univerzita pod vládou Ruské federace, pobočka Kaluga, Kaluga [Chráněný emailem]

Velká data v moderním světě

Anotace. Umění jsou věnovány zavedení velkých datových technologií v naší moderní společnosti. Hlavními vlastnostmi velkých údajů byly zkoumány, hlavní aplikace, jako je bankovní sféra, maloobchod, soukromý a veřejný sektor, a dokonce i každodenní život. Studie odhalila nedostatky využívání velkých datových technologií. Je určena potřeba vytvořit normativní regulaci používání velkých údajů. Vítejte slova: velká data, banky, bankovní sféra, maloobchod, soukromý sektor, veřejný sektor.

Vzhledem k tomu, že míra vyšetřování finančních prostředků, informační technologie zvyšují různé směrové zvyšování moderní společnosti a požadavky na jejich přizpůsobivost úkolů oddanost, které naznačují obrovské množství dat. Existují tyto informace, které nelze zpracovat tradičními metodami, včetně strukturovaných dat, médií a náhodných objektů. A pokud se s analýzou prvních stávajících technologií vyrovnává se stávajícími technologiemi, pak analýza druhého a třetího téměř zůstává nesnesitelná. Studie ukazují, že svazky mediálních jazyků, jako jsou výsledky sledování videa, letecké fotografování, digitální lékařské informace a náhodné objekty uložené v mnoha archivech a mrakech, zvyšuje rok. Studie velkých údajů je věnována pracím jak zahraničních i ruských vědců: Jamese Machera, Michael Chui, Toporkov V.v., Buduzko V.I. Podstatné skladování ve studiu této technologie se provádí hlavními světovými společnostmi, jako jsou: McKinsey & Company, Cnews Analytics, SAP, Oracle, IBM, Microsoft, Teradata a mnoho dalších. Oni-by-dělat zpracování a analýza dat a na základě velkých dat vytvářejí program na zařízení. Podle zprávy o institutu McKinsey: "Velká data je datová sada, jejichž velikost přesahuje možnosti typických databází Softwarové nástroje pro zachycení, skladování, správu a analýzu dat. " V podstatě se koncept velkých dat zahrnuje práci s informacemi o obrovském objemu a různých složení neustále aktualizovaných a umístěných v různých zdrojích, aby se zvýšila efektivita práce, vytváření nových produktů a zvyšování konkurenceschopnosti. Konzultační společnost Forrester dává stručné a poměrně jasné znění: "Velké datové metody a technologie, které odstraňují význam údajů o extrémním limitu praktičnosti." Dnes je největší odvětví dat charakterizován následujícími značkami: objemový objem, Akumulovaná databáze je velká množství informací. Rychlost .Velocity, tato funkce označuje, jak rostoucí míra akumulace dat (90% informací byla shromážděna za posledních 2 roky) .variety-diverzita, tj. Možnost simultánního zpracování, strukturované nestrukturovanými informacemi o variancích. Odborníci z obchodníků milovali, aby zde přidali své "V". KTOTO říká více o spolehlivosti (pravdivosti), jiní dodají, že velká datová technologie musí určitě těžit z podnikání (hodnota). Očekává se, že do roku 2020 akumulované množství informací o planetě bude dvakrát dvakát let dvojí. Hojnost dat vyvolává touhu používat je pro analýzu a předpovědi. Kolosální svazky vyžadují příslušné technologie. Dnes by společnosti měly zvládnout obrovské množství údajů v objemech, které jsou obtížné předložit, to vede k tomu, že tradiční databáze se nemohou vyrovnat s takovým úkolem, a to vede k potřebě implementovat velkou datovou technologii. Srovnávací charakteristika velkých dat a tradičních databází je proseje. Základem pro tvorbu této tabulky bylo studium Buduzko V. I. a Moskevskou výměnu. Tabulka 1 Srovnávací vlastnosti velkých dat a tradičních dat

Tradiční databáze produktivity

Jeden nebo více předmětu je využívána využitím rozsáhlé generické datové technologie. Zjistit předvolby zákazníků před analýzou rizikových kouzel. Rozsah tradičních databází se týká pouze jednoho nebo více, s takovými oblastmi musí být obsaženy strukturovanými údaji. Co se týče velkých údajů, rozsah jejich žádosti je rozsáhlá s obrovskými armaturami informacemi s komplexní strukturou. Podle výsledků studie Cnews Analytics předložených na obrázku 1, ruský trh přichází k takovému fenoménu jako velká data, který ukazuje zvýšení úrovně splatnosti společností. Mnoho firem se převádí do technologie velkých dat v důsledku objemu jejich zpracovaných dat, již nyní více než 44% vytváří asi 100 terabajtů, a ve 13% těchto objemů dat Express 500 terabajtů.

Obr. 1. Objemy informací zpracovaných ve firmách

Takové objemy nelze zpracovat tradičními databázemi, takže takové společnosti vidí řešení přechodu na velké údaje, které nejsou jednoduše jako zpracování obrovských objemů, ale také jako zvýšení konkurenceschopnosti, což zvyšuje loajalitu kupujícího k jejich výrobku a přitahuje nové. Nejaktivnějšími zákazníky těchto řešení jsou banky, telekomunikační a maloobchod, jejich procentní poměr je uveden na obrázku 2. Počet společností, které používají nebo budou připraveny k použití velkých údajů v dopravním odvětví a energii, průmysl je patrný. První příklady využití velkých údajů se objevily ve veřejném sektoru.

Obr.2. Sektorová struktura používání velkých dat

Pokud jde o západní vládu, rozptýlené odhady, je digitální ekonomika z 3% až 21% zemí HDP velkých dvaceti. Ruský gossektor dosud dosud nedosáhl významných výsledků při práci s velkými daty. Dnes v Rusku jsou tyto technologie většinou zájem o komerční podniky: obchodní sítě, banky, telekomunikační společnosti. Recepce ruských komunitních komunit, objem digitální ekonomiky VRF je pouze 1 bilion. třít. -OCline 1,5% Demontováno. URF je však obrovským potenciálem pro růst digitální ekonomiky. Navzdory malému termínu existence sektoru velkých dat existují také odhady efektivního využívání těchto technologií založených na reálných příkladech. Banky dnes jsou v průměru přibližně o 3,8 petobite, používají velké datové technologie k dosažení určitých úkolů: • kreditní karty pomocí datové karty;  Uvedení dat dat;  úvěrová data; 44% 16% 13% 7% 7% 20% 20% 20% 20% banktelecometlgossegorgiebie data zákazníka Data sběru;  Údaje o úsporách zákazníka. Banky tvrdí, že poté, co začali užívat velkou datovou technologií, byli schopni přilákat nové zákazníky, je lepší spolupracovat s novými i starými zákazníky a starými zákazníky a udržet si loajalitu. V roce 2015, Cnews Analytics průzkum mezi třicátými částmi největších ruských bank na kumulativní aktiva zjistit, která technologie velkých údajů, které používají a s jakými cíli. Ve srovnání s průzkumem roku 2014 se počet bank TOP30, který vykazoval o používání generických datových technologií, ale tato změna je spíše kvůli změně v top 30 složení. Obrázek 3 má porovnání srovnání průzkumu 2015 ve srovnání s rokem 2014, stejně průzkum Kiryanovaya A.

Obr. 3. Použití velkých dat Top30 ruských bank

Podle odhadů IBS, 80% bank, které pozitivně odpověděly, implementovalo velké datové zařízení softwarové vybavení pro ukládání a zpracování dat. Tato řešení obvykle působí jako analytický nebo transakční úložiště, jejíž hlavní výhodou je dobrým výkonem při práci s velkými svazky dat. Praxe využití velkých dat v ruských bankách je však ve fázi stát se. Důvodem takové pomalé adaptace v Rusku je ukázána dutinou zákazníků na nové technologie. Necítí důvěra, že velká datová technologie pomůže řešit problémy v plném rozsahu. A to je to, co americký trh se týká, že banky již nahromadily 1 údaje o zkouškách, které mohou být porovnány s 275 miliardami mp3. Počet zdrojů, odkud, z nichž informace pocházejí, můžete zvýraznit klasiku:  Zákazníci zákazníků zákazníků banky; • Zákazníci zákazníků zákazníků zákazníků; • Zákaznická sociální sítě;  Operace operací kreditní karty jiné. Analyzovat chování kupujících , konstrukční cesty obchodní místnosti, řádně nakládat ze zboží, plánování plánu, a nakonec zvýšení prodeje. Ve velkých datech, samotný prodejní mechanismus je postaven na velkých údajích: uživatelé nabízejí produkty na základě předchozích nákupů a jejich osobní preference, informace o nichž se shromažďují například v sociálních sítích. V obou případech pomáhá analýza velkých dat snížit náklady, zvýšit loajalitu zákazníků a pokrývat velké publikum. Jako rozvoj obchodního potenciálu společností, tradiční databáze přestane splnit rostoucí obchodní požadavky, díky kterému systém nemůže poskytovat odpovídající účetní účetnictví. Otáčením na velké údaje, nové technologie vám umožní optimalizovat správu přepravy, dosáhnout relevance údajů a efektivitu jejich zpracování důsledků rozhodování o řízení, rychle vytvářet zprávy o řízení. Celkové množství akumulovaných dat je více než 100 exbutte, s pouze walmartem s využitím velkých datových procesů 2,5 petabajtů dat za hodinu. Při použití velkých datových technologií se 60% zvyšuje provozní ziskovost, stejně jako statistika Hadoop po implementaci velkých dat, analytický výkon se zvyšuje na léčbu 120 algoritmů a zisk roste na 710%. Pokud zohledníte v úvahu Ruským maloobchodem, pak zde jsou velká data začínají získat hybnost, protože vypouštění zpracování informací je velmi odlišné. Například je 18krát nižší než v Číně a celá oběh dat, která je vyráběna v online tlačítkách 4,5 krát méně než jeden obchod Amazon. Současně, počet online obchodů v Rusku, které používají velká data nižší než 40 tisíc, zatímco Evropa, počet takových obchodů je více než 550 tisíc. Co charakterizuje ruský maloobchodní trh, jak je stále vyvíjet a není plně vytvořen. Co se týče našeho každodenního života, technologie velkých údajů se zde používají, o kterém jsme ani nemysleli asi 1 milion skladeb každý den, a to je asi 1,5 ~ 2 Petabyty, procesy Shazam, hudební služby, po celém světě, a na tom Pak hudební výrobci předpovídají popularitu umělce. Velká data se také používají k řešení informací o kreditní kartě, jako je MasterCard a Visa. Tak, 65 miliard transakcí pro rok s pomocí 1,9 miliard karet ve 32 milionech obchodních firem procesů MasterCard předpovídat trendy obchodování. Každý den lidé píší v sociálních sítích po celém světě, jako je Twitter a Facebook, na 19 terabajtech dat. Ukládají a zpracovávají fotografie, psát, odesílat zprávy a tak dále. Infrastruktura také využívá velké datové technologie, z trolejbusů min a raket. Tak, v Londýně Metro každý den, turnikety zaznamenává přibližně 20 milionů průchodů, v důsledku analýzy provedených na základě velkých datových technologií, bylo identifikováno 10 všech druhů epicentrů, což je také zohledněno s dalším rozvojem metra. Nepochybně, rozmanitost a výše údajů vyplývajících ze všech druhů interakcí je mocná obchodní základna pro budování a objasnění prognóz, identifikace vzorů, hodnocení účinnosti atd. Celkem však existují asistenty, které také potřebují k tomu, aby byly v úvahu. Navzdory explicitním a potenciálním výhodám využití velkých údajů má jejich použití jeho nevýhody, které jsou primárně spojeny s velkými množstvím informací, různé metody přístupu k němu a s často nedostatečným poskytováním zdrojů. Informační bezpečnostní funkce v organizacích. Problémy, které se týkají použití obecných dat, jsou uvedeny na obrázku 4.

Obr. 4. Problémy s využitím velkých dat

Všechny tyto problémy vedou k tomu, že mnoho společností s Lags zavádějí velké datové technologie, protože při práci se třetími stranami, oni sami vznikají problém zveřejnění uvnitř, které společnost nemohla zveřejnit pouze prostředky. Podle mého názoru, Nejdůležitějším krokem na cestě úplného zavedení technologií na základě velkých údajů musí být legislativní aspekt. Nyní existují zákony, které omezují sběr, používání, ukládání určitých typů osobních údajů, ale neomezují úplné údaje, proto by pro ně měly existovat zvláštní právní předpisy. Za účelem rychle se mění a nových zákonů musí společnosti splňovat počáteční inventář příslušných regulačních právních aktů a pravidelně aktualizovat tento seznam. Navzdory výše uvedeným nedostatkům, jako zkušenosti západních zástupců ukazuje, velká data Technologie pomáhá úspěšně řešit jako moderní obchodní cvičení a zvyšování konkurenceschopnosti a cílů spojených přímo s životem lidí. Ruské společnosti jsou již na způsobu zavedení velkých datových technologií jak ve výrobní sféře a veřejnosti, protože množství informací každý rok se zvyšuje téměř dva. Postupem času se mnoho oblastí našeho života změní pod vliv velkých dat.

Odkazy na zdroje1.Budzkov. I. Vysoká dostupnost systémů a velkých dat // Velká data v národním ekonomiku roku 2013. P. 1619.2. Corotkova T. "EMC Data Lake 2.0 - Přechod na analytik velkých dat a digitální ekonomiky" http: // bigdata .cnews.ru / Novinky / Linka / 20151203_emc_data_lake_20_pomozhet_perejti_k_analitike.3.Kyrianova A. "Velká data se nestaly hlavním proudem v ruských bankách" http://www.cnews.ru/news/top/bolshie_dannye_ne_stali_mejnstrimom 4.cnews "Infigure: Velká data přišla do Ruska "http: //bigdata.cnews.ru/articleshi/Infografika_bolshie_dannyee_prishli_v_rossiyu.5.cnews" infografiky: jak maloobchodní využití velkých dat "http://bigdata.cnews.ru/articles/infika_kak_roznitsa_ispolzuet neexistují žádná zvláštní legislativa Ve světě v souvislosti s velkými údaji by měly být zamaskované s cílem zachovat zdrojové zdroje dat těchto společností, musí být přesvědčeny, že všechny požadavky na bezpečnost dat jsou sledovány a podporovány implementací velkých datů Zda vytvořit nebo detekovat dříve důvěrné správu informací. Zachování požadavků na zabezpečení dat pro zabezpečení datového štítku jménem Risk6.cnews "Infografika: BigData Technologies" http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka.7.cnews Klíčová slova mohou být velká data v bankách »http://bigdata.cnews.ru/articles/inflografika_chto_mogut_bolshie_dannye.8 Bigdata). http://www.tadviser.ru/index.php/Statimateschet_data_(big_data) .10.bigdata-elektřina XXIVEK http://bit.samag.ru/archive/article/1463.11.1.mckinsey globální institut "bigdata: další hranice Pro inovace, produktivita Compettionand »(červen 2011).

Velké údaje jsou širokou dobou určení netradičních strategií a technologií nezbytných pro shromažďování, zefektivnění a zpracování informací z velkých datových sad. Ačkoli problém práce s daty přesahující výpočetní výkon nebo schopnost ukládat jeden počítač není nový, v posledních letech se v posledních letech významně rozšířila měřítko a hodnota tohoto typu výpočtů.

V tomto článku najdete základní pojmy, se kterými se můžete setkat, zkoumání velkých dat. Také zde jsou považovány za některé z procesů a technologií, které jsou v této oblasti používány v této oblasti.

Co je velká data?

Přesná definice "velkých dat" je obtížné formulovat, protože projekty, dodavatelé, odborníci a obchodní experty ho využívají zcela jinak. S ohledem na to, velká data mohou být definována jako:

  • Velké datové sady.
  • Kategorie výpočetních strategií a technologií, které se používají ke zpracování velkých datových sad.

V této souvislosti znamená "velký soubor dat" datový soubor, který je příliš velký na zpracování nebo uloženo pomocí tradičních nástrojů nebo na jednom počítači. To znamená, že celkový rozsah velkých datových sad se neustále mění a může se výrazně lišit od případu.

Velké datové systémy

Základní požadavky na práci s velkými údaji jsou stejné jako jiné sady dat. Masové váhy, rychlost zpracování a datových charakteristik, které jsou nalezeny v každé fázi procesu, mají vážné nové problémy ve vývoji finančních prostředků. Cílem nejvíce velkých datových systémů je pochopit a komunikovat s velkými svazky heterogenních dat, což by bylo nemožné při použití konvenčních metod.

V roce 2001, Doug Lane (Doug Laney) z Gartneru prezentoval "tři V velkých dat", aby popsal některé vlastnosti, které odlišují zpracování velkých údajů ze zpracovatelského procesu jiných typů dat:

  1. OBJEM.
  2. Rychlost (rychlost akumulace a zpracování dat).
  3. Odrůda (rozmanitost typů zpracovávaných dat).

Objem dat

Výjimečnou škálou zpracovávaných informací pomáhá identifikovat velké datové systémy. Tyto datové sady mohou být více než tradiční sady, což vyžaduje větší pozornost v každé fázi zpracování a skladování.

Vzhledem k tomu, že požadavky překračují možnosti jednoho počítače, problém sdružení, distribuce a koordinace zdrojů ze skupin počítačů často vzniká. Clusterové řízení a algoritmy, které mohou přerušit úkoly na menší části, se v této oblasti stále více zvyšují.

Akumulace a rychlost zpracování

Druhá vlastnost, která významně rozlišuje velká data z jiných datových systémů, je rychlost, se kterou se informace přesunou přes systém. Data jsou často zapsána do systému z několika zdrojů a musí být zpracovány v reálném čase aktualizovat aktuální stav systému.

Toto zaměření na okamžitou zpětnou vazbu donutila mnoho praktiků, aby opustil přístup orientovaný na balíček a upřednostňoval proudový systém v reálném čase. Data jsou neustále přidávána, zpracována a analyzována, aby se udržovala v přílivu nových informací a získaly cenné údaje v rané fázi, kdy je nejrelevantnější. To vyžaduje spolehlivé systémy s vysoce dostupnými komponenty pro ochranu před poruchami na datovém dopravníku.

Různé typy zpracovaných dat

Ve velkých datech existuje mnoho jedinečných problémů spojených s širokou škálou zpracovaných zdrojů a jejich relativní kvality.

Data mohou pocházet z interních systémů, jako jsou aplikace a servery, ze sociálních sítí kanálů a dalších externích API, ze senzorů fyzických zařízení az jiných zdrojů. Účelem velkých datových systémů je zpracovávat potenciálně užitečná data bez ohledu na původ kombinování všech informací do jednoho systému.

Formáty a typy nosičů se mohou také lišit. Mediální soubory (obrázky, video a zvuk) jsou kombinovány s textovými soubory, strukturovanými protokoly atd. Čím tradiční systémy zpracování dat se počítají, že data spadají do dopravníku, které již byly označeny, formátované a organizované, ale velké datové systémy jsou obvykle přijaty a Uloženo se snaží. Uložte svůj počáteční stav. V ideálním případě se během zpracování dojde ke každé konverzi nebo změnách dat suroviny.

Další funkce

Postupem času, odborníci a organizace navrhli rozšířit počáteční "tři V", i když tyto inovace mají tendenci popisovat problémy, a ne vlastnosti velkých dat.

  • Věla: různé zdroje a složitost zpracování může vést k problémům při posuzování kvality dat (a následně kvalitu získané analýzy).
  • Variabilita: Změna dat vede k širokým změnám kvality. Pro identifikaci, zpracování nebo filtrování, nízké kvality dat mohou být požadovány další zdroje, které budou schopny zlepšit kvalitu dat.
  • Hodnota (hodnota hodnota): Konečný úkol velkých dat je hodnota. Někdy jsou systémy a procesy velmi složité, což je obtížné použít data a extrahovat skutečné hodnoty.

Životní cyklus velkých dat

Jak jsou tedy velká data skutečně zpracována? Existuje několik různých přístupů k implementaci, ale existují obecné funkce ve strategiích a softwaru.

  • Data do systému
  • Uložení dat v úložišti
  • Výpočet a analýza dat
  • Výsledky vizualizace

Před ohledem na tyto čtyři kategorie pracovních postupů v detailu, pojďme hovořit o výpočtech clusteru, což je důležitá strategie používaná mnoha nástroji pro zpracování velkých dat. Nastavení počítačového clusteru je základem technologie použité v každé fázi životního cyklu.

Kalkulace clusteru

Vzhledem ke kvalitě velkých dat nejsou jednotlivé počítače vhodné pro zpracování dat. K tomu klastry jsou vhodnější, protože se mohou vyrovnat s úložnými a výpočetními potřebami velkých dat.

Software pro velké datové clustering kombinuje zdroje mnoha malých automobilů, snaží se poskytnout řadu výhod:

  • Kombinace prostředků: Pro zpracování velkých datových sad je vyžadováno velké množství procesoru a paměťových zdrojů, stejně jako mnoho dostupných úložných prostor.
  • Vysoká dostupnost: Clustery mohou poskytovat různé úrovně tolerance a dostupnosti poruch, takže selhání hardwaru nebo softwaru nebudou mít vliv na přístup k datům a jejich zpracování. To je důležité zejména pro analýzu v reálném čase.
  • Škálovatelnost: Clustery podporují rychlé horizontální škálování (přidávání nových strojů do clusteru).

Chcete-li pracovat v klastru, jsou zapotřebí finanční prostředky ke správě clusteru, koordinace přidělování zdrojů a plánování práce s jednotlivými uzly. Členství v přidělení klastrů a přidělení zdrojů lze zpracovat pomocí Hadoop příze (ještě další vyjednavač zdrojů) nebo Apache Mesos.

Výpočetní cluster často působí jako základ, s jakým jiný software spolupracuje pro zpracování dat. Stroje zapojené do počítačového clusteru jsou také obvykle spojeny s řízením distribuovaného úložného systému.

Získávání dat

Příjem dat je proces přidávání neošetřených dat do systému. Složitost této operace do značné míry závisí na formátu a kvalitě datových zdrojů a o tom, kolik dat splňuje požadavky na zpracování.

Můžete přidat velká data do systému pomocí speciálních nástrojů. Technologie, jako je Apache SQOOP, mohou provést existující data z relačních databází a přidat je do velkého datového systému. Můžete také použít Apache Flume a Apache Chukwa - projekty určené pro agregaci a importní protokoly a servery. Zprávy z makléřů, jako je Apache Kafka, lze použít jako rozhraní mezi různými generátory dat a velkým datovým systémem. Frameworks typu Gobblin mohou kombinovat a optimalizovat výstup všech nástrojů na konci dopravníku.

Během příjmu dat je obvykle analyzována analýza, třídění a označení. Tento proces se někdy nazývá Etl (extrakt, transformace, zatížení), což znamená extrakci, konverze a nakládání. I když tento termín obvykle odkazuje na zastaralé procesy ukládání dat, někdy platí pro velké datové systémy. Mezi typickými operacemi je změna příchozích dat pro formátování, kategorizaci a označování, filtrování nebo ověřování dat pro dodržování předpisů.

V ideálním případě je přijatá data minimální formátování.

Datové úložiště

Po obdržení data přejdou na komponenty, které řídí úložiště.

Distribuované soubory se typicky používají k ukládání neošetřených dat. Řešení, jako je HDF z Apache Hadoop umožňují nahrávat velké množství dat do několika uzel v clusteru. Tento systém poskytuje výpočetní prostředky Přístup k datům, můžete stahovat data do Cluster RAM pro operace paměti a selhání komponent procesu. Místo HDF mohou být použity další systémy distribuovaných souborů, včetně Ceph a glusterfů.

Data mohou být také importována do jiných distribuovaných systémů pro strukturovaný přístup. Distribuované databáze, zejména databáze NOSQL, jsou vhodné pro tuto roli, protože mohou zpracovávat nehomogenní data. Existuje mnoho různých typů distribuovaných databází, výběr závisí na tom, jak chcete organizovat a odeslat data.

Výpočet a analýza dat

Jakmile jsou data k dispozici, systém může začít zpracovat. Výpočetní úroveň je možná nejvíce bezplatnou součástí systému, protože požadavky a přístupy zde mohou významně lišit v závislosti na typu informací. Data se často zpracovávají znovu: pomocí jednoho nástroje nebo pomocí řady nástrojů pro zpracování různých typů dat.

Dávkové zpracování je jedním z metod výpočtu ve velkých datových sadách. Tento proces obsahuje rozpad dat do menších částí, plánování zpracování každé části na samostatném stroji, permutující data založená na mezilehlých výsledcích a poté vypočítat a sbírejte konečný výsledek. Tato strategie využívá mapreduce z Apache Hadoop. Dávkové zpracování je nejužitečnější při práci s velmi velkými datovými soupravami, což vyžaduje spoustu počítačů.

Jiná pracovní zátěž vyžadují zpracování v reálném čase. Současně by měly být zpracovány a připraveny informace a systém musí reagovat včas, protože jsou přijaty nové informace. Jedním ze způsobů, jak realizovat real-time zpracování je zpracování kontinuálního toku dat sestávajících z jednotlivých prvků. Dalším obecným charakteristikou procesorů v reálném čase jsou vypočtena data v paměti clusteru, která se vyhýbá potřebě zapisovat na disk.

Apache Storm, Apache Flink a Apache Spack nabízejí různé způsoby, jak realizovat zpracování v reálném čase. Tyto flexibilní technologie vám umožní vybrat nejlepší přístup pro každý jednotlivý problém. Obecně platí, že zpracování v reálném čase je nejvhodnější pro analýzu malých datových fragmentů, které se mění nebo rychle přidají do systému.

Všechny tyto programy jsou rámcové. Existuje však mnoho dalších způsobů, jak vypočítat nebo analyzovat data ve velkém datovém systému. Tyto nástroje jsou často připojeny k výše uvedeným rámcům a poskytují další rozhraní pro interakci se základními úrovněmi. Například Apache Hive poskytuje rozhraní Data Warehouse rozhraní pro Hadoop, Apache Prase poskytuje rozhraní dotazu a interakce dat SQL jsou vybaveny vrtačkou Apache, Apache Impala, Apache Spark SQL a Presto. Apache Systemmml, Apache Mahout a Mlablib z Apache Spark se vztahuje na stroje. Pro přímé analytické programování, které je široce podporováno datovým ekosystému, použijte R a Python.

Výsledky vizualizace

Často rozpoznávají trendy nebo změny dat v čase důležitější než získané hodnoty. Vizualizace dat je jednou z nejužitečnějších způsobů, jak identifikovat trendy a organizování velkého počtu datových bodů.

Zpracování v reálném čase slouží k vizualizaci metrik a serveru aplikací. Data se často mění a velké vzorky v ukazatelích obvykle naznačují významný dopad na stav systémů nebo organizací. Prometheus typy projekty mohou být použity pro zpracování datových toků a časových řad a vizualizovat tyto informace.

Jedním z populárních metod vizualizace údajů je elastický zásobník dříve známý jako Elk Stack. Logstash se používá k sběr dat, elasticsearch pro indexování dat a Kibana je pro vizualizaci. Elastický zásobník může pracovat s velkými daty, vizualizovat výsledky výpočtů nebo interakce s neošetřené metriky. Podobný zásobník lze získat kombinování Apache Solr pro indexování vidlice Kibana nazvanou Banana pro vizualizaci. Takový zásobník se nazývá hedvábí.

Dokumenty jsou další vizualizační technologie interaktivních dat v oblasti datové oblasti. Tyto projekty umožňují provádět interaktivní studium a vizualizaci dat ve formátu, vhodné pro sdílení a odeslání dat. Populární příklady tohoto typu rozhraní jsou notebook Juptyter a Apache Zeppelin.

Slovník velkých dat

  • Velká data je široký termín pro označení datových souborů, které nelze správně zpracovávat běžnými počítači nebo nástroji v důsledku jejich objemu, rychlost příjezdu a rozmanitosti. Tento termín je také obvykle aplikován na technologie a strategie pro práci s těmito údaji.
  • Dávkové zpracování je výpočetní technikou, která zahrnuje zpracování dat ve velkých sadách. Obvykle je tato metoda ideální pro práci s nepostradatelnými daty.
  • Cluster Computing je praxe kombinování zdrojů několika strojů a řídit jejich společné schopnosti k provádění úkolů. To vyžaduje úroveň řízení clusteru, která zpracovává spojení mezi jednotlivými uzly.
  • Lake Data - velký repozitář shromážděných dat v relativně surovém stavu. Tento termín se často používá k označení nestrukturovaných a často měnících se velkých dat.
  • Dodávka dat je široký termín pro označení různých postupů vyhledávání vzorů ve velkých datových sadách. Toto je pokus organizovat mnoho dat do srozumitelnější a připojené sady informací.
  • Datový sklad je velký, objednaný skladování pro analýzu a podávání zpráv. Na rozdíl od jezera se úložiště skládá z formátovaných a dobře objednaných dat integrovaných s jinými zdroji. Datové sklady jsou často uvedeny ve vztahu k velkým údajům, ale často jsou součástí konvenčních systémů zpracování dat.
  • ETL (extrakt, transformace a zatížení) - extrakt, konverze a zatížení dat. Takový proces získávání a přípravy neošetřených dat k použití. Je spojeno s datovými sklady, ale charakteristiky tohoto procesu jsou také detekovány v dopravcích velkých datových systémů.
  • Hadoop je projektu Open Source Apache pro velká data. Skládá se z distribuovaného systému souborů s názvem HDF a klastrovače klastrů a zdrojů nazývaných příze. Možnosti zpracování paketů jsou poskytovány mechanismem výpočtu MAPREDUCE. Spolu s mapreducem v moderních hadoop nasazení lze spustit další výpočetní a analytické systémy.
  • Výpočty v paměti jsou strategie, která zahrnuje úplný pohyb pracovních sad dat do paměti clusteru. Meziproduktové výpočty nejsou zaznamenány na disku, místo toho jsou uloženy v paměti. To poskytuje systémům obrovskou výhodu v rychlosti ve srovnání s systémy spojenými s I / O.
  • Strojový trénink je studiem a praxe projektových systémů, které se mohou naučit, konfigurovat a zlepšit na základě dat předaných dat. Obvykle to znamená implementaci prediktivních a statistických algoritmů.
  • Snižte mapu (nemusí být zaměňována s mapreducem z Hadoopu) je algoritmus pro plánování počítačového clusteru. Proces zahrnuje oddělení úkolu mezi uzly a přijímání mezilehlých výsledků, zamíchání a následný výstup jedné hodnoty pro každou sadu.
  • NOSQL je široký termín označující databáze vyvinuté mimo tradiční relační model. Databáze NOSQL jsou vhodné pro velké údaje v důsledku jejich flexibility a distribuované architektury.
  • Streamování je praxe výpočtu jednotlivých datových prvků při pohybu systému. To vám umožní analyzovat data v reálném čase a je vhodná pro zpracování naléhavých operací pomocí vysokorychlostních metrik.
Tagy:

Podle výzkumu a trendů

Velká data, "velká data" několik let, když se stanete podobností v jazycích v IT a marketingovém tisku. A je jasné: Digitální technologie pronikla do života moderního člověka, "všechno je napsáno." Výše údajů o nejrůznějších stranách života roste a zároveň se zvyšují možnosti skladování informací.

Technologie globálních technologií

Zdroj: Hilbert a Lopez, `Světová technologická kapacita pro ukládání, komunikaci a výpočet informací," Science, 2011 Global.

Většina odborníků souhlasí s tím, že zrychlení růstu dat je objektivní realitou. Sociální sítě, Mobilní zařízení, data z měřicích přístrojů, obchodní informace - jen několik typů zdrojů, které mohou generovat gigantické informace. Podle studie IDC.Digitální vesmír. , Publikováno v roce 2012, příštích 8 let se výše údajů na světě dosáhne 40 ZB (Zettabytes), která odpovídá 5 200 GB na obyvatele planety.

Růst shromážděných digitálních informací v USA


Zdroj: IDC.

Významnou součástí informací je vytvářena lidem, ale roboty interagují jak navzájem, tak s jinými datovými sítěmi - například senzory a inteligentní zařízení. Za takových tempi růstu bude každý rok zdvojnásoben výši údajů na světě, podle předpovědí výzkumných pracovníků. Počet virtuálních a fyzických serverů na světě bude pěstovat desetkrát kvůli rozšíření a vytváření nových datových center. V tomto ohledu roste potřeba efektivního využití a monitalizace těchto údajů. Vzhledem k tomu, že využívání velkých údajů v podnikání vyžaduje značné investice, pak je nutné situaci jasně pochopit. A v podstatě je jednoduchá: zlepšit efektivitu podnikání může být snížena náklady nebo a zvýšení prodeje.

Co potřebujete velká data

Velké datové paradigmat definuje tři hlavní typy úkolů.

  • Skladování a správa objemu dat ve stovkách terabajtů nebo petabytů, že běžné relační databáze neumožňují efektivní využití.
  • Organizace nestrukturovaných informací sestávajících z textů, obrázků, videa a dalších datových typů.
  • Velká analýza dat, která vyvolává otázku, jak pracovat se nestrukturovanými informacemi, generováním analytických zpráv, jakož i zavedení prognostických modelů.

Velkým datovým projektovým trhem protíná se trhem Business Intelligence (BA), jehož objem na světě, podle odborníků, v roce 2012 činil asi 100 miliard dolarů. Zahrnuje komponenty síťových technologií, serverů, softwaru a technických služeb.

Použití velkých datových technologií je také relevantní pro rozhodnutí Třídy pro záruku příjmů (RA), která je určena k automatizaci činností společností. Moderní systémy ZÁRUKY Příjmy zahrnují nástroje detekce nesrovnalostí a hloubkovou analýzu dat, umožňující možné ztráty zjistit možné ztráty včas, nebo narušení informací, které mohou vést ke snížení finančních výsledků. V této souvislosti, ruské společnosti potvrzují dostupnost poptávky velkých datových technologií na domácím trhu, poznamenaly, že faktory, které stimulují vývoj velkých údajů v Rusku, jsou růst dat, urychlující se rozhodování o řízení a zlepšení jejich kvality.

Co zabraňuje práci s velkými daty

Dnes je analyzováno pouze 0,5% akumulovaných digitálních dat, a to navzdory skutečnosti, že existují objektivně všeobecné úkoly, které by mohly být řešeny pomocí analytických řešení třídy Big Data. Vyvinuté IT trhy již mají výsledky, pro které můžete odhadnout očekávání spojené s akumulací a zpracováním velkých dat.

Jedním z hlavních faktorů, které inhibují zavedení velkých dat - projektů, kromě vysokých nákladů problém výběru zpracovávaných dat: To znamená, že definice toho, jaká data musí být získána, uložena a analyzována, a které nejsou zohledněny.

Mnoho obchodních zástupců poznamenává, že obtíže při provádění velkých datových projektů jsou spojeny s nedostatkem odborníků - obchodníky a analytiků. Z kvality práce zaměstnanců zabývajících se hlubokým a predikčním analýzou závisí rychlost návratnosti investic do velkých dat přímo. Obrovský potenciál již existujících údajů v organizaci nemůže být účinně používat obchodníci sami kvůli zastaralým obchodním procesům nebo vnitřním předpisům. Proto jsou velké datové projekty vnímány jako komplexní nejen v realizaci, ale také v hodnocení výsledků: hodnoty shromážděných dat. Specifičnost práce s daty vyžaduje obchodníkům a analytikům, aby věnovali pozornost z technologií a vytvářet zprávy k řešení konkrétních obchodních úkolů.

Vzhledem k velkému objemu a vysoké rychlosti datového toku, proces jejich sbírky zahrnuje postup ELL v reálném čase. Pro referenci:Ér. - Ot.angličtinaVýpis, Přeměnit, Zatížení. - doslova "těžba, transformace, načítání") - jeden z hlavních procesů v řízení datové sklady, které zahrnují: extrahování dat z externích zdrojů, jejich transformace a Čištění pro uspokojení potřeb ETL by měl být považován nejen jako proces přenosu dat z jedné aplikace do druhého, ale také jako nástroj pro přípravu údajů pro analýzu.

A pak otázky, aby byla zajištěna bezpečnost údajů z externích zdrojů, by měla mít řešení, která odpovídají částkám shromážděných informací. Vzhledem k tomu, že velká analýza dat se dosud rozvíjí pouze po růstu údajů, majetek analytických platforem hraje hlavní úlohu pro použití nových metod přípravy a agregace dat. To naznačuje, že například údaje o potenciálních kupujících nebo masivním datovém skladu s historií kliknutí na webu online úložiště mohou být zajímavé vyřešit různé úkoly.

Potíže se nezastaví

Navzdory všem potížím se zavedením velkých dat hodlá podnikání zvýšit investici do tohoto směru. Ze data gartnerů, v roce 2013, v roce 2013, 64% největších světových společností již investovaly, nebo má plány investovat do nasazení technologií ve velkém datovém prostoru pro jejich podnikání, zatímco v roce 2012 bylo 58%. Podle výzkumu Gartneru jsou vůdci investic do velkých datových odvětví mediálních společností, telecom, bankovním sektorem a servisními společnostmi. Úspěšné výsledky implementace velkých dat již bylo dosaženo mnoha významnými maloobchodními hráči, pokud jde o používání dat získaných pomocí radiofrekvenčních identifikačních nástrojů, logistických a doplňovacích systémů (z angličtiny. doplnění. - Akumulace, doplňování - R & T), stejně jako od věrnostních programů. Úspěšné maloobchodní zkušenosti stimuluje jiná odvětví trhu s cílem nalézt nové efektivní způsoby, jak zpeněžit velké údaje pro změnu jejich analýzy do zdrojů pracujících na rozvoj podnikání. Díky tomu, v souladu s odborníky, v období do roku 2020, investice do managementu, úložiště budou klesat pro každý gigabajt dat z $ 2 až $ 0,2, ale ke studiu a analýze technologických vlastností velkých dat se zvýší o pouze 40 %.

Náklady uvedené v různých investičních projektech ve velké datové oblasti jsou jiné. Nákladové články závisí na typech výrobků, které jsou vybrány na základě definovaná řešení. Největší část nákladů na investiční projekty, podle specialistů, představovaly produkty týkající se sbírky, strukturování dat, čištění a řízení informací.

Jak to je hotovo

Existuje mnoho kombinací softwaru a hardwaru, které vám umožní vytvořit efektivní řešení velkých dat pro různé obchodní disciplíny: ze sociálních médií a mobilních aplikací, na intelektuální analýzu a vizualizaci komerčních dat. Důležitou výhodou velkých dat je slučitelnost nových nástrojů s široce používanými databázemi, což je obzvláště důležité při práci s křížovými disciplinárními projekty, jako je organizace vícekanálové prodeje a zákaznická podpora.

Velká datová sekvence se skládá ze sběru dat, strukturování přijatých informací využívajících zprávy a řídicí panely (Dashboard), vytváření pohledů a kontextů, jakož i formulování doporučení k akci. Vzhledem k tomu, že práce s velkými daty znamená vysoké náklady na sběr dat, výsledek zpracování, který je předem neznámý, hlavní úkol je jasným porozuměním, pro které jsou data potřebná, a ne, jak moc jsou skladem. V tomto případě se sběr dat promění v proces získání výhradně nezbytné k řešení konkrétních informačních úkolů.

Například poskytovatelé telekomunikací agreguje obrovské množství dat, včetně geolokace, které jsou neustále doplňovány. Tyto informace mohou představovat komerční zájem na reklamní agentury, které jej mohou využít k tomu, aby ukázaly cílenou a místní reklamu, jakož i pro maloobchodníky a banky. Tyto údaje mohou hrát důležitou roli při řešení otevření obchodního bodu v určitém místě na základě údajů o přítomnosti silného cílového toku lidí. Existuje příklad měření reklamní účinnosti na venkovní štíty v Londýně. Nyní může být pokrytí takové reklamy měřeny pouze umístěním osob se speciálním počítáním zařízení v blízkosti reklamních konstrukcí. Ve srovnání s tímto typem měření účinnosti reklamy, mobilní operátor mnohem více příležitostí - zná přesně umístění svých účastníků, zná jejich demografické vlastnosti, pohlaví, věk, rodinný stav atd.

Na základě těchto údajů v budoucnu se v budoucnu otevírá vyhlídka na změnu obsahu reklamní zprávy, s využitím preferencí určité osoby, která prochází reklamním štítem. Pokud data ukazují, že projíždění osobou hodně cestuje, pak může ukázat reklamu resortu. Organizátoři fotbalového zápasu mohou hodnotit počet fanoušků pouze tehdy, když přijdou na zápas. Ale pokud měli možnost požádat od provozovatele mobilní komunikace Informace, kde byli návštěvníci za hodinu, den nebo měsíc před zápasem, dalo by to příležitost plánovat místa pro přizpůsobení následujících zápasů.

Dalším příkladem je oba banky, mohou používat velká data, aby se zabránilo podvodům. Pokud klient deklaruje ztrátu karty a při nákupu s jeho pomocí, banka vidí v reálném čase umístění telefonu klienta v kupní oblasti, kde dochází k transakci, banka může zkontrolovat informace o aplikaci Klient se nepokoušel klamat. Buď opačná situace, kdy klient provede nákup v obchodě, banka vidí, že karta, ve které se provádí transakce, a klientský telefon je na jednom místě, banka může konstatovat, že jeho majitel má kartu. Díky těmto výhodám velkých dat jsou hranice rozšířeny, které provozují tradiční datové sklady.

Úspěšně rozhodnout o provádění rozhodnutí o velkých údajích, musí společnost vypočítat investiční případ a způsobuje velké potíže způsobené mnoha neznámými komponenty. Paradox analytiky v takových případech se stává předpovědět budoucnost na základě minulosti, údaje, jejichž často chybí. V tomto případě je důležitým faktorem jasným plánováním jeho počátečních akcí:

  • Za prvé, je nutné definovat jeden specifický obchodní úkol, k vyřešení velkých datových technologií, bude tento úkol prutem určování loajality vybraného konceptu. Je třeba se zaměřit na shromažďování dat souvisejících s tímto úkolem a během zkoušky konceptu můžete použít různé nástroje, procesy a metody řízení, které vám umožní učinit více informovanějších rozhodnutí v budoucnu.
  • Za druhé, je nepravděpodobné, že společnost bez dovedností a zkušeností s analýzou dat bude schopna úspěšně implementovat velký datový projekt. Potřebné znalosti vždy teče z předchozího analytického zážitku, což je hlavní faktor ovlivňující kvalitu práce s daty. Důležitou roli hraje kultura pro použití dat, protože často analýza informací otevírá krutou pravdu o podnikání a přijmout tuto pravdu a pracovat s ním, jsou nezbytné vyvinuté metody práce s údaji.
  • Zatřetí, hodnota velkých datových technologií je poskytnout vhled, že dobré analytici zůstávají deficit na trhu. Jsou obvyklé zavolat specialisty, kteří mají hluboké pochopení komerčního smyslu dat a věděli, jak je aplikovat. Analýza dat je prostředkem k dosažení obchodních cílů, a pochopit hodnotu velkých dat, odpovídající model chování a porozumění jeho akcí je zapotřebí. V tomto případě budou velká data poskytnuta mnoho užitečných informací o spotřebitelích, na jejichž základě můžete provést užitečná řešení pro podnikání.

Navzdory skutečnosti, že ruský velký datový trh se začíná být tvořeno, individuální projekty v této oblasti jsou již úspěšně realizovány. Některé z nich jsou úspěšné v oblasti sběru dat, jako jsou projekty pro banky FTS a TINKOFF Credit Systems, jiní - z hlediska analýzy dat a praktickou aplikaci svých výsledků: Jedná se o projekt Synqera.

Banka úvěrových systémů TINKOFF implementovala projekt k implementaci platformy EMC2 Greenplum, což je nástroj pro masivní paralelní výpočetní techniku. Banka v posledních letech zvýšila požadavky na rychlost zpracování akumulovaných informací a analýzu dat v reálném čase způsobené vysokým tempem růstu počtu uživatelů kreditních karet. Banka oznámila plány na rozšíření využití velkých datových technologií, zejména pro zpracování nestrukturovaných dat a práce s firemními informacemi získanými z různých zdrojů.

Ve federální daňové službě Ruska v tuto chvíli existuje analytická vrstva federálního datového skladu. Je založen na jednom informační prostor a technologie přístup k daňovým údajům pro statistické a analytické zpracování. Během provádění projektu se provádí práce na centralizaci analytických informací s více než 1200 zdroje místního IFX.

Dalším zajímavým příkladem analýzy velkých dat v reálném čase je ruský výkon Synqera, který vyvinul platformu SIMPLY. Řešení je založeno na zpracování velkých datových polí, program analyzuje informace o kupujících, historii jejich nákupů, věku, pohlaví a dokonce i nálady. V hotovostních stolech v síti kosmetických obchodů byly dotykové obrazovky instalovány s senzory, které rozpoznávají emoce kupujících. Program určuje náladu osoby, analyzuje informace o něm, určuje denní dobu a prohledává slevu na skladě, po kterém odesílá cílené zprávy o promo akcích a speciálních nabídkách. Toto řešení zvyšuje nákupní loajalitu a zvyšuje prodej maloobchodníků.

Pokud hovoříme o zahraničních úspěšných případech, pak v tomto ohledu, zkušenost s využitím velkých datových technologií v Dunkin`donuts pomocí dat v reálném čase pro prodej výrobků. Digitální displeje v obchodech zobrazují věty, které navzájem nahradí každou minutu, v závislosti na denní době a dostupnosti produktů. Na pokladně společnost obdrží údaje, které podněty obdržely největší odezvu od kupujících. Tento přístup ke zpracování dat umožnil zvýšit zisky a obrat zboží na skladě.

Vzhledem k tomu, že zkušenost s uvedením velkých datových projektů ukazuje, tato oblast je navržena tak, aby úspěšně řešila moderní obchodní úkoly. Současně důležitým faktorem při dosahování komerčních účelů při práci s velkými údaji je volba správné strategie, která zahrnuje analytiku, která odhaluje požadavky na spotřebitele, jakož i používání inovativních technologií ve velkém datovém prostoru.

Podle globálního průzkumu, každoročně prováděného Econsultancy a Adobe od roku 2012 mezi obchodníky firem, "velkých dat", charakterizující akce lidí na internetu, může hodně. Jsou schopni optimalizovat offline obchodní procesy, pomáhají pochopit, jak je majitelé mobilních zařízení používají k hledání informací nebo jednoduše "marketing lépe", tj. efektivněji. Kromě toho je poslední funkce roku stále častěji stále více, jak vyplývá z diagramu, který ukazujeme.

Hlavní oblasti provozu internetových obchodníků z hlediska vztahů se zákazníky


Zdroj: EkonoSULtence a Adobe, publikovaná - Emarketer.com.

Všimněte si, že státní příslušnost respondentů nezáleží. Jako průzkum provedený KPMG v roce 2013, podíl "optimistů", tj. Ti, kteří používají velké údaje při rozvoji obchodní strategie, jsou 56%, navíc kolísání z regionu do regionu jsou malé: od 63% v severoamerických zemích až o 50% v EMEA.

Použití velkých dat v různých oblastech světa


Zdroj: KPMG, publikováno - Emarketer.com.

Mezitím je poměr marketérů na takové "módní trendy" podobný slavnému anekdotu:

Řekni mi, Vano, máš rád rajčata?
- Miluju jíst, a tak - ne.

Navzdory tomu, že obchodníci ve slovech "láska" velká data a zdají se je dokonce používat, ve skutečnosti, "Všechno je obtížné," když psali o jejich srdci v sociálních sítích.

Podle průzkumu provedeného kruhovým výzkumem v lednu 2014 mezi evropskými obchodníky, 4 z 5 respondentů nepoužívají velká data (navzdory skutečnosti, že jsou samozřejmě "lásku"). Příčiny jsou jiné. Signaged Skeptici trochu - 17% a přesně stejně jako jejich antipodes, tj. Ti, kteří s jistotou odpoví: "Ano." Zbytek je oscilační a pochybující, "bažina". Oni odjíždějí z přímé reakce pod příznivými záminkami v duchu toho, co "Neexistuje ne, ale brzy" nebo "počkejte, až začne zbytek."

Použití velkých datových marketérů, Evropy, leden 2014


Zdroj:dnx, publikováno -emarketer.com.

Co je zaměňuje? Sluneční maličkosti. Některé (jejich přesně polovina) prostě nevěří těmto údajům. Jiní (mají také hodně - 55%) obtížné v korelaci sad "dat" a "uživatelů". Někdo je jednoduše (vyjadřuje politicky korekční) poruchou intrakorporačního onemocnění: data jsou v oblasti marketingových oddělení a strukturami IT. Jiný software se nevyrovnává s přílivem práce. Atd. Vzhledem k tomu, že celkové akcie výrazně překročí 100%, je zřejmé, že se často nachází situace "více bariér".

Bariéry používání velkých dat v marketingu


Zdroj:dnx, publikováno -emarketer.com.

Je tedy nutné uvést, že zatímco "velká data" je velkým potenciálem, který ještě potřebujete využít. Mimochodem, to může být důvod, proč velká data ztrácejí "módní trend" halo, o čemž svědčí údaje o průzkumu, kterou jsme již zmínili o Econsultanci.

Nejvýznamnější trendy v digitálním marketingu 2013-2014


Zdroj: EkonoSučně a Adobe

Pro výměnu, oni vycházejí další král - obsahový marketing. Jak dlouho?

Je nemožné říci, že velká data jsou nějaká zásadně nový fenomén. Velké zdroje dat existují po mnoho let: zákaznické nákupy databází, úvěrové příběhy, životní styl. A po mnoho let, vědci tyto údaje použili, aby pomohli společnostem hodnotit riziko a předpovídat budoucí potřeby zákazníků. Dnes se však situace změnila ve dvou aspektech:

Existují složitější nástroje a metody pro analýzu a kombinování různých datových sad;

Tyto analytické nástroje jsou doplněny celou lavinou nových zdrojů dat způsobených přechodem na digitální technologie téměř všech metod sběru a měření dat.

Rozsah dostupných informací současně a inspiruje a děsí výzkumníky, kteří se rozrostli ve strukturovaném výzkumném médiu. Spotřebitelské pocity jsou zaznamenány lokalitami a všechny druhy odrůd sociálních médií. Skutečnost prohlížení reklamy je stanovena nejen televizními konzolami, ale také s pomocí digitálních značek a mobilní zařízeníDotýkat se televize.

Data chování (například počet hovorů, nákupy a nákupy) jsou nyní k dispozici v reálném čase. Tak, hodně z toho, co bylo použito k získání výzkumu, dnes se můžete naučit pomocí velkých zdrojů dat. A všechny tyto informační aktiva jsou neustále generovány bez ohledu na všechny výzkumné procesy. Tyto změny a usilovat o nás: Zeptejte se, zda velká data budou moci nahradit klasický výzkum trhu.

Nejde o data, je to o otázkách a odpovědích

Před objednáním pohřebního vyzvánění na klasický výzkum si musíme připomenout, že to není přítomnost určitých datových aktiv, ale něco jiného. Co přesně? Naše schopnost odpovídat na otázky, to je to. Nový svět velkých dat má jednu zábavnou funkci: výsledky získané na základě nových informačních aktiv vedou k vzniku ještě více otázek a těmito otázkami je nejlépe odpovědět tradiční výzkum. Tak, jak největší data se zvyšují, vidíme paralelní růst v přítomnosti a potřebujete "malá data" (malá data), což může poskytnout odpovědi na otázky ze světa velkých dat.

Zvažte situaci: Velký inzerent provádí konstantní monitorování provozu v obchodech a objemu prodeje v reálném čase. Stávající výzkumné techniky (v rámci kterého pohovorujeme výzkumné panely o jejich motivaci k nákupu a chování v prodejním prodejním místech), nám pomáhají lépe zaměřit určité segmenty kupujících. Tyto techniky mohou být rozšířeny - mohou zahrnovat širší rozsah velkých datových aktiv až do té míry, že velká data se stávají prostředkem pasivního pozorování a studií - metodou trvalého nuceného výzkumu změn nebo událostí vyžadujících studium. To je, jak velká data mohou svobodnou výzkum z nadměrného rutiny. Primární studie by se již neměla zaměřit na to, co se děje (to bude velká data). Místo toho se může primární výzkum zaměřit na vysvětlení, proč vidíme určité trendy nebo odchylky od trendů. Výzkumník bude moci myslet méně o přijímání dat a více o tom, jak je analyzovat a používat je.

Zároveň vidíme, že velká data vám umožní vyřešit jeden z našich největších problémů - problém nadměrně dlouhého výzkumu. Studie samotných studií ukázala, že příliš nafouknuté výzkumné nástroje mají negativní dopad na kvalitu dat. Ačkoli mnoho specialistů na dlouhou dobu poznal přítomnost tohoto problému na dlouhou dobu, oni vždy odpověděli na to frází: "Ale potřebuji tyto informace pro vrcholový management" a pokračovaly dlouhé průzkumy.

Ve světě velkých dat, kde lze kvantitativní ukazatele získat pasivní pozorování, tato otázka se stává kontroverzní. Znovu si pamatujte všechny tyto spotřeby. Pokud nám velká data dávají poznatky o spotřebě pomocí pasivního pozorování, pak primární výzkum ve formě anket již nemusí vyzvednout tento druh informací, a my se konečně budeme moci posílit vaši vizi krátkých průzkumů nejen dobrými přáními, Ale něco skutečného.

Velká data potřebují vaši pomoc

Konečně, "Big" je jen jedním z charakteristik velkých dat. Charakteristika "LARGE" se vztahuje na velikost velikosti a měřítku. To je samozřejmě hlavní charakteristikou, protože množství těchto údajů jde nad rámec toho, co jsme pracovali dříve. Ostatní vlastnosti těchto nových datových toků jsou však také důležité: jsou často špatně formátovány, nestrukturované (nebo v nejlepším případě strukturované částečně) a jsou plné nejistoty. Rozvojová plocha správy dat, metro-identifikátor "analýza entity" (entity Analytics), je navržen tak, aby vyřešil problém překonání hluku ve velkých datech. Jejím úkolem je analyzovat tyto sady dat a zjistit, kolik pozorování se vztahuje na stejnou osobu, kterou pozorování jsou aktuální a které z nich jsou vhodné pro použití.

Tento typ čištění dat je nutný pro odstranění šumu nebo chybných dat při práci s většími nebo malými datovými osmi, ale to nestačí. Musíme také vytvořit kontext kolem velkých datových aktiv na základě našich předchozích zkušeností, analytiky a znalostí kategorie. Ve skutečnosti, mnoho analytiků indikuje schopnost řídit nejistotu vlastní ve velkých údajích, jako zdroj konkurenční výhody, protože umožňuje provádět efektivnější řešení.

A teď je primární výzkum nejen osvobozen od rutiny díky velkým údajům, ale také přispívají k vytvoření obsahu a analýzy v rámci velkých údajů.

Živým příkladem toho může být aplikace našeho nového zásadně jiného rámce značkové kapitálu na sociálních médiích (Mluvíme o rozvojiMillward. Hnědý. Nový přístup k měření hodnoty značkyJejich Smysluplně. Odlišný. Rámec. - "paradigma významných rozdílů" -R. & T. ). Tento model je ověřen na chování v rámci konkrétních trhů, implementovaných na standardním základě a je snadné použít v jiných marketingových směrech a informační systémy Podpořit rozhodování. Jinými slovy, náš model kapitálu založený na metodách průzkumy (i když nejen na nich) má všechny vlastnosti nezbytné k překonání nestrukturované, nekoherentní a neurčitou povahu velkých dat.

Zvažte údaje o spotřebitelském sentimentu poskytovaném sociálními médii. V surové podobě, vrcholy a obtisky spotřebitelských nálad jsou velmi často minimálně korelovány se značkou a chování parametrů kapitálu získané offline: Je to příliš mnoho hluku. Můžeme však tento hluk snížit, aplikovat naše modely spotřebitelského významu, diferenciace značek, dynamiky a rozlišovacích prvků pro data surové sentimentu spotřebitelů je způsob zpracování a agregace dat sociálních médií o těchto rozměrech.

Po uspořádání dat v souladu s naším rámcovým modelem, trendy se obvykle shodují s parametry značkové kapitálové a chování získané offline. V podstatě nemohou data sociálních médií mluvit pro sebe. Pro použití pro tento účel vyžaduje, aby naše zkušenosti a modely postavené kolem značek. Když nám sociální média poskytnou jedinečné informace vyjádřené v jazyce, které spotřebitelé používají k popisu značek, musíme tento jazyk používat při vytváření výzkumu, aby se primární výzkum mnohem efektivnější.

Výhody osvobozeného výzkumu

To nás vrací na skutečnost, že velká data nejsou tolik nahrazena výzkumem, jak je osvobozují. Výzkumníci budou propuštěni z potřeby vytvořit novou studii pro každý nový případ. Neustále rostoucí hlavní datová aktiva může být použita pro různé výzkum, který umožňuje následujícím primárním výzkumu prohloubit v tématu a vyplnit dostupné mezery. Výzkumní pracovníci budou propuštěni z potřeby spoléhat se na příliš nafouknuté průzkumy. Místo toho budou moci používat krátké ankety a zaměřit se na nejdůležitější parametry, které zlepšují kvalitu dat.

Díky tomuto osvobození budou výzkumníci schopni využít své strávené principy a nápady za účelem přidání přesnosti a význam velkých datových aktiv, což povede k vzniku nových oblastí pro výzkum podle metody průzkumu. Tento cyklus by měl vést k hlubšímu pochopení různých strategických otázek a nakonec, aby se přesunul na skutečnost, že by měl být vždy naším hlavním cílem - informovat a zlepšit kvalitu řešení vztahujících se k značce a komunikaci.

Najednou jsem slyšel termín "velká data" z německého Gref (vedoucí Sberbank). Říkají, že nyní aktivně pracují na úvodu, protože jim pomůže snížit čas práce s každým klientem.

Podruhé, kdy jsem do této koncepce běžel v klientském internetovém obchodě, nad kterým jsme pracovali a zvýšili rozsah od dvojice tisíců na pár desítek tisíc komoditních pozic.

Potřetí, když jsem viděl, že je v Yandex požadován velký datový analytik. Pak jsem se rozhodl odvážit se na to přijít na toto téma a zároveň napsat článek, který by řekl, že je to termín takový, že vzrušuje mysl špičkových manažerů a internetového prostoru.

Co to je

Obvykle každý článek začínám s vysvětlením, jaký je termín pro takové. Tento článek nebude výjimkou.

To je však způsobeno především, ne touha ukázat, co jsem chytrý, ale skutečnost, že toto téma je skutečně složité a vyžaduje pečlivé vysvětlení.

Můžete například číst, jaká velká data jsou ve Wikipedii, nechápejte nic, a pak se vraťte do tohoto článku, abyste stále pochopili definici a použitelnost pro podnikání. Začněme tedy s popisem a pak na příklady pro podnikání.

Velká data jsou velká data. Překvapivě, ano? Opravdu je přeloženo z angličtiny jako "velká data". Tato definice však lze říci o figuríny.

Technologie Velká data. - Jedná se o přístup / způsob zpracování většího počtu údajů pro získání nových informací, které jsou těžké zvládnout konvenční způsoby.

Data mohou být zpracována (strukturovaná) a disparát (to je nestrukturované).

Termín sám se objevil relativně nedávno. V roce 2008, ve vědeckém časopise byl tento přístup předpovězen jako něco nezbytného pro práci s velkým množstvím informací, které se zvyšuje geometrické progrese.

Například každoročně informace na internetu, které musí být uloženy, dobře, ke zpracování, zvýšení o 40%. Opět: + 40% každý rok se objeví na internetu nových informací.

Pokud jsou vytištěné dokumenty vymazány a jejich zpracovatelské metody jsou také jasné (přenos do elektronického formuláře, šít na jednu složku, číslovanou), co dělat s informacemi, které jsou prezentovány v zcela jiném "médiu" a dalším svazkům:

  • Internetové dokumenty;
  • Blogy a sociální sítě;
  • Audio / video zdroje;
  • Měřicí přístroje.

Existují charakteristiky, které vám umožní připisovat informace a data do velkých dat. To znamená, že ne všechna data mohou být vhodná pro analytici. V těchto vlastnostech je stanovena klíčová koncepce velkého data. Všechny jsou zapadají do tří V.

  1. Objem(z eng. objem). Data se měří v rozsahu fyzického objemu "dokumentu", které mají být analyzovány;
  2. Rychlost(z angličtiny. rychlost). Data nezískává v jejich rozvoji, ale neustále rostou, proto je jejich rychlé zpracování vyžadováno pro získání výsledků;
  3. Rozdělovač(z angličtiny. Odrůda). Data nemusí být jednoduchá formát. To znamená, že mohou být částečně znepokojeny nebo strukturovány.

Nicméně, periodicky přidat do VVV a čtvrtý V (věrnost - spolehlivost / věrohodnost dat) a dokonce i pátý V (v některých provedeních je životaschopnost - životaschopnost, v jiných je to hodnota - hodnota).

Někde jsem také viděl 7V, který charakterizoval data související s velkým datem. Ale podle mého názoru to je ze série (kde P periodicky přidává, i když je pro pochopení počátečního 4-X).

Jsme již více než 29 000 lidí.
Enter.

Kdo to potřebuje

Dostává se na logickou otázku, jak mohu použít informace (pokud to, velké datum je stovky a tisíce Terabyte)?

Ani tak. Zde je informace. Co tedy znamenalo velké datum? Jaké je použití velkých dat v marketingu a v podnikání?

  1. Obyčejní databáze nemohou být uloženy a zpracovávány (nyní nemluvím ani o analytici, ale jednoduše skladování a zpracování) obrovského množství informací.
    Velké datum řeší tento hlavní úkol. Úspěšně ukládá a spravuje informace s velkým objemem;
  2. Informace o strukturách z různých zdrojů (video, obrazy, audio a textové dokumenty), v jednom jediné, srozumitelné a reagující formě;
  3. Formování analytiky a vytváření přesných prognóz založených na strukturovaných a zpracovaných informacích.

Je to komplikované. Mluvit jednoduše, jakýkoli obchodník, který chápe, že pokud prozkoumáte velké množství informací (o vás, vaše společnost, vaše konkurence, váš průmysl), můžete získat velmi slušné výsledky:

  • Plné pochopení vaší společnosti a vaše podnikání ze strany čísel;
  • Prozkoumejte své konkurence. A to zase dá příležitost vyjdět dopředu kvůli jejich prevalence;
  • Naučte se nové informace o svých zákaznících.

A právě proto, že velká datová technologie poskytuje následující výsledky, všechno se nosí s ním. Snažím se tento případ připevnit do vaší společnosti, abyste získali zvýšení prodeje a snížení nákladů. A pokud konkrétně, pak:

  1. Zvýšit prodejní kříž a další prodej díky lepšímu znalosti předvoleb zákazníků;
  2. Nalezení populárních produktů a důvodů, proč jsou zakoupeny (a naopak);
  3. Zlepšení produktu nebo služby;
  4. Zlepšení úrovně služeb;
  5. Raying loajality a zaměření zákazníků;
  6. Varování podvodů (relevantnější pro bankovní sektor);
  7. Snížené přebytečné náklady.

Nejčastějším příkladem, který je uveden ve všech zdrojích, je samozřejmě Apple, který shromažďuje údaje o svých uživatelích (telefon, hodiny, počítač).

Je to způsobeno přítomností Eco-System, který korporace ví tolik o svých uživatelích a dále používá k tomu, aby to zisk.

Tyto a další příklady používání můžete přečíst v jiném článku s výjimkou tohoto.

Moderní příklad

Řeknu vám o dalším projektu. Spíše o osobě, která staví budoucnost pomocí velkých datových řešení.

To je ILON MASK a jeho společnost Tesla. Jeho hlavním snem je, aby autonomní autonomní, to znamená, že se dostanete za kolo, zapněte autopilot z Moskvy na Vladivostok a ... usnout, protože absolutně nemusíte řídit auto, protože udělá všechno sám .

Zdálo by se to fantazie? Ale ne! Jen Ilon přišel mnohem moudřejší než Google, který spravuje auta s desítkami satelitů. A šel k jinému způsobu:

  1. V každém prodávaném automobilu je nastaven počítač, který shromažďuje všechny informace.
    Všechno - to znamená celý celek. O řidiče, stylu jeho řízení, silnic kolem, pohyb jiných vozů. Objem těchto dat dosáhne 20-30 GB za hodinu;
  2. Dále, tyto informace satelitní komunikace přecházel do centrálního počítače, který se zabývá zpracováním těchto dat;
  3. Na základě velkých dat dat, které zpracovává tento počítač, je postaven model bezpilotního vozu.

Mimochodem, pokud se služba Google business jít docela špatně a jejich auta po celou dobu spadají do nehody, pak maska, kvůli skutečnosti, že práce s velkými údaji jde mnohem lépe, protože testovací modely ukazují velmi dobré výsledky.

Ale ... je to všechno z ekonomiky. Co jsme všichni o zisku, ano o zisku? Mnoho, což může rozhodnout o velkém datu, je zcela nerozpoznán s příjmem a penězi.

Statistiky Google, jen být založen na velkých datech, ukazuje zajímavou věc.

Než lékařů prohlašují začátek epidemie onemocnění v regionu, počet vyhledávacích dotazů o léčbě tohoto onemocnění se výrazně zvyšuje.

Správná studie dat a jejich analýza může tvořit předpovědi a předpovědět začátek epidemie (a proto jeho prevence) je mnohem rychlejší než uzavření úředních orgánů a jejich činnosti.

Aplikace v Rusku

Rusko však trochu zpomaluje. Definice velkých dat v Rusku se tedy objevila před více než 5 lety (teď jsem nyní o běžných společnostech).

A to navzdory skutečnosti, že tento jeden z nejrychleji rostoucích trhů na světě (drogy a zbraně nervózně kouří na straně), protože každoročně trh se sbíráním a analýzou velkých dat bude zasunout o 32%.

Aby bylo možné charakterizovat velký datový trh v Rusku, vzpomínám si na jeden starý vtip. Velké datum je jako sex až 18 let. Každý je o tom řečeno, existuje mnoho hluku a několik skutečných akcí kolem ní, a každý se stydí přiznat, že se v tom nejsou zapojeni. A pravda je kolem tohoto velkého hluku, ale malá skutečná akce.

Ačkoliv známý výzkumná společnost Gartnerova výzkumná společnost již oznámila, že velké datum je rostoucím trendem (stejně jako mimochodem umělou inteligencí) a poměrně nezávislé nástroje pro analýzu a rozvoj pokročilých technologií.

Nejaktivnější výklenky, kde jsou aplikovány velká data v Rusku, jsou to banky / pojištění (bez divu, že jsem začal článek s vedoucím Sberbank), telekomunikační sférou, maloobchodní, nemovitost a ... Veřejný sektor.

Například vám řeknu více o pár sektorů ekonomiky, které používají velké datové algoritmy.

1. Banky

Začněme s bankami a informacemi, které o nás shromažďují a naše akce. Například jsem vzal top 5 ruských bank, které aktivně investují do velkých dat:

  1. Sberbank;
  2. Gazprombank;
  3. VTB 24;
  4. Alfa Bank;
  5. Tinkoff banka.

To je obzvláště příjemné vidět mezi ruskými vůdci Alpha Bank. Minimálně je příjemné si uvědomit, že banka, oficiálním partnerem, o kterém jste, chápe potřebu představit nové marketingové nástroje do vaší společnosti.

Příklady použití a úspěšné implementace velkých dat, které chci ukázat na bance, že se mi líbí pro nestandardní vzhled a list svého zakladatele.

Mluvím o Tinkoff Bank. Jejich hlavním úkolem bylo vytvořit systém pro analýzu velkých dat v reálném čase z důvodu rostoucího klientské základny.

Výsledky: Doba vnitřních procesů snížila nejméně desetkrát a po dobu delší než 100 krát.

A trochu rozptýlení. Víte, proč jsem mluvil o nestandardních trikách a akcích Oleg Tinkova? Jen podle mého názoru mu pomohli vypnout podnikatel střední ruky, Koi tisíce v Rusku, v jednom z nejslavnějších a rozeznatelných podnikatelů. Při potvrzení podívejte se na toto neobvyklé a zajímavé video:

2. Real Estate.

V nemovitostech je vše mnohem obtížnější. A to je přesně příklad, který vás chci přinést, abyste pochopili velkému datu pochopit obvyklé podnikání. Počáteční údaje:

  1. Velké množství textové dokumentace;
  2. Otevřené zdroje (soukromé satelity přenášené údaje o změnách zemin);
  3. Obrovské množství nekontrolovaných informací na internetu;
  4. Nepřetržité změny ve zdrojích a datech.

A na základě toho je nutné připravit a vyhodnotit hodnotu pozemního pozemku, například v obci Ural. Profesionál bude trvat týden.

Ruská společnost Society & Roseco, která je vlastně analýzou velkých dat pomocí softwaru, odejde na to ne více než 30 minut volné práce. Porovnejte, týden a 30 minut. Kolosální rozdíl.

Nástroje pro vytváření

Obrovské množství informací nelze samozřejmě skladovat a zpracovávat na jednoduchých pevných discích.

ALE softwareKteré struktury a analyzuje data obecně duševního vlastnictví a pokaždé, když autor je vývoj. Existují však nástroje založené na všech těchto kouzlech:

  • Hadoop & Mapreduce;
  • Databáze NOSQL;
  • Třída pro objevování dat.

Abych byl upřímný, nebudu schopen jasně vysvětlit, co se liší od sebe, protože se učí setkat se a pracovat s těmito věcmi ve fyzických a matematických institucích.

Proč jsem o tom mluvil, když nemůžu vysvětlit? Nezapomeňte, že v všech filmech se lupičy přicházejí do jakékoli banky a vidět obrovské množství všech druhů hardwaru připojeného k drátům? Totéž ve velkém datu. Zde je například model, který je v současné době jedním z lídrů na trhu.

Datum velkého nástroje

Cena v maximální konfiguraci přicházejí až 27 milionů rublů na stojan. To je samozřejmě luxusní verze. Jsem zajistit, že budete sledovat vytváření velkých dat ve vašem podnikání.

Stručně o hlavní věci

Můžete se zeptat, proč vy, malá a střední podniková práce s velkým datem?

Na tom odpovím na citaci jedné osoby: "V blízké budoucnosti budou zákazníci v poptávce firmami, které lépe pochopit jejich chování, zvyky a odpovídají je co nejvíce."

Ale pojďme si v očích pravdu. Pro zavedení velkého data v malém podniku je nutné mít nejen velké rozpočty pro rozvoj a implementaci softwaru, ale také na obsah specialistů, alespoň takový jako velký datový analytik a sysadmin.

A teď jsem tichý, že musíte mít takové údaje pro zpracování.

Dobře. Pro malé firmy, toto téma není téměř neplatné. To však neznamená, že potřebujete zapomenout na všechno, co si přečtete výše. Stačí studovat ne vaše data, ale výsledky analytiky údajů známých jako zahraniční a ruské společnosti.

Například cílová maloobchodní síť s použitím velkých dat analytiků zjistila, že těhotné ženy před druhým trimestrem těhotenství (od 1. do 12. týdne těhotenství) aktivně kupují nearomatické prostředky.

Díky těmto údajům jim posílají kupóny se slevami na nearativní prostředky s omezeným obdobím.

A pokud jste například velmi malá kavárna? Ano, velmi jednoduché. Použijte loajalitní aplikaci. A po chvíli, díky akumulovaným informacím, můžete nabídnout pouze zákazníkům relevantním pro jejich potřeby, ale také vidět nejvíce nespolehlivější a nejvíce okrajová jídla doslova pár kliknutí myší.

Proto výstup. Zavedení velkého data malého podnikání je sotva stojí za to, ale využít výsledky a vývoj jiných společností - být jisti.



Články na toto téma: