Методи за анализ на големи данни. Големи данни в съвременния свят

(буквално - голяма информация)? Нека първо разгледаме Оксфордския речник:

Данни - количества, знаци или символи, които компютърът работи и които могат да се съхраняват и предават под формата на електрически сигнали, записани на магнитен, оптичен или механичен носител.

Срок Голяма информация използва се за описание на голям набор от данни, който нараства експоненциално с течение на времето. За да обработите това количество данни, не можете без машинно обучение.

Предимства, които предоставя големите данни:

Събиране на данни от различни източници.
Подобряване на бизнес процесите чрез анализ в реално време.
Съхранение на огромно количество данни.
Прозрения. Big Data е по-проницателен относно скритата информация със структурирани и полуструктурирани данни.
Големите данни помагат за намаляване на риска и за вземане на интелигентни решения с правилния анализ на риска

Примери за големи данни

Нюйоркска фондова борса генерира ежедневно 1 терабайт данни за сделките за последната сесия.

Социална медия: статистиката показва, че базата данни данни във Facebook зарежда се ежедневно 500 терабайта новите данни се генерират главно поради качване на снимки и видеоклипове на сървърите на социалната мрежа, съобщения, коментари под публикации и т.н.

Реактивен двигател генерира 10 терабайта данни на всеки 30 минути по време на полета. Тъй като има хиляди полети всеки ден, количеството данни достига петабайта.

Класификация на големи данни

Форми за големи данни:

Структуриран
Неструктуриран
Полуструктурирана

Структурирана форма

Данните, които могат да бъдат съхранявани, достъпни и обработвани във фиксиран формат, се наричат \u200b\u200bструктурирани. През годините компютърните науки постигнаха големи крачки в подобряването на техниките за работа с този тип данни (където форматът е известен предварително) и се научи как да се възползва. Обаче вече днес има проблеми, свързани с нарастването на обемите до размери, измерени в диапазона от няколко зетабайта.

1 зетабайт се равнява на милиард терабайта

Разглеждайки тези цифри, е лесно да се убедите в достоверността на термина Големи данни и трудностите, свързани с обработката и съхраняването на такива данни.

Данните, съхранявани в релационна база данни, са структурирани и приличат например на таблици на служители на компанията

Неструктурирана форма

Данни с неизвестна структура се класифицират като неструктурирани. Освен че е голяма, тази форма се характеризира с редица трудности при обработката и извличането на полезна информация. Типичен пример за неструктурирани данни е разнородният източник, съдържащ комбинация от прости текстови файлове, снимки и видеоклипове. Днес организациите имат достъп до големи количества необработени или неструктурирани данни, но не знаят как да се възползват от тях.

Полуструктурирана форма

Тази категория съдържа и двете по-горе, така че полуструктурираните данни имат някаква форма, но всъщност не се дефинират с помощта на таблици в релационни бази данни. Пример за тази категория са личните данни, представени в XML файл.

Прашант раоМъжки35 Сиема Р.Женски пол41 Сатинова гриваМъжки29 Субрато РойМъжки26 Йеремия Дж.Мъжки35

Характеристики на големи данни

Ръст на големи данни с течение на времето:

Синият цвят представлява структурирани данни (корпоративни данни), които се съхраняват в релационни бази данни. Други цветове са неструктурирани данни от различни източници (IP телефония, устройства и сензори, социални мрежи и уеб приложения).

Според Gartner големите данни варират по обем, скорост на генериране, разнообразие и вариабилност. Нека разгледаме тези характеристики по-подробно.

Сила на звука... Самият термин Големи данни се свързва с големи размери. Размерът на данните е най-важният показател при определяне на възможната възстановима стойност. 6 милиона души използват цифрови медии всеки ден, което се очаква да генерира 2,5 квинтилиона байта данни. Следователно обемът е първата характеристика, която трябва да се вземе предвид.
Разнообразие - следващият аспект. Той се позовава на разнородните източници и същността на данните, които могат да бъдат или структурирани, или неструктурирани. В миналото електронните таблици и бази данни бяха единствените източници на информация, разглеждани в повечето приложения. Днес данните под формата на имейли, снимки, видео, PDF файлове, аудио също се разглеждат в аналитични приложения. Това разнообразие от неструктурирани данни води до проблеми при съхранението, производството и анализа: 27% от компаниите не са сигурни, че работят с правилните данни.
Скорост на генериране... Колко бързо се натрупват и обработват данни, за да отговорят на изискванията, определя потенциала. Скоростта определя скоростта на притока на информация от източници - бизнес процеси, дневници на приложения, сайтове за социални мрежи и медии, сензори, мобилни устройства. Потокът от данни е огромен и непрекъснат във времето.
Променливост описва нестабилността на данните в даден момент от времето, което усложнява обработката и управлението. Така например, повечето от данните имат неструктуриран характер.

Анализ на големи данни: каква е ползата от големите данни

Промоция на стоки и услуги: Достъпът до данни от търсачките и сайтове като Facebook и Twitter позволява на бизнеса да оформи по-добре своите маркетингови стратегии.

Подобряване на обслужването на клиентите: Традиционните системи за обратна връзка с клиентите се заменят с нови, които използват обработка на големи данни и естествен език за четене и оценка на обратната връзка с клиентите.

Изчисляване на рискасвързани с пускането на нов продукт или услуга.

Оперативна ефективност: Големите данни са структурирани за бързо извличане на информацията, от която се нуждаете, и за бързо предоставяне на точни резултати. Тази комбинация от големи данни и технологии за съхранение помага на организациите да оптимизират работата с рядко използвана информация.

Волкова Юлия Сергеевна, студентка 4-ти курс, Финансов университет към правителството на Руската федерация, клон Калуга, Калуга [имейл защитен]

Големи данни в съвременния свят

Резюме: Статията е посветена на внедряването на технологиите за големи данни в нашето съвременно общество. Разследват се основните характеристики на големите данни, разглеждат се основните области на приложение, като банкиране, търговия на дребно, частен и публичен сектор и дори ежедневието. Изследването разкрива недостатъците на използването на технологиите за големи данни. Посочена е необходимостта от разработване на нормативна уредба за използването на Големи данни Ключови думи: Големи данни, банки, банки, търговия на дребно, частен сектор, публичен сектор.

С нарастването на степента на внедряване на информационните технологии в различни области на съвременното общество, изискванията за тяхната адаптивност за решаване на нови проблеми, които включват огромни количества данни, също се увеличават. Има обеми информация, които не могат да бъдат обработени по традиционни начини, включително структурирани данни, медийни данни и случайни обекти. И ако анализът на първите технологии, които съществуват днес, се справя по-малко добре, тогава анализът на втората и третата практически остава обратна работа. Проучванията показват, че обемът на медийните данни като видеонаблюдение, въздушна фотография, цифрова здравна информация и случайни обекти, съхранявани в многобройни архиви и облаци, се увеличава всяка година.Огромният обем данни се превърна в глобален процес и се нарича Големи данни. Работите на чуждестранни и руски учени са посветени на изследването на Големите данни: Джеймс Маника, Майкъл Чуй, Топорков В.В., Будзко В.И. Големи световни компании като McKinsey & Company, СNews Analytics, SAP, Oracle, IBM, Microsoft, Teradata и много други допринасят значително за изучаването на тази технология. Те обработват и анализират данни и създават софтуерни и хардуерни системи, базирани на големи данни. Според доклад на института McKinsey, "Big Data е набор от данни, чийто размер надхвърля възможностите на типичните бази данни на софтуерни инструменти за улавяне, съхранение, управление и анализ на данни." По същество концепцията за големи данни означава работа с информация с огромен обем и разнообразие, непрекъснато актуализирана и разположена в различни източници с цел повишаване на ефективността, създаване на нови продукти и повишаване на конкурентоспособността. Консултантската компания Forrester дава кратка и доста разбираема формулировка: „Големите данни комбинират техники и технологии, които извличат смисъл от данните на пределната граница на практичност.“ Днес сферата на големите данни се характеризира със следните характеристики: Обем - натрупаната база данни е голямо количество информация . Скорост - скорост, този знак показва нарастваща скорост на натрупване на данни (90% от информацията е събрана през последните 2 години). Сорт - разнообразие, т.е. възможността за едновременна обработка на структурирана и неструктурирана многоформатна информация. Маркетинговите експерти обичат да добавят своите Vs тук. Някои също говорят за достоверността, други добавят, че технологиите за големи данни със сигурност трябва да донесат стойност на бизнеса. Очаква се до 2020 г. натрупаният обем информация на планетата да се удвоява на всеки две години. Изобилието от данни ви кара да искате да ги използвате за анализ и прогнозиране. Колосалните обеми изискват подходящи технологии. Днес компаниите трябва да обработват колосални количества данни в обеми, които е трудно да си представим, това води до факта, че традиционните бази данни не могат да се справят с такава задача и това води до необходимостта от внедряване на технологии за големи данни. Таблицата представя сравнителна характеристика на големите данни и традиционните бази данни. Основата за формирането на тази таблица е изследването на В. И. Будзко и Московската борса Таблица 1 Сравнителни характеристики на големи данни и традиционни данни

Традиционни бази данни Приложения за големи данни

Една или повече области на приложение Обхватът на технологиите за големи данни е огромен. От определянето на предпочитанията на клиентите за анализ на риска данни characteristicsOnly структуриран dataHuge възлиза на информация със сложна хетерогенна и / или недефинирана съхранение structureData съхранение methodCentralizedDecentralizedData и обработка modelVertical modelHorizontal modelNumber на информация процес От гигабайта (109 байта) да терабайта (1015 байта), за да терабайта (1015 байта) (1015 байта) Например обхватът на традиционните бази данни обхваща само една или няколко, докато такива области трябва да съдържат само структурирани данни. Що се отнася до големите данни, обхватът на тяхното приложение е обширен с огромни количества информация със сложна структура.Според резултатите от изследването на СNews Analytics, представено на фигура 1, руският пазар стига до такова явление като Big Data, което показва повишаване на нивото на зрялост на компаниите. Много компании преминават към технологии с големи данни поради обема на обработените си данни, вече вече над 44% генерират около 100 терабайта, а за 13% тези обеми надвишават 500 терабайта.

Фиг. 1. Обеми на информацията, обработвана в компании

Такива обеми не могат да бъдат обработвани с традиционни бази данни, поради което такива компании виждат решението за прехода към големи данни не само като обработка на огромни обеми, но и като увеличаване на конкурентоспособността, увеличаване на лоялността на клиентите към техния продукт и привличане на нови. Най-активните клиенти на такива решения са банките, телекомуникациите и търговията на дребно, техният процент е показан на фигура 2. По-малко забележим е броят на компаниите, които използват или са готови да използват големи данни в транспортния, енергийния и промишления сектор. Първите примери за използване на големи данни се появиха в публичния сектор.

Фиг. 2. Индустриална структура на използването на големи данни

Що се отнася до западното правителство, цифровата икономика възлиза на между 3% и 21% от БВП на Г-20. Руският публичен сектор все още не е постигнал значителни резултати в работата с големи данни. Днес в Русия подобни технологии се интересуват предимно от търговски предприятия: търговски вериги, банки, телекомуникационни компании.Според Руската асоциация за електронни комуникации обемът на цифровата икономика в Руската федерация е само 1 трилион. търкайте -около 1,5% от БВП. Независимо от това, URF има огромен потенциал за растеж в цифровата икономика.Въпреки краткия живот на сектора за големи данни, вече има оценки за ефективното използване на тези технологии, базирани на реални примери. Днес банките обработват средно около 3,8 петобайта данни, те използват технологии за големи данни за изпълнение на определени задачи:  събиране на данни за използването на кредитни карти;  събиране на данни за обезпечение;  събиране на данни за заеми; 44% 16% 13% 7% 20% Банки Телеком Търговия на дребно Публичен сектор Други • Събиране на данни за клиентски профил • Събиране на данни за спестявания на клиенти Банките твърдят, че откакто са започнали да използват технологиите за големи данни, са успели да привлекат нови клиенти, да взаимодействат по-добре както с нови, така и със стари клиенти и поддържат своята лоялност. През 2015 г. CNews Analytics проведе проучване сред тридесетте най-големи руски банки по общ размер на активите, за да разбере какви технологии за големи данни използват и за какви цели. В сравнение с проучването от 2014 г., броят на 30-те най-добри банки, отчитащи използването на големи данни, се е увеличил, но тази промяна е по-вероятна поради промяна в състава на 30-те най-големи. Фигура 3 показва сравнение на проучването за 2015 г. спрямо 2014 г. въз основа на проучването на А. Кирянова.

Фигура: 3. Използване на големи данни от топ 30 руски банки

Според изчисленията на IBS 80% от банките, отговорили положително, прилагат Big Data Appliance - софтуерни и хардуерни системи за съхранение и обработка на данни. Тези решения обикновено действат като аналитично или транзакционно хранилище, основното предимство на което е високата производителност при работа с големи обеми данни.Въпреки това практиката за използване на големи данни в руските банки е в зародиш. Причината за такава бавна адаптация в Русия се проявява в предпазливото отношение на ИТ специалистите на клиентите към новите технологии. Те не са уверени, че технологиите за големи данни ще помогнат за решаването на проблемите изцяло, но на американския пазар банките вече са натрупали 1 екзабайт данни, което може да се сравни с 275 милиарда mp3 записи. Броят на източниците, от които идва информацията, е обширен, от които могат да се разграничат класическите:  посещения на клиенти в банкови офиси;  записи на телефонни обаждания;  поведение на клиентите в социалните мрежи;  информация за транзакции с кредитни карти  и други. Онлайн търговията на дребно използва големи данни за анализирайте поведението на клиентите, проектирайте маршрути през търговската зона, подредете правилно стоките, планирайте покупките и в крайна сметка увеличете продажбите. В онлайн търговията на дребно самият механизъм за продажби е изграден върху големи данни: на потребителите се предлагат стоки въз основа на предишни покупки и техните лични предпочитания, информация за които се събира например в социалните мрежи. И в двата случая анализът на големи данни помага да се намалят разходите, да се увеличи лоялността на клиентите и да се достигне до голяма аудитория. С развитието на търговския потенциал на компаниите традиционните бази данни престават да отговарят на нарастващите бизнес изисквания, поради което системата не може да осигури необходимата детайлност на управленското счетоводство. Преминавайки към големи данни, новите технологии позволяват да се оптимизира управлението на движението на стоки, да се постигне уместността на данните и ефективността на тяхната обработка за оценка на последиците от управленските решения и бързо генериране на управленски отчети. Общото количество натрупани данни е повече от 100 екзабайта, докато само Walmart използва големи данни за обработка на 2,5 петабайта данни на час. Нещо повече, от използването на технологиите Big Data оперативната рентабилност се увеличава с 60%, а според статистиката на Hadoop, след внедряването на Big Data, производителността на анализа се увеличава до обработка на 120 алгоритма, а печалбата нараства със 710%. Данните тепърва започват да събират пара, тъй като процепната разлика е много различна. Например онлайн търговците са 18 пъти по-малко, отколкото в Китай, а целият оборот на данните, който се случва в онлайн търговец, е 4,5 пъти по-малък от един магазин на Amazon. Освен това броят на онлайн магазините в Русия, които използват Big Data, е по-малък от 40 хиляди, докато в Европа броят на тези магазини е повече от 550 хиляди. Това, което характеризира руския пазар на дребно като все още развиващ се и не напълно оформен. Що се отнася до нашето ежедневие, и тук се използват технологиите Big Data, за които дори не сме и помисляли. 15 милиона песни всеки ден, което е около 1,5 ~ 2 петабайта, обработва shazam, музикална услуга, по целия свят и на базата на тогава музикалните продуценти прогнозират популярността на изпълнителя. Големите данни се използват и за обработка на информация за кредитни карти като mastercard и виза. По този начин 65 милиарда транзакции годишно с използване на 1,9 милиарда карти в 32 милиона търговци се обработват от mastercard, за да се предскажат търговските тенденции. Всеки ден хората по света публикуват в социалните мрежи като Twitter и facebook за 19 терабайта данни. Те качват и обработват снимки, пишат, препращат съобщения и т.н. Инфраструктурата също използва технологията Big Data, от тролейбуси до самолети и ракети. И така, в лондонското метро всеки ден турникетите записват около 20 милиона преминавания, в резултат на анализ, базиран на технологиите за големи данни, бяха идентифицирани 10 различни епицентъра, което също се взема предвид при по-нататъшното развитие на метрото. Несъмнено разнообразието и обемът на данните, произтичащи от всякакви взаимодействия, е мощна основа за бизнеса да изгражда и прецизира прогнози, да идентифицира модели, да оценява ефективността и т.н. Всичко обаче има своите недостатъци, които също трябва да бъдат правилно взети предвид. Въпреки очевидните и потенциални предимства на използването на големи данни, тяхното използване има своите недостатъци, които са свързани предимно с големи количества информация, различни методи за достъп до нея и с често недостатъчно осигуряване на ресурси функции за информационна сигурност в организациите. Проблемите, свързани с използването на технологиите за големи данни, са представени на фигура 4.

Фигура: 4. Проблеми при използването на големи данни

Всички тези проблеми водят до факта, че много компании са предпазливи да въвеждат технологии за големи данни, тъй като когато работят с трети страни, самите те са изправени пред проблема с разкриването на вътрешна информация, която компанията не може да разкрие, използвайки само собствените си ресурси. Според мен най-важната стъпка е по пътя на пълното внедряване на технологии, базирани на големи данни, трябва да има точно законодателен аспект. Сега вече има закони, ограничаващи събирането, използването, съхраняването на определени видове лични данни, но те не ограничават напълно големите данни, така че за тях трябва да има специални законодателни норми. За да се съобразят с бързо променящите се и нови закони, компаниите трябва да извършат първоначална инвентаризация на съответните нормативни правни актове и да актуализират редовно този списък. Въпреки това, въпреки всички гореспоменати недостатъци, както показва опитът на западните представители, технологиите за големи данни помагат за успешно решаване , както съвременни бизнес задачи и повишаване на конкурентоспособността, така и задачи, свързани пряко с живота на хората. Руските компании вече са на път да въведат технологии за големи данни както в производствената сфера, така и в публичната сфера, тъй като количеството информация почти се удвоява всяка година. С течение на времето много области от живота ни ще претърпят промяна под влиянието на големите данни.

Позовавания на източници 1. БудзкоВ. I. Системи за висока наличност и големи данни // Големи данни в националната икономика 2013. С. 1619.2. Короткова Т. "EMC Data Lake 2.0 - средство за преход към анализ на големи данни и цифрова икономика" http://bigdata.cnews.ru/ news / line / 20151203_emc_data_lake_20_pomozhet_perejti_k_analitike. 3. Кирянова А. „Големите данни не станаха масови в руските банки“ http://www.cnews.ru/news/top/bolshie_dannye_ne_stali_mejnstrimsom: : //bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu.5.CNews "Инфографика: Как търговията на дребно използва големи данни" http://bigdata.cnews.ru/articles/infografika_kak_roznitsa_ispolzuet трябва да липсват специални данни в света за да бъдат прикрити, за да се запазят оригиналните източници на данни, компаниите трябва да са сигурни, че всички изисквания за сигурност във връзка с данните се наблюдават и поддържат, прилагането на решения за големи данни може Водят до създаването или откриването на поверителна информация преди това Управление на данни Поддържане на изискванията за сигурност на данните Правни разпоредби Преидентификация на риска 6.CNews "Инфографика: BigData Technologies" http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka.7.CNewsInfographics: Какво могат да направят големите данни банки "http://bigdata.cnews.ru/articles/infografika_chto_mogut_bolshie_dannye. 8. Московска борса" Аналитичен преглед на пазара на BigData "http://habrahabr.ru/company/moex/blog/256747/9.Големи данни (BigData). http://www.tadviser.ru/index.php/Article: Big_data_ (Big_Data) .10.BigData– електричество на XXI век http://bit.samag.ru/archive/article/1463.11.McKinsey Глобален институт „Bigdata: The следваща граница за иновации, конкуренция и производителност “(юни 2011 г.).

Големите данни са широк термин за неконвенционални стратегии и технологии, необходими за събиране, организиране и манипулиране на информация от големи масиви от данни. Въпреки че проблемът с работата с данни, които надвишават процесорната мощност или капацитета за съхранение на един компютър, не е нов, мащабът и стойността на този тип изчисления се разшири значително през последните години.

В тази статия ще намерите основните понятия, с които може да се сблъскате, докато изследвате големи данни. Той също така обсъжда някои от процесите и технологиите, използвани в момента в тази област.

Какво представляват големите данни?

Точно определение на Големите данни е трудно да се формулира, защото проекти, доставчици, специалисти и бизнес специалисти го използват по много различни начини. Имайки предвид това, големите данни могат да бъдат определени като:

Големи набори от данни.
Категория изчислителни стратегии и технологии, които се използват за обработка на големи масиви от данни.

В този контекст „голям набор от данни“ означава набор от данни, който е твърде голям, за да бъде обработен или съхранен с помощта на традиционни инструменти или на един компютър. Това означава, че общият мащаб на големи масиви от данни непрекъснато се променя и може да варира значително в отделни случаи.

Системи за големи данни

Основните изисквания за работа с големи данни са същите като за всеки друг набор от данни. Мащабният мащаб, скоростта на обработка и характеристиките на данните, които се срещат на всеки етап от процеса, представляват големи нови предизвикателства в дизайна на инструментите. Целта на повечето системи за големи данни е да разберат и комуникират с големи количества разнородни данни, което не би било възможно с конвенционалните методи.

През 2001 г. Дъг Лейни от Gartner представи „Трите V на големи данни“, за да опише някои от характеристиките, които разграничават обработката на големи данни от други видове обработка на данни:

Обем (обем на данните).
Скорост (скорост на натрупване и обработка на данни).
Разнообразие (разнообразие от видове обработени данни).

Обем на данните

Самият мащаб на обработваната информация помага да се определят системите за големи данни. Тези набори от данни могат да бъдат с порядъци по-големи от традиционните набори от данни, изисквайки повече внимание на всеки етап от обработката и съхранението.

Тъй като изискванията надхвърлят възможностите на един компютър, често е трудно да се комбинират, разпределят и координират ресурси от компютърни групи. Клъстерният контрол и алгоритмите, способни да разбиват задачите на по-малки парчета, стават все по-важни в тази област.

Скорост на натрупване и обработка

Втората характеристика, която отличава големите данни от другите системи за данни, е скоростта, с която информацията се движи през системата. Данните често влизат в системата от множество източници и трябва да се обработват в реално време, за да се актуализира текущото състояние на системата.

Този акцент върху незабавната обратна връзка накара много практикуващи да изоставят ориентирания към партидите подход към поточна система в реално време. Данните непрекъснато се добавят, обработват и анализират, за да се справи с притока на нова информация и да се получат ценни данни на ранен етап, когато това е най-подходящо. Това изисква надеждни системи с високодостъпни компоненти за защита срещу повреди по тръбопровода за данни.

Разнообразие от видове обработени данни

Големите данни имат много уникални предизвикателства, свързани с широкия набор от обработени източници и тяхното относително качество.

Данните могат да идват от вътрешни системи като регистрационни файлове на приложения и сървъри, емисии на социални медии и други външни API, сензори за физически устройства и други източници. Целта на системите за големи данни е да обработват потенциално полезни данни, независимо от произхода им, чрез комбиниране на цялата информация в една система.

Медийните формати и типове също могат да варират значително. Мултимедията (изображения, видео и аудио) се комбинира с текстови файлове, структурирани дневници и т. Н. По-традиционните системи за обработка на данни очакват данните да влязат в конвейера, вече маркирани, форматирани и организирани, но системите за големи данни обикновено приемат и съхраняват данни, като се опитват запазват първоначалното си състояние. В идеалния случай всякакви трансформации или промени в суровите данни ще се появят в паметта по време на обработката.

Други характеристики

С течение на времето експертите и организациите предложиха разширяване на оригиналните Three V, въпреки че тези нововъведения са склонни да описват проблемите, а не характеристиките на големите данни.

Достоверност: Разнообразието от източници и сложността на обработката могат да доведат до проблеми при оценката на качеството на данните (и следователно на качеството на получения анализ).
Променливост: Промяната на данните води до значителни промени в качеството. Идентифицирането, обработката или филтрирането на данни с ниско качество може да изисква допълнителни ресурси, които могат да подобрят качеството на данните.
Стойност: Крайната цел на големите данни е стойността. Понякога системите и процесите са много сложни, което затруднява използването на данните и извличането на действителните стойности.

Жизнен цикъл на големи данни

И така, как всъщност се обработват големите данни? Има няколко различни подхода за изпълнение, но има прилики в стратегиите и софтуера.

Въвеждане на данни в системата
Запазване на данни в хранилището
Изчисляване и анализ на данни
Визуализация на резултатите

Преди да се потопим дълбоко в тези четири категории работни потоци, нека поговорим за клъстерните изчисления, важна стратегия, използвана от много инструменти за големи данни. Създаването на изчислителен клъстер е гръбнакът на технологията, използвана на всеки етап от жизнения цикъл.

Клъстерни изчисления

Поради качеството на големите данни, отделните компютри не са подходящи за обработка на данни. Клъстерите са по-подходящи за това, тъй като могат да се справят със съхранението и изчислителните нужди на големи данни.

Софтуерът за клъстериране на големи данни обединява ресурсите на много малки машини с цел да осигури редица предимства:

Обединяване на ресурси: Обработката на големи масиви от данни изисква голямо количество ресурси на процесора и паметта, както и много налично пространство за съхранение.
Висока наличност: Клъстерите могат да осигурят различни нива на толерантност и наличност, така че хардуерните или софтуерните откази няма да повлияят на достъпа и обработката на данни. Това е особено важно за анализи в реално време.
Мащабируемост: Клъстерите поддържат бързо мащабиране (добавяне на нови машини към клъстера).

Работата в клъстер изисква инструменти за управление на членството в клъстера, координиране на разпределението на ресурси и планиране на работа с отделни възли. Членството в клъстери и разпределението на ресурси могат да се обработват с помощта на програми като Hadoop YARN (Yet Another Resource Negotiator) или Apache Mesos.

Сглобяемият изчислителен клъстер често действа като гръбнак, с който друг софтуер взаимодейства за обработка на данни. Машините, участващи в изчислителен клъстер, също обикновено са свързани с управлението на разпределена система за съхранение.

Получаване на данни

Получаването на данни е процесът на добавяне на сурови данни към системата. Сложността на тази операция до голяма степен зависи от формата и качеството на източниците на данни и от това доколко данните отговарят на изискванията за обработка.

Можете да добавите големи данни към системата с помощта на специални инструменти. Технологии като Apache Sqoop могат да вземат съществуващи данни от релационни бази данни и да ги добавят към система за големи данни. Можете също да използвате Apache Flume и Apache Chukwa - проекти за агрегиране и импортиране на регистрационни файлове на приложения и сървъри. Брокерите на съобщения като Apache Kafka могат да се използват като интерфейс между различни генератори на данни и система за големи данни. Рамки като Gobblin могат да комбинират и оптимизират изхода на всички инструменти в края на конвейера.

Анализът, сортирането и етикетирането обикновено се извършват по време на събирането на данни. Този процес понякога се нарича ETL (извличане, преобразуване, зареждане), което означава извличане, преобразуване и натоварване. Докато терминът обикновено се отнася до наследени процеси за съхранение, понякога се прилага и за системи за големи данни. Типичните операции включват модифициране на входящите данни за форматиране, категоризиране и етикетиране, филтриране или валидиране на данни за съответствие.

В идеалния случай входящите данни преминават през минимално форматиране.

Хранилище за данни

Веднъж получени, данните се предават на компонентите, които управляват хранилището.

Разпределените файлови системи обикновено се използват за съхраняване на сурови данни. Решения като HDFS от Apache Hadoop позволяват да се записват големи количества данни в множество възли в клъстер. Тази система осигурява изчислителни ресурси с достъп до данни, може да зарежда данни в RAM на клъстера за операции с памет и да обработва откази на компоненти. Вместо HDFS могат да се използват други разпределени файлови системи, включително Ceph и GlusterFS.

Данните могат да се импортират и в други разпределени системи за по-структуриран достъп. Разпределените бази данни, особено базите данни NoSQL, са много подходящи за тази роля, тъй като могат да обработват разнородни данни. Има много различни видове разпределени бази данни, изборът зависи от това как искате да организирате и представите вашите данни.

Изчисляване и анализ на данни

След като данните са налични, системата може да започне обработка. Изчислителният слой е може би най-свободната част от системата, тъй като изискванията и подходите тук могат да се различават значително в зависимост от вида на информацията. Данните често се обработват или с един инструмент, или с набор от инструменти за обработка на различни видове данни.

Партидната обработка е един от методите за изчисляване на големи масиви от данни. Този процес включва разбиване на данните на по-малки парчета, планиране на обработката на всяко парче на отделна машина, пренареждане на данните въз основа на междинни резултати и след това изчисляване и събиране на крайния резултат. Тази стратегия се използва от MapReduce от Apache Hadoop. Партидната обработка е най-полезна при работа с много големи набори от данни, които изискват много изчисления.

Други натоварвания изискват обработка в реално време. В същото време информацията трябва да бъде обработена и подготвена незабавно и системата да реагира своевременно, когато стане налична нова информация. Един от начините за реализиране на обработка в реално време е обработката на непрекъснат поток от данни от дискретни елементи. Друга обща характеристика на процесорите в реално време е изчисляването на данни в клъстерната памет, което избягва необходимостта от запис на диск.

Apache Storm, Apache Flink и Apache Spark предлагат различни начини за внедряване на обработка в реално време. Тези гъвкави технологии ви позволяват да изберете най-добрия подход за всеки конкретен проблем. Като цяло обработката в реално време е най-подходяща за анализ на малки парчета данни, които се променят или бързо се добавят към системата.

Всички тези програми са рамки. Има обаче много други начини за изчисляване или анализ на данни в система за големи данни. Тези инструменти често се включват в горните рамки и осигуряват допълнителни интерфейси за взаимодействие с подлежащите слоеве. Например Apache Hive осигурява интерфейс за съхранение на данни за Hadoop, Apache Pig осигурява интерфейс за заявки, а взаимодействията с SQL данни се осигуряват с помощта на Apache Drill, Apache Impala, Apache Spark SQL и Presto. Машинното обучение използва Apache SystemML, Apache Mahout и MLlib от Apache Spark. За директно аналитично програмиране, което се поддържа широко от екосистемата за данни, се използват R и Python.

Визуализация на резултатите

Разпознаването на тенденциите или промените в данните във времето често е по-важно от получените стойности. Визуализирането на данни е един от най-полезните начини за идентифициране на тенденции и организиране на голям брой точки от данни.

Обработката в реално време се използва за визуализиране на показатели за приложения и сървъри. Данните се променят често и големите разпръснати показатели обикновено показват значително въздействие върху здравето на системите или организациите. Проекти като Prometheus могат да се използват за обработка и визуализиране на потоци от данни и времеви редове.

Един от популярните начини за визуализиране на данни е стекът Elastic, известен преди като стек ELK. Logstash се използва за събиране на данни, Elasticsearch за индексиране на данни и Kibana за визуализиране. Еластичният стек може да работи с големи данни, да визуализира резултатите от изчисленията или да взаимодейства със сурови показатели. Подобен стек може да се постигне чрез комбиниране на Apache Solr за индексиране с вилица на Kibana, наречена Banana за рендиране. Този стек се нарича Silk.

Друга технология за визуализация за интерактивна работа с данни са документите. Тези проекти позволяват интерактивно проучване и визуализация на данни във формат, който е лесен за споделяне и представяне на данни. Jupyter Notebook и Apache Zeppelin са популярни примери за този тип интерфейс.

Речник на големите данни

Големите данни са широк термин за набори от данни, които не могат да бъдат правилно обработени от конвенционални компютри или инструменти поради техния размер, скорост на пристигане и разнообразие. Терминът също често се прилага за технологии и стратегии за работа с такива данни.
Партидната обработка е изчислителна стратегия, която включва обработка на големи масиви от данни. Този метод обикновено е идеален за работа с неспешни данни.
Клъстерното изчисление е практиката за обединяване на ресурсите на множество машини и управление на техните споделени възможности за изпълнение на задачи. Това изисква слой за управление на клъстери, който обработва комуникацията между отделни възли.
Езерото с данни е голямо хранилище на събрани данни в относително сурово състояние. Този термин често се използва за означаване на неструктурирани и често променящи се големи данни.
Извличането на данни е широк термин за различните практики за намиране на модели в големи масиви от данни. Това е опит да се организира маса от данни в по-разбираем и последователен набор от информация.
Хранилището за данни е голямо, подредено хранилище за анализ и отчитане. За разлика от езерото за данни, складът се състои от форматирани и добре подредени данни, които са интегрирани с други източници. Складовете за данни често се споменават във връзка с големи данни, но те често са компоненти на конвенционалните системи за обработка на данни.
ETL (извличане, преобразуване и зареждане) - извличане, преобразуване и зареждане на данни. Ето как изглежда процесът на получаване и подготовка на сурови данни за употреба. Той е свързан със складове за данни, но характеристиките на този процес се намират и в тръбопроводите на системите за големи данни.
Hadoop е проект на Apache с отворен код за големи данни. Състои се от разпределена файлова система, наречена HDFS, и планиране на клъстери и ресурси, наречена YARN. Възможностите за групова обработка се осигуряват от изчислителния механизъм MapReduce. Други изчислителни и аналитични системи могат да работят с MapReduce в съвременните внедрения на Hadoop.
Изчисляването в паметта е стратегия, която включва преместване на всички работещи набори от данни в клъстерната памет. Междинните изчисления не се записват на диск, а се съхраняват в паметта. Това дава на системите огромно предимство в скоростта пред свързаните с I / O системи.
Машинното обучение е изследването и практиката при проектирането на системи, които могат да се учат, променят и подобряват въз основа на данните, предадени към него. Това обикновено означава прилагане на прогнозни и статистически алгоритми.
Намаляването на картата (да не се бърка с MapReduce на Hadoop) е алгоритъм за планиране на изчислителен клъстер. Процесът включва разделяне на задачата между възли и получаване на междинни резултати, разбъркване и след това извеждане на една стойност за всеки набор.
NoSQL е широк термин за бази данни, разработени извън традиционния релационен модел. Базите данни NoSQL са подходящи за големи данни поради тяхната гъвкавост и разпределена архитектура.
Поточното предаване е практиката за изчисляване на отделни елементи от данни, докато те се движат през системата. Това позволява анализ на данни в реално време и е подходящ за обработка на спешни транзакции с помощта на високоскоростни показатели.

Етикети :,

Въз основа на материали от изследвания и тенденции

Големите данни, „Големите данни“ се превърнаха в приказки на града в ИТ и маркетинговата преса от няколко години. И е разбираемо: цифровите технологии са проникнали в живота на съвременния човек, „всичко е написано“. Обемът на данните за различни аспекти на живота нараства, а в същото време нарастват възможностите за съхранение на информация.

Глобални технологии за съхранение на информация

Източник: Хилберт и Лопес, „Технологичният капацитет на света да съхранява, комуникира и изчислява информация,„ Science, 2011 Global.

Повечето експерти са съгласни, че ускоряването на растежа на данните е обективна реалност. Социалните медии, мобилните устройства, измервателните данни, бизнес информацията са само част от източниците, които могат да генерират гигантски количества информация. Според изследванията IDCЦифрова вселена публикувано през 2012 г., през следващите 8 години количеството данни в света ще достигне 40 Zb (зетабайта), което се равнява на 5200 GB за всеки жител на планетата.

Ръст на събрана цифрова информация в САЩ

Източник: IDC

Голяма част от информацията се генерира не от хора, а от роботи, които си взаимодействат помежду си и с други мрежи за данни, като например сензори и интелигентни устройства. При такива темпове на растеж количеството данни в света, според прогнозите на изследователите, ще се удвоява ежегодно. Броят на виртуалните и физическите сървъри в света ще нарасне десетократно поради разширяването и създаването на нови центрове за данни. В тази връзка нараства необходимостта от ефективно използване и осигуряване на приходи от тези данни. Тъй като използването на големи данни в бизнеса изисква много инвестиции, трябва ясно да разберете ситуацията. И по същество е просто: можете да увеличите ефективността на вашия бизнес, като намалите разходите и / и увеличите продажбите.

За какво са големи данни?

Парадигмата за големи данни определя три основни типа задачи.

Съхраняване и управление на стотици терабайта или петабайта данни, които конвенционалните релационни бази данни не могат да използват ефективно.
Организиране на неструктурирана информация, състояща се от текст, изображения, видеоклипове и други видове данни.
Анализ на големи данни, който повдига въпроса как да се работи с неструктурирана информация, да се генерират аналитични отчети и да се прилагат прогнозни модели.

Пазарът на проекти за големи данни се пресича с пазара на бизнес разузнаване (BA), чийто обем в света, според експерти, през 2012 г. възлиза на около 100 милиарда долара. Той включва компоненти на мрежова технология, сървъри, софтуер и технически услуги.

Също така използването на технологии с големи данни е от значение за решения от класа на гаранцията за доход (RA), предназначени да автоматизират дейността на компаниите. Съвременни системи гаранцията за доход включва инструменти за откриване на несъответствия и задълбочен анализ на данни, позволяващи своевременно откриване на възможни загуби или изкривяване на информацията, които могат да доведат до намаляване на финансовите резултати. На този фон руските компании, потвърждаващи търсенето на технологии за големи данни на вътрешния пазар, отбелязват, че факторите, които стимулират развитието на Big Data в Русия, са нарастването на данните, ускоряването на вземането на управленски решения и подобряването на тяхното качество.

Какво пречи на работата с големи данни

Днес се анализират само 0,5% от натрупаните цифрови данни, въпреки факта, че има обективно общоиндустриални задачи, които биха могли да бъдат решени с помощта на аналитични решения от класа Big Data. Разработените ИТ пазари вече имат резултати, които могат да се използват за оценка на очакванията, свързани с натрупването и обработката на големи данни.

Разглежда се и един от основните фактори, който пречи на изпълнението на проекти за големи данни, освен високата цена проблемът с избора на данните, които ще бъдат обработени: тоест определяне кои данни трябва да бъдат извлечени, съхранени и анализирани и кои не трябва да се вземат предвид.

Много представители на бизнеса отбелязват, че трудностите при изпълнението на проектите за големи данни са свързани с недостиг на специалисти - маркетолози и анализатори. Нормата на възвръщаемост на инвестициите в Big Data директно зависи от качеството на работата на служителите, ангажирани в задълбочен и прогнозен анализ. Огромният потенциал на данните, които вече съществуват в дадена организация, често не могат да бъдат ефективно използвани от самите търговци поради остарели бизнес процеси или вътрешни разпоредби. Поради това проектите за големи данни често се възприемат от бизнеса като трудни не само при изпълнението, но и при оценката на резултатите: стойността на събраните данни. Спецификата на работата с данни изисква маркетолозите и анализаторите да обърнат вниманието си от технологиите и да създават отчети за решаване на конкретни бизнес проблеми.

Поради големия обем и високата скорост на потока от данни, процесът на събиране на данни включва ETL процедури в реално време. За справка:ETL - отанглийскиЕкстракт, Трансформирайте, Заредете - буквално "извличане, преобразуване, зареждане") - един от основните процеси в управлението хранилища за данни, което включва: извличане на данни от външни източници, трансформирането им и почистване според нуждите ETL трябва да се разглежда не само като процес на прехвърляне на данни от едно приложение в друго, но и като инструмент за подготовка на данни за анализ.

И тогава въпросите за гарантиране на сигурността на данните, идващи от външни източници, трябва да имат решения, съответстващи на количеството събрана информация. Тъй като методите за анализ на големи данни досега се развиват само след нарастването на обема на данните, важна роля играе свойството на аналитичните платформи да използват нови методи за подготовка и агрегиране на данни. Това предполага, че например данните за потенциални клиенти или масивно хранилище за данни с история на кликвания върху сайтовете на онлайн магазини могат да бъдат интересни за решаване на различни проблеми.

Трудностите не спират

Въпреки всички трудности с внедряването на Big Data, бизнесът възнамерява да увеличи инвестициите в тази област. Както следва от данните на Gartner, през 2013 г. 64% от най-големите компании в света вече са инвестирали или имат планове да инвестират в внедряването на технологии в областта на големите данни за своя бизнес, докато през 2012 г. е имало 58%. Според проучване на Gartner лидерите в индустриите, инвестиращи в Big Data, са медийни компании, телекомуникации, банкови и сервизни компании. Успешни резултати от внедряването на големи данни вече са постигнати от много големи играчи в сектора на търговията на дребно по отношение на използването на данни, получени с помощта на RFID инструменти, логистика и системи за репликация (от английски. попълване - натрупване, попълване - R&T), както и от програми за лоялност. Успешният опит на дребно стимулира други индустрии на пазара да намерят нови и ефективни начини за осигуряване на приходи от големи данни, за да превърнат техния анализ в ресурс за развитие на бизнеса. Благодарение на това, според експерти, в периода до 2020 г. инвестициите в управление и съхранение ще намалеят на гигабайт данни от $ 2 на $ 0,2, но проучването и анализът на технологичните свойства на Big Data ще нарасне само с 40%.

Разходите, представени в различни инвестиционни проекти в областта на големите данни, са от различно естество. Елементите на разходите зависят от видовете продукти, които са избрани въз основа определени решения... Според експерти най-голямата част от разходите в инвестиционните проекти се падат на продукти, свързани със събиране, структуриране на данни, почистване и управление на информация.

Как се прави

Има много комбинации от софтуер и хардуер, които ви позволяват да създавате ефективни решения за големи данни за различни бизнес дисциплини: от социални медии и мобилни приложения до извличане и визуализация на бизнес данни. Важно предимство на Big Data е съвместимостта на новите инструменти с бази данни, широко използвани в бизнеса, което е особено важно при работа с междудисциплинарни проекти, като организиране на многоканални продажби и поддръжка на клиенти.

Последователността на работа с големи данни се състои от събиране на данни, структуриране на получената информация с помощта на отчети и табла за управление, създаване на прозрения и контекст и формулиране на препоръки за действие. Тъй като работата с големи данни предполага високи разходи за събиране на данни, резултатът от които не е известен предварително, основната задача е ясно да се разбере за какво служат данните, а не колко от тях са налични. В този случай събирането на данни се превръща в процес на получаване на информация, която е изключително необходима за решаване на конкретни проблеми.

Например, доставчиците на телекомуникации събират огромно количество данни, включително геолокация, която постоянно се актуализира. Тази информация може да представлява търговски интерес за рекламни агенции, които могат да я използват за обслужване на целенасочени и местни реклами, както и за търговци на дребно и банки. Такива данни могат да играят важна роля при вземането на решение за отваряне на търговски обект на конкретно място въз основа на данни за наличието на мощен целеви поток от хора. Има пример за измерване на ефективността на рекламата на външни билбордове в Лондон. Сега обхватът на такава реклама може да бъде измерен само чрез поставяне на хора със специално устройство, което брои минувачите в близост до рекламните структури. В сравнение с този тип измерване на ефективността на рекламата, мобилният оператор има много повече възможности - той знае точно местоположението на своите абонати, знае демографските им характеристики, пол, възраст, семейно положение и т.н.

Въз основа на такива данни в бъдеще се отваря перспективата за промяна на съдържанието на рекламното съобщение, като се използват предпочитанията на конкретно лице, минаващо покрай билборда. Ако данните показват, че човек, който минава покрай него, пътува много, тогава може да му се покаже реклама за курорт. Организаторите на футболен мач могат да изчислят броя на феновете само когато дойдат на мача. Но ако имаха възможност да попитат оператора клетъчна комуникация информация за това къде са били посетителите час, ден или месец преди мача, това ще даде възможност на организаторите да планират места за реклама на следващите мачове.

Друг пример е как банките могат да използват големите данни за предотвратяване на измами. Ако клиентът твърди, че е загубил картата и при извършване на покупка с нея, банката вижда в реално време местоположението на телефона на клиента в зоната за покупка, където се извършва транзакцията, банката може да провери информацията по искане на клиента, за да види дали се е опитал да го измами. Или обратната ситуация, когато клиент прави покупка в магазин, банката вижда, че картата, използвана за транзакцията, и телефонът на клиента са на едно място, банката може да заключи, че картата се използва от нейния собственик. С тези предимства на големите данни границите на традиционните хранилища за данни се разширяват.

За да вземе успешно решение за внедряването на решения за големи данни, една компания трябва да изчисли инвестиционен случай и това създава големи трудности поради много неизвестни компоненти. В такива случаи парадоксът на анализа е прогнозиране на бъдещето въз основа на миналото, за което често липсват данни. В този случай ясното планиране на първоначалните ви действия е важен фактор:

Първо, необходимо е да се дефинира една конкретна бизнес задача, за чието решение ще бъдат използвани технологиите за големи данни, тази задача ще се превърне в ядрото за определяне на правилността на избраната концепция. Трябва да се съсредоточите върху събирането на данните, които са специфични за тази задача, а доказателството на концепцията ще ви позволи да използвате различни инструменти, процеси и техники за управление, които да ви помогнат да вземете по-добри решения в бъдеще.
На второ място, малко вероятно е компания, която няма умения и опит в анализа на данни, да успее успешно да реализира проект за големи данни. Необходимите знания винаги идват от предишен опит в аналитиката, което е основният фактор, влияещ върху качеството на работа с данни. Културата на използване на данни е важна, тъй като често анализът на информацията разкрива суровата истина за бизнеса и за да се приеме и работи с тази истина са необходими разработени методи за работа с данни.
Трето, стойността на технологиите за големи данни се състои в предоставянето на прозрения. Добрите анализатори остават дефицитни на пазара. Обичайно е да ги наричаме специалисти, които добре разбират търговското значение на данните и знаят как да ги използват правилно. Анализът на данните е средство за постигане на бизнес цели и за да разберете стойността на големите данни, се нуждаете от подходящ модел на поведение и разбиране на вашите действия. В този случай големите данни ще предоставят множество полезна информация за потребителите, въз основа на която можете да вземате полезни бизнес решения.

Въпреки факта, че руският пазар на големи данни едва започва да се формира, отделни проекти в тази област вече се изпълняват доста успешно. Някои от тях имат успех в областта на събирането на данни, като проекти за Федералната данъчна служба и Tinkoff Credit Systems Bank, други - по отношение на анализа на данните и практическото приложение на резултатите от него: това е проектът Synqera.

Tinkoff Credit Systems Bank реализира проект за внедряване на платформата EMC2 Greenplum, която е инструмент за масово паралелни изчисления. През последните години банката повиши изискванията за скорост на обработка на натрупаната информация и анализ на данни в реално време, причинени от високите темпове на растеж на броя на потребителите на кредитни карти. Банката обяви планове за разширяване на използването на технологиите за големи данни, по-специално за обработка на неструктурирани данни и работа с корпоративна информация, получена от различни източници.

Понастоящем Федералната данъчна служба на Русия създава аналитичен слой за федералния склад за данни. На негова основа се създава единно информационно пространство и технология за достъп до данъчни данни за статистическа и аналитична обработка. По време на изпълнението на проекта се работи за централизиране на аналитичната информация с повече от 1200 източника на местно ниво на IFTS.

Друг интересен пример за анализ на големи данни в реално време е руският стартъп Synqera, който разработи платформата Simplate. Решението се основава на обработка на големи количества данни; програмата анализира информация за клиентите, тяхната история на покупки, възраст, пол и дори настроение. На гишетата във веригата козметични магазини бяха инсталирани сензорни екрани със сензори, разпознаващи емоциите на клиентите. Програмата открива настроението на човек, анализира информацията за него, определя времето на деня и сканира базата с отстъпки на магазина, след което изпраща на купувача целенасочени съобщения за промоции и специални оферти. Това решение повишава лоялността на клиентите и увеличава продажбите на дребно.

Ако говорим за успешни чуждестранни случаи, тогава в това отношение е интересен опитът с използването на технологиите за големи данни в Dunkin`Donuts, който използва данни в реално време за продажба на продукти. Цифровите дисплеи в магазините показват оферти, които се редуват всяка минута, в зависимост от времето на деня и наличността на продукта. Компанията получава данни от касовите бележки, които оферти са получили най-голям отговор от купувачите. Този подход към обработката на данни позволи да се увеличи печалбата и оборота на стоките в склада.

Както показва опитът в изпълнението на проекти с големи данни, тази област е предназначена за успешно решаване на съвременни бизнес проблеми. В същото време важен фактор за постигане на търговски цели при работа с големи данни е изборът на правилната стратегия, която включва анализи, които идентифицират нуждите на потребителите, както и използването на иновативни технологии в областта на големите данни.

Според глобално проучване, провеждано ежегодно от Econsultancy и Adobe сред търговци на компании от 2012 г., „големи данни“ за това как хората се държат в Интернет могат да направят много. Те са в състояние да оптимизират офлайн бизнес процесите, да помогнат да се разбере как собствениците на мобилни устройства ги използват за намиране на информация или просто да „направят маркетинга по-добър“, т.е. по-ефикасно. Освен това последната функция е все по-популярна от година на година, както следва от диаграмата, която сме дали.

Основни области на работа за интернет маркетинг по отношение на взаимоотношенията с клиентите

Източник: Econsultancy и Adobe, публикувано - emarketer.com

Обърнете внимание, че националността на респондентите няма голямо значение. Както показва проучването, проведено от KPMG през 2013 г., делът на „оптимистите“, т.е. от тези, които използват Big Data при разработването на бизнес стратегия, е 56%, а колебанията от регион до регион са малки: от 63% в страните от Северна Америка до 50% в EMEA.

Използване на големи данни в различни региони на света

Източник: KPMG, публикуван - emarketer.com

Междувременно отношението на търговците към подобни „модни тенденции“ напомня до известна степен на добре известния анекдот:

Кажи ми, Вано, обичаш ли домати?
- Обичам да ям, но не го правя.

Въпреки факта, че маркетолозите с думи „обичат“ Големите данни и изглежда дори ги използват, всъщност „всичко е сложно“, докато пишат за своите сърдечни привързаности в социалните мрежи.

Според проучване, проведено от Circle Research през януари 2014 г. сред европейските търговци, 4 от 5 респонденти не използват Big Data (въпреки факта, че те, разбира се, го „обичат“). Причините са различни. Малко са закоренелите скептици - 17% и точно същия брой като техните антиподи, т.е. тези, които уверено отговарят с „да“. Останалите са колебливи и съмнителни, "блато". Те избягват преките отговори под правдоподобни предлози като „още не, но скоро“ или „нека изчакаме, докато другите започнат“.

Използване на големи данни от търговци, Европа, януари 2014 г.

Източник:dnx, публикувано -emarketer.com

Какво ги обърква? Чисти дреболии. Някои (точно половината от тях) просто не вярват на тези данни. Други (също има много от тях - 55%) затрудняват свързването на наборите „данни“ и „потребители“ помежду си. Някои хора просто (нека го кажем политически коректни) имат вътрешен корпоративен хаос: данните се лутат между маркетинговите отдели и ИТ структурите. За други софтуерът не може да се справи с притока на работа. И т.н. Тъй като общият дял значително надхвърля 100%, ясно е, че ситуацията с „множество бариери“ се среща доста често.

Бариери, възпрепятстващи използването на големи данни в маркетинга

Източник:dnx, публикувано -emarketer.com

По този начин трябва да признаем, че докато „Големите данни“ е голям потенциал, който все още трябва да се използва. Между другото, това може да е причината, поради която Big Data губи ореола на „модна тенденция“, както се вижда от данните от проучване, проведено от вече споменатата компания Econsultancy.

Най-значимите тенденции в дигиталния маркетинг 2013-2014

Източник: Консултантски услуги и Adobe

Те са заменени от друг крал - маркетинг на съдържание. Колко дълго?

Това не означава, че големите данни са някакъв принципно нов феномен. Големи източници на данни съществуват от години: бази данни за покупки на клиенти, кредитни истории, начин на живот. И от години учените използват тези данни, за да помогнат на компаниите да оценят риска и да предскажат бъдещите нужди на клиентите. Днес обаче ситуацията се е променила в два аспекта:

Появиха се по-сложни инструменти и техники за анализ и комбиниране на различни набори от данни;

Тези аналитични инструменти се допълват от лавина от нови източници на данни, задвижвани от цифровизацията на практически всички методи за събиране и измерване на данни.

Наборът от налична информация е едновременно вдъхновяващ и смущаващ за изследователите, отгледани в структурирана изследователска среда. Потребителските настроения се улавят от уебсайтове и всякакви социални медии. Фактът на гледане на реклама се записва не само от декодерите, но и от цифровите маркери и мобилни устройствакомуникация с телевизора.

Данните за поведението (като брой обаждания, навици за пазаруване и покупки) вече са налични в реално време. По този начин голяма част от това, което преди беше достъпно чрез изследвания, сега може да бъде научено чрез източници на големи данни. И всички тези информационни активи се генерират постоянно, независимо от каквито и да било изследователски процеси. Тези промени ни карат да се замислим дали големите данни могат да заместят класическото проучване на пазара.

Не става въпрос за данни, а за въпроси и отговори

Преди да поръчаме смъртоносното звънене на класическите изследвания, трябва да си припомним, че не е от съществено значение наличието на някакъв конкретен актив от данни, а нещо друго. Какво точно? Каква е способността ни да отговаряме на въпроси. Едно забавно нещо в новия свят на големите данни е, че резултатите от новите информационни активи водят до още повече въпроси и на тези въпроси обикновено се отговаря най-добре от традиционните изследвания. По този начин, с нарастването на големите данни, наблюдаваме паралелно нарастване на наличността и търсенето на „малки данни“, които могат да дадат отговори на въпроси от света на големите данни.

Помислете за ситуацията: голям рекламодател непрекъснато следи трафика на магазините и продажбите в реално време. Съществуващите изследователски методи (в които интервюираме участниците в дискусиите относно мотивацията им за покупка и поведението на POS) ни помагат да насочим по-добре конкретни сегменти от клиенти. Тези техники могат да бъдат разширени, за да включват по-широк спектър от активи за големи данни, до точката, в която големите данни се превръщат в инструмент за пасивно наблюдение, а изследванията се превръщат в текущо, фокусирано проучване на промени или събития, които трябва да бъдат изследвани. Това е начинът, по който големите данни могат да освободят неприятностите от научните изследвания. Първичните изследвания вече не трябва да се фокусират върху това, което се случва (големи данни ще). Вместо това първичните изследвания могат да се фокусират върху обяснението защо виждаме тенденции или отклонения от тенденциите. Изследователят ще може да мисли по-малко за получаване на данни и повече за това как да ги анализира и използва.

В същото време виждаме, че големите данни решават един от най-големите ни проблеми - проблема с прекалено дългите изследвания. Разглеждането на самите проучвания показа, че прекалено надутите изследователски инструменти имат отрицателно въздействие върху качеството на данните. Въпреки че много експерти отдавна признават този проблем, те неизменно отговарят с думите: „Но тази информация ми е необходима за висшето ръководство“ и продължителните анкети продължиха.

В света на големите данни, където количествените показатели могат да бъдат получени чрез пасивно наблюдение, този въпрос става противоречив. Отново нека да разгледаме всички тези изследвания, свързани с консумацията. Ако големите данни ни дават представа за потреблението чрез пасивно наблюдение, тогава първичните изследвания под формата на проучвания вече не се нуждаят от събиране на този вид информация и накрая можем да подкрепим нашата визия за кратки проучвания не само с добри пожелания, но и с нещо реално.

Big Data се нуждае от вашата помощ

И накрая, „големият“ е само една от характеристиките на големите данни. Характеристиката „голям“ се отнася до размера и мащаба на данните. Разбира се, това е основната характеристика, тъй като количеството на тези данни надхвърля всичко, с което сме работили преди. Но други характеристики на тези нови потоци от данни също са важни: те често са зле форматирани, неструктурирани (или в най-добрия случай частично структурирани) и пълни с несигурност. Появяващата се област на управление на данни, подходящо наречена анализ на обекти, е предназначена да отговори на предизвикателството за преодоляване на шума в големите данни. Неговата задача е да анализира тези набори от данни и да разбере колко наблюдения са за един и същ човек, кои наблюдения са актуални и кои са използваеми.

Този тип почистване на данни е необходим за премахване на шум или грешни данни при работа с големи или малки данни, но това не е достатъчно. Също така трябва да създадем контекст около активите за големи данни въз основа на предишния ни опит, анализи и знания за категории. Всъщност много анализатори посочват способността за управление на несигурността, присъща на големите данни, като източник на конкурентно предимство, тъй като това позволява по-добро вземане на решения.

Това е мястото, където първичните изследвания не само се освобождават от рутината от големи данни, но и допринасят за създаването и анализирането на съдържание в рамките на големите данни.

Ярък пример за това е прилагането на нашата фундаментално различна рамка за собствена марка към социалните медии. (говорим за разработен презМилуорд Кафяво нов подход за измерване на стойността на маркатаThe Значително Различен Рамка - "Парадигмата на значимите разлики" -R & т ). Този модел е тестван за поведение в рамките на определени пазари, внедрен е на стандартна основа и е лесен за прилагане към други маркетингови насоки и информационни системи за подкрепа на решенията. С други думи, нашият модел на собствения капитал на марката (макар и не ограничен до проучвания) притежава всички свойства, необходими за преодоляване на неструктурирания, разединен и несигурен характер на големите данни.

Помислете за данните за потребителските настроения, предоставени от социалните медии. Суровите върхове и нива в настроенията на потребителите много често са минимално корелирани с офлайн марката и параметрите на поведение: просто има твърде много шум в данните. Но можем да намалим този шум, като прилагаме нашите модели на потребителски усет, диференциация на марката, динамика и диференциация към суровите данни за потребителските настроения - начин за обработка и агрегиране на данните в социалните медии в тези измерения.

След като данните са организирани в съответствие с нашия рамков модел, идентифицираните тенденции обикновено съвпадат с офлайн маркетинговите показатели за собствения капитал и поведение. По същество данните в социалните медии не могат да говорят сами за себе си. Използването им за тази цел изисква нашата експертиза и ориентирани към марката модели. Когато социалните медии ни предоставят уникална информация, изразена на езика, който потребителите използват за описване на марки, ние трябва да използваме този език в нашите изследвания, за да направим първичните изследвания много по-ефективни.

Ползи от освободените изследвания

Това ни връща към факта, че големите данни не заместват толкова много изследванията, колкото ги освобождават. Изследователите ще бъдат освободени от необходимостта да създават ново проучване за всеки нов случай. Непрекъснато нарастващите активи за големи данни могат да се използват за различни изследователски теми, позволявайки на последващите първични изследвания да се задълбочат в темата и да запълнят пропуските. Изследователите ще бъдат освободени от необходимостта да разчитат на свръххипетирани анкети. Вместо това те ще могат да използват кратки проучвания и да се фокусират върху най-важните параметри, което подобрява качеството на данните.

С тази версия изследователите ще могат да използват своите доказани принципи и идеи, за да добавят прецизност и смисъл към активите на големи данни, което води до нови области за проучване на проучванията. Този цикъл трябва да доведе до по-задълбочено разбиране по редица стратегически въпроси и в крайна сметка до движение към това, което винаги трябва да бъде основната ни цел - да информираме и подобрим качеството на решенията по отношение на марката и комуникациите.

По едно време чух термина „Големи данни“ от Герман Греф (ръководител на Сбербанк). Те казват, че сега работят активно по внедряването, защото това ще им помогне да намалят времето за работа с всеки клиент.

Вторият път, когато се натъкнах на тази концепция, беше в онлайн магазин на клиент, върху който работихме и увеличихме диапазона от няколко хиляди до няколко десетки хиляди стоки.

Третият път, когато видях, че Yandex се нуждае от анализатор на големи данни. Тогава реших да се задълбоча в тази тема и в същото време да напиша статия, която да разкаже какъв термин е, който вълнува умовете на топ мениджърите и интернет пространството.

Какво е

Обикновено започвам някоя от статиите си с обяснение за какъв термин става дума. Тази статия няма да бъде изключение.

Това обаче е причинено преди всичко не от желанието да покажа колко съм умен, а от факта, че темата е наистина сложна и изисква внимателно обяснение.

Например можете да прочетете какви са големите данни в Wikipedia, да не разбирате нищо и след това да се върнете към тази статия, за да разберете все още определението и приложимостта за бизнеса. Затова нека започнем с описание и след това с бизнес примери.

Големите данни са големи данни. Удивително, а? Всъщност това е преведено от английски като „големи данни“. Но това определение е, би могло да се каже, за манекени.

Технология за големи данни Е подход / метод за обработка на повече данни за получаване на нова информация, която е трудна за обработка по обичайния начин.

Данните могат да бъдат или обработени (структурирани), или фрагментирани (т.е. неструктурирани).

Самият термин се появи сравнително наскоро. През 2008 г. научно списание прогнозира този подход като нещо необходимо за работа с голямо количество информация, която се увеличава експоненциално.

Например всяка година информацията в Интернет, която трябва да се съхранява и обработва сама по себе си, се увеличава с 40%. Още веднъж: + 40% всяка година в интернет се появява нова информация.

Ако отпечатаните документи са разбираеми и методите за тяхната обработка също са разбираеми (прехвърляне в електронна форма, бод в една папка, номерирани), тогава какво да правим с информацията, която се представя в напълно различни „носители“ и други обеми:

Интернет документи;
Блогове и социални мрежи;
Аудио / видео източници;
Измервателни устройства.

Има характеристики, които правят възможно класифицирането на информацията и данните като големи данни. Тоест не всички данни може да са подходящи за анализ. Тези характеристики съдържат ключовата концепция за голяма дата. Всички се побират в три V.

Сила на звука(от английския том). Данните се измерват по отношение на физическия обем на „документа“, който ще се анализира;
Скорост(от английския velocity). Данните не стоят в развитието си, но непрекъснато се увеличават, поради което трябва да бъдат обработени бързо, за да се получат резултати;
Колектор(от английския сорт). Данните може да не са едноформатни. Тоест те могат да бъдат разпръснати, структурирани или частично структурирани.

Въпреки това, от време на време, четвърто V (достоверност - надеждност / достоверност на данните) и дори пето V (в някои случаи това е жизнеспособност, в други е добавена стойност към VVV).

Някъде дори видях 7V, което характеризира данни, свързани с голяма дата. Но според мен това е от поредицата (където P се добавя периодично, въпреки че първоначалните 4 са достатъчни за разбиране).

ВЕЧЕ СМЕ ПОВЕЧЕ ОТ 29 000 души.
ВКЛЮЧИ

Кой се нуждае

Възниква логичен въпрос, как може да се използва информация (ако нещо, голямата дата е стотици и хиляди терабайта)?

Нито това. Ето информацията. И така, защо тогава измислихте голяма среща? Каква е ползата от големите данни в маркетинга и бизнеса?

Обикновените бази данни не могат да съхраняват и обработват (дори вече не говоря за анализи, а просто за съхранение и обработка) на огромно количество информация.
Голямата дата решава този основен проблем. Успешно съхранява и управлява голям обем информация;
Структурира информацията, идваща от различни източници (видео, изображения, аудио и текстови документи), в една единствена, разбираема и смилаема форма;
Формиране на аналитика и създаване на точни прогнози въз основа на структурирана и обработена информация.

Сложно е. Просто казано, всеки маркетолог, който разбира, че ако изучите голямо количество информация (за вас, вашата компания, вашите конкуренти, вашата индустрия), можете да получите много прилични резултати:

Пълно разбиране на вашата компания и вашия бизнес по отношение на числата;
Проучете вашите конкуренти. И това от своя страна ще направи възможно напредването поради преобладаването над тях;
Открийте нова информация за вашите клиенти.

И точно защото технологията за големи данни дава следните резултати, всички се втурват с нея. Те се опитват да вкарат този бизнес в своята компания, за да получат увеличение на продажбите и намаляване на разходите. И по-точно тогава:

Увеличени кръстосани продажби и допълнителни продажби поради по-доброто познаване на предпочитанията на клиентите;
Търсене на популярни продукти и причини, поради които са закупени (и обратно);
Подобряване на продукт или услуга;
Подобряване на нивото на обслужване;
Повишена лоялност и фокус върху клиентите;
Предотвратяване на измами (по-подходящо за банковия сектор);
Намаляване на ненужните разходи.

Най-често срещаният пример, който се цитира във всички източници, е, разбира се, Apple, който събира данни за своите потребители (телефон, часовник, компютър).

Именно поради наличието на екосистемата корпорацията знае толкова много за своите потребители и след това я използва, за да реализира печалба.

Можете да прочетете тези и други примери за употреба във всяка друга статия освен тази.

Модерен пример

Ще ви разкажа за друг проект. По-скоро за човек, който гради бъдещето, използвайки решения за големи данни.

Това е Илон Мъск и неговата компания Tesla. Основната му мечта е да направи автомобилите автономни, тоест седнете зад волана, включете автопилота от Москва до Владивосток и ... заспите, защото абсолютно не е нужно да карате кола, защото той ще направи всичко сам.

Изглежда фантастично? Но не! Илон просто направи много по-мъдър от Google, който контролира автомобили, използващи десетки сателити. И той отиде в другата посока:

Всяка продадена кола е оборудвана с компютър, който събира цялата информация.
Всичко означава всичко като цяло. За шофьора, неговия стил на шофиране, пътища наоколо, движението на други автомобили. Обемът на такива данни достига 20-30 GB на час;
Освен това тази информация се предава чрез сателитна комуникация към централния компютър, който обработва тези данни;
Въз основа на големите данни, които този компютър обработва, се изгражда модел на безпилотно превозно средство.

Между другото, ако Google се справя доста зле и колите им непрекъснато попадат в катастрофи, тогава Мъск, поради факта, че се работи с големи данни, нещата са много по-добри, защото тестовите модели показват много добри резултати.

Но ... Всичко е свързано с икономиката. Какво общо имаме за печалбата, да за печалбата? Много неща, които голямата среща може да реши, нямат нищо общо с печалбите и парите.

Статистиката на Google, която се базира на големи данни, показва интересно нещо.

Преди лекарите да обявят началото на епидемия от заболяване в определен регион, броят на търсенията за лечение на това заболяване се увеличава значително в този регион.

По този начин, правилното проучване на данните и техният анализ могат да формират прогнози и да предскажат началото на епидемия (и съответно нейното предотвратяване) много по-бързо от заключението на властите и техните действия.

Приложение в Русия

Русия обаче, както винаги, забавя малко. И така, самото определение за големи данни в Русия се появи преди не повече от 5 години (сега говоря за обикновени компании).

И това въпреки факта, че това е един от най-бързо развиващите се пазари в света (наркотиците и оръжията нервно пушат встрани), защото всяка година пазарът на софтуер за събиране и анализ на големи данни нараства с 32%.

За да характеризирам пазара на големи данни в Русия, ми напомня една стара шега. Голямата среща е като секс под 18 години. Всички говорят за това, около него има много шум и малко реални действия и всеки се срамува да признае, че те самите не го правят. Всъщност има много шум около това, но малко реални действия.

Въпреки че известната изследователска компания Gartner обяви през 2015 г., че голямата дата вече не е нарастваща тенденция (като, между другото, изкуствен интелект), а напълно независими инструменти за анализ и развитие на модерни технологии.

Най-активните ниши, в които се използват големи данни в Русия, са банките / застраховките (не без основание започнах статията с ръководителя на Сбербанк), телекомуникациите, търговията на дребно, недвижимите имоти и ... публичният сектор.

Като пример ще ви разкажа по-подробно за няколко сектора на икономиката, които използват алгоритми за големи данни.

1. Банки

Нека започнем с банките и информацията, която те събират за нас и нашите действия. Например взех ТОП-5 руски банки, които активно инвестират в големи данни:

Сбербанк;
Газпромбанк;
VTB 24;
Алфа Банк;
Tinkoff Bank.

Особено приятно е да видите Alfa Bank сред руските лидери. Най-малкото е хубаво да знаете, че банката, на която сте официален партньор, разбира необходимостта от въвеждане на нови маркетингови инструменти във вашата компания.

Но искам да покажа примери за използването и успешното внедряване на големи данни за банката, които харесвам за нестандартния външен вид и действията на нейния основател.

Говоря за Tinkoff Bank. Основната им задача беше да разработят система за анализ на големи данни в реално време поради нарастващата клиентска база.

Резултати: времето на вътрешните процеси е намалено най-малко 10 пъти, а за някои - повече от 100 пъти.

Е, малко разсейване. Знаете ли защо започнах да говоря за нестандартни лудории и действия на Олег Тинков? Просто според мен именно те са му помогнали да се превърне от средностатистически бизнесмен, който в Русия има хиляди, в един от най-известните и разпознаваеми предприемачи. За да го докажете, гледайте това необичайно и интересно видео:

2. Имот

В недвижимите имоти всичко е много по-сложно. И точно това е примерът, който искам да ви дам, за да разберете голямата дата в рамките на обикновения бизнес. Първоначални данни:

Голямо количество текстова документация;
Отворен код (частни сателити, предаващи данни за промяна на земята);
Огромно количество неконтролирана информация в Интернет;
Постоянни промени в източниците и данните.

И въз основа на това е необходимо да се подготви и оцени стойността на парцел, например близо до уралско село. Ще отнеме професионалист седмично.

Руското общество на оценителите и ROSEKO, които всъщност са внедрили анализ на големи данни с помощта на софтуер, ще отнеме не повече от 30 минути спокойна работа. Сравнете, седмица и 30 минути. Колосална разлика.

Инструменти за създаване

Разбира се, огромни количества информация не могат да се съхраняват и обработват на обикновени твърди дискове.

И софтуерче структурите и анализите на данните обикновено са интелектуална собственост и всеки път, когато са автори. Има обаче инструменти, въз основа на които се създава цялата тази красота:

Hadoop & MapReduce;
NoSQL бази данни;
Инструменти за клас за откриване на данни.

За да бъда честен, няма да мога да ви обясня ясно по какво се различават помежду си, тъй като запознаването и работата с тези неща се преподават във физико-математическите институти.

Защо тогава започнах да говоря за това, ако не мога да обясня? Не забравяйте, че във всички филми обирджиите влизат във всяка банка и виждат огромен брой всякакви парчета желязо, свързани към жиците? Същото важи и за голямата среща. Например, ето модел, който в момента е един от лидерите на пазара.

Инструмент за голяма дата

Цената в максималната конфигурация достига 27 милиона рубли на стелаж. Това, разбира се, е луксозната версия. Искам предварително да изпробвате създаването на големи данни във вашия бизнес.

Накратко за основното

Може да попитате, защо вие, малкият и средният бизнес, трябва да работите с големи данни?

На това ще ви отговоря с цитат от един човек: „В близко бъдеще клиентите ще бъдат търсени за компании, които по-добре разбират тяхното поведение, навици и им отговарят колкото е възможно повече.“

Но нека си признаем. За да внедрите големи данни в малък бизнес, е необходимо да имате не само големи бюджети за разработване и внедряване на софтуер, но и за поддръжка на специалисти, поне такива като анализатор на големи данни и системен администратор.

И сега мълча за факта, че трябва да имате такива данни за обработка.

Добре. За малкия бизнес темата почти не е приложима. Но това не означава, че трябва да забравите всичко, което сте прочели по-горе. Просто проучете не собствените си данни, а резултатите от анализа на данни на известни чуждестранни и руски компании.

Например търговската верига Target, използвайки анализ на големи данни, установи, че бременните жени преди втория триместър на бременността (от 1-ва до 12-та седмица на бременността) активно купуват продукти без аромат.

Благодарение на тази информация те им изпращат купони за отстъпка за ароматизирани продукти с ограничена продължителност.

А ако сте много малко кафене например? Това е много просто. Използвайте приложение за лоялност. И след известно време и благодарение на натрупаната информация ще можете не само да предложите на клиентите си ястия, които са подходящи за техните нужди, но и да видите най-непродадените и най-маргиналните ястия само с няколко щраквания.

Оттук и заключението. Едва ли си струва да се прилагат големи данни за малък бизнес, но използването на резултатите и развитието на други компании е задължително.