बड़े डेटा विश्लेषण के तरीके। आधुनिक दुनिया में बड़ा डेटा

(सचमुच - बड़ा डेटा)? आइए पहले ऑक्सफोर्ड डिक्शनरी को देखें:

डेटा - मात्राएं, संकेत या प्रतीक जो कंप्यूटर संचालित करता है और जिसे विद्युत संकेतों के रूप में संग्रहीत और प्रसारित किया जा सकता है, चुंबकीय, ऑप्टिकल या मैकेनिकल मीडिया पर रिकॉर्ड किया जाता है।

शब्द बड़ा डेटा एक बड़े डेटासेट का वर्णन करने के लिए उपयोग किया जाता है जो समय के साथ तेजी से बढ़ता है। इस डेटा को संसाधित करने के लिए, आप मशीन सीखने के बिना नहीं कर सकते।

बिग डेटा प्रदान करता है कि लाभ:

विभिन्न स्रोतों से डेटा एकत्र करना।
रीयल-टाइम एनालिटिक्स के माध्यम से व्यावसायिक प्रक्रियाओं में सुधार।
बड़ी मात्रा में डेटा का भंडारण।
अंतर्दृष्टि। बिग डेटा संरचित और अर्ध-संरचित डेटा के साथ छिपी जानकारी के बारे में अधिक समझदार है।
बिग डेटा आपको जोखिम को कम करने और सही जोखिम विश्लेषण के साथ स्मार्ट निर्णय लेने में मदद करता है

बिग डाटा उदाहरण

न्यूयॉर्क स्टॉक एक्सचेंज दैनिक उत्पन्न करता है 1 टेराबाइट अंतिम सत्र के लिए ट्रेडों पर डेटा।

सामाजिक मीडिया: आंकड़े बताते हैं कि डेटाबेस फेसबुक डेटा दैनिक लोड किया गया 500 टेराबाइट्स नया डेटा मुख्य रूप से सोशल नेटवर्क के सर्वर पर फोटो और वीडियो अपलोड करने, मैसेजिंग, पोस्ट के तहत कमेंट आदि के कारण उत्पन्न होता है।

जेट इंजिन उत्पन्न करता है 10 टेराबाइट्स उड़ान के दौरान हर 30 मिनट में डेटा। चूंकि हर दिन हजारों उड़ानें होती हैं, इसलिए डेटा वॉल्यूम पेटाबाइट्स तक पहुंचता है।

बिग डेटा वर्गीकरण

बड़े डेटा फॉर्म:

ढाँचा
असंरचित
अर्ध-संरचित

संरचित रूप

एक निश्चित प्रारूप में संग्रहीत, एक्सेस और संसाधित किए जा सकने वाले डेटा को संरचित कहा जाता है। वर्षों से, कंप्यूटर विज्ञान ने इस प्रकार के डेटा (जहां प्रारूप पहले से जाना जाता है) के साथ काम करने के लिए तकनीकों में सुधार करने में काफी प्रगति की है और सीखा है कि लाभ कैसे प्राप्त करें। हालांकि, पहले से ही आज कई ज़ेटाबाइट्स की श्रेणी में मापी जाने वाली आकारों में वॉल्यूम के विकास से जुड़ी समस्याएं हैं।

1 ज़ेटाबाइट एक अरब टेराबाइट के बराबर है

इन नंबरों को देखते हुए, बिग डेटा शब्द की सत्यता और ऐसे डेटा के प्रसंस्करण और भंडारण से जुड़ी कठिनाइयों की पुष्टि करना आसान है।

एक संबंधपरक डेटाबेस में संग्रहीत डेटा संरचित है और उदाहरण के लिए, कंपनी के कर्मचारियों की तालिकाएं

असंरचित रूप

अज्ञात संरचना के डेटा को असंरचित के रूप में वर्गीकृत किया गया है। इसके बड़े आकार के अलावा, इस आकार को संभालने और निष्कर्षण में कई कठिनाइयों की विशेषता है। उपयोगी जानकारी... असंरचित डेटा का एक विशिष्ट उदाहरण एक विषम स्रोत है जिसमें सरल पाठ फ़ाइलों, चित्रों और वीडियो का संयोजन होता है। आज संगठनों के पास बड़ी मात्रा में कच्चे या असंरचित डेटा तक पहुंच है, लेकिन यह नहीं जानते कि इससे कैसे लाभ होगा।

अर्ध-संरचित रूप

इस श्रेणी में उपरोक्त दोनों शामिल हैं, इसलिए अर्ध-संरचित डेटा का कुछ रूप है, लेकिन संबंधपरक डेटाबेस में तालिकाओं का उपयोग करके वास्तव में परिभाषित नहीं किया गया है। इस श्रेणी का एक उदाहरण एक XML फ़ाइल में प्रस्तुत व्यक्तिगत डेटा है।

प्रशांत राओनर35 सीमा आर।महिला41 सतीश मानेनर29 सुब्रतो रोयनर26 यिर्मयाह जे।नर35

बिग डेटा विशेषताएँ

समय के साथ बिग डेटा ग्रोथ:

नीला रंग संरचित डेटा (एंटरप्राइज़ डेटा) का प्रतिनिधित्व करता है जो रिलेशनल डेटाबेस में संग्रहीत होते हैं। अन्य रंग विभिन्न स्रोतों (आईपी टेलीफोनी, उपकरणों और सेंसर, सामाजिक नेटवर्क और वेब अनुप्रयोगों) से असंरचित डेटा हैं।

गार्टनर के अनुसार, बड़ा डेटा वॉल्यूम, पीढ़ी दर, विविधता और परिवर्तनशीलता में भिन्न होता है। आइए इन विशेषताओं पर अधिक विस्तार से विचार करें।

आयतन... बिग डेटा शब्द ही बड़े आकार के साथ जुड़ा हुआ है। संभव पुनर्प्राप्ति योग्य मूल्य निर्धारित करने में डेटा का आकार सबसे महत्वपूर्ण मीट्रिक है। 6 मिलियन लोग हर दिन डिजिटल मीडिया का उपयोग करते हैं, जो 2.5 क्विंटल बाइट डेटा उत्पन्न करने का अनुमान है। इसलिए, मात्रा पर विचार करना पहली विशेषता है।
विविधता - अगला पहलू। वह विषम स्रोतों और डेटा की प्रकृति को संदर्भित करता है, जो या तो संरचित या असंरचित हो सकता है। अतीत में, स्प्रेडशीट और डेटाबेस अधिकांश अनुप्रयोगों में विचारित जानकारी का एकमात्र स्रोत थे। आज, ईमेल, फोटो, वीडियो, पीडीएफ फाइलों, ऑडियो के रूप में डेटा को विश्लेषणात्मक अनुप्रयोगों में भी माना जाता है। असंरचित डेटा की यह विविधता भंडारण, उत्पादन और विश्लेषण में समस्याओं की ओर ले जाती है: 27% कंपनियों को यकीन नहीं है कि वे सही डेटा के साथ काम कर रहे हैं।
सृजन की गति... आवश्यकताओं को पूरा करने के लिए कितनी जल्दी डेटा संचित और संसाधित किया जाता है, यह संभावित निर्धारित करता है। गति स्रोतों से सूचना प्रवाह की गति निर्धारित करती है - व्यावसायिक प्रक्रियाएं, एप्लिकेशन लॉग, सोशल नेटवर्किंग साइट और मीडिया, सेंसर, मोबाइल डिवाइस। समय के साथ डेटा स्ट्रीम विशाल और निरंतर है।
भिन्नता किसी समय डेटा की अस्थिरता का वर्णन करता है, जो प्रसंस्करण और प्रबंधन को जटिल बनाता है। इसलिए, उदाहरण के लिए, अधिकांश डेटा प्रकृति में असंरचित है।

बिग डेटा एनालिटिक्स: बड़े डेटा का उपयोग क्या है

माल और सेवाओं को बढ़ावा देना: सर्च इंजन और फेसबुक और ट्विटर जैसी साइटों से डेटा एक्सेस करना व्यवसायों को अपनी मार्केटिंग रणनीतियों को बेहतर आकार देने की अनुमति देता है।

ग्राहक सेवा में सुधार: पारंपरिक ग्राहक फीडबैक सिस्टम को नए लोगों के साथ बदला जा रहा है जो ग्राहक प्रतिक्रिया को पढ़ने और मूल्यांकन करने के लिए बिग डेटा और प्राकृतिक भाषा प्रसंस्करण का उपयोग करते हैं।

जोखिम की गणनाएक नए उत्पाद या सेवा की रिहाई के साथ जुड़ा हुआ है।

कार्यकारी कुशलता: बिग डेटा को उस जानकारी को निकालने के लिए संरचित किया जाता है जो इसे तेज़ी से चाहिए और सटीक परिणाम शीघ्रता से वितरित करे। बिग डेटा और स्टोरेज तकनीकों के इस संयोजन से संगठनों को काम में आसानी से उपयोग की जाने वाली जानकारी के साथ काम करने में मदद मिलती है।

वोल्कोवा जूलिया सर्गेवना, 4 वें वर्ष के छात्र, रूसी संघ की सरकार के तहत वित्तीय विश्वविद्यालय, कलुगा शाखा, कलुगा [ईमेल संरक्षित]

आधुनिक दुनिया में बड़ा डेटा

सार: लेख हमारे आधुनिक समाज में बिग डेटा प्रौद्योगिकियों के कार्यान्वयन के लिए समर्पित है। बिग डेटा की मुख्य विशेषताओं की जांच की जाती है, आवेदन के मुख्य क्षेत्रों को माना जाता है, जैसे कि बैंकिंग, खुदरा, निजी और सार्वजनिक क्षेत्र और यहां तक \u200b\u200bकि रोजमर्रा की जिंदगी। अध्ययन में बिग डेटा तकनीकों का उपयोग करने के नुकसान का पता चला। बिग डेटा के उपयोग के मानक विनियमन को विकसित करने की आवश्यकता है। मुख्य शब्द: बिग डेटा, बैंक, बैंकिंग, खुदरा, निजी क्षेत्र, सार्वजनिक क्षेत्र।

जैसे-जैसे आधुनिक समाज के विभिन्न क्षेत्रों में सूचना प्रौद्योगिकी के महत्व की डिग्री बढ़ रही है, बड़ी मात्रा में डेटा को शामिल करने वाली नई समस्याओं को हल करने के लिए उनके अनुकूलन क्षमता की आवश्यकताएं बढ़ रही हैं। ऐसी सूचनाएँ हैं जिन्हें पारंपरिक तरीकों से संसाधित नहीं किया जा सकता है, जिसमें संरचित डेटा, मीडिया डेटा और यादृच्छिक ऑब्जेक्ट शामिल हैं। और अगर आज मौजूद पहले तकनीकों का विश्लेषण सामना करना अधिक कठिन है, तो दूसरे और तीसरे का विश्लेषण व्यावहारिक रूप से रीढ़ की हड्डी का काम बना हुआ है। अध्ययनों से पता चलता है कि मीडिया डेटा की मात्रा जैसे वीडियो निगरानी, \u200b\u200bहवाई फोटोग्राफी, डिजिटल स्वास्थ्य जानकारी, और कई अभिलेखागार और बादलों में संग्रहीत यादृच्छिक वस्तुएं साल-दर-साल बढ़ रही हैं। डेटा की विशाल मात्रा एक वैश्विक प्रक्रिया बन गई है और इसे बिग डेटा कहा जाता है। । विदेशी और रूसी दोनों वैज्ञानिकों के कार्य बिग डेटा के अध्ययन के लिए समर्पित हैं: जेम्स मानिका, माइकल चुई, वीवी टोपोर्कोव, VI बुडज़को। McKinsey & Company, СNews Analytics, SAP, Oracle, IBM, Microsoft, Teradata और कई अन्य बड़ी कंपनियां इस तकनीक के अध्ययन में महत्वपूर्ण योगदान देती हैं। वे डेटा का विश्लेषण और विश्लेषण करते हैं और बिग डेटा पर आधारित सॉफ्टवेयर और हार्डवेयर सिस्टम बनाते हैं। मैकिन्से इंस्टीट्यूट की एक रिपोर्ट के अनुसार, "बिग डेटा एक डेटासेट है, जिसका आकार कैप्चरिंग, भंडारण, प्रबंधन और डेटा के लिए सॉफ्टवेयर टूल्स के विशिष्ट डेटाबेस की क्षमताओं से परे है। डेटा का विश्लेषण। " संक्षेप में, बड़े डेटा की अवधारणा का अर्थ है एक बड़ी मात्रा और विविधता की जानकारी के साथ काम करना, कार्य कुशलता बढ़ाने, नए उत्पाद बनाने और प्रतिस्पर्धा बढ़ाने के लिए लगातार विभिन्न स्रोतों में अद्यतन और स्थित। परामर्श कंपनी फॉरेस्टर एक छोटी और काफी समझ में आता है: "बिग डेटा तकनीकों और प्रौद्योगिकियों को जोड़ती है जो व्यावहारिकता की चरम सीमा पर डेटा से अर्थ निकालती है।" आज, बिग डेटा क्षेत्र निम्नलिखित विशेषताओं की विशेषता है: वॉल्यूम - संचित डेटाबेस। बड़ी मात्रा में जानकारी। गति-गति, यह संकेत डेटा संचय की बढ़ती दर को इंगित करता है (90% जानकारी पिछले 2 वर्षों में एकत्र की गई थी) विविधता - विविधता, अर्थात। संरचित और असंरचित बहु-प्रारूप जानकारी के एक साथ प्रसंस्करण की संभावना। मार्केटिंग विशेषज्ञ अपने Vs को यहां जोड़ना पसंद करते हैं। कुछ भी सत्यता के बारे में बात करते हैं, दूसरों का कहना है कि बड़ी डेटा प्रौद्योगिकियों को निश्चित रूप से व्यापार में मूल्य लाना चाहिए। यह उम्मीद है कि 2020 तक ग्रह पर जानकारी की संचित मात्रा हर दो साल में दोगुनी हो जाएगी। डेटा की प्रचुरता आपको विश्लेषण और पूर्वानुमान के लिए इसका उपयोग करना चाहती है। विशाल मात्रा में उपयुक्त तकनीकों की आवश्यकता होती है। कंपनियों को आज उन मात्राओं में डेटा की भारी मात्रा में प्रक्रिया करनी पड़ती है, जिनकी कल्पना करना मुश्किल है, यह इस तथ्य की ओर जाता है कि पारंपरिक डेटाबेस इस तरह के कार्य का सामना नहीं कर सकते हैं, और इससे बिग डेटा तकनीकों को लागू करने की आवश्यकता होती है। तालिका बिग डेटा और पारंपरिक डेटाबेस की तुलनात्मक विशेषता प्रस्तुत करती है। इस तालिका के गठन का आधार वी। आई। बुडज़्को और मॉस्को एक्सचेंज का शोध था। तालिका 1 में बड़े डेटा और पारंपरिक डेटा की तुलनात्मक विशेषताएं हैं।

पारंपरिक डेटाबेस बड़े डेटा अनुप्रयोग

एक या अधिक अनुप्रयोग क्षेत्र बिग डेटा तकनीकों का दायरा विस्तृत है। जोखिम विश्लेषण के लिए ग्राहकों की वरीयताओं की पहचान करने से डेटा विशेषताओं का एक जटिल विषम और / या अपरिभाषित संरचना के साथ जानकारी के डेटा संरचित मात्रा को सुरक्षित रखें। डेटा संग्रहण विधि 1015 बाइट्स) (1015 बाइट्स) उदाहरण के लिए, पारंपरिक डेटाबेस का दायरा केवल एक या कुछ को कवर करता है, जबकि ऐसे क्षेत्रों में केवल संरचित डेटा होना चाहिए। बिग डेटा के लिए, उनके आवेदन का दायरा एक जटिल संरचना के साथ भारी मात्रा में जानकारी के साथ व्यापक है। चित्रा 1 में प्रस्तुत किए गए СNews एनालिटिक्स के शोध के परिणामों के अनुसार, रूसी बाजार बिग डेटा के रूप में इस तरह की घटना के लिए आता है: जो कंपनियों की परिपक्वता के स्तर में वृद्धि दर्शाता है। कई कंपनियां अपने संसाधित डेटा की मात्रा के कारण बिग डेटा तकनीकों पर स्विच कर रही हैं, पहले से ही अब 44% से अधिक लगभग 100 टेराबाइट्स उत्पन्न करती हैं, और 13% के लिए ये डेटा वॉल्यूम 500 टेराबाइट्स से अधिक हैं।

चित्र .1। कंपनियों में संसाधित की गई जानकारी के वॉल्यूम

इस तरह के संस्करणों को पारंपरिक डेटाबेस के साथ संसाधित नहीं किया जा सकता है, इसलिए ऐसी कंपनियां बिग डेटा के संक्रमण के समाधान को न केवल विशाल मात्रा में प्रसंस्करण के रूप में देखती हैं, बल्कि प्रतिस्पर्धा में वृद्धि के रूप में, अपने उत्पाद के लिए ग्राहक वफादारी को बढ़ाती हैं और नए लोगों को आकर्षित करती हैं। ऐसे समाधानों के सबसे सक्रिय ग्राहक बैंक, दूरसंचार और खुदरा हैं, उनका प्रतिशत चित्र 2 में दिखाया गया है। कम ध्यान देने योग्य कंपनियों की संख्या है जो परिवहन, ऊर्जा और औद्योगिक क्षेत्रों में बड़े डेटा का उपयोग करने के लिए तैयार हैं या उपयोग करने के लिए तैयार हैं। सार्वजनिक क्षेत्र में बड़े डेटा के उपयोग के पहले उदाहरण दिखाई दिए।

रेखा चित्र नम्बर 2। बिग डेटा का उपयोग करने की उद्योग संरचना

पश्चिमी सरकार के लिए, डिजिटल अर्थव्यवस्था का अनुमान है कि जी 20 जीडीपी का 3% और 21% के बीच है। रूसी सार्वजनिक क्षेत्र ने अभी तक बड़े डेटा के साथ काम करने में महत्वपूर्ण परिणाम प्राप्त नहीं किए हैं। आज रूस में ऐसी तकनीकें मुख्य रूप से वाणिज्यिक उद्यमों में रुचि रखती हैं: खुदरा श्रृंखलाएं, बैंक, दूरसंचार कंपनियां। रूसी एसोसिएशन ऑफ इलेक्ट्रॉनिक कम्युनिकेशंस के अनुसार, आरएफ में डिजिटल अर्थव्यवस्था की मात्रा केवल 1 ट्रिलियन है। रगड़ना। -जीडीपी का 1.5%। फिर भी, यूआरएफ में डिजिटल अर्थव्यवस्था के विकास की बहुत बड़ी संभावना है। बिग डेटा क्षेत्र के कम जीवन के बावजूद, वास्तविक जीवन के उदाहरणों के आधार पर इन प्रौद्योगिकियों के प्रभावी उपयोग के पहले से ही अनुमान हैं। आज बैंक औसतन 3.8 पेटोबाइट डेटा की प्रक्रिया करते हैं, वे कुछ कार्यों को पूरा करने के लिए बिग डेटा तकनीकों का उपयोग करते हैं:; क्रेडिट कार्ड के उपयोग पर डेटा एकत्र करना; ateral संपार्श्विक पर डेटा एकत्र करना;; ऋण पर डेटा एकत्र करना; 44% 16% 13 % 7% 20% बैंक टेलीकॉम खुदरा सार्वजनिक क्षेत्र के अन्य • ग्राहक प्रोफाइल डेटा एकत्र करना • ग्राहक बचत डेटा एकत्र करना बैंकों का दावा है कि जब से उन्होंने बिग डेटा तकनीकों का उपयोग करना शुरू किया है, वे नए ग्राहकों को आकर्षित करने में सक्षम हुए हैं, नए और पुराने दोनों ग्राहकों के साथ बेहतर बातचीत करते हैं, और उनकी वफादारी बनाए रखें। 2015 में, CNews Analytics ने कुल संपत्ति के तीस सबसे बड़े रूसी बैंकों के बीच एक सर्वेक्षण किया ताकि यह पता लगाया जा सके कि वे किन बड़ी डेटा तकनीकों का उपयोग कर रहे हैं और किन उद्देश्यों के लिए कर रहे हैं। 2014 के सर्वेक्षण की तुलना में, बड़े डेटा उपयोग की रिपोर्ट करने वाले शीर्ष 30 बैंकों की संख्या में वृद्धि हुई है, लेकिन शीर्ष 30 की संरचना में बदलाव के कारण इस बदलाव की संभावना अधिक है। चित्र 3 ए। किर्यानोवा के सर्वेक्षण के आधार पर 2015 के सर्वेक्षण बनाम 2014 की तुलना दर्शाता है।

चित्र: 3. top30 रूसी बैंकों द्वारा बिग डेटा का उपयोग

IBS के अनुमानों के मुताबिक, सकारात्मक जवाब देने वाले 80% बैंक डेटा और भंडारण और प्रसंस्करण के लिए बिग डेटा उपकरण - सॉफ्टवेयर और हार्डवेयर सिस्टम लागू कर रहे हैं। ये समाधान आमतौर पर विश्लेषणात्मक या लेन-देन भंडारण के रूप में कार्य करते हैं, जिनमें से मुख्य लाभ उच्च मात्रा में डेटा के साथ काम करते समय उच्च प्रदर्शन होता है। फिर भी, रूसी बैंकों में बड़े डेटा का उपयोग करने का अभ्यास अपनी प्रारंभिक अवस्था में है। रूस में इस तरह के धीमे अनुकूलन का कारण ग्राहक आईटी विशेषज्ञों की नई तकनीकों के प्रति सतर्क रवैये में प्रकट होता है। उन्हें विश्वास नहीं है कि बड़ी डेटा प्रौद्योगिकियां पूर्ण रूप से समस्याओं को हल करने में मदद करेंगी। लेकिन अमेरिकी बाजार के लिए, बैंकों ने पहले ही 1 एक्साबाइट डेटा जमा कर लिया है, जिसकी तुलना 275 बिलियन एमपी 3 रिकॉर्ड्स से की जा सकती है। जिन स्रोतों से जानकारी आती है, वे व्यापक हैं, जिनमें से क्लासिक को प्रतिष्ठित किया जा सकता है:  बैंक कार्यालयों में ग्राहक का दौरा; offices फोन कॉल रिकॉर्ड; सामाजिक नेटवर्क पर ग्राहक व्यवहार; card क्रेडिट कार्ड लेनदेन के बारे में जानकारी which और अन्य। ऑनलाइन रिटेल ग्राहक के व्यवहार का विश्लेषण करने के लिए बड़े डेटा का उपयोग करता है, बिक्री क्षेत्र के माध्यम से डिज़ाइन करता है, सामानों की सही व्यवस्था करता है, खरीदारी की योजना बनाता है और अंततः बिक्री बढ़ाता है। ऑनलाइन रिटेल में, बिक्री तंत्र स्वयं बड़े डेटा पर बनाया गया है: उपयोगकर्ताओं को पिछली खरीद और उनकी व्यक्तिगत प्राथमिकताओं के आधार पर सामान की पेशकश की जाती है, जिसके बारे में जानकारी एकत्र की जाती है, उदाहरण के लिए, सामाजिक नेटवर्क में। दोनों मामलों में, बड़ा डेटा विश्लेषण लागत कम करने, ग्राहक निष्ठा बढ़ाने और बड़े दर्शकों तक पहुंचने में मदद करता है। जैसा कि कंपनियों की व्यापारिक क्षमता विकसित होती है, पारंपरिक डेटाबेस बढ़ती व्यावसायिक आवश्यकताओं को पूरा करने में विफल होते हैं, यही वजह है कि सिस्टम आवश्यक दानेदारता प्रदान नहीं कर सकता है। प्रबंधन लेखांकन। बड़े डेटा के लिए आगे बढ़ते हुए, नई तकनीकों से माल की आवाजाही के प्रबंधन का अनुकूलन, डेटा की प्रासंगिकता प्राप्त करने और प्रबंधन निर्णयों के परिणामों का आकलन करने के लिए उनके प्रसंस्करण की दक्षता को प्राप्त करना और प्रबंधन रिपोर्टिंग को जल्दी से उत्पन्न करना संभव हो जाता है। संचित डेटा की कुल राशि 100 से अधिक छूट है, जबकि केवल वॉलमार्ट प्रति घंटे 2.5 पेटाबाइट डेटा को संसाधित करने के लिए बड़े डेटा का उपयोग करता है। इसके अलावा, बिग डेटा तकनीकों के उपयोग से, ऑपरेटिंग प्रॉफिटेबिलिटी 60% तक बढ़ जाती है, और Hadoop आंकड़ों के अनुसार, बिग डेटा के कार्यान्वयन के बाद, एनालिटिक्स का प्रदर्शन 120 एल्गोरिदम को संसाधित करने तक बढ़ जाता है, और लाभ 710% बढ़ता है। हम रूसी रिटेल को ध्यान में रखते हैं, फिर बिग डेटा सिर्फ स्टीम लेने शुरू कर रहा है क्योंकि प्रोसेसिंग गैप बहुत अलग है। उदाहरण के लिए, ऑनलाइन रिटेल चीन की तुलना में 18 गुना कम है, और ऑनलाइन रिटेल में उत्पादित होने वाला पूरा डेटा एक अमेज़ॅन स्टोर से 4.5 गुना कम है। इसके अलावा, रूस में बिग डेटा का उपयोग करने वाले ऑनलाइन स्टोरों की संख्या 40 हजार से कम है, जबकि यूरोप में ऐसे स्टोरों की संख्या 550 हजार से अधिक है। अभी भी विकसित होने और पूरी तरह से नहीं बनने के रूप में रूसी खुदरा बाजार की विशेषता क्या है। हमारे दैनिक जीवन की तरह, बिग डेटा तकनीकों का भी उपयोग यहां किया जाता है, जिसके बारे में हमने सोचा भी नहीं था। हर दिन लगभग 15 मिलियन गाने, जो लगभग 1.5 ~ 2 पेटाबाइट्स, शाज़म, एक संगीत सेवा, दुनिया भर में, और आधारित हैं। तब संगीत निर्माता कलाकार की लोकप्रियता का अनुमान लगाते हैं। मास्टर कार्ड और वीज़ा जैसे क्रेडिट कार्ड की जानकारी को संसाधित करने के लिए भी बड़े डेटा का उपयोग किया जाता है। इस प्रकार, 32 मिलियन व्यापारियों में 1.9 बिलियन कार्ड का उपयोग करके प्रति वर्ष 65 बिलियन लेनदेन को व्यापार के रुझान की भविष्यवाणी करने के लिए मास्टरकार्ड द्वारा संसाधित किया जाता है। हर दिन, दुनिया भर के लोग 19 टेराबाइट डेटा के लिए ट्विटर और फेसबुक जैसे सोशल नेटवर्क पर पोस्ट करते हैं। वे फ़ोटो अपलोड करते हैं और लिखते हैं, संदेश भेजते हैं, संदेश भेजते हैं और इसी तरह आगे बढ़ते हैं। इन्फ्रास्ट्रक्चर ट्रॉलीबस से लेकर हवाई जहाज और रॉकेट तक बिग डेटा तकनीक का उपयोग करता है। इसलिए, लंदन मेट्रो में हर दिन, टर्नस्टाइल्स लगभग 20 मिलियन पास करते हैं, बिग डेटा प्रौद्योगिकियों पर आधारित एक विश्लेषण के परिणामस्वरूप, 10 विभिन्न उपरिकेंद्रों की पहचान की गई, जिसे मेट्रो के आगे के विकास में भी ध्यान में रखा गया है। निस्संदेह, सभी प्रकार के इंटरैक्शन से उत्पन्न होने वाले डेटा की विविधता और मात्रा एक व्यवसाय को पूर्वानुमानों का निर्माण और परिष्कृत करने, पैटर्न की पहचान करने, दक्षता का आकलन करने आदि के लिए एक शक्तिशाली आधार है। हालांकि, हर चीज की अपनी कमियां हैं, जिन्हें ठीक से ध्यान में रखना चाहिए। बिग डेटा का उपयोग करने के स्पष्ट और संभावित लाभों के बावजूद, उनके उपयोग में इसकी कमियां हैं, जो मुख्य रूप से बड़ी मात्रा में जानकारी, इसके उपयोग के विभिन्न तरीकों से जुड़ी हैं। अक्सर अपर्याप्त संसाधन संगठनों में सूचना सुरक्षा कार्यों का प्रावधान करता है। बिग डेटा तकनीकों के उपयोग से जुड़ी समस्याओं को चित्र 4 में प्रस्तुत किया गया है।

चित्र: 4. बिग डेटा के उपयोग की समस्याएं

ये सभी समस्याएं इस तथ्य की ओर ले जाती हैं कि कई कंपनियां बड़ी डेटा तकनीकों को पेश करने से सावधान रहती हैं, क्योंकि जब तीसरे पक्ष के साथ काम करते हैं तो उन्हें अंदरूनी जानकारी का खुलासा करने की समस्या का सामना करना पड़ता है, जो कंपनी केवल अपने स्वयं के संसाधनों का उपयोग करके नहीं बता सकती थी। मेरी राय में, सबसे महत्वपूर्ण कदम बड़े डेटा के आधार पर प्रौद्योगिकियों के पूर्ण कार्यान्वयन के रास्ते पर है, ठीक विधायी पहलू होना चाहिए। अब पहले से ही कुछ प्रकार के व्यक्तिगत डेटा के संग्रह, उपयोग, भंडारण को प्रतिबंधित करने वाले कानून हैं, लेकिन वे बड़े डेटा को पूरी तरह से प्रतिबंधित नहीं करते हैं, इसलिए उनके लिए विशेष विधायी मानदंड होने चाहिए। तेजी से बदलते और नए कानूनों का पालन करने के लिए, कंपनियों को संबंधित नियामक कानूनी कृत्यों की एक प्रारंभिक सूची जारी करनी चाहिए और नियमित रूप से इस सूची को अपडेट करना चाहिए। फिर भी, उपरोक्त सभी कमियों के बावजूद, जैसा कि पश्चिमी प्रतिनिधियों के अनुभव, बिग डेटा से पता चलता है। प्रौद्योगिकियां आधुनिक व्यावसायिक कार्यों और बढ़ती प्रतिस्पर्धा, और लोगों के जीवन से सीधे जुड़े कार्यों को सफलतापूर्वक हल करने में मदद करती हैं। रूसी कंपनियां पहले से ही उत्पादन क्षेत्र में और सार्वजनिक क्षेत्र में बिग डेटा तकनीकों को पेश करने की राह पर हैं, क्योंकि हर साल सूचना की मात्रा लगभग दोगुनी हो जाती है। समय के साथ, बिग डेटा के प्रभाव में हमारे जीवन के कई क्षेत्र परिवर्तन से गुजरेंगे।

स्रोतों के सन्दर्भ I. उच्च उपलब्धता और बिग डेटा के सिस्टम // राष्ट्रीय अर्थव्यवस्था में बिग डेटा 2013। पी। 1619.2। कोरोटकोवा टी। "ईएमसी डेटा लेक 2.0 - बड़े डेटा और डिजिटल अर्थव्यवस्था के एनालिटिक्स के लिए संक्रमण का एक साधन" http: //। bigdata.cnews.ru/ news / line / 20151203_emc_data_lake_20_pomozhet_perejti_k_analitike। 3.Kiryanova ए। "बिग डेटा रूसी बैंकों में मुख्यधारा नहीं है" http://www.cnews.ru/news/top/bolshie_dannye_nevne.st.in डब्ल्यूटीओ / लेख / infografika_bolshie_dannye_prishli_v_rossiyu.5.CNews "इन्फोग्राफिक्स: रिटेल बड़े डेटा का उपयोग कैसे करता है" http://bigdata.cnews.ru/articles//ffografika_kak_roznitsa_ispolzuet विशेष डेटा दुनिया में मौजूद डेटा गायब होना चाहिए। स्रोत कंपनियों को यह सुनिश्चित करना चाहिए कि बिग डेटा सॉल्यूशंस के कार्यान्वयन द्वारा डेटा के संबंध में सभी सुरक्षा आवश्यकताओं की निगरानी और समर्थन किया जाता है पूर्व गोपनीय जानकारी के निर्माण या खोज के लिए नेतृत्व करें डेटा प्रबंधन डेटा सुरक्षा आवश्यकताओं को बनाए रखना कानूनी नियमों को फिर से पहचान 6.CNews "Infographics: BigData Technologies" http://bigdata.cnews.s.ru/articles/big_d__vizni_cheloveka। बैंकों। Http: /। । http://www.tadviser.ru/index.php/Article: Big_data_ (Big_Data) .10.BigData- XXI सदी की बिजली http://bit.samag.ru/archive/article/1463.11.McKinsey Global Institute " बिगडाटा: इनोवेशन के लिए अगला सीमांत, प्रतिस्पर्धात्मक उत्पादकता ”(जून 2011)।

बड़ा डेटा अपरंपरागत रणनीतियों और बड़े डेटासेट से जानकारी एकत्र करने, व्यवस्थित करने और हेरफेर करने के लिए आवश्यक तकनीकों के लिए एक व्यापक शब्द है। हालांकि किसी एकल कंप्यूटर की प्रसंस्करण शक्ति या भंडारण क्षमता से अधिक होने वाले डेटा से निपटने की समस्या नई नहीं है, लेकिन हाल के वर्षों में इस प्रकार के कंप्यूटिंग के पैमाने और मूल्य में काफी विस्तार हुआ है।

इस लेख में, आप उन मूल अवधारणाओं को जान पाएंगे जिनका आप बड़े डेटा की खोज करते समय सामना कर सकते हैं। यह इस क्षेत्र में वर्तमान में उपयोग की जाने वाली कुछ प्रक्रियाओं और प्रौद्योगिकियों पर भी चर्चा करता है।

बिग डेटा क्या है?

बिग डेटा की एक सटीक परिभाषा को स्पष्ट करना मुश्किल है क्योंकि प्रोजेक्ट, विक्रेता, चिकित्सक, और व्यावसायिक पेशेवर इसे बहुत अलग तरीकों से उपयोग करते हैं। इसे ध्यान में रखते हुए, बड़े डेटा को इस प्रकार परिभाषित किया जा सकता है:

बड़े डेटासेट।
कम्प्यूटेशनल रणनीतियों और प्रौद्योगिकियों की एक श्रेणी जो बड़े डेटासेट को संसाधित करने के लिए उपयोग की जाती है।

इस संदर्भ में, "बड़े डेटासेट" का मतलब एक ऐसा डेटासेट है, जो पारंपरिक टूल का उपयोग करके या एकल कंप्यूटर पर संसाधित या संग्रहीत करने के लिए बहुत बड़ा है। इसका अर्थ है कि बड़े डेटासेट का समग्र स्तर लगातार बदल रहा है और यह केस से केस में काफी भिन्न हो सकता है।

बिग डेटा सिस्टम

बड़े डेटा के साथ काम करने की बुनियादी आवश्यकताएं किसी भी अन्य डेटासेट के लिए समान हैं। हालांकि, प्रक्रिया के प्रत्येक चरण में मौजूद डेटा के बड़े पैमाने पर, प्रसंस्करण की गति, और विशेषताएं उपकरण डिजाइन में प्रमुख नई चुनौतियां पेश करती हैं। अधिकांश बड़े डेटा सिस्टम का लक्ष्य विषम डेटा की बड़ी मात्रा के साथ समझना और संवाद करना है, जो पारंपरिक तरीकों से संभव नहीं होगा।

2001 में, गार्टनर के डौग लैंई ने "थ्री Vs Vs ऑफ़ बिग डेटा" में कुछ ऐसी विशेषताओं का वर्णन किया, जो बिग डेटा प्रोसेसिंग को अन्य प्रकार के डेटा प्रोसेसिंग से अलग करती हैं:

वॉल्यूम (डेटा वॉल्यूम)।
वेग (डेटा संचय और प्रसंस्करण की गति)।
विविधता (प्रसंस्कृत डेटा के प्रकार)।

डेटा की मात्रा

संसाधित की गई जानकारी का सरासर पैमाना बड़े डेटा सिस्टम को परिभाषित करने में मदद करता है। ये डेटासेट पारंपरिक डेटासेट से बड़े परिमाण के आदेश हो सकते हैं, जिन्हें प्रसंस्करण और भंडारण के प्रत्येक चरण में अधिक ध्यान देने की आवश्यकता होती है।

क्योंकि आवश्यकताएँ एकल कंप्यूटर की क्षमताओं से अधिक होती हैं, इसलिए कंप्यूटर समूहों से संसाधनों को जोड़ना, वितरित करना और समन्वय करना अक्सर मुश्किल होता है। क्लस्टर नियंत्रण और एल्गोरिदम छोटे टुकड़ों में कार्यों को तोड़ने में सक्षम हैं, इस क्षेत्र में तेजी से महत्वपूर्ण होते जा रहे हैं।

संचय और प्रसंस्करण की गति

दूसरी विशेषता जो अन्य डेटा सिस्टमों से बड़े डेटा को अलग करती है वह वह गति है जिस पर सिस्टम द्वारा जानकारी चलती है। डेटा अक्सर कई स्रोतों से सिस्टम में आता है और सिस्टम की वर्तमान स्थिति को अपडेट करने के लिए वास्तविक समय में संसाधित किया जाना चाहिए।

त्वरित प्रतिक्रिया के इस जोर ने कई चिकित्सकों को वास्तविक समय की स्ट्रीमिंग प्रणाली के लिए बैच-उन्मुख दृष्टिकोण से दूर जाने के लिए प्रेरित किया है। नई जानकारी के प्रवाह के साथ तालमेल रखने और प्रारंभिक अवस्था में मूल्यवान डेटा प्राप्त करने के लिए डेटा को लगातार जोड़ा, संसाधित और विश्लेषित किया जाता है, जब यह सबसे अधिक प्रासंगिक होता है। डेटा पाइपलाइन के साथ विफलताओं से बचाने के लिए अत्यधिक उपलब्ध घटकों के साथ विश्वसनीय सिस्टम की आवश्यकता होती है।

संसाधित डेटा के प्रकार की विविधता

बिग डेटा में कई अद्वितीय चुनौतियां हैं जो संसाधित स्रोतों की विस्तृत श्रृंखला और उनके सापेक्ष गुणवत्ता से जुड़ी हैं।

डेटा आंतरिक सिस्टम जैसे एप्लिकेशन और सर्वर लॉग, सोशल मीडिया फीड और अन्य बाहरी एपीआई, भौतिक डिवाइस सेंसर, और अन्य स्रोतों से आ सकता है। बड़ी डेटा प्रणालियों का लक्ष्य संभावित उपयोगी डेटा को संसाधित करना है, मूल की परवाह किए बिना, सभी सूचनाओं को एक सिस्टम में जोड़कर।

मीडिया प्रारूप और प्रकार भी काफी भिन्न हो सकते हैं। मीडिया फ़ाइलें (चित्र, वीडियो और ऑडियो) पाठ फ़ाइलों, संरचित लॉग और इसी के साथ संयुक्त हैं। अधिक पारंपरिक डेटा प्रोसेसिंग सिस्टम डेटा को पहले से टैग किए गए, स्वरूपित और संगठित पाइपलाइन में प्रवेश करने की उम्मीद करते हैं, लेकिन बड़े डेटा सिस्टम आमतौर पर स्वीकार करते हैं और संग्रहीत करते हैं। कोशिश करके डेटा उनकी मूल स्थिति को बनाए रखता है। आदर्श रूप से, कच्चे डेटा में कोई भी परिवर्तन या परिवर्तन प्रसंस्करण के दौरान मेमोरी में होगा।

अन्य विशेषताएँ

समय के साथ, विशेषज्ञों और संगठनों ने मूल थ्री वी का विस्तार करने का प्रस्ताव दिया है, हालांकि ये नवाचार बड़े डेटा की विशेषताओं के बजाय समस्याओं का वर्णन करते हैं।

सत्यापन: विभिन्न स्रोतों और प्रसंस्करण की जटिलता डेटा की गुणवत्ता (और इसलिए परिणामी विश्लेषण की गुणवत्ता) का आकलन करने में समस्याओं का कारण बन सकती है।
भिन्नता: डेटा में परिवर्तन से गुणवत्ता में व्यापक परिवर्तन होते हैं। कम गुणवत्ता वाले डेटा की पहचान, प्रसंस्करण या फ़िल्टरिंग के लिए अतिरिक्त संसाधनों की आवश्यकता हो सकती है जो डेटा की गुणवत्ता में सुधार कर सकते हैं।
मूल्य: बड़े डेटा का अंतिम लक्ष्य मूल्य है। कभी-कभी सिस्टम और प्रक्रियाएं बहुत जटिल होती हैं, जिससे डेटा का उपयोग करना और वास्तविक मूल्यों को निकालना मुश्किल हो जाता है।

बड़ा डेटा जीवन चक्र

तो बड़ा डेटा वास्तव में कैसे संसाधित किया जाता है? कार्यान्वयन के लिए कई अलग-अलग दृष्टिकोण हैं, लेकिन रणनीतियों और सॉफ़्टवेयर में समानताएं हैं।

सिस्टम में डेटा दर्ज करना
डेटा को स्टोरेज में सेव करना
गणना और डेटा का विश्लेषण
परिणाम दृश्य

इससे पहले कि हम वर्कफ़्लो की इन चार श्रेणियों में गोता लगाएँ, चलो क्लस्टर कंप्यूटिंग के बारे में बात करते हैं, कई बड़े डेटा टूल द्वारा उपयोग की जाने वाली एक महत्वपूर्ण रणनीति। एक कम्प्यूट क्लस्टर स्थापित करना जीवन चक्र के प्रत्येक चरण में उपयोग की जाने वाली तकनीक का मूल है।

क्लस्टर कंप्यूटिंग

बड़े डेटा की गुणवत्ता के कारण, व्यक्तिगत कंप्यूटर डेटा को संसाधित करने के लिए उपयुक्त नहीं हैं। क्लस्टर इसके लिए अधिक उपयुक्त हैं, क्योंकि वे बड़े डेटा के भंडारण और कम्प्यूटेशनल जरूरतों का सामना कर सकते हैं।

बड़ा डेटा क्लस्टरिंग सॉफ़्टवेयर कई छोटी मशीनों के संसाधनों को एकत्रित करता है, जो कई लाभ प्रदान करने का लक्ष्य रखता है:

पूलिंग संसाधन: बड़े डेटासेट को संसाधित करने के लिए बड़ी मात्रा में प्रोसेसर और मेमोरी संसाधनों की आवश्यकता होती है, साथ ही बहुत सारे स्टोरेज स्पेस की भी आवश्यकता होती है।
उच्च उपलब्धता: क्लस्टर गलती सहिष्णुता और उपलब्धता के अलग-अलग स्तर प्रदान कर सकते हैं ताकि हार्डवेयर या सॉफ़्टवेयर विफलताओं को डेटा पहुंच और प्रसंस्करण को प्रभावित न करें। यह रियल-टाइम एनालिटिक्स के लिए विशेष रूप से महत्वपूर्ण है।
स्केलेबिलिटी: क्लस्टर फास्ट स्केल आउट (क्लस्टर में नई मशीनों को जोड़ने) का समर्थन करते हैं।

क्लस्टर में कार्य करने के लिए क्लस्टर सदस्यता के प्रबंधन, संसाधन आवंटन के समन्वय और व्यक्तिगत नोड्स के साथ शेड्यूलिंग कार्य के लिए टूल की आवश्यकता होती है। क्लस्टर सदस्यता और संसाधन आवंटन Hadoop YARN (फिर भी एक अन्य संसाधन वार्ताकार) या Api Mesos जैसे कार्यक्रमों का उपयोग करके नियंत्रित किया जा सकता है।

एक पूर्वनिर्मित कंप्यूटिंग क्लस्टर अक्सर रीढ़ की हड्डी के रूप में कार्य करता है जिसके साथ अन्य सॉफ्टवेयर डेटा को संसाधित करने के लिए बातचीत करता है। कंप्यूट क्लस्टर में भाग लेने वाली मशीनें भी आम तौर पर वितरित भंडारण प्रणाली के प्रबंधन से जुड़ी होती हैं।

डेटा मिल रहा है

डेटा प्राप्त करना सिस्टम में कच्चे डेटा को जोड़ने की प्रक्रिया है। इस ऑपरेशन की जटिलता काफी हद तक डेटा स्रोतों के प्रारूप और गुणवत्ता पर निर्भर करती है और डेटा प्रसंस्करण के लिए आवश्यकताओं को कितनी अच्छी तरह से पूरा करता है।

आप विशेष टूल का उपयोग करके सिस्टम में बड़ा डेटा जोड़ सकते हैं। Apache Sqoop जैसी प्रौद्योगिकियाँ रिलेशनल डेटाबेस से मौजूदा डेटा ले सकती हैं और इसे एक बड़े डेटा सिस्टम में जोड़ सकती हैं। आप अपाचे फ्लूम और अपाचे चुक्वा का उपयोग भी कर सकते हैं - अनुप्रयोग और सर्वर लॉग को एकत्र करने और आयात करने के लिए परियोजनाएं। अपाचे काफ्का जैसे संदेश दलाल विभिन्न डेटा जनरेटर और एक बड़े डेटा सिस्टम के बीच एक इंटरफेस के रूप में उपयोग किया जा सकता है। गोब्लिन जैसे फ्रेमवर्क पाइपलाइन के अंत में सभी उपकरणों के आउटपुट को जोड़ और अनुकूलित कर सकते हैं।

विश्लेषण, छंटाई और लेबलिंग आमतौर पर डेटा संग्रह के दौरान किया जाता है। इस प्रक्रिया को कभी-कभी ईटीएल (अर्क, ट्रांसफॉर्म, लोड) कहा जाता है, जिसका अर्थ है निष्कर्षण, परिवर्तन और लोडिंग। जबकि यह शब्द आमतौर पर विरासत भंडारण प्रक्रियाओं को संदर्भित करता है, यह कभी-कभी बड़े डेटा सिस्टम पर भी लागू होता है। विशिष्ट संचालन में अनुपालन के लिए प्रारूपण, श्रेणीकरण और लेबलिंग, फ़िल्टरिंग या मान्य डेटा के लिए आने वाले डेटा को संशोधित करना शामिल है।

आदर्श रूप से, आने वाला डेटा न्यूनतम प्रारूपण के माध्यम से जाता है।

आधार सामग्री भंडारण

एक बार प्राप्त होने के बाद, डेटा स्टोर करने वाले घटकों को दिया जाता है।

कच्चे डेटा को स्टोर करने के लिए आमतौर पर वितरित फ़ाइल सिस्टम का उपयोग किया जाता है। Apache Hadoop से HDFS जैसे समाधान एक क्लस्टर में कई नोड्स में बड़ी मात्रा में डेटा को लिखने की अनुमति देते हैं। यह प्रणाली डेटा तक पहुंच के साथ कम्प्यूटेशनल संसाधन प्रदान करती है, मेमोरी संचालन के लिए क्लस्टर रैम में डेटा लोड कर सकती है, और घटक विफलताओं को संभाल सकती है। अन्य वितरित फ़ाइल सिस्टम का उपयोग HDFS के स्थान पर किया जा सकता है, जिसमें सेफ और ग्लस्टरएफएस शामिल हैं।

अधिक संरचित पहुंच के लिए डेटा को अन्य वितरित प्रणालियों में भी आयात किया जा सकता है। वितरित डेटाबेस, विशेष रूप से NoSQL डेटाबेस, इस भूमिका के लिए अच्छी तरह से अनुकूल हैं क्योंकि वे विषम डेटा को संभाल सकते हैं। कई अलग-अलग प्रकार के वितरित डेटाबेस हैं, चुनाव इस बात पर निर्भर करता है कि आप अपने डेटा को कैसे व्यवस्थित और प्रस्तुत करना चाहते हैं।

गणना और डेटा का विश्लेषण

डेटा उपलब्ध होने के बाद, सिस्टम प्रोसेसिंग शुरू कर सकता है। कम्प्यूटेशनल परत शायद सिस्टम का सबसे स्वतंत्र हिस्सा है, क्योंकि यहां की आवश्यकताओं और दृष्टिकोण जानकारी के प्रकार के आधार पर काफी भिन्न हो सकते हैं। डेटा को अक्सर एक ही उपकरण के साथ, या विभिन्न प्रकार के डेटा को संसाधित करने के लिए कई प्रकार के उपकरणों के साथ पुनर्प्रकाशित किया जाता है।

बड़े डेटा सेट की गणना के लिए बैच प्रोसेसिंग एक तरीका है। इस प्रक्रिया में डेटा को छोटे टुकड़ों में तोड़ना, एक अलग मशीन पर प्रत्येक टुकड़े के प्रसंस्करण का समय निर्धारण करना, मध्यवर्ती परिणामों के आधार पर डेटा को फिर से व्यवस्थित करना और फिर अंतिम परिणाम की गणना और संग्रह करना शामिल है। इस रणनीति का उपयोग Apache Hadoop के MapReduce द्वारा किया जाता है। बहुत बड़े डेटासेट के साथ काम करते समय बैच प्रसंस्करण सबसे उपयोगी होता है जिसमें बहुत अधिक गणना की आवश्यकता होती है।

अन्य वर्कलोड को वास्तविक समय प्रसंस्करण की आवश्यकता होती है। उसी समय, सूचना को तुरंत संसाधित और तैयार किया जाना चाहिए, और नई जानकारी उपलब्ध होते ही सिस्टम को समय पर जवाब देना चाहिए। वास्तविक समय प्रसंस्करण को लागू करने का एक तरीका असतत तत्वों से डेटा की एक सतत स्ट्रीम को संसाधित करना है। वास्तविक समय के प्रोसेसर की एक और सामान्य विशेषता क्लस्टर मेमोरी में डेटा की गणना है, जो डिस्क पर लिखने की आवश्यकता से बचती है।

अपाचे स्टॉर्म, अपाचे फ्लिंक और अपाचे स्पार्क वास्तविक समय प्रसंस्करण को लागू करने के लिए अलग-अलग तरीके प्रदान करते हैं। ये लचीली प्रौद्योगिकियां आपको प्रत्येक विशिष्ट समस्या के लिए सबसे अच्छा तरीका चुनने की अनुमति देती हैं। सामान्य तौर पर, वास्तविक समय प्रसंस्करण डेटा के छोटे टुकड़ों के विश्लेषण के लिए सबसे उपयुक्त है जो सिस्टम में बदलते हैं या जल्दी से जुड़ जाते हैं।

ये सभी कार्यक्रम चौखटे हैं। हालांकि, एक बड़ी डेटा प्रणाली में डेटा की गणना या विश्लेषण करने के कई अन्य तरीके हैं। ये उपकरण अक्सर उपरोक्त रूपरेखाओं में प्लग करते हैं और अंतर्निहित परतों के साथ बातचीत के लिए अतिरिक्त इंटरफेस प्रदान करते हैं। उदाहरण के लिए, Apache Hive Hadoop के लिए डेटा वेयरहाउस इंटरफ़ेस प्रदान करता है, Apache Pig एक क्वेरी इंटरफ़ेस प्रदान करता है, और Apache ड्रिल, Apache Impala, Apache Spark SQL और Presto का उपयोग करके SQL डेटा इंटरैक्शन प्रदान किए जाते हैं। मशीन लर्निंग में अपाचे सिस्टमएमएल, अपाचे महोट, और अपाले स्पार्क से एमएललिब का उपयोग किया जाता है। प्रत्यक्ष विश्लेषणात्मक प्रोग्रामिंग के लिए, जो डेटा पारिस्थितिकी तंत्र द्वारा व्यापक रूप से समर्थित है, आर और पायथन का उपयोग किया जाता है।

परिणाम दृश्य

समय के साथ आंकड़ों में रुझानों या परिवर्तनों को पहचानना अक्सर प्राप्त मूल्यों की तुलना में अधिक महत्वपूर्ण है। डेटा विज़ुअलाइज़ेशन रुझानों की पहचान करने और बड़ी संख्या में डेटा बिंदुओं को व्यवस्थित करने के सबसे उपयोगी तरीकों में से एक है।

वास्तविक समय प्रसंस्करण का उपयोग अनुप्रयोग और सर्वर मैट्रिक्स की कल्पना करने के लिए किया जाता है। डेटा अक्सर बदलता रहता है, और मैट्रिक्स में बड़े प्रसार आमतौर पर सिस्टम या संगठनों के स्वास्थ्य पर महत्वपूर्ण प्रभाव दिखाते हैं। प्रोमेथियस जैसी परियोजनाओं का उपयोग डेटा धाराओं और समय श्रृंखला की प्रक्रिया और कल्पना करने के लिए किया जा सकता है।

डेटा की कल्पना करने के लोकप्रिय तरीकों में से एक इलास्टिक स्टैक है, जिसे पहले ELK स्टैक के रूप में जाना जाता था। लॉगस्टैश का उपयोग डेटा एकत्र करने के लिए किया जाता है, डेटा को अनुक्रमित करने के लिए इलास्टिसर्च और विज़ुअलाइज़िंग के लिए किबाना। इलास्टिक स्टैक बड़े डेटा के साथ काम कर सकता है, गणना के परिणामों की कल्पना कर सकता है या कच्चे मैट्रिक्स के साथ बातचीत कर सकता है। एक समान स्टैक को अपाना सोलर के संयोजन के लिए प्राप्त किया जा सकता है, जिसे किबाना के एक कांटा के साथ अनुक्रमण के लिए केले कहा जाता है। इस ढेर को सिल्क कहा जाता है।

इंटरैक्टिव डेटा काम के लिए एक और विज़ुअलाइज़ेशन तकनीक दस्तावेज़ है। ऐसी परियोजनाएं एक प्रारूप में इंटरैक्टिव अन्वेषण और डेटा विज़ुअलाइज़ेशन की अनुमति देती हैं जो डेटा साझा करना और प्रस्तुत करना आसान है। जुपिटर नोटबुक और अपाचे ज़ेपेलिन इस प्रकार के इंटरफ़ेस के लोकप्रिय उदाहरण हैं।

बिग डेटा की शब्दावली

बिग डेटा डेटासेट के लिए एक व्यापक शब्द है जिसे पारंपरिक कंप्यूटर या टूल द्वारा उनके आकार, आगमन की गति और विविधता के कारण सही ढंग से संसाधित नहीं किया जा सकता है। इस शब्द को आमतौर पर ऐसे डेटा के साथ काम करने के लिए प्रौद्योगिकियों और रणनीतियों पर भी लागू किया जाता है।
बैच प्रसंस्करण एक कम्प्यूटेशनल रणनीति है जिसमें बड़े डेटासेट में डेटा प्रसंस्करण शामिल है। आमतौर पर यह विधि गैर-जरूरी डेटा से निपटने के लिए आदर्श है।
क्लस्टरिंग कंप्यूटिंग कई मशीनों के संसाधनों को पूल करने और कार्यों को पूरा करने के लिए उनकी साझा क्षमताओं को प्रबंधित करने का अभ्यास है। इसके लिए एक क्लस्टर प्रबंधन परत की आवश्यकता होती है जो व्यक्तिगत नोड्स के बीच संचार को संभालती है।
एक डेटा झील अपेक्षाकृत कच्चे राज्य में एकत्र आंकड़ों का एक बड़ा भंडार है। इस शब्द का उपयोग अक्सर असंरचित और अक्सर बड़े डेटा को बदलने के लिए किया जाता है।
बड़े डेटासेट में पैटर्न खोजने के लिए विभिन्न प्रथाओं को संदर्भित करने के लिए डेटा खनन एक व्यापक शब्द है। यह डेटा के एक बड़े पैमाने पर व्यवस्थित करने और सूचना के सुसंगत सेट को व्यवस्थित करने का एक प्रयास है।
एक डेटा वेयरहाउस विश्लेषण और रिपोर्टिंग के लिए एक बड़ा, ऑर्डर किया गया स्टोरेज है। डेटा लेक के विपरीत, एक वेयरहाउस में स्वरूपित और सुव्यवस्थित डेटा होते हैं जो अन्य स्रोतों के साथ एकीकृत होते हैं। डेटा वेयरहाउस को अक्सर बड़े डेटा के संबंध में संदर्भित किया जाता है, लेकिन वे अक्सर पारंपरिक डेटा प्रोसेसिंग सिस्टम के घटक होते हैं।
ETL (एक्सट्रैक्ट, ट्रांसफॉर्मेशन, और लोड) - डेटा का निष्कर्षण, रूपांतरण और लोडिंग। यह है कि उपयोग के लिए कच्चे डेटा को प्राप्त करने और तैयार करने की प्रक्रिया कैसी दिखती है। यह डेटा वेयरहाउस से संबंधित है, लेकिन इस प्रक्रिया की विशेषताएं बड़े डेटा सिस्टम की पाइपलाइनों में भी पाई जाती हैं।
Hadoop बड़े डेटा के लिए एक ओपन सोर्स Apache प्रोजेक्ट है। इसमें एक वितरित फ़ाइल सिस्टम शामिल है जिसे HDFS और YARN नामक क्लस्टर और संसाधन शेड्यूलर कहा जाता है। बैच प्रसंस्करण क्षमता MapReduce कम्प्यूटेशन इंजन द्वारा प्रदान की जाती हैं। अन्य कंप्यूट और एनालिटिक्स सिस्टम आधुनिक हडॉप की तैनाती में MapReduce के साथ चल सकते हैं।
इन-मेमोरी कम्प्यूटेशन एक रणनीति है जिसमें सभी कार्यशील डेटासेट्स को क्लस्टर मेमोरी में ले जाना शामिल है। इंटरमीडिएट की गणना डिस्क में नहीं लिखी जाती है, वे इसके बजाय मेमोरी में संग्रहीत की जाती हैं। यह सिस्टम को I / O-related सिस्टम पर एक बड़ी गति का लाभ देता है।
मशीन लर्निंग, डिजाइनिंग सिस्टम का अनुसंधान और अभ्यास है जो इसे पारित किए गए डेटा के आधार पर सीख, ट्विक और सुधार कर सकता है। इसका मतलब आमतौर पर भविष्य कहनेवाला और सांख्यिकीय एल्गोरिदम का कार्यान्वयन है।
मानचित्र कम करना (Hadoop के MapReduce के साथ भ्रमित नहीं होना) एक कम्प्यूट क्लस्टर का निर्धारण करने के लिए एक एल्गोरिथ्म है। इस प्रक्रिया में नोड्स के बीच कार्य को विभाजित करना और मध्यवर्ती परिणाम प्राप्त करना, फेरबदल करना और फिर प्रत्येक सेट के लिए एक ही मूल्य आउटपुट करना शामिल है।
NoSQL पारंपरिक संबंध मॉडल के बाहर विकसित डेटाबेस के लिए एक व्यापक शब्द है। NoSQL डेटाबेस अपने लचीलेपन और वितरित वास्तुकला के कारण बड़े डेटा के लिए अच्छी तरह से अनुकूल हैं।
स्ट्रीमिंग व्यक्तिगत डेटा आइटम की गणना करने का अभ्यास है क्योंकि वे सिस्टम के माध्यम से चलते हैं। यह वास्तविक समय के डेटा विश्लेषण को सक्षम करता है और उच्च गति वाले मैट्रिक्स का उपयोग करके तत्काल लेनदेन से निपटने के लिए उपयुक्त है।

टैग:

अनुसंधान और प्रवृत्तियों से सामग्री के आधार पर

बिग डेटा, "बिग डेटा" आईटी और मार्केटिंग प्रेस में कई वर्षों से शहर की बात बन गया है। और यह समझ में आता है: डिजिटल प्रौद्योगिकियों ने एक आधुनिक व्यक्ति के जीवन को अनुमति दी है, "सब कुछ लिखा है"। जीवन के विभिन्न पहलुओं पर डेटा की मात्रा बढ़ रही है, और एक ही समय में, जानकारी संग्रहीत करने की संभावनाएं बढ़ रही हैं।

जानकारी संग्रहीत करने के लिए वैश्विक प्रौद्योगिकियां

स्रोत: हिल्बर्ट और लोपेज़, `विश्व की तकनीकी क्षमता स्टोर करने, संचार करने और जानकारी की गणना करने के लिए,` विज्ञान, 2011 ग्लोबल।

अधिकांश विशेषज्ञ इस बात से सहमत हैं कि डेटा वृद्धि का त्वरण एक वस्तुगत वास्तविकता है। सोशल नेटवर्क, मोबाइल उपकरणों, उपकरणों को मापने से डेटा, व्यवसाय की जानकारी - ये केवल कुछ प्रकार के स्रोत हैं जो बड़ी मात्रा में जानकारी उत्पन्न कर सकते हैं। शोध के अनुसार आईडीसीडिजिटल ब्रह्मांड 2012 में प्रकाशित, अगले 8 वर्षों में दुनिया में डेटा की मात्रा 40 Zb (zettabytes) तक पहुंच जाएगी, जो ग्रह के हर निवासी के लिए 5200 जीबी के बराबर है।

संयुक्त राज्य अमेरिका में एकत्रित डिजिटल सूचना का विकास

स्रोत: आईडीसी

अधिकांश जानकारी लोगों द्वारा नहीं, बल्कि उन रोबोटों द्वारा बनाई जाती है जो एक-दूसरे के साथ और अन्य डेटा नेटवर्क के साथ बातचीत करते हैं, जैसे कि, उदाहरण के लिए, सेंसर और स्मार्ट डिवाइस। इस तरह की विकास दर के साथ, शोधकर्ताओं के पूर्वानुमानों के अनुसार, दुनिया में डेटा की मात्रा सालाना दोगुनी हो जाएगी। नए डेटा केंद्रों के विस्तार और निर्माण के कारण दुनिया में आभासी और भौतिक सर्वरों की संख्या दस गुना बढ़ जाएगी। इस संबंध में, इस डेटा के प्रभावी उपयोग और मुद्रीकरण की बढ़ती आवश्यकता है। चूंकि व्यवसाय में बिग डेटा के उपयोग के लिए बहुत अधिक निवेश की आवश्यकता होती है, आपको स्थिति को स्पष्ट रूप से समझने की आवश्यकता है। और यह, संक्षेप में, सरल है: आप लागत कम करने और / और बिक्री में वृद्धि करके अपने व्यवसाय की दक्षता बढ़ा सकते हैं।

बिग डेटा किसके लिए है?

बिग डेटा प्रतिमान तीन मुख्य प्रकार के कार्यों को परिभाषित करता है।

भंडारण और डेटा के सैकड़ों टेराबाइट्स या पेटाबाइट्स का प्रबंधन करना, जो पारंपरिक संबंधपरक डेटाबेस कुशलता से उपयोग नहीं कर सकते हैं।
पाठ, चित्र, वीडियो और अन्य प्रकार के डेटा से मिलकर असंरचित जानकारी का संगठन।
बिग डेटा विश्लेषण, जो कि असंवैधानिक जानकारी, विश्लेषणात्मक रिपोर्ट की पीढ़ी के साथ-साथ भविष्य कहनेवाला मॉडल के कार्यान्वयन के साथ काम करने का सवाल उठाता है।

बिग डेटा परियोजनाओं के लिए बाजार व्यापार खुफिया (बीए) बाजार के साथ ओवरलैप होता है, दुनिया में इसकी मात्रा, विशेषज्ञों के अनुसार, 2012 में लगभग 100 अरब डॉलर थी। इसमें नेटवर्किंग प्रौद्योगिकी, सर्वर, सॉफ्टवेयर और तकनीकी सेवाओं के घटक शामिल हैं।

साथ ही, बिग डेटा प्रौद्योगिकियों का उपयोग आय गारंटी (आरए) वर्ग के समाधान के लिए प्रासंगिक है, जो कंपनियों की गतिविधियों को स्वचालित करने के लिए डिज़ाइन किया गया है। आधुनिक प्रणाली आय गारंटी में डेटा की विसंगतियों और गहराई से विश्लेषण का पता लगाने के लिए उपकरण शामिल हैं, जिससे संभावित नुकसान का समय पर पता लगाने या जानकारी के विरूपण से वित्तीय परिणामों में कमी हो सकती है। इस पृष्ठभूमि के खिलाफ, रूसी कंपनियों, घरेलू बाजार में बिग डेटा तकनीकों की मांग की पुष्टि करते हुए, ध्यान दें कि रूस में बिग डेटा के विकास को प्रोत्साहित करने वाले कारक डेटा की वृद्धि, प्रबंधकीय निर्णय लेने की गति और उनकी गुणवत्ता में सुधार कर रहे हैं।

बिग डेटा के साथ काम करने से क्या रोकता है

आज, केवल 0.5% संचित डिजिटल डेटा का विश्लेषण किया जाता है, इस तथ्य के बावजूद कि उद्देश्यपूर्ण उद्योग-व्यापी कार्य हैं जिन्हें बिग डेटा वर्ग के विश्लेषणात्मक समाधानों का उपयोग करके हल किया जा सकता है। विकसित आईटी बाजारों में पहले से ही परिणाम हैं जिनका उपयोग बड़े डेटा के संचय और प्रसंस्करण से जुड़ी उम्मीदों का आकलन करने के लिए किया जा सकता है।

उच्च लागत के अलावा, बिग डेटा परियोजनाओं के कार्यान्वयन में बाधा डालने वाले मुख्य कारकों में से एक माना जाता है संसाधित किए जाने वाले डेटा को चुनने की समस्या: अर्थात्, यह निर्धारित करना कि कौन से डेटा को पुनर्प्राप्त, संग्रहीत और विश्लेषण किया जाना चाहिए, और जिसे ध्यान में नहीं रखा जाना चाहिए।

कई व्यवसाय प्रतिनिधि ध्यान देते हैं कि बिग डेटा प्रोजेक्ट को लागू करने में कठिनाइयाँ विशेषज्ञ - बाज़ारिया और विश्लेषकों की कमी से जुड़ी हैं। बिग डेटा में निवेश पर वापसी की दर सीधे गहरी और भविष्य कहनेवाला विश्लेषिकी में लगे कर्मचारियों के काम की गुणवत्ता पर निर्भर करती है। एक संगठन में पहले से मौजूद डेटा की जबरदस्त क्षमता अक्सर पुरानी व्यावसायिक प्रक्रियाओं या आंतरिक नियमों के कारण बाज़ारियों द्वारा प्रभावी रूप से उपयोग नहीं की जा सकती है। इसलिए, बिग डेटा परियोजनाओं को अक्सर व्यवसायों द्वारा न केवल कार्यान्वयन में मुश्किल माना जाता है, बल्कि परिणामों का आकलन करने में भी: एकत्रित डेटा का मूल्य। डेटा के साथ काम करने की बारीकियों के लिए विपणक और विश्लेषकों को प्रौद्योगिकी से अपना ध्यान हटाने और विशिष्ट व्यावसायिक समस्याओं को हल करने के लिए रिपोर्ट बनाने की आवश्यकता होती है।

डेटा प्रवाह की बड़ी मात्रा और उच्च गति के कारण, डेटा संग्रह की प्रक्रिया में वास्तविक समय में ईटीएल प्रक्रियाएं शामिल हैं। सन्दर्भ के लिए:ईटीएल - सेअंग्रेज़ीअर्क, रूपांतरण, भार - सचमुच "निष्कर्षण, परिवर्तन, लोडिंग") - प्रबंधन में मुख्य प्रक्रियाओं में से एक डेटा वेयरहाउस, जिसमें शामिल हैं: बाहरी स्रोतों से डेटा निकालना, उन्हें बदलना और फिट रहने के लिए सफाई ईटीएल को न केवल एक आवेदन से दूसरे में डेटा स्थानांतरित करने की प्रक्रिया के रूप में देखा जाना चाहिए, बल्कि विश्लेषण के लिए डेटा तैयार करने के लिए एक उपकरण के रूप में भी देखा जाना चाहिए।

और फिर बाहरी स्रोतों से आने वाले डेटा की सुरक्षा सुनिश्चित करने के मुद्दों को एकत्र की गई जानकारी के अनुरूप समाधान होना चाहिए। चूंकि बिग डेटा विश्लेषण विधियाँ अभी तक केवल डेटा वॉल्यूम के विकास के बाद ही विकसित हो रही हैं, डेटा प्लेटफ़ॉर्म और एकत्रीकरण के नए तरीकों का उपयोग करने के लिए विश्लेषणात्मक प्लेटफार्मों की संपत्ति द्वारा एक महत्वपूर्ण भूमिका निभाई जाती है। यह बताता है कि, उदाहरण के लिए, संभावित ग्राहकों के बारे में डेटा या ऑनलाइन स्टोर साइटों पर क्लिक के इतिहास के साथ बड़े पैमाने पर डेटा स्टोर विभिन्न समस्याओं को हल करने के लिए दिलचस्प हो सकता है।

मुश्किलें थमी नहीं

बिग डेटा के कार्यान्वयन के साथ सभी कठिनाइयों के बावजूद, व्यवसाय इस क्षेत्र में निवेश बढ़ाने का इरादा रखता है। गार्टनर के आंकड़ों के अनुसार, 2013 में दुनिया की 64% सबसे बड़ी कंपनियों ने पहले ही निवेश किया है, या उनके व्यवसाय के लिए बिग डेटा के क्षेत्र में प्रौद्योगिकियों की तैनाती में निवेश करने की योजना है, जबकि 2012 में 58% थे। गार्टनर के शोध के अनुसार, बिग डेटा में निवेश करने वाले उद्योगों के नेता मीडिया कंपनियां, दूरसंचार, बैंकिंग और सेवा कंपनियां हैं। आरएफआईडी उपकरण, लॉजिस्टिक्स और प्रतिकृति सिस्टम (अंग्रेजी से) का उपयोग करके प्राप्त डेटा का उपयोग करने के मामले में बिग डेटा कार्यान्वयन के सफल परिणाम पहले से ही खुदरा क्षेत्र के कई बड़े खिलाड़ियों द्वारा प्राप्त किए गए हैं। पुनःपूर्ति - संचय, पुनःपूर्ति - आर एंड टी), साथ ही निष्ठा कार्यक्रमों से। सफल खुदरा अनुभव बाजार में अन्य उद्योगों को प्रोत्साहित करते हैं ताकि व्यापार के विकास के लिए एक संसाधन में अपने विश्लेषण को चालू करने के लिए बड़े डेटा को मुद्रीकृत करने के नए और प्रभावी तरीके मिल सकें। इसके लिए धन्यवाद, विशेषज्ञों के अनुसार, 2020 तक की अवधि में, प्रबंधन में निवेश, भंडारण प्रति गीगाबाइट घटकर $ 2 से $ 0.2 हो जाएगा, लेकिन बिग डेटा के तकनीकी गुणों का अध्ययन और विश्लेषण केवल 40 से बढ़ेगा %।

बिग डेटा के क्षेत्र में विभिन्न निवेश परियोजनाओं में प्रस्तुत लागत एक अलग प्रकृति की हैं। लागत आइटम उन उत्पादों के प्रकारों पर निर्भर करते हैं जिन्हें चुना जाता है कुछ निर्णय... विशेषज्ञों के अनुसार, निवेश परियोजनाओं में लागत का सबसे बड़ा हिस्सा सूचना एकत्र करने, संरचित डेटा, सफाई और प्रबंधन से संबंधित उत्पादों पर पड़ता है।

यह कैसे किया है

सॉफ्टवेयर और हार्डवेयर के कई संयोजन हैं जो आपको विभिन्न व्यावसायिक विषयों के लिए प्रभावी बिग डेटा समाधान बनाने की अनुमति देते हैं: सोशल मीडिया और मोबाइल एप्लिकेशन से लेकर व्यवसाय डेटा खनन और विज़ुअलाइज़ेशन तक। बिग डेटा का एक महत्वपूर्ण लाभ व्यापार में व्यापक रूप से उपयोग किए जाने वाले डेटाबेस के साथ नए उपकरणों की अनुकूलता है, जो विशेष रूप से महत्वपूर्ण है जब क्रॉस-अनुशासनात्मक परियोजनाओं के साथ काम करते हैं, जैसे कि मल्टी-चैनल बिक्री और ग्राहक सहायता का आयोजन।

बिग डेटा के साथ काम करने के अनुक्रम में डेटा एकत्र करना, रिपोर्ट और डैशबोर्ड का उपयोग करके प्राप्त जानकारी को संरचित करना, अंतर्दृष्टि और संदर्भ बनाना और कार्रवाई के लिए सिफारिशें तैयार करना शामिल है। चूंकि बिग डेटा के साथ काम करने से डेटा एकत्र करने के लिए उच्च लागतों का पता चलता है, जिसके परिणाम पहले से ज्ञात नहीं हैं, मुख्य कार्य यह स्पष्ट रूप से समझना है कि डेटा क्या है, और यह उपलब्ध नहीं है। इस मामले में, डेटा का संग्रह जानकारी प्राप्त करने की प्रक्रिया में बदल जाता है जो विशिष्ट समस्याओं को हल करने के लिए बेहद आवश्यक है।

उदाहरण के लिए, दूरसंचार प्रदाता जियोलोकेशन डेटा सहित भारी मात्रा में डेटा एकत्र करते हैं, जो लगातार अपडेट किया जाता है। यह जानकारी विज्ञापन एजेंसियों के लिए व्यावसायिक हित की हो सकती है जो इसका उपयोग लक्षित और स्थानीय विज्ञापनों के साथ-साथ खुदरा विक्रेताओं और बैंकों को भी कर सकती हैं। इस तरह के डेटा लोगों के शक्तिशाली लक्ष्य प्रवाह की उपस्थिति के आधार पर डेटा के आधार पर एक निश्चित स्थान में एक रिटेल आउटलेट खोलने का निर्णय लेने में महत्वपूर्ण भूमिका निभा सकते हैं। लंदन में आउटडोर होर्डिंग पर विज्ञापन की प्रभावशीलता को मापने का एक उदाहरण है। अब ऐसे विज्ञापन की पहुंच को केवल एक विशेष उपकरण के साथ लोगों द्वारा मापा जा सकता है जो विज्ञापन संरचनाओं के पास राहगीरों की गिनती करता है। विज्ञापन प्रभावशीलता के इस प्रकार की तुलना में, मोबाइल ऑपरेटर बहुत अधिक अवसर - वह अपने ग्राहकों के स्थान को ठीक से जानता है, वह उनकी जनसांख्यिकीय विशेषताओं, लिंग, आयु, वैवाहिक स्थिति आदि को जानता है।

इस तरह के आंकड़ों के आधार पर, भविष्य में, बिलबोर्ड से गुजरने वाले किसी विशेष व्यक्ति की वरीयताओं का उपयोग करके, विज्ञापन संदेश की सामग्री को बदलने के लिए संभावना खुल जाती है। यदि डेटा से पता चलता है कि एक व्यक्ति जो यात्रा कर रहा है, वह बहुत यात्रा करता है, तो उन्हें एक रिसॉर्ट के लिए विज्ञापन दिखाया जा सकता है। एक फुटबॉल मैच के आयोजक प्रशंसकों की संख्या का अनुमान लगा सकते हैं जब वे मैच में आते हैं। लेकिन अगर उनके पास ऑपरेटर से पूछने का अवसर था सेलुलर संचार मैच से पहले एक घंटे, दिन या महीने पर आगंतुकों के बारे में जानकारी, इससे आयोजकों को अगले मैचों के विज्ञापन के लिए स्थानों की योजना बनाने का अवसर मिलेगा।

एक और उदाहरण है कि बैंक धोखाधड़ी को रोकने के लिए बिग डेटा का उपयोग कैसे कर सकते हैं। यदि ग्राहक कार्ड खो जाने का दावा करता है, और उसके साथ खरीदारी करते समय, बैंक वास्तविक समय में ग्राहक के फोन का स्थान खरीद क्षेत्र में देखता है जहां लेनदेन होता है, तो बैंक ग्राहक के अनुरोध पर जानकारी की जांच कर सकता है यह देखने के लिए कि क्या उसने उसे धोखा देने की कोशिश की। या विपरीत स्थिति, जब कोई ग्राहक किसी स्टोर में खरीदारी करता है, तो बैंक देखता है कि लेन-देन के लिए इस्तेमाल किया गया कार्ड और ग्राहक का फोन एक जगह पर है, बैंक यह निष्कर्ष निकाल सकता है कि कार्ड का उपयोग उसके मालिक द्वारा किया गया है। बिग डेटा के इन फायदों की बदौलत पारंपरिक डेटा वेयरहाउस की सीमाओं का विस्तार हो रहा है।

बिग डेटा समाधान के कार्यान्वयन पर सफलतापूर्वक निर्णय लेने के लिए, एक कंपनी को निवेश के मामले की गणना करने की आवश्यकता होती है, और यह कई अज्ञात घटकों के कारण बड़ी कठिनाइयों का कारण बनता है। ऐसे मामलों में, एनालिटिक्स का विरोधाभास अतीत के आधार पर भविष्य का अनुमान लगा रहा है, जिसके लिए अक्सर डेटा की कमी होती है। इस मामले में, आपके प्रारंभिक कार्यों की स्पष्ट योजना एक महत्वपूर्ण कारक है:

सबसे पहले, एक विशिष्ट व्यावसायिक कार्य को परिभाषित करना आवश्यक है जिसके समाधान के लिए बिग डेटा तकनीकों का उपयोग किया जाएगा, यह कार्य चुने हुए अवधारणा की शुद्धता का निर्धारण करने का मूल बन जाएगा। आपको उस विशेष कार्य से संबंधित डेटा एकत्र करने पर ध्यान केंद्रित करने की आवश्यकता है, और भविष्य में बेहतर निर्णय लेने में आपकी सहायता करने के लिए प्रूफ-ऑफ-कॉन्सेप्ट आपको कई प्रकार के टूल, प्रक्रियाओं और प्रबंधन तकनीकों का उपयोग करने में सक्षम करेगा।
दूसरे, यह संभावना नहीं है कि डेटा एनालिटिक्स कौशल और अनुभव के बिना एक कंपनी बिग डेटा प्रोजेक्ट को सफलतापूर्वक लागू करने में सक्षम होगी। आवश्यक ज्ञान हमेशा पिछले विश्लेषिकी अनुभव से उपजा है, जो डेटा के साथ काम करने की गुणवत्ता को प्रभावित करने वाला मुख्य कारक है। डेटा का उपयोग करने की संस्कृति महत्वपूर्ण है, क्योंकि अक्सर जानकारी के विश्लेषण से व्यवसाय के बारे में कठोर सच्चाई का पता चलता है, और इस सच्चाई को स्वीकार करने और काम करने के लिए, डेटा के साथ काम करने के विकसित तरीकों की आवश्यकता होती है।
तीसरा, बिग डेटा तकनीकों का मूल्य अंतर्दृष्टि प्रदान करने में निहित है। अच्छा विश्लेषकों का बाजार में कम आपूर्ति में रहना। यह उन विशेषज्ञों के रूप में संदर्भित करने के लिए प्रथागत है, जिन्हें डेटा के वाणिज्यिक अर्थ की गहरी समझ है और यह जानते हैं कि इसका सही तरीके से उपयोग कैसे किया जाए। डेटा विश्लेषण व्यावसायिक लक्ष्यों को प्राप्त करने का एक साधन है, और बिग डेटा के मूल्य को समझने के लिए, आपको अपने कार्यों के व्यवहार और समझ का एक उपयुक्त मॉडल चाहिए। इस मामले में, बड़ा डेटा उपभोक्ताओं के बारे में उपयोगी जानकारी का खजाना प्रदान करेगा, जिसके आधार पर आप उपयोगी व्यावसायिक निर्णय ले सकते हैं।

इस तथ्य के बावजूद कि रूसी बिग डेटा बाजार अभी बनना शुरू हो रहा है, इस क्षेत्र में कुछ परियोजनाएं पहले से ही काफी सफलतापूर्वक लागू हो रही हैं। उनमें से कुछ डेटा संग्रह के क्षेत्र में सफल हैं, जैसे कि फेडरल टैक्स सर्विस और टिंकफ क्रेडिट सिस्टम बैंक के लिए परियोजनाएं, अन्य - डेटा विश्लेषण और इसके परिणामों के व्यावहारिक अनुप्रयोग के संदर्भ में: यह सिनकेरा परियोजना है।

टिंकफ क्रेडिट सिस्टम बैंक ने EMC2 ग्रीनप्लम प्लेटफॉर्म को लागू करने के लिए एक परियोजना को लागू किया, जो व्यापक रूप से समानांतर कंप्यूटिंग के लिए एक उपकरण है। हाल के वर्षों में, बैंक ने वास्तविक समय में संचित जानकारी को संसाधित करने और डेटा का विश्लेषण करने की गति के लिए आवश्यकताओं में वृद्धि की है, जिसके कारण क्रेडिट कार्ड उपयोगकर्ताओं की संख्या की उच्च वृद्धि दर है। बैंक ने विशेष रूप से असंरचित डेटा को संसाधित करने और विभिन्न स्रोतों से प्राप्त कॉर्पोरेट जानकारी के साथ काम करने के लिए बिग डेटा प्रौद्योगिकियों के उपयोग का विस्तार करने की योजना की घोषणा की।

रूस की संघीय कर सेवा वर्तमान में संघीय डेटा गोदाम के लिए एक विश्लेषणात्मक परत बना रही है। इसके आधार पर, एक एकल सूचना स्थान और सांख्यिकीय और विश्लेषणात्मक प्रसंस्करण के लिए कर डेटा तक पहुँचने के लिए प्रौद्योगिकी। परियोजना के कार्यान्वयन के दौरान, IFTS के स्थानीय स्तर के 1200 से अधिक स्रोतों के साथ विश्लेषणात्मक जानकारी को केंद्रीकृत करने के लिए काम किया जा रहा है।

वास्तविक समय के बड़े डेटा विश्लेषण का एक और दिलचस्प उदाहरण रूसी स्टार्टअप सिनकेरा है, जिसने सिमप्लेट प्लेटफॉर्म विकसित किया है। समाधान बड़ी मात्रा में डेटा के प्रसंस्करण पर आधारित है; कार्यक्रम ग्राहकों की जानकारी, उनके खरीद इतिहास, आयु, लिंग और यहां तक \u200b\u200bकि मूड के बारे में विश्लेषण करता है। कॉस्मेटिक स्टोर की श्रृंखला में चेकआउट काउंटरों पर, सेंसर के साथ स्क्रीन को स्पर्श करें जो ग्राहक भावनाओं को पहचानते हैं। कार्यक्रम किसी व्यक्ति के मूड को निर्धारित करता है, उसके बारे में जानकारी का विश्लेषण करता है, दिन का समय निर्धारित करता है और स्टोर के डिस्काउंट डेटाबेस को स्कैन करता है, जिसके बाद यह खरीदार को प्रचार और विशेष प्रस्तावों के बारे में लक्षित संदेश भेजता है। यह समाधान ग्राहकों की वफादारी बढ़ाता है और खुदरा बिक्री बढ़ाता है।

अगर हम सफल विदेशी मामलों के बारे में बात करते हैं, तो इस संबंध में, डंकिन `डोनट्स में बिग डेटा तकनीकों का उपयोग करने का अनुभव, जो उत्पादों को बेचने के लिए वास्तविक समय डेटा का उपयोग करता है, दिलचस्प है। स्टोर डिस्प्ले में डिजिटल डिस्प्ले हर मिनट, दिन के समय और उत्पाद की उपलब्धता पर निर्भर करता है। कंपनी को कैशियर की प्राप्तियों से डेटा प्राप्त होता है, जो खरीदारों से सबसे बड़ी प्रतिक्रिया प्राप्त करता है। डेटा प्रोसेसिंग के लिए यह दृष्टिकोण गोदाम में माल के लाभ और कारोबार को बढ़ाने की अनुमति देता है।

जैसा कि बिग डेटा परियोजनाओं को लागू करने के अनुभव से पता चलता है, इस क्षेत्र को आधुनिक व्यावसायिक समस्याओं को सफलतापूर्वक हल करने के लिए डिज़ाइन किया गया है। उसी समय, बड़े डेटा के साथ काम करते समय वाणिज्यिक लक्ष्यों को प्राप्त करने का एक महत्वपूर्ण कारक सही रणनीति का चयन करना है, जिसमें एनालेटिक्स शामिल हैं जो उपभोक्ता मांगों की पहचान करते हैं, साथ ही बिग डेटा के क्षेत्र में नवीन तकनीकों का उपयोग करते हैं।

एक वैश्विक सर्वेक्षण के अनुसार, 2012 से कंपनी विपणक के बीच इकोनॉल्स्टी और एडोब द्वारा सालाना आयोजित किया गया, "बड़े डेटा" के बारे में कि लोग इंटरनेट पर कैसे कार्य करते हैं। वे ऑफ़लाइन व्यावसायिक प्रक्रियाओं का अनुकूलन करने में सक्षम हैं, यह समझने में मदद करते हैं कि मोबाइल उपकरणों के मालिक उन्हें जानकारी खोजने के लिए कैसे उपयोग करते हैं, या बस "मार्केटिंग बेहतर करें", अर्थात। अधिक कुशल। इसके अलावा, अंतिम कार्य वर्ष-दर-वर्ष अधिक से अधिक लोकप्रिय है, जैसा कि हमारे द्वारा प्रस्तुत आरेख से होता है।

ग्राहक संबंधों के संदर्भ में इंटरनेट विपणक के लिए काम के प्रमुख क्षेत्र

स्रोत: इकोनॉल्स्टेंसी और एडोब, प्रकाशित - emarketer.com

ध्यान दें कि उत्तरदाताओं की राष्ट्रीयता ज्यादा मायने नहीं रखती है। 2013 में केपीएमजी द्वारा किए गए सर्वेक्षण से पता चलता है कि “आशावादी” का हिस्सा, अर्थात जो लोग एक व्यापार रणनीति विकसित करने में बिग डेटा का उपयोग करते हैं, वे 56% हैं, और एक क्षेत्र से दूसरे क्षेत्र में उतार-चढ़ाव छोटे हैं: उत्तरी अमेरिकी देशों में 63% से EMEA में 50% तक।

दुनिया के विभिन्न क्षेत्रों में बिग डेटा का उपयोग करना

स्रोत: केपीएमजी, प्रकाशित - emarketer.com

इस बीच, इस तरह के "फैशन के रुझान" के लिए विपणक का रवैया कुछ हद तक प्रसिद्ध उपाख्यान की याद दिलाता है:

बताओ, वनो, क्या तुम्हें टमाटर पसंद है?
- मुझे खाना पसंद है, लेकिन मैं नहीं।

इस तथ्य के बावजूद कि बिग डेटा "लव" शब्दों में मार्केटिंग करता है और यहां तक \u200b\u200bकि इसका उपयोग करने लगता है, वास्तव में, "सब कुछ जटिल है," जैसा कि वे सोशल नेटवर्क पर अपने हार्दिक स्नेह के बारे में लिखते हैं।

यूरोपीय मार्केटर्स के बीच जनवरी 2014 में सर्किल रिसर्च द्वारा किए गए एक सर्वेक्षण के अनुसार, 5 में से 4 उत्तरदाता बिग डेटा का उपयोग नहीं करते हैं (इस तथ्य के बावजूद कि वे, निश्चित रूप से, "इसे प्यार करते हैं")। कारण अलग हैं। कुछ कम संशयवादी हैं - 17% और उनके एंटीपोड्स के समान संख्या, अर्थात्। जो आत्मविश्वास से "हां" का जवाब देते हैं। बाकी झिझक और संदेह है, "दलदल"। वे "अभी तक नहीं, लेकिन जल्द ही" या "जब तक दूसरों के शुरू होने तक इंतजार करते हैं" जैसे प्रशंसनीय उपसर्गों के तहत एक सीधा उत्तर मिटाते हैं।

विपणक द्वारा बड़ा डेटा उपयोग, यूरोप, जनवरी 2014

स्रोत:dnx, प्रकाशित -अनुगामी।com

उन्हें क्या भ्रमित करता है? सरासर trifles। कुछ (उनमें से बिल्कुल आधा) बस इस डेटा पर विश्वास नहीं करते हैं। अन्य (उनमें से कई भी हैं - 55%) "डेटा" और "उपयोगकर्ता" के सेट को एक-दूसरे से संबंधित करना मुश्किल है। कुछ लोग बस (इसे राजनीतिक रूप से सही मानते हैं) में एक आंतरिक कॉर्पोरेट गड़बड़ी है: विपणन विभागों और आईटी संरचनाओं के बीच डेटा चलता है। दूसरों के लिए, सॉफ्टवेयर काम की आमद से सामना नहीं कर सकता। आदि। चूंकि कुल शेयर 100% से अधिक है, यह स्पष्ट है कि "कई बाधाओं" की स्थिति अक्सर होती है।

विपणन में बिग डेटा के उपयोग में बाधाएं

स्रोत:dnx, प्रकाशित -अनुगामी।com

इस प्रकार, हमें यह स्वीकार करना होगा कि "बिग डेटा" एक बड़ी क्षमता है, जिसे अभी भी उपयोग करने की आवश्यकता है। संयोग से, यही कारण हो सकता है कि बिग डेटा "फैशन की प्रवृत्ति" के प्रभामंडल को खो रहा है, जैसा कि पहले से ही उल्लेख किए गए कंपनी इकोनॉल्स्टिसिटी द्वारा किए गए सर्वेक्षण के आंकड़ों से स्पष्ट है।

डिजिटल मार्केटिंग 2013-2014 में सबसे महत्वपूर्ण रुझान

स्रोत: पारिस्थितिकी और एडोब

उन्हें दूसरे राजा - सामग्री विपणन द्वारा प्रतिस्थापित किया जा रहा है। कितनी देर?

यह कहना नहीं है कि बिग डेटा मौलिक रूप से नई घटना है। बड़े डेटा स्रोत वर्षों से हैं: ग्राहक खरीद, क्रेडिट इतिहास, जीवन शैली पर डेटाबेस। और वर्षों से, वैज्ञानिकों ने इस डेटा का उपयोग कंपनियों को जोखिम का आकलन करने और भविष्य की ग्राहक आवश्यकताओं की भविष्यवाणी करने में मदद करने के लिए किया है। हालाँकि, आज स्थिति दो पहलुओं में बदल गई है:

विभिन्न डेटासेटों के विश्लेषण और संयोजन के लिए अधिक परिष्कृत उपकरण और तकनीकें सामने आई हैं;

ये विश्लेषणात्मक उपकरण लगभग सभी डेटा संग्रह और माप विधियों के डिजिटलीकरण द्वारा संचालित नए डेटा स्रोतों के हिमस्खलन द्वारा पूरक हैं।

उपलब्ध जानकारी की सीमा शोधकर्ताओं के लिए प्रेरणादायक और भयभीत करने वाली है, जो एक संरचित अनुसंधान वातावरण में पले-बढ़े हैं। उपभोक्ता की भावनाओं को वेबसाइटों और सभी प्रकार के सोशल मीडिया द्वारा पकड़ लिया जाता है। विज्ञापन देखने का तथ्य न केवल सेट-टॉप बॉक्स द्वारा दर्ज किया गया है, बल्कि डिजिटल टैग और द्वारा भी दर्ज किया गया है मोबाइल उपकरणोंटीवी के साथ संवाद।

व्यवहार डेटा (जैसे कॉल, खरीदारी की आदतें और खरीदारी) अब वास्तविक समय में उपलब्ध है। इस प्रकार, जो पहले शोध के माध्यम से उपलब्ध था, वह अब बड़े डेटा स्रोतों के माध्यम से सीखा जा सकता है। और ये सभी जानकारी परिसंपत्तियाँ किसी भी अनुसंधान प्रक्रियाओं की परवाह किए बिना लगातार उत्पन्न होती हैं। इन परिवर्तनों से हमें आश्चर्य होता है कि क्या बड़ा डेटा क्लासिक बाज़ार अनुसंधान को प्रतिस्थापित कर सकता है।

यह डेटा के बारे में नहीं है, यह सवाल और जवाब के बारे में है

क्लासिक अध्ययनों की मृत्यु के आदेश का आदेश देने से पहले, हमें खुद को याद दिलाना चाहिए कि यह किसी विशेष डेटा संपत्ति की उपस्थिति नहीं है जो महत्वपूर्ण है, लेकिन कुछ और है। वास्तव में क्या? सवालों का जवाब देने की हमारी क्षमता क्या है। बड़े डेटा की नई दुनिया के बारे में एक मजेदार बात यह है कि नई सूचना परिसंपत्तियों के परिणाम और भी अधिक प्रश्न पैदा करते हैं, और ये प्रश्न आमतौर पर पारंपरिक शोध के लिए सबसे अच्छे उत्तर हैं। इस प्रकार, जैसा कि बड़ा डेटा बढ़ता है, हम "छोटे डेटा" की उपलब्धता और मांग में एक समानांतर वृद्धि देखते हैं जो बड़े डेटा की दुनिया से सवालों के जवाब प्रदान कर सकते हैं।

स्थिति पर विचार करें: एक बड़ा विज्ञापनदाता लगातार वास्तविक समय में ट्रैफ़िक और बिक्री की निगरानी करता है। मौजूदा अनुसंधान विधियों (जिसमें हम पैनलिस्टों को उनकी खरीद प्रेरणा और पीओएस व्यवहार के बारे में साक्षात्कार देते हैं) हमें बेहतर ग्राहक क्षेत्रों को लक्षित करने में मदद करते हैं। इन तकनीकों का विस्तार बड़ी डेटा परिसंपत्तियों की एक विस्तृत श्रृंखला को शामिल करने के लिए किया जा सकता है, जहां बड़ा डेटा एक निष्क्रिय निगरानी उपकरण बन जाता है, और अनुसंधान परिवर्तनों या घटनाओं का एक निरंतर, केंद्रित अध्ययन बन जाता है, जिसकी जांच की जानी चाहिए। यह कितना बड़ा डेटा अनुसंधान की परेशानी से मुक्त कर सकता है। प्राथमिक अनुसंधान अब क्या हो रहा है (बड़ा डेटा होगा) पर ध्यान केंद्रित नहीं करना चाहिए। इसके बजाय, प्राथमिक शोध यह बताने पर ध्यान केंद्रित कर सकते हैं कि हम रुझान से रुझान या विचलन क्यों देखते हैं। शोधकर्ता डेटा प्राप्त करने के बारे में कम सोचने में सक्षम होगा, और इसके बारे में अधिक विश्लेषण और उपयोग कैसे करें।

इसी समय, हम बड़े डेटा को हमारी सबसे बड़ी समस्याओं में से एक को हल करते हुए देखते हैं - अत्यधिक लंबे शोध की समस्या। स्वयं अध्ययनों से पता चला है कि अत्यधिक फुलाए गए अनुसंधान उपकरण डेटा गुणवत्ता पर नकारात्मक प्रभाव डालते हैं। हालांकि कई विशेषज्ञों ने इस समस्या को लंबे समय से स्वीकार किया है, उन्होंने यह कहते हुए जवाब दिया कि "लेकिन मुझे वरिष्ठ प्रबंधन के लिए इस जानकारी की आवश्यकता है," और लंबे समय तक मतदान जारी रहा।

बड़े डेटा की दुनिया में, जहां मात्रात्मक संकेतक निष्क्रिय अवलोकन के माध्यम से प्राप्त किए जा सकते हैं, यह मुद्दा विवादास्पद हो जाता है। फिर, आइए खपत से संबंधित इन सभी अध्ययनों पर एक नज़र डालें। यदि बड़ा डेटा हमें निष्क्रिय अवलोकन के माध्यम से खपत में अंतर्दृष्टि प्रदान करता है, तो सर्वेक्षण के रूप में प्राथमिक अनुसंधान को अब इस तरह की जानकारी एकत्र करने की आवश्यकता नहीं है, और हम अंत में न केवल शुभकामनाओं के साथ, बल्कि कुछ के साथ लघु सर्वेक्षण के अपने दृष्टिकोण का समर्थन कर सकते हैं असली।

बिग डेटा को आपकी मदद की जरूरत है

अंत में, "बड़ा" बड़े डेटा की विशेषताओं में से एक है। विशेषता "बड़े" आकार और डेटा के पैमाने को संदर्भित करता है। बेशक, यह मुख्य विशेषता है, क्योंकि इस डेटा की मात्रा उस चीज से आगे निकल जाती है जिसे हमने पहले के साथ काम किया है। लेकिन इन नए डेटा धाराओं की अन्य विशेषताएं भी महत्वपूर्ण हैं: वे अक्सर खराब स्वरूपित, असंरचित (या, सबसे अच्छा, आंशिक रूप से संरचित) और अनिश्चितता से भरे होते हैं। डेटा प्रबंधन का उभरता हुआ क्षेत्र, जिसे नामित इकाई एनालिटिक्स कहा जाता है, बड़े डेटा में शोर पर काबू पाने की समस्या को हल करने के लिए डिज़ाइन किया गया है। इसका कार्य इन डेटासेटों का विश्लेषण करना है और यह पता लगाना है कि एक ही व्यक्ति के लिए कितने अवलोकन हैं, कौन से अवलोकन वर्तमान हैं, और कौन से प्रयोग करने योग्य हैं।

बड़े या छोटे डेटा एसेट्स के साथ काम करते समय शोर या गलत डेटा को हटाने के लिए इस प्रकार की डेटा क्लींजिंग आवश्यक है, लेकिन यह पर्याप्त नहीं है। हमें अपने पिछले अनुभव, विश्लेषण और श्रेणी ज्ञान के आधार पर बड़ी डेटा परिसंपत्तियों के संदर्भ बनाने की भी आवश्यकता है। वास्तव में, कई विश्लेषक प्रतिस्पर्धात्मक लाभ के स्रोत के रूप में बड़े डेटा में निहित अनिश्चितता को प्रबंधित करने की क्षमता को इंगित करते हैं, क्योंकि यह बेहतर निर्णय लेने में सक्षम बनाता है।

यह वह जगह है जहां प्राथमिक शोध को न केवल बड़े डेटा द्वारा दिनचर्या से मुक्त किया जाता है, बल्कि बड़े डेटा के भीतर सामग्री निर्माण और विश्लेषण में भी योगदान देता है।

इसका एक प्रमुख उदाहरण सोशल मीडिया पर हमारे नए मौलिक रूप से अलग ब्रांड इक्विटी ढांचे का अनुप्रयोग है। (हम विकसित के बारे में बात कर रहे हैंमिलवार्ड भूरा ब्रांड मूल्य को मापने के लिए एक नया दृष्टिकोणद सार्थक रूप से विभिन्न ढाँचा - "महत्वपूर्ण अंतर के प्रतिमान" -आर & टी ) है। इस मॉडल को विशिष्ट बाजारों के भीतर व्यवहार के लिए परीक्षण किया गया है, एक मानक आधार पर लागू किया गया है, और निर्णय समर्थन के लिए अन्य विपणन निर्देशों और सूचना प्रणालियों पर लागू करना आसान है। दूसरे शब्दों में, हमारे सर्वेक्षण-संचालित ब्रांड इक्विटी मॉडल (यद्यपि सर्वेक्षण अनुसंधान तक सीमित नहीं) में बड़े डेटा के असंरचित, असंतुष्ट और अनिश्चित प्रकृति को दूर करने के लिए आवश्यक सभी गुण हैं।

सोशल मीडिया द्वारा प्रदान किए गए उपभोक्ता भावना डेटा पर विचार करें। अपने कच्चे रूप में, उपभोक्ता भावना में चोटियों और घाटियों को अक्सर ऑफ़लाइन ब्रांड इक्विटी और व्यवहार मापदंडों के साथ न्यूनतम सहसंबद्ध किया जाता है: डेटा में बस बहुत अधिक शोर होता है। लेकिन हम उपभोक्ता आयामों, ब्रांड भेदभाव, गतिशीलता और कच्चे उपभोक्ता भावना डेटा में भिन्नता के हमारे मॉडल को लागू करके इस शोर को कम कर सकते हैं - इन आयामों में सोशल मीडिया डेटा को संसाधित और एकत्र करने का एक तरीका।

एक बार जब डेटा हमारे फ्रेमवर्क मॉडल के अनुसार व्यवस्थित किया जाता है, तो पहचाने गए रुझान आमतौर पर ऑफ़लाइन ब्रांड इक्विटी और व्यवहार मैट्रिक्स के साथ मेल खाते हैं। अनिवार्य रूप से, सोशल मीडिया डेटा अपने लिए नहीं बोल सकता। इस उद्देश्य के लिए उनका उपयोग करने के लिए हमारी विशेषज्ञता और ब्रांड-केंद्रित मॉडल की आवश्यकता होती है। जब सोशल मीडिया हमें ब्रांड का वर्णन करने के लिए उपभोक्ताओं द्वारा उपयोग की जाने वाली भाषा में व्यक्त अद्वितीय जानकारी प्रदान करता है, तो हमें प्राथमिक अनुसंधान को और अधिक प्रभावी बनाने के लिए अपने शोध में उस भाषा का उपयोग करना चाहिए।

छूट अनुसंधान के लाभ

यह हमें इस तथ्य पर वापस लाता है कि बड़ा डेटा अनुसंधान को प्रतिस्थापित नहीं करता है क्योंकि यह इसे मुक्त करता है। शोधकर्ताओं को प्रत्येक नए मामले के लिए एक नया अध्ययन बनाने की आवश्यकता से राहत मिलेगी। कभी-कभी बढ़ती बड़ी डेटा परिसंपत्तियों का उपयोग विभिन्न शोध विषयों के लिए किया जा सकता है, जिससे बाद के प्राथमिक शोध विषय में गहराई से हो सकते हैं और अंतराल में भर सकते हैं। शोधकर्ताओं को अति-सम्मोहित चुनावों पर भरोसा करने की आवश्यकता से राहत मिलेगी। इसके बजाय, वे लघु सर्वेक्षण का उपयोग करने और सबसे महत्वपूर्ण मापदंडों पर ध्यान केंद्रित करने में सक्षम होंगे, जो डेटा की गुणवत्ता में सुधार करता है।

इस रिलीज के साथ, शोधकर्ता अपने सिद्ध सिद्धांतों और विचारों का उपयोग बड़ी डेटा परिसंपत्तियों के लिए सटीक और अर्थ जोड़ने में कर पाएंगे, जिससे सर्वेक्षण अनुसंधान के लिए नए क्षेत्रों का निर्माण होगा। इस चक्र को रणनीतिक मुद्दों की एक विस्तृत श्रृंखला के बारे में गहराई से समझना चाहिए और अंततः, ब्रांड और संचार के बारे में फैसलों की गुणवत्ता को सूचित करने और सुधारने के लिए हमेशा हमारा मुख्य लक्ष्य क्या होना चाहिए, इसके प्रति आंदोलन करना चाहिए।

एक बार, मैंने जर्मन ग्रीफ (सेर्बैंक के प्रमुख) से "बिग डेटा" शब्द सुना। वे कहते हैं कि वे अब सक्रिय रूप से कार्यान्वयन पर काम कर रहे हैं, क्योंकि इससे उन्हें प्रत्येक ग्राहक के साथ काम का समय कम करने में मदद मिलेगी।

दूसरी बार जब मैं इस कॉन्सेप्ट पर आया, तो यह एक ग्राहक के ऑनलाइन स्टोर में था, जिस पर हमने काम किया और कुछ हज़ार से लेकर दसियों हज़ारों जिंस आइटमों तक की सीमा को बढ़ाया।

तीसरी बार, जब मैंने देखा कि यैंडेक्स को एक बड़े डेटा विश्लेषक की जरूरत है। फिर मैंने इस विषय में गहराई से निर्णय लेने का फैसला किया और साथ ही एक लेख भी लिखा जो बताएगा कि यह किस तरह का शब्द है जो शीर्ष प्रबंधकों और इंटरनेट स्पेस के दिमाग को उत्तेजित करता है।

यह क्या है

आमतौर पर मैं अपने किसी भी लेख की व्याख्या के साथ शुरू करता हूं कि यह किस तरह का शब्द है। यह लेख कोई अपवाद नहीं होगा।

हालांकि, यह मुख्य रूप से यह दिखाने की इच्छा के कारण नहीं है कि मैं कितना स्मार्ट हूं, लेकिन इस तथ्य से कि विषय वास्तव में जटिल है और सावधानीपूर्वक स्पष्टीकरण की आवश्यकता है।

उदाहरण के लिए, आप पढ़ सकते हैं कि विकिपीडिया पर कौन सा बड़ा डेटा है, कुछ भी नहीं समझें, और फिर इस लेख पर वापस आएं और व्यापार की परिभाषा और प्रयोज्यता को समझें। तो, चलो एक विवरण के साथ शुरू करते हैं, और फिर व्यावसायिक उदाहरणों पर।

बड़ा डेटा बड़ा डेटा है। कमाल है, हुह? वास्तव में, यह अंग्रेजी से "बड़े डेटा" के रूप में अनुवादित है। लेकिन यह परिभाषा, कोई भी कह सकता है, डमी के लिए है।

बड़ी डेटा तकनीक नई जानकारी प्राप्त करने के लिए अधिक डेटा को संसाधित करने का एक तरीका / तरीका है जो सामान्य तरीके से संसाधित करना मुश्किल है।

डेटा को या तो संसाधित (संरचित) या खंडित किया जा सकता है (जो कि असंरचित है)।

यह शब्द हाल ही में अपेक्षाकृत सामने आया। 2008 में एक वैज्ञानिक पत्रिका में, इस दृष्टिकोण का अनुमान लगाया गया था कि बड़ी मात्रा में जानकारी के साथ काम करने के लिए कुछ आवश्यक है जो तेजी से बढ़ रहा है।

उदाहरण के लिए, इंटरनेट पर हर साल जानकारी जिसे संग्रहीत और संसाधित करने की आवश्यकता होती है, 40% बढ़ जाती है। एक बार फिर: + 40% हर साल नई जानकारी इंटरनेट पर दिखाई देती है।

यदि मुद्रित दस्तावेज़ समझ में आते हैं और उन्हें संसाधित करने के तरीके भी समझ में आते हैं (इलेक्ट्रॉनिक रूप में स्थानांतरण, एक फ़ोल्डर में सिलाई, गिने हुए), तो उस जानकारी के साथ क्या करना है जो पूरी तरह से "मीडिया" और अन्य संस्करणों में प्रस्तुत किया गया है:

इंटरनेट दस्तावेज़;
ब्लॉग और सामाजिक नेटवर्क;
ऑडियो / वीडियो स्रोत;
उपकरणों को मापने।

ऐसी विशेषताएं हैं जो सूचना और डेटा को बड़े डेटा के रूप में वर्गीकृत करना संभव बनाती हैं। यही है, सभी डेटा एनालिटिक्स के लिए उपयुक्त नहीं हो सकते हैं। इन विशेषताओं में बड़ी तिथि की प्रमुख अवधारणा है। वे सभी तीन वी में फिट होते हैं।

आयतन(अंग्रेजी वॉल्यूम से)। डेटा का विश्लेषण करने के लिए "दस्तावेज़" की भौतिक मात्रा के संदर्भ में मापा जाता है;
गति(अंग्रेजी वेग से)। डेटा इसके विकास में खड़ा नहीं है, लेकिन लगातार बढ़ रहा है, यही कारण है कि परिणाम प्राप्त करने के लिए उन्हें जल्दी से संसाधित करने की आवश्यकता है;
कई गुना(अंग्रेजी किस्म से)। डेटा एकल प्रारूप नहीं हो सकता है। यही है, वे बिखरे हुए, संरचित या आंशिक रूप से संरचित हो सकते हैं।

हालांकि, समय-समय पर, एक चौथा वी (सत्यता - डेटा की विश्वसनीयता / विश्वसनीयता) और यहां तक \u200b\u200bकि एक पांचवीं वी (कुछ मामलों में यह व्यवहार्यता है, दूसरों में यह वीवीवी में जोड़ा जाता है)।

कहीं-कहीं मैंने 7 वी भी देखा, जो बड़ी तारीख से संबंधित आंकड़ों की विशेषता है। लेकिन मेरी राय में यह एक श्रृंखला से है (जहां पी को समय-समय पर जोड़ा जाता है, हालांकि शुरुआती 4 समझने के लिए पर्याप्त हैं)।

हम 29,000 से अधिक लोगों के साथ हैं।
चालू करो

इसकी जरूरत किसे है?

एक तार्किक सवाल उठता है कि, सूचना का उपयोग कैसे किया जा सकता है (यदि कुछ भी, बड़ी तारीख सैकड़ों और हजारों टेराबाइट हैं)?

वह भी नहीं। यह जानकारी है। तो फिर आप बड़ी तारीख के साथ क्यों आए? विपणन और व्यवसाय में बड़े डेटा का उपयोग क्या है?

साधारण डेटाबेस स्टोर और प्रोसेस नहीं कर सकता (मैं अब एनालिटिक्स के बारे में नहीं बात कर रहा हूं, लेकिन जानकारी की एक बड़ी मात्रा में केवल भंडारण और प्रसंस्करण)।
बड़ी तारीख इस मुख्य समस्या को हल करती है। उच्च मात्रा की जानकारी को सफलतापूर्वक संग्रहीत और प्रबंधित करता है;
विभिन्न स्रोतों (वीडियो, चित्र, ऑडियो और पाठ दस्तावेज़) से आने वाली संरचना की जानकारी एक एकल, समझ और पचने योग्य रूप में;
संरचित और संसाधित जानकारी के आधार पर विश्लेषण और सटीक पूर्वानुमान का निर्माण।

यह जटिल है। सीधे शब्दों में कहें, कोई भी बाज़ारिया जो समझता है कि यदि आप बड़ी मात्रा में जानकारी का अध्ययन करते हैं (आपके बारे में, आपकी कंपनी, आपके प्रतिस्पर्धी, आपके उद्योग), तो आप बहुत ही अच्छे परिणाम प्राप्त कर सकते हैं:

संख्या के संदर्भ में आपकी कंपनी और आपके व्यवसाय की पूरी समझ;
अपने प्रतियोगियों का अध्ययन करें। और यह, बदले में, उन पर व्यापकता के कारण आगे बढ़ना संभव बना देगा;
अपने ग्राहकों के बारे में नई जानकारी प्राप्त करें।

और ठीक है क्योंकि बड़ी डेटा तकनीक निम्नलिखित परिणाम देती है, हर कोई इसके साथ भागता है। वे बिक्री में वृद्धि और लागत में कमी लाने के लिए अपनी कंपनी में इस व्यवसाय को खराब करने की कोशिश कर रहे हैं। और अधिक विशेष रूप से, तब:

ग्राहक वरीयताओं के बेहतर ज्ञान के माध्यम से क्रॉस-सेलिंग और अतिरिक्त बिक्री बढ़ाएं;
लोकप्रिय उत्पादों और उनके खरीदे जाने के कारणों (और इसके विपरीत) की खोज करें;
किसी उत्पाद या सेवा में सुधार;
सेवा के स्तर में सुधार;
बढ़ी हुई वफादारी और ग्राहक ध्यान;
धोखाधड़ी की रोकथाम (बैंकिंग क्षेत्र के लिए अधिक प्रासंगिक);
अनावश्यक लागतों को कम करना।

सभी स्रोतों में उद्धृत सबसे आम उदाहरण, निश्चित रूप से, ऐप्पल है, जो अपने उपयोगकर्ताओं (फोन, घड़ी, कंप्यूटर) के बारे में डेटा एकत्र करता है।

यह इको-सिस्टम की उपस्थिति के कारण ठीक है कि निगम अपने उपयोगकर्ताओं के बारे में इतना जानता है और फिर इसका उपयोग लाभ कमाने के लिए करता है।

आप इसके अलावा किसी अन्य लेख में उपयोग के इन और अन्य उदाहरणों को पढ़ सकते हैं।

आधुनिक उदाहरण

मैं आपको एक अन्य परियोजना के बारे में बताता हूँ। बल्कि, ऐसे व्यक्ति के बारे में जो बड़े डेटा समाधानों का उपयोग करके भविष्य का निर्माण कर रहा है।

यह एलोन मस्क और उनकी टेस्ला कंपनी है। उनका मुख्य सपना कारों को स्वायत्त बनाना है, अर्थात, आप पहिया के पीछे हो जाते हैं, मॉस्को से व्लादिवोस्तोक के लिए ऑटोपायलट चालू करें और सो जाएं ... क्योंकि आपको बिल्कुल कार चलाने की ज़रूरत नहीं है, क्योंकि वह सब कुछ खुद करेंगे ।

यह शानदार लगेगा? लेकिन कोई नहीं! एलोन ने केवल Google की तुलना में बहुत समझदार किया, जो दर्जनों उपग्रहों का उपयोग करके कारों को नियंत्रित करता है। और वह दूसरे रास्ते से चला गया:

बेची गई प्रत्येक कार एक कंप्यूटर से सुसज्जित है जो सभी जानकारी एकत्र करती है।
सब कुछ सामान्य रूप से सब कुछ का मतलब है। ड्राइवर के बारे में, उसकी ड्राइविंग शैली, सड़कों के आसपास, अन्य कारों की आवाजाही। ऐसे डेटा की मात्रा 20-30 जीबी प्रति घंटे तक पहुंच जाती है;
आगे, यह जानकारी उपग्रह संचार एक केंद्रीय कंप्यूटर को प्रेषित किया जाता है जो इस डेटा को संसाधित करता है;
बड़े डेटा के आधार पर कि यह कंप्यूटर प्रक्रिया करता है, मानव रहित वाहन का एक मॉडल बनाया गया है।

वैसे, अगर Google बहुत बुरी तरह से कर रहा है और उनकी कारें हर समय दुर्घटनाओं में मिलती हैं, तो मस्क, इस तथ्य के कारण कि बड़े डेटा के साथ काम चल रहा है, चीजें बहुत बेहतर हैं, क्योंकि परीक्षण मॉडल बहुत अच्छे परिणाम दिखाते हैं।

लेकिन ... यह सब अर्थव्यवस्था के बारे में है। हम सभी लाभ के बारे में क्या हैं, हाँ लाभ के बारे में? बहुत बड़ी तारीख जो हल कर सकती है उसका कमाई और पैसे से कोई लेना-देना नहीं है।

Google आँकड़े, जो बड़े डेटा पर आधारित हैं, एक दिलचस्प बात दिखाते हैं।

इससे पहले कि डॉक्टर किसी निश्चित क्षेत्र में किसी बीमारी की महामारी की शुरुआत की घोषणा करते हैं, इस क्षेत्र में इस बीमारी के इलाज के लिए खोजों की संख्या काफी बढ़ जाती है।

इस प्रकार, डेटा और उनके विश्लेषण का सही अध्ययन भविष्यवाणियों का गठन कर सकता है और महामारी की शुरुआत की भविष्यवाणी कर सकता है (और, तदनुसार, इसकी रोकथाम) अधिकारियों और उनके कार्यों के निष्कर्ष की तुलना में बहुत तेज है।

रूस में आवेदन

हालांकि, रूस, हमेशा की तरह, थोड़ा धीमा हो जाता है। इसलिए, रूस में बड़े डेटा की परिभाषा 5 साल पहले नहीं देखी गई थी (मैं अब सामान्य कंपनियों के बारे में बात कर रहा हूं)।

और यह इस तथ्य के बावजूद है कि यह दुनिया में सबसे तेजी से बढ़ते बाजारों में से एक है (ड्रग्स और हथियार बगैर किसी हद तक धूम्रपान करते हैं), क्योंकि हर साल बड़े डेटा एकत्र करने और विश्लेषण करने के लिए सॉफ्टवेयर का बाजार 32% बढ़ रहा है।

रूस में बड़े डेटा बाजार का वर्णन करने के लिए, मुझे एक पुराना मजाक याद दिलाया गया है। बड़ी डेट 18 से कम उम्र की सेक्स जैसी है। हर कोई इसके बारे में बात कर रहा है, इसके चारों ओर बहुत अधिक प्रचार और थोड़ी वास्तविक कार्रवाई है, और हर कोई यह स्वीकार करने में शर्मिंदा है कि वे खुद ऐसा नहीं कर रहे हैं। वास्तव में, इसके आसपास बहुत अधिक प्रचार है, लेकिन थोड़ा वास्तविक कार्रवाई।

हालांकि प्रसिद्ध शोध कंपनी गार्टनर ने 2015 में घोषणा की कि बड़ी तारीख अब बढ़ती प्रवृत्ति (जैसे, कृत्रिम बुद्धिमत्ता) नहीं है, लेकिन उन्नत प्रौद्योगिकियों के विश्लेषण और विकास के लिए काफी स्वतंत्र उपकरण हैं।

सबसे सक्रिय niches जहां रूस में बड़े डेटा का उपयोग किया जाता है वे बैंक / बीमा हैं (बिना कारण मैंने इस लेख को Sberbank के प्रमुख के साथ शुरू किया), दूरसंचार, खुदरा, अचल संपत्ति और ... सार्वजनिक क्षेत्र।

एक उदाहरण के रूप में, मैं आपको कुछ ऐसे आर्थिक क्षेत्रों के बारे में विस्तार से बताऊंगा जो बड़े डेटा एल्गोरिदम का उपयोग करते हैं।

1. बैंक

आइए बैंकों और हमारे और हमारे कार्यों के बारे में जानकारी एकत्र करने के साथ शुरू करें। उदाहरण के लिए, मैंने TOP-5 रूसी बैंकों को लिया जो सक्रिय रूप से बड़े डेटा में निवेश करते हैं:

सर्बैंक;
गजप्रॉमबैंक;
वीटीबी 24;
अल्फ़ा बैंक;
टिंकफॉफ बैंक।

रूसी नेताओं के बीच अल्फा बैंक को देखना विशेष रूप से सुखद है। बहुत कम से कम, यह जानना अच्छा है कि बैंक, जिनमें से आप एक आधिकारिक भागीदार हैं, अपनी कंपनी में नए विपणन उपकरण पेश करने की आवश्यकता को समझता है।

लेकिन मैं बैंक पर बड़े डेटा के उपयोग और सफल कार्यान्वयन के उदाहरण दिखाना चाहता हूं, जो मुझे अपने संस्थापक के गैर-मानक रूप और कार्यों के लिए पसंद है।

मैं Tinkoff बैंक के बारे में बात कर रहा हूँ। उनका मुख्य कार्य बढ़ते ग्राहक आधार के कारण वास्तविक समय में बड़े डेटा के विश्लेषण के लिए एक प्रणाली विकसित करना था।

परिणाम: आंतरिक प्रक्रियाओं का समय कम से कम 10 गुना कम हो गया था, और कुछ के लिए - 100 से अधिक बार।

खैर, थोड़ा ध्यान भटका। क्या आप जानते हैं कि मैंने ओलेग टिंकोव की गैर-मानक हरकतों और कार्यों के बारे में क्यों बात करना शुरू कर दिया। यह सिर्फ इतना है कि, मेरी राय में, यह वे थे जिन्होंने उन्हें एक औसत व्यवसायी से बदलने में मदद की, जिनमें से रूस में हजारों प्रसिद्ध और पहचानने वाले उद्यमियों में से एक हैं। यह साबित करने के लिए, यह असामान्य और दिलचस्प वीडियो देखें:

2. संपत्ति

अचल संपत्ति में, सब कुछ बहुत अधिक जटिल है। और यह बिल्कुल वही उदाहरण है जो मैं आपको साधारण व्यवसाय के भीतर बड़ी तारीखों को समझने के लिए देना चाहता हूं। प्रारंभिक आंकड़े:

बड़ी मात्रा में शाब्दिक प्रलेखन;
खुला स्रोत (पृथ्वी परिवर्तन डेटा प्रसारित करने वाले निजी उपग्रह);
इंटरनेट पर अनियंत्रित जानकारी की एक बड़ी मात्रा;
स्रोतों और डेटा में लगातार परिवर्तन।

और इसके आधार पर, एक यूराल गांव के पास, उदाहरण के लिए, एक भूमि भूखंड के मूल्य को तैयार करना और उसका आकलन करना आवश्यक है। एक सप्ताह में एक पेशेवर लगेगा।

रूसी समाज के मूल्यांकनकर्ता और ROSEKO, जो वास्तव में सॉफ्टवेयर का उपयोग करके बड़े डेटा विश्लेषण को लागू कर चुके हैं, को 30 मिनट से अधिक के आराम से काम नहीं करेगा। तुलना करें, सप्ताह और 30 मिनट। एक बड़ा अंतर।

निर्माण उपकरण

बेशक, बड़ी मात्रा में जानकारी को सरल हार्ड ड्राइव पर संग्रहीत और संसाधित नहीं किया जा सकता है।

तथा सॉफ्टवेयरडेटा और डेटा का विश्लेषण आमतौर पर बौद्धिक संपदा है और हर बार यह संलेखन है। हालांकि, ऐसे उपकरण हैं जिनके आधार पर यह सब सौंदर्य बनाया जाता है:

Hadoop & MapReduce;
NoSQL डेटाबेस;
डेटा डिस्कवरी वर्ग उपकरण।

ईमानदार होने के लिए, मैं आपको स्पष्ट रूप से यह समझाने में सक्षम नहीं होगा कि वे एक-दूसरे से कैसे भिन्न हैं, क्योंकि परिचित और काम इन चीजों के साथ भौतिकी और गणित संस्थानों में पढ़ाया जाता है।

अगर मैं समझा नहीं सकता तो मैंने इसके बारे में बात क्यों शुरू की? याद रखें, सभी फिल्मों में, लुटेरे किसी भी बैंक में प्रवेश करते हैं और तारों से जुड़े लोहे के सभी प्रकार के टुकड़ों की एक बड़ी संख्या देखते हैं? वही बड़ी तारीख के लिए जाता है। उदाहरण के लिए, यहां एक मॉडल है जो वर्तमान में बाजार के नेताओं में से एक है।

बिग डेट टूल

अधिकतम कॉन्फ़िगरेशन में लागत प्रति रैक 27 मिलियन रूबल तक पहुंचती है। यह, निश्चित रूप से, डीलक्स संस्करण है। मैं चाहता हूं कि आप अपने व्यवसाय में पहले से बड़े डेटा के निर्माण पर प्रयास करें।

संक्षेप में मुख्य के बारे में

आप पूछ सकते हैं कि आपको, छोटे और मध्यम आकार के व्यवसायों को बड़े डेटा के साथ काम करने की आवश्यकता क्यों है?

इसके लिए, मैं आपको एक व्यक्ति के एक उद्धरण के साथ जवाब दूंगा: "निकट भविष्य में, ग्राहकों की कंपनियों के लिए मांग होगी कि वे अपने व्यवहार, आदतों को बेहतर ढंग से समझें और जितना संभव हो उतना मेल खाएं।"

लेकिन इसका सामना करते हैं। एक छोटे व्यवसाय में बड़े डेटा को लागू करने के लिए, सॉफ़्टवेयर के विकास और कार्यान्वयन के लिए न केवल बड़े बजट का होना आवश्यक है, बल्कि विशेषज्ञों के रखरखाव के लिए भी, कम से कम ऐसे बड़े डेटा विश्लेषक और सिस्टम प्रशासक के रूप में।

और अब मैं इस तथ्य के बारे में चुप हूं कि आपके पास प्रसंस्करण के लिए ऐसा डेटा होना चाहिए।

अच्छा जी। छोटे व्यवसायों के लिए, विषय लगभग लागू नहीं है। लेकिन इसका मतलब यह नहीं है कि आपको वह सब कुछ भूलने की ज़रूरत है जो आप ऊपर पढ़ते हैं। बस अपने स्वयं के डेटा का अध्ययन न करें, बल्कि प्रसिद्ध विदेशी और रूसी कंपनियों के डेटा विश्लेषण के परिणाम।

उदाहरण के लिए, बड़ी डेटा एनालिटिक्स का उपयोग करके टारगेट रिटेल चेन ने पाया कि गर्भवती महिलाओं को गर्भावस्था के दूसरे तिमाही से पहले (गर्भावस्था के 1 से 12 वें सप्ताह तक) सक्रिय रूप से गैर-सुगंधित उत्पाद खरीदते हैं।

इस डेटा के लिए धन्यवाद, वे उन्हें सीमित अवधि के लिए अप्रभावित उत्पादों के लिए डिस्काउंट कूपन भेजते हैं।

और अगर आप एक बहुत छोटा कैफे हैं, उदाहरण के लिए? यह बहुत सरल है। एक वफादारी एप्लिकेशन का उपयोग करें। और थोड़ी देर के बाद और संचित जानकारी के लिए धन्यवाद, आप न केवल अपने ग्राहकों को उन व्यंजनों की पेशकश करने में सक्षम होंगे जो उनकी जरूरतों के लिए प्रासंगिक हैं, बल्कि कुछ ही क्लिकों में सबसे अनसोल्ड और सबसे सीमांत व्यंजन देखने के लिए भी।

इसलिए निष्कर्ष। छोटा व्यवसाय शायद ही बड़े डेटा को लागू करने के लायक है, लेकिन अन्य कंपनियों के परिणामों और विकास का उपयोग करना आवश्यक है।