विश्लेषणात्मक डेटा प्रोसेसिंग के लिए वेब-अनुप्रयोगों के विकास के लिए सॉफ्टवेयर प्रौद्योगिकियों की समीक्षा और विश्लेषण। निर्णय लेने का समर्थन करने के लिए विश्लेषणात्मक डेटा प्रोसेसिंग के तरीके परिचालन विश्लेषणात्मक डेटा प्रोसेसिंग की तकनीक

३.४ विश्लेषणात्मक डेटा प्रोसेसिंग के तरीके

मौजूदा डेटा वेयरहाउस के लिए प्रबंधन निर्णयों को अपनाने की सुविधा के लिए, जानकारी को आवश्यक रूप में विश्लेषक को प्रस्तुत किया जाना चाहिए, अर्थात, उसके पास वेयरहाउस में डेटा तक पहुंचने और संसाधित करने के लिए विकसित उपकरण होने चाहिए।

बहुत बार, निर्णय निर्माताओं द्वारा प्रत्यक्ष उपयोग की अपेक्षा के साथ बनाई गई सूचना और विश्लेषणात्मक प्रणाली का उपयोग करना बेहद आसान है, लेकिन कार्यक्षमता में गंभीर रूप से सीमित है। ऐसी स्थैतिक प्रणालियों को कहा जाता है सूचना प्रणालियोंहेड (ईआईएस), या कार्यकारी सूचना प्रणाली (ईआईएस)। उनमें कई प्रश्न होते हैं और दैनिक समीक्षा के लिए पर्याप्त होने के कारण, निर्णय लेते समय उत्पन्न होने वाले सभी प्रश्नों का उत्तर देने में असमर्थ होते हैं। ऐसी प्रणाली के काम का परिणाम, एक नियम के रूप में, बहु-पृष्ठ रिपोर्ट है, सावधानीपूर्वक अध्ययन के बाद, जो विश्लेषक के पास प्रश्नों की एक नई श्रृंखला है। हालांकि, इस तरह के सिस्टम के डिजाइन में हर नए अनुरोध को पहले औपचारिक रूप से वर्णित नहीं किया जाना चाहिए, प्रोग्रामर द्वारा कोडित किया जाना चाहिए, और उसके बाद ही निष्पादित किया जाना चाहिए। इस मामले में प्रतीक्षा समय घंटे और दिन हो सकता है, जो हमेशा स्वीकार्य नहीं होता है।

ऑनलाइन विश्लेषणात्मक प्रक्रिया... या ऑन-लाइन एनालिटिकल प्रोसेसिंग, OLAP डेटा वेयरहाउसिंग संगठन का एक प्रमुख घटक है। OLAP अवधारणा को 1993 में एडगर कोड द्वारा वर्णित किया गया था और इसमें बहुभिन्नरूपी विश्लेषण अनुप्रयोगों के लिए निम्नलिखित आवश्यकताएं हैं:

- डेटा का बहुआयामी वैचारिक प्रतिनिधित्व, जिसमें पदानुक्रम और कई पदानुक्रम (OLAP की एक प्रमुख आवश्यकता) के लिए पूर्ण समर्थन शामिल है;

- कम विस्तृत विश्लेषण की कीमत पर भी उपयोगकर्ता को उचित समय (आमतौर पर 5 सेकंड से अधिक नहीं) में विश्लेषण परिणाम प्रदान करना;

- की किसी भी तार्किक और सांख्यिकीय विश्लेषण विशेषता को अंजाम देने की क्षमता इस आवेदन के, और इसे अंतिम उपयोगकर्ता के लिए सुलभ रूप में सहेजना;

- उपयुक्त लॉकिंग तंत्र और अधिकृत पहुंच साधनों के समर्थन से डेटा तक बहु-उपयोगकर्ता पहुंच;

- इसकी मात्रा और भंडारण स्थान की परवाह किए बिना किसी भी आवश्यक जानकारी तक पहुंचने की क्षमता।

एक OLAP सिस्टम में कई घटक होते हैं। प्रस्तुति के उच्चतम स्तर पर, सिस्टम में एक डेटा स्रोत, एक बहुआयामी डेटाबेस (MDB) शामिल होता है जो OLAP तकनीक, एक OLAP सर्वर और एक क्लाइंट पर आधारित रिपोर्टिंग इंजन को लागू करने की क्षमता प्रदान करता है। सिस्टम क्लाइंट-सर्वर सिद्धांत पर बनाया गया है और एमडीबी सर्वर को दूरस्थ और बहु-उपयोगकर्ता पहुंच प्रदान करता है।

OLAP सिस्टम के घटकों पर विचार करें।

स्रोत। OLAP सिस्टम में स्रोत सर्वर है जो विश्लेषण के लिए डेटा की आपूर्ति करता है। OLAP उत्पाद के उपयोग के दायरे के आधार पर, स्रोत एक डेटा वेयरहाउस हो सकता है, एक विरासत में मिला डेटाबेस जिसमें सामान्य डेटा, एक सेट हो सकता है

वित्तीय डेटा, या उपरोक्त के किसी भी संयोजन को मिलाने वाली तालिकाएँ।

डेटा भंडार. कच्चे डेटा को डेटा गोदामों के निर्माण के सिद्धांतों के अनुसार डिजाइन किए गए भंडार में एकत्र और संग्रहीत किया जाता है। HD एक रिलेशनल डेटाबेस (RDB) है। मुख्य सीडी तालिका (तथ्य तालिका) में संकेतकों के संख्यात्मक मान होते हैं जिसके लिए सांख्यिकीय जानकारी एकत्र की जाती है।

बहुआयामी डेटाबेसडेटा स्टोर एक बहुआयामी डेटाबेस के लिए सूचना प्रदाता के रूप में कार्य करता है, जो वस्तुओं का एक संग्रह है। इन वस्तुओं के मुख्य वर्ग आयाम और माप हैं। आयामों में मानों (पैरामीटर) के सेट शामिल होते हैं जिनके द्वारा डेटा अनुक्रमित किया जाता है, उदाहरण के लिए, समय, क्षेत्र, संस्थान का प्रकार, आदि। प्रत्येक आयाम डेटा वेयरहाउस के संबंधित आयाम तालिकाओं के मानों से भरा होता है। माप का सेट जांच की गई प्रक्रिया के स्थान को परिभाषित करता है। माप बहुआयामी डेटा क्यूब (हाइपरक्यूब) हैं। हाइपरक्यूब में स्वयं डेटा होता है, साथ ही उन आयामों के लिए कुल मात्रा होती है जो संकेतक का हिस्सा होते हैं। संकेतक एमडीबी की मुख्य सामग्री का गठन करते हैं और तथ्य तालिका के अनुसार भरे जाते हैं। हाइपरक्यूब के प्रत्येक अक्ष के साथ, डेटा को एक पदानुक्रम में व्यवस्थित किया जा सकता है जो विवरण के विभिन्न स्तरों का प्रतिनिधित्व करता है। यह आपको पदानुक्रमित आयाम बनाने की अनुमति देता है, जिसका उपयोग बाद के डेटा विश्लेषण के दौरान डेटा प्रस्तुति पर एकत्रित या ड्रिल करने के लिए किया जाएगा। एक पदानुक्रमित आयाम का एक विशिष्ट उदाहरण जिलों, क्षेत्रों, जिलों द्वारा समूहीकृत क्षेत्रीय वस्तुओं की एक सूची है।

सर्वर। OLAP सर्वर OLAP सिस्टम का अनुप्रयुक्त भाग है। यह घटक सभी कार्य करता है (सिस्टम मॉडल के आधार पर), और अपने आप में उन सभी सूचनाओं को संग्रहीत करता है जिन तक सक्रिय पहुंच प्रदान की जाती है। सर्वर आर्किटेक्चर विभिन्न अवधारणाओं द्वारा शासित होता है। विशेष रूप से, OLAP उत्पादों की मुख्य कार्यात्मक विशेषता डेटा भंडारण के लिए MDB या RDB का उपयोग है।

ग्राहक आवेदन. तदनुसार संरचित और एमडीबी में संग्रहीत डेटा क्लाइंट एप्लिकेशन का उपयोग करके विश्लेषण के लिए उपलब्ध है। उपयोगकर्ता को अवसर मिलता है दूरदराज का उपयोगडेटा के लिए, जटिल प्रश्नों को तैयार करना, रिपोर्ट तैयार करना, डेटा के मनमाने उपसमुच्चय प्राप्त करना। एक रिपोर्ट प्राप्त करना विशिष्ट माप मूल्यों के चयन और हाइपरक्यूब के एक खंड के निर्माण के लिए कम हो जाता है। क्रॉस सेक्शन चयनित माप मानों द्वारा निर्धारित किया जाता है। शेष आयामों के डेटा को संक्षेप में प्रस्तुत किया गया है।

OLAPक्लाइंट और सर्वर पर।बहुआयामी डेटा विश्लेषण विभिन्न उपकरणों का उपयोग करके किया जा सकता है, जिन्हें सशर्त रूप से क्लाइंट और सर्वर OLAP टूल में विभाजित किया जा सकता है।

OLAP क्लाइंट टूल (उदाहरण के लिए, Microsoft से Excel 2000 में Pivot Tables या Knosys से ProClarity) ऐसे अनुप्रयोग हैं जो समग्र डेटा की गणना और प्रदर्शन करते हैं। इस मामले में, कुल डेटा स्वयं ऐसे OLAP उपकरण के पता स्थान के अंदर कैश में समाहित होता है।

यदि स्रोत डेटा डेस्कटॉप DBMS में समाहित है, तो कुल डेटा की गणना OLAP टूल द्वारा ही की जाती है। यदि मूल डेटा का स्रोत एक सर्वर DBMS है, तो कई क्लाइंट OLAP टूल सर्वर को SQL क्वेरी भेजते हैं और परिणामस्वरूप, सर्वर पर परिकलित कुल डेटा प्राप्त करते हैं।

आमतौर पर, OLAP कार्यक्षमता सांख्यिकीय डेटा प्रोसेसिंग टूल और कुछ स्प्रेडशीट में कार्यान्वित की जाती है।

कई विकास उपकरणों में कक्षाओं या घटकों के पुस्तकालय होते हैं जो आपको ऐसे एप्लिकेशन बनाने की अनुमति देते हैं जो सबसे सरल OLAP कार्यक्षमता को लागू करते हैं (जैसे कि बोरलैंड डेल्फी और बोरलैंड C ++ बिल्डर में निर्णय क्यूब घटक)। इसके अलावा, कई कंपनियां ActiveX नियंत्रण और अन्य पुस्तकालय प्रदान करती हैं जो समान कार्यक्षमता प्रदान करती हैं।

क्लाइंट OLAP टूल का उपयोग, एक नियम के रूप में, कम संख्या में आयामों (आमतौर पर छह से अधिक नहीं) और इन मापदंडों के लिए मूल्यों की एक छोटी विविधता के साथ किया जाता है - क्योंकि प्राप्त कुल डेटा को ऐसे टूल के एड्रेस स्पेस में फिट होना चाहिए। , और आयामों की संख्या में वृद्धि के साथ उनकी संख्या तेजी से बढ़ती है।

कई क्लाइंट OLAP टूल आपको फ़ाइल के रूप में समग्र डेटा के साथ कैश की सामग्री को सहेजने की अनुमति देते हैं ताकि उन्हें पुनर्गणना न किया जा सके। हालांकि, इस अवसर का उपयोग अक्सर अन्य संगठनों को स्थानांतरित करने या प्रकाशन के लिए समग्र डेटा को अलग करने के लिए किया जाता है।

किसी फ़ाइल में कुल डेटा के साथ कैश को संग्रहीत करने का विचार प्राप्त हुआ आगामी विकाशसर्वर OLAP टूल्स में (उदाहरण के लिए, Oracle एक्सप्रेस सर्वर या Microsoft OLAP सर्विसेज), जिसमें कुल डेटा का भंडारण और संशोधन, साथ ही साथ उस स्टोरेज का रखरखाव जिसमें उन्हें शामिल किया जाता है, एक अलग एप्लिकेशन या प्रक्रिया द्वारा किया जाता है जिसे OLAP कहा जाता है। सर्वर। क्लाइंट एप्लिकेशन ऐसे बहुआयामी भंडारण का अनुरोध कर सकते हैं और प्रतिक्रिया में कुछ डेटा प्राप्त कर सकते हैं। कुछ क्लाइंट एप्लिकेशन ऐसे रिपोजिटरी भी बना सकते हैं या बदले हुए स्रोत डेटा के अनुसार उन्हें अपडेट कर सकते हैं।

क्लाइंट OLAP टूल की तुलना में सर्वर OLAP टूल का उपयोग करने के लाभ डेस्कटॉप टूल की तुलना में सर्वर DBMS के उपयोग के लाभों के समान हैं: सर्वर टूल का उपयोग करने के मामले में, कुल डेटा की गणना और सर्वर पर संग्रहीत किया जाता है, और क्लाइंट एप्लिकेशन केवल प्राप्त करता है उनके लिए प्रश्नों के परिणाम, जो सामान्य रूप से, नेटवर्क ट्रैफ़िक को कम करने, क्वेरी निष्पादन समय और क्लाइंट एप्लिकेशन के लिए संसाधन आवश्यकताओं को कम करने की अनुमति देता है।

3.5 बहुआयामी डेटा भंडारण के तकनीकी पहलू

OLAP अनुप्रयोगों में बहुआयामीता को तीन स्तरों में विभाजित किया जा सकता है:

1... बहुआयामी डेटा प्रतिनिधित्व- अंत-उपयोगकर्ता उपकरण जो बहुआयामी विज़ुअलाइज़ेशन और डेटा हेरफेर प्रदान करते हैं; एमडीआई परत भौतिक डेटा संरचना से सारगर्भित होती है और डेटा को बहुआयामी के रूप में मानती है।

    बहुआयामी प्रसंस्करण- बहुआयामी प्रश्नों को तैयार करने के लिए एक उपकरण (भाषा) (पारंपरिक संबंधपरक SQL भाषा यहां अनुपयुक्त हो जाती है) और एक प्रोसेसर जो ऐसी क्वेरी को संसाधित और निष्पादित कर सकता है।

    बहुआयामी भंडारण- डेटा के भौतिक संगठन के साधन, बहुआयामी प्रश्नों के कुशल निष्पादन को सुनिश्चित करना।

सभी OLAP टूल में पहले दो स्तर अनिवार्य हैं। तीसरे स्तर, हालांकि व्यापक, की आवश्यकता नहीं है, क्योंकि बहुआयामी दृश्य के डेटा को सामान्य संबंधपरक संरचनाओं से भी पुनर्प्राप्त किया जा सकता है। बहुआयामी क्वेरी प्रोसेसर, इस मामले में, बहुआयामी प्रश्नों को SQL क्वेरी में अनुवादित करता है जो रिलेशनल डीबीएमएस द्वारा निष्पादित होते हैं।

किसी भी डेटा वेयरहाउस में - पारंपरिक और बहुआयामी दोनों - परिचालन प्रणालियों से प्राप्त विस्तृत डेटा के साथ, समेकित संकेतक (सारांश संकेतक) भी संग्रहीत किए जाते हैं, जैसे कि महीने के अनुसार बिक्री की मात्रा का योग, उत्पाद श्रेणी द्वारा, आदि। समुच्चय को स्पष्ट रूप से संग्रहीत किया जाता है प्रश्नों को तेज करने का एकमात्र उद्देश्य। दरअसल, एक तरफ, एक नियम के रूप में, गोदाम में बहुत बड़ी मात्रा में डेटा जमा होता है, और दूसरी तरफ, ज्यादातर मामलों में विश्लेषकों की दिलचस्पी विस्तृत नहीं, बल्कि सामान्यीकृत संकेतकों में होती है। और अगर वार्षिक बिक्री की गणना करने के लिए हर बार लाखों व्यक्तिगत बिक्री का योग करना पड़ता है, तो गति सबसे अधिक अस्वीकार्य होगी। इसलिए, जब एक बहुआयामी डेटाबेस में डेटा लोड किया जाता है, तो सभी सारांश संकेतक या उनके हिस्से की गणना की जाती है और उन्हें सहेजा जाता है।

हालांकि, एकत्रित डेटा का उपयोग नुकसान से भरा है। मुख्य नुकसान संग्रहीत जानकारी की मात्रा में वृद्धि है (जब नए आयाम जोड़े जाते हैं, तो क्यूब बनाने वाले डेटा की मात्रा तेजी से बढ़ती है) और उन्हें लोड करने में लगने वाला समय। इसके अलावा, जानकारी की मात्रा दसियों या सैकड़ों गुना भी बढ़ सकती है। उदाहरण के लिए, प्रकाशित मानक परीक्षणों में से एक में, 10 एमबी कच्चे डेटा के लिए कुल मिलाकर 2.4 जीबी की आवश्यकता थी, यानी डेटा 240 गुना बढ़ गया!

समुच्चय की गणना करते समय डेटा की मात्रा किस हद तक बढ़ जाती है, यह घन में आयामों की संख्या और इन आयामों की संरचना पर निर्भर करता है, अर्थात आयाम के विभिन्न स्तरों पर "माता-पिता" और "वंशजों" की संख्या का अनुपात। समुच्चय को संग्रहीत करने की समस्या को हल करने के लिए, जटिल योजनाओं का उपयोग किया जाता है, जो क्वेरी प्रदर्शन में उल्लेखनीय वृद्धि प्राप्त करने के लिए, सभी संभावित समुच्चय से दूर की गणना करते समय अनुमति देते हैं।

प्रारंभिक और समग्र डेटा दोनों को या तो में संग्रहीत किया जा सकता है

संबंधपरक, या बहुआयामी संरचनाओं में। इस संबंध में, वर्तमान में बहुआयामी डेटा संग्रहीत करने के तीन तरीकों का उपयोग किया जाता है:

मोलाप (बहुआयामी OLAP) - स्रोत और समग्र डेटा एक बहुआयामी डेटाबेस में संग्रहीत किया जाता है। बहुआयामी संरचनाओं में डेटा संग्रहीत करना आपको एक बहुआयामी सरणी के रूप में डेटा में हेरफेर करने की अनुमति देता है, ताकि किसी भी आयाम के लिए कुल मूल्यों की गणना की गति समान हो। हालाँकि, इस मामले में, बहुआयामी डेटाबेस बेमानी हो जाता है, क्योंकि बहुआयामी डेटा में पूरी तरह से मूल संबंधपरक डेटा होता है।

ये सिस्टम OLAP प्रोसेसिंग का एक पूरा चक्र प्रदान करते हैं। वे या तो सर्वर घटक के अलावा, अपने स्वयं के एकीकृत क्लाइंट इंटरफ़ेस को शामिल करते हैं, या उपयोगकर्ता के साथ संवाद करने के लिए बाहरी स्प्रेडशीट प्रोग्राम का उपयोग करते हैं।

रोलाप (रिलेशनल OLAP) - मूल डेटा उसी रिलेशनल डेटाबेस में रहता है जहाँ वह मूल रूप से स्थित था। समेकित डेटा को विशेष रूप से उसी डेटाबेस में उनके भंडारण के लिए बनाई गई सेवा तालिकाओं में रखा जाता है।

होलाप (हाइब्रिड OLAP) - मूल डेटा उसी रिलेशनल डेटाबेस में रहता है जहाँ वह मूल रूप से स्थित था, और समग्र डेटा बहुआयामी डेटाबेस में संग्रहीत किया जाता है।

कुछ OLAP उपकरण केवल संबंधपरक संरचनाओं में डेटा संग्रहीत करने का समर्थन करते हैं, कुछ केवल बहुआयामी संरचनाओं में। हालाँकि, अधिकांश आधुनिक OLAP सर्वर-आधारित उपकरण डेटा संग्रहीत करने के सभी तीन तरीकों का समर्थन करते हैं। भंडारण विधि का चुनाव स्रोत डेटा के आकार और संरचना, प्रश्नों के निष्पादन की गति की आवश्यकताओं और OLAP क्यूब्स को अद्यतन करने की आवृत्ति पर निर्भर करता है।

3.6 डाटा माइनिंग (आंकड़ेखुदाई)

डेटा माइनिंग शब्द विभिन्न गणितीय और सांख्यिकीय एल्गोरिदम के माध्यम से सहसंबंधों, प्रवृत्तियों और संबंधों को खोजने की प्रक्रिया को दर्शाता है: निर्णय समर्थन प्रणालियों के लिए क्लस्टरिंग, प्रतिगमन और सहसंबंध विश्लेषण, आदि। इस मामले में, संचित जानकारी स्वचालित रूप से उस जानकारी के लिए सामान्यीकृत होती है जिसे ज्ञान के रूप में वर्णित किया जा सकता है।

आधुनिक डेटा माइनिंग तकनीक टेम्प्लेट की अवधारणा पर आधारित है जो डेटा उप-नमूनों में निहित पैटर्न को दर्शाती है और तथाकथित छिपे हुए ज्ञान का गठन करती है।

पैटर्न की खोज उन तरीकों का उपयोग करके की जाती है जो इन उप-नमूनों के बारे में किसी भी प्राथमिक धारणा का उपयोग नहीं करते हैं। डेटा माइनिंग की एक महत्वपूर्ण विशेषता मांगे गए पैटर्न की गैर-मानक और गैर-स्पष्टता है। दूसरे शब्दों में, डेटा माइनिंग टूल सांख्यिकीय डेटा प्रोसेसिंग टूल और OLAP टूल से भिन्न होते हैं, बजाय इसके कि उपयोगकर्ताओं द्वारा पहले से ग्रहण किए गए संबंधों की जाँच की जाए।

उपलब्ध आंकड़ों के आधार पर, वे स्वतंत्र रूप से ऐसे संबंधों को खोजने में सक्षम होते हैं, साथ ही साथ अपनी प्रकृति के बारे में परिकल्पना भी बनाते हैं।

सामान्य तौर पर, डेटा माइनिंग प्रक्रिया में तीन चरण होते हैं

    पैटर्न की पहचान (मुफ्त खोज);

    अज्ञात मूल्यों (भविष्य कहनेवाला मॉडलिंग) की भविष्यवाणी करने के लिए प्रकट पैटर्न का उपयोग करना;

    पाए गए पैटर्न में विसंगतियों की पहचान और व्याख्या करने के लिए डिज़ाइन किए गए अपवादों का विश्लेषण।

कभी-कभी, उनके खोज और उपयोग (सत्यापन के चरण) के बीच पाए गए पैटर्न की विश्वसनीयता की जांच करने का एक मध्यवर्ती चरण स्पष्ट रूप से प्रतिष्ठित होता है।

डेटा माइनिंग विधियों द्वारा पहचाने गए पाँच मानक प्रकार के पैटर्न हैं:

1. संघआपको वस्तुओं के स्थिर समूहों का चयन करने की अनुमति देता है जिनके बीच स्पष्ट रूप से निर्दिष्ट लिंक हैं। किसी व्यक्तिगत वस्तु या वस्तुओं के समूह के घटित होने की आवृत्ति, जिसे प्रतिशत के रूप में व्यक्त किया जाता है, व्यापकता कहलाती है। कम प्रसार दर (प्रतिशत के एक हजारवें हिस्से से कम) से पता चलता है कि ऐसा जुड़ाव महत्वपूर्ण नहीं है। संघों को नियमों के रूप में लिखा जाता है: => बी, कहां ए -पैकेज, वी -परिणाम। प्रत्येक प्राप्त संघ नियम के महत्व को निर्धारित करने के लिए, मूल्य की गणना करना आवश्यक है, जिसे विश्वास कहा जाता है प्रति वी(या संबंध ए और बी)।आत्मविश्वास दिखाता है कि कितनी बार दिखाई पड़ना वीउदाहरण के लिए, यदि घ (ए / बी)= 20%, इसका मतलब है कि उत्पाद खरीदते समय हर पांचवें मामले में सामान भी खरीदा जाता है वी

एसोसिएशन के उपयोग का एक विशिष्ट उदाहरण खरीद की संरचना का विश्लेषण है। उदाहरण के लिए, सुपरमार्केट में अध्ययन करते समय, यह स्थापित किया जा सकता है कि आलू के चिप्स खरीदने वालों में से 65% लोग कोका-कोला भी लेते हैं, और यदि ऐसे सेट के लिए छूट है, तो 85% मामलों में कोला खरीदा जाता है। ये परिणाम मार्केटिंग रणनीतियों को आकार देने में महत्वपूर्ण हैं।

2. अनुक्रम - यह समय में संघों की पहचान करने की एक विधि है। इस मामले में, नियमों को परिभाषित किया जाता है जो घटनाओं के कुछ समूहों की क्रमिक घटना का वर्णन करते हैं। लिपियों के निर्माण के लिए ऐसे नियम आवश्यक हैं। इसके अलावा, उनका उपयोग किया जा सकता है, उदाहरण के लिए, पूर्व बिक्री का एक विशिष्ट सेट बनाने के लिए जो किसी विशेष उत्पाद की बाद की बिक्री में शामिल हो सकता है।

3.वर्गीकरण - सामान्यीकरण उपकरण। यह आपको एकल वस्तुओं पर विचार करने से सामान्यीकृत अवधारणाओं तक जाने की अनुमति देता है जो वस्तुओं के कुछ सेटों की विशेषता रखते हैं और इन सेटों (वर्गों) से संबंधित वस्तुओं को पहचानने के लिए पर्याप्त हैं। अवधारणा निर्माण प्रक्रिया का सार कक्षाओं में निहित पैटर्न को खोजना है। वस्तुओं का वर्णन करने के लिए कई अलग-अलग विशेषताओं (विशेषताओं) का उपयोग किया जाता है। फीचर विवरण के आधार पर अवधारणा निर्माण की समस्या एम.एम. द्वारा तैयार की गई थी। बोंगार्ट। इसका समाधान दो बुनियादी प्रक्रियाओं के अनुप्रयोग पर आधारित है: प्रशिक्षण और परीक्षण। प्रशिक्षण प्रक्रियाओं में, वस्तुओं के प्रशिक्षण सेट के प्रसंस्करण के आधार पर एक वर्गीकरण नियम बनाया जाता है। सत्यापन (परीक्षा) प्रक्रिया में एक नए (परीक्षा) नमूने से वस्तुओं को पहचानने के लिए प्राप्त वर्गीकरण नियम का उपयोग करना शामिल है। यदि परीक्षण के परिणाम संतोषजनक पाए जाते हैं, तो सीखने की प्रक्रिया समाप्त हो जाती है, अन्यथा पुन: सीखने की प्रक्रिया के दौरान वर्गीकरण नियम को परिष्कृत किया जाता है।

4 क्लस्टरिंग इन समूहों के एक साथ निर्धारण के साथ समूहों (समूहों) या खंडों में डेटाबेस से सूचना (रिकॉर्ड) का वितरण है। वर्गीकरण के विपरीत, यहां, विश्लेषण के लिए, कक्षाओं के प्रारंभिक असाइनमेंट की आवश्यकता नहीं है।

5 बार श्रृंखला पूर्वानुमान समय के साथ विचाराधीन वस्तुओं की विशेषताओं में परिवर्तन की प्रवृत्तियों को निर्धारित करने के लिए एक उपकरण है। समय श्रृंखला के व्यवहार का विश्लेषण अध्ययन की गई विशेषताओं के मूल्यों की भविष्यवाणी करना संभव बनाता है।

ऐसी समस्याओं को हल करने के लिए, विभिन्न डेटा माइनिंग विधियों और एल्गोरिदम का उपयोग किया जाता है। इस तथ्य के कारण कि डेटा माइनिंग ने सांख्यिकी, सूचना सिद्धांत, मशीन लर्निंग, डेटाबेस सिद्धांत जैसे विषयों के चौराहे पर विकसित और विकसित किया है, यह काफी स्वाभाविक है कि इन विषयों से विभिन्न तरीकों के आधार पर अधिकांश डेटा माइनिंग एल्गोरिदम और तरीके विकसित किए गए थे।

मौजूदा डेटा माइनिंग विधियों की विविधता से, निम्नलिखित को प्रतिष्ठित किया जा सकता है:

    प्रतिगमन, विचरण और सहसंबंध विश्लेषण(अधिकांश आधुनिक सांख्यिकीय पैकेजों में लागू, विशेष रूप से, एसएएस संस्थान, स्टेटसॉफ्ट, आदि कंपनियों के उत्पादों में);

    विश्लेषण के तरीकेएक विशिष्ट विषय क्षेत्र में, अनुभवजन्य मॉडल के आधार पर (अक्सर उपयोग किया जाता है, उदाहरण के लिए, सस्ती वित्तीय विश्लेषण उपकरण में);

    तंत्रिका नेटवर्क एल्गोरिदम- प्रक्रियाओं और घटनाओं को अनुकरण करने की एक विधि जो जटिल निर्भरताओं को पुन: उत्पन्न करने की अनुमति देती है। विधि एक जैविक मस्तिष्क के सरलीकृत मॉडल के उपयोग पर आधारित है और इस तथ्य में शामिल है कि प्रारंभिक मापदंडों को संकेतों के रूप में माना जाता है जो "न्यूरॉन्स" के बीच मौजूदा कनेक्शन के अनुसार परिवर्तित होते हैं, और पूरे नेटवर्क की प्रतिक्रिया होती है प्रारंभिक डेटा को विश्लेषण के परिणामस्वरूप प्रतिक्रिया के रूप में माना जाता है। इस मामले में, प्रारंभिक डेटा और सही उत्तर दोनों वाले बड़े नमूने के माध्यम से तथाकथित नेटवर्क प्रशिक्षण का उपयोग करके कनेक्शन बनाए जाते हैं। वर्गीकरण समस्याओं को हल करने के लिए तंत्रिका नेटवर्क का व्यापक रूप से उपयोग किया जाता है;

    फजी लॉजिकडेटा को फ़ज़ी ट्रुथ मानों के साथ संसाधित करने के लिए उपयोग किया जाता है जिसे विभिन्न भाषाई चर द्वारा दर्शाया जा सकता है। अस्पष्ट ज्ञान प्रतिनिधित्व का व्यापक रूप से वर्गीकरण और पूर्वानुमान समस्याओं को हल करने के लिए उपयोग किया जाता है, उदाहरण के लिए, XpertRule माइनर सिस्टम (अटार सॉफ्टवेयर लिमिटेड, यूके), साथ ही साथ AIS, NeuFuz, आदि में।

    आगमनात्मक सुरागआपको डेटाबेस में संग्रहीत तथ्यों के सामान्यीकरण प्राप्त करने की अनुमति देता है। आगमनात्मक सीखने की प्रक्रिया में, परिकल्पना की आपूर्ति करने वाला एक विशेषज्ञ शामिल हो सकता है। इसे पर्यवेक्षित शिक्षण कहा जाता है। सामान्यीकरण नियमों की खोज एक शिक्षक के बिना स्वतः ही परिकल्पना उत्पन्न करके की जा सकती है। आधुनिक सॉफ्टवेयर में, एक नियम के रूप में, दोनों विधियों को संयुक्त किया जाता है, और परिकल्पना का परीक्षण करने के लिए सांख्यिकीय विधियों का उपयोग किया जाता है। आगमनात्मक लीड का उपयोग करने वाली एक प्रणाली का एक उदाहरण अत्तर सॉफ्टवेयर लिमिटेड द्वारा विकसित XpertRule Miner है। (यूनाइटेड किंगडम);

    तर्क के आधार पर इसी तरह के मामले("निकटतम पड़ोसी" विधि) (केस-आधारित तर्क - सीबीआर) उन स्थितियों के लिए डेटाबेस में खोज पर आधारित हैं, जिनका विवरण किसी स्थिति में कई विशेषताओं के समान है। सादृश्य का सिद्धांत हमें यह मानने की अनुमति देता है कि समान स्थितियों के परिणाम भी एक दूसरे के करीब होंगे। इस दृष्टिकोण का नुकसान यह है कि यह कोई मॉडल या नियम नहीं बनाता है जो पिछले अनुभव को सामान्यीकृत करता है। इसके अलावा, आउटपुट परिणामों की विश्वसनीयता परिस्थितियों के विवरण की पूर्णता पर निर्भर करती है, जैसा कि आगमनात्मक अनुमान की प्रक्रियाओं में होता है। CBR का उपयोग करने वाले सिस्टम के उदाहरण हैं: KATE Tools (Acknosoft, France), Pattern Recognition Workbench (Unica, USA);

    निर्णय के पेड़- ट्री ग्राफ के रूप में किसी कार्य को संरचित करने की एक विधि, जिसके कोने उत्पादन नियमों के अनुरूप होते हैं जो डेटा को वर्गीकृत करने या निर्णयों के परिणामों का विश्लेषण करने की अनुमति देते हैं। यह विधि नियमों को वर्गीकृत करने की प्रणाली का एक दृश्य प्रतिनिधित्व देती है, यदि उनमें से बहुत सारे नहीं हैं। तंत्रिका नेटवर्क का उपयोग करने की तुलना में इस पद्धति का उपयोग करके सरल समस्याओं को बहुत तेजी से हल किया जाता है। जटिल समस्याओं और कुछ डेटा प्रकारों के लिए, निर्णय वृक्ष उपयुक्त नहीं हो सकते हैं। इसके अलावा, इस पद्धति में महत्व की समस्या है। पदानुक्रमित डेटा क्लस्टरिंग के परिणामों में से एक कई विशेष मामलों के लिए बड़ी संख्या में प्रशिक्षण उदाहरणों की अनुपस्थिति है, और इसलिए वर्गीकरण को विश्वसनीय नहीं माना जा सकता है। डिसीजन ट्री विधियों को कई सॉफ्टवेयर टूल्स में लागू किया जाता है, अर्थात्: 5.0 (रूलेक्वेस्ट, ऑस्ट्रेलिया), क्लेमेंटाइन (इंटीग्रल सॉल्यूशंस, यूके), सिपिना (यूनिवर्सिटी ऑफ लियोन, फ्रांस), आईडीआईएस (इन्फॉर्मेशन डिस्कवरी, यूएसए);

    विकासवादी प्रोग्रामिंग- खोज प्रक्रिया में संशोधित प्रारंभिक रूप से निर्दिष्ट एल्गोरिदम के आधार पर डेटा की अन्योन्याश्रयता व्यक्त करने वाले एल्गोरिदम की खोज और पीढ़ी; कभी-कभी किसी विशिष्ट प्रकार के कार्यों (उदाहरण के लिए, बहुपद) के बीच अन्योन्याश्रितताओं की खोज की जाती है;

सीमित खोज एल्गोरिदमजो डेटा के उपसमूहों में सरल तार्किक घटनाओं के संयोजन की गणना करता है।

3.7 एकीकरणOLAPतथाआंकड़ेखुदाई

ऑनलाइन एनालिटिकल प्रोसेसिंग (OLAP) और डेटा माइनिंग निर्णय समर्थन प्रक्रिया के दो भाग हैं। हालाँकि, आज अधिकांश OLAP सिस्टमकेवल बहुआयामी डेटा तक पहुंच प्रदान करने पर ध्यान केंद्रित करता है, और पैटर्न के क्षेत्र में काम करने वाले अधिकांश डेटा माइनिंग टूल एक-आयामी डेटा परिप्रेक्ष्य से निपटते हैं। निर्णय समर्थन प्रणालियों के लिए डेटा प्रोसेसिंग की दक्षता बढ़ाने के लिए, इन दो प्रकार के विश्लेषणों को जोड़ा जाना चाहिए।

वर्तमान में, इस तरह के संयोजन को दर्शाने के लिए एक समग्र शब्द "OLAP डेटा माइनिंग" (बहुआयामी खनन) है।

"OLAP डेटा माइनिंग" बनाने के तीन मुख्य तरीके हैं:

    "क्यूबिंग फिर माइनिंग"। खनन विश्लेषण करने की क्षमता एक बहुआयामी वैचारिक प्रतिनिधित्व के लिए एक प्रश्न के किसी भी परिणाम पर प्रदान की जानी चाहिए, यानी संकेतकों के हाइपरक्यूब के किसी भी प्रक्षेपण के किसी भी टुकड़े पर।

    खनन फिर क्यूबिंग। एक भंडार से निकाले गए डेटा की तरह, खनन परिणामों को बाद के बहुभिन्नरूपी विश्लेषण के लिए हाइपरक्यूबिक रूप में प्रस्तुत किया जाना चाहिए।

    "खनन करते समय क्यूबिंग"। एकीकरण की यह लचीली विधि आपको सामान्यीकरण के स्तरों के बीच बहुभिन्नरूपी विश्लेषण (संक्रमण) के प्रत्येक चरण के परिणाम पर एक ही प्रकार के बुद्धिमान प्रसंस्करण तंत्र को स्वचालित रूप से सक्रिय करने की अनुमति देती है, हाइपरक्यूब के एक नए टुकड़े की निकासी, आदि)।

    ग्रेड 11 [पाठ ... उन्हेंकैसे अंशपूरा प्रणाली ... सहेयक प्रोफेसर ... चेबॉक्सारी, 2009. नंबर 10. एस. 44 -49 .... लेखक- संकलनकर्ता: एन। ... सारांशव्याख्यान, ...

  • अध्ययन गाइड

    ... व्याख्यान... तैयारी व्याख्यानअंक शास्त्र। लिखना सारव्याख्यान व्याख्यान... प्रयोग जानकारीप्रौद्योगिकियों ...

  • आई के कोंडौरोवा एस वी लेबेदेव

    अध्ययन गाइड

    ... व्याख्यान... तैयारी व्याख्यानअंक शास्त्र। लिखना सारव्याख्यान... दृश्य एड्स की तैयारी। पढ़ने की तकनीक व्याख्यान... प्रयोग जानकारीप्रौद्योगिकियों ...

  • एम मीडिया निगरानी व्यावसायिक शिक्षा का आधुनिकीकरण मार्च-अगस्त 2011

    सारांश

    ... 11 .08.2011 RNIMU . में "डेड सोल्स-2" उन्हें ... 3,11 -3,44 ... ... सह लोक व्याख्याननेताओं... चेबॉक्सारी... और स्क्रिबलिंग सारांशदर्शक -... जानकारीप्रणालीतथा प्रौद्योगिकियों. ... प्रणालीशिक्षा, कहते हैं सहेयक प्रोफेसर ... संकलनकर्ता ... पार्ट्सवास्तविक बढ़ाना विषय ...

व्यावसायिक प्रक्रियाओं की विश्लेषणात्मक प्रौद्योगिकियां

बिजनेस इंटेलिजेंस सिस्टम - बिजनेस इंटेलिजेंस (बीआई) उद्यम-व्यापी डेटा के विश्लेषण और प्रसंस्करण के लिए विभिन्न उपकरणों और प्रौद्योगिकियों को जोड़ती है। इन उपकरणों के आधार पर, बीआई-सिस्टम बनाए जाते हैं, जिसका उद्देश्य प्रबंधन निर्णय लेने के लिए सूचना की गुणवत्ता में सुधार करना है।

बीआई में निम्नलिखित वर्गों के सॉफ्टवेयर उत्पाद शामिल हैं:

· ऑनलाइन विश्लेषणात्मक प्रसंस्करण प्रणाली (OLAP);

डेटा माइनिंग के साधन (डीएम);

प्रत्येक वर्ग के सॉफ़्टवेयर उत्पाद विशेष तकनीकों का उपयोग करके कार्यों या संचालन का एक विशिष्ट सेट करते हैं।

OLAP (ऑन-लाइन एनालिटिकल प्रोसेसिंग) एक विशिष्ट उत्पाद का नहीं, बल्कि एक संपूर्ण तकनीक का नाम है। OLAP अवधारणा बहुआयामी डेटा प्रस्तुति पर आधारित है।

1993 में, डेटाबेस बनाने के संबंधपरक दृष्टिकोण के संस्थापक, एडगर कॉड और पार्टनर्स (एडगर कॉड, गणितज्ञ और आईबीएम फेलो), ने एक पेपर प्रकाशित किया, जिसे कंपनी द्वारा शुरू किया गया था और जिसका शीर्षक था "डिलीवरिंग OLAP (ऑन-लाइन एनालिटिकल प्रोसेसिंग) एनालिस्ट यूजर्स के लिए। ", जिसने 12 OLAP प्रौद्योगिकी मानदंड तैयार किए, जो बाद में एक नई और बहुत ही आशाजनक तकनीक की मुख्य सामग्री बन गए।

बाद में उन्हें FASMI परीक्षण में फिर से शामिल किया गया, जो OLAP उत्पादों की आवश्यकताओं को परिभाषित करता है:

· तेज तेज)। एक OLAP एप्लिकेशन को विश्लेषणात्मक डेटा के लिए न्यूनतम एक्सेस समय प्रदान करना चाहिए - औसतन, लगभग 5 सेकंड;

विश्लेषण (विश्लेषण)। एक OLAP एप्लिकेशन को उपयोगकर्ता को संख्यात्मक और सांख्यिकीय विश्लेषण करने में सक्षम बनाना चाहिए;

साझा (साझा पहुंच)। OLAP एप्लिकेशन को एक ही समय में कई उपयोगकर्ताओं के लिए जानकारी के साथ काम करने की क्षमता प्रदान करनी चाहिए;

बहुआयामी (बहुआयामी);

जानकारी OLAP एप्लिकेशन को उपयोगकर्ता को किसी भी तरह से आवश्यक जानकारी प्राप्त करने का अवसर देना चाहिए इलेक्ट्रॉनिक भंडारणडेटा यह नहीं मिला।

FASMI के आधार पर, निम्नलिखित परिभाषा दी जा सकती है: ओलाप अनुप्रयोग -ये संख्यात्मक और सांख्यिकीय विश्लेषण की क्षमताओं के साथ बहुआयामी विश्लेषणात्मक जानकारी के लिए तेजी से बहु-उपयोगकर्ता पहुंच के लिए सिस्टम हैं।

OLAP के पीछे मूल विचार बहुआयामी क्यूब्स बनाना है जो कस्टम प्रश्नों के लिए उपलब्ध होंगे। बहुआयामी घन (चित्र 5.3) स्रोत और एकत्रित डेटा के आधार पर बनाए जाते हैं, जिन्हें संबंधपरक और बहुआयामी डेटाबेस दोनों में संग्रहीत किया जा सकता है। इसलिए, डेटा संग्रहीत करने के तीन तरीके वर्तमान में उपयोग किए जाते हैं: मोलाप (बहुआयामी OLAP), रोलाप (रिलेशनल OLAP) और होलाप (हाइब्रिड OLAP)।

तदनुसार, OLAP उत्पादों को डेटा संग्रहण विधि के संदर्भ में तीन समान श्रेणियों में विभाजित किया गया है:

1. MOLAP के मामले में, मूल और बहुआयामी डेटा एक बहुआयामी डेटाबेस या एक बहुआयामी स्थानीय क्यूब में संग्रहीत किया जाता है। यह भंडारण विधि OLAP संचालन के निष्पादन की एक उच्च गति प्रदान करती है। लेकिन इस मामले में बहुआयामी आधार अक्सर बेमानी होगा। इसके आधार पर निर्मित घन आयामों की संख्या पर दृढ़ता से निर्भर करेगा। जैसे-जैसे आयामों की संख्या बढ़ेगी, घन का आयतन तेजी से बढ़ेगा। कभी-कभी इससे डेटा की मात्रा में "विस्फोटक वृद्धि" हो सकती है।

2. ROLAP- उत्पादों में, स्रोत डेटा रिलेशनल डेटाबेस या फ्लैट में संग्रहीत किया जाता है स्थानीय टेबलफ़ाइल सर्वर पर। सकल डेटा को उसी डेटाबेस में सेवा तालिकाओं में रखा जा सकता है। संबंधपरक डेटाबेस से डेटा का बहुआयामी क्यूब में रूपांतरण OLAP उपकरण के अनुरोध पर होता है। इस मामले में, क्यूब बनाने की गति डेटा स्रोत के प्रकार पर बहुत निर्भर करेगी।

3. हाइब्रिड आर्किटेक्चर का उपयोग करने के मामले में, मूल डेटा रिलेशनल डेटाबेस में रहता है, जबकि समुच्चय को बहुआयामी में रखा जाता है। OLAP क्यूब का निर्माण संबंधपरक और बहुआयामी डेटा के आधार पर OLAP टूल के अनुरोध पर किया जाता है। यह दृष्टिकोण विस्फोटक डेटा वृद्धि से बचा जाता है। साथ ही, क्लाइंट अनुरोधों के इष्टतम निष्पादन समय को प्राप्त करना संभव है।

OLAP तकनीकों का उपयोग करते हुए, उपयोगकर्ता सूचनाओं को लचीला रूप से देखने, विभिन्न डेटा स्लाइस प्राप्त करने, विवरण, कनवल्शन, एंड-टू-एंड वितरण, समय के साथ तुलना के विश्लेषणात्मक संचालन कर सकता है, अर्थात। रिपोर्ट और दस्तावेजों को संकलित और गतिशील रूप से प्रकाशित करें।

वेयरहाउस डेटाबेस की संरचना आमतौर पर इस तरह से डिज़ाइन की जाती है कि जितना संभव हो सके सूचना के विश्लेषण को सुविधाजनक बनाया जा सके। डेटा को अलग-अलग दिशाओं (जिन्हें आयाम कहा जाता है) में आसानी से "निर्धारित" किया जाना चाहिए। उदाहरण के लिए, आज एक उपयोगकर्ता अपनी गतिविधियों की तुलना करने के लिए आपूर्तिकर्ता द्वारा भागों की आपूर्ति का सारांश देखना चाहता है। कल, उसी उपयोगकर्ता को आपूर्ति की गतिशीलता का पता लगाने के लिए महीनों तक भागों की आपूर्ति की मात्रा में बदलाव की तस्वीर की आवश्यकता होगी। डेटाबेस की संरचना को इस प्रकार के विश्लेषणों का समर्थन करना चाहिए, जिससे दिए गए आयामों के अनुरूप डेटा निकालने की अनुमति मिलती है।

ऑपरेशनल एनालिटिकल डेटा प्रोसेसिंग हाइपरक्यूबिक मॉडल में सूचना को व्यवस्थित करने के सिद्धांत पर आधारित है। पहले माने गए परीक्षण डेटाबेस के लिए भागों की आपूर्ति के लिए सबसे सरल त्रि-आयामी डेटा क्यूब अंजीर में दिखाया गया है। 3.11. इसकी प्रत्येक कोशिका एक "तथ्य" से मेल खाती है - उदाहरण के लिए, किसी भाग की डिलीवरी का दायरा। घन के एक फलक के साथ (एक आयाम) वे महीने हैं जिनके दौरान घन द्वारा परावर्तित वितरण किए गए थे। दूसरा आयाम भागों के प्रकार है, और तीसरा आपूर्तिकर्ताओं से संबंधित है। प्रत्येक सेल में तीनों आयामों में मूल्यों के संगत संयोजन के लिए वितरण मात्रा होती है। यह ध्यान दिया जाना चाहिए कि क्यूब भरते समय, परीक्षण डेटाबेस से प्रत्येक महीने की डिलीवरी के लिए मान एकत्र किए गए थे।


3.11. आंशिक आपूर्ति विश्लेषण के लिए सरलीकृत हाइपरक्यूब विकल्प

OLAP क्लास सिस्टम डेटा प्रस्तुत करने के तरीके में भिन्न होते हैं।

बहुआयामी OLAP (MOLAP .)) - ये प्रणालियाँ उपयुक्त पहुँच विधियों के साथ गतिशील सरणियों पर आधारित बहुआयामी डेटा संरचना पर आधारित हैं। बहुआयामी DBMS के आयोजन के लिए पेटेंट प्रौद्योगिकियों पर MOLAP लागू किया गया है। इस दृष्टिकोण का लाभ हाइपरक्यूब की कोशिकाओं पर गणना करने की सुविधा है, क्योंकि माप के सभी संयोजनों के लिए, संबंधित कोशिकाओं को बंद कर दिया जाता है (जैसा कि एक स्प्रेडशीट में होता है)। ऐसी प्रणालियों के क्लासिक प्रतिनिधियों में ओरेकल एक्सप्रेस, एसएएस इंस्टीट्यूट एमडीडीबी शामिल हैं।

संबंधपरक ओलाप (रोलाप)- रिलेशनल डेटाबेस पर बहुआयामी विश्लेषणात्मक मॉडल का समर्थन करता है। सिस्टम के इस वर्ग में मेटा क्यूब इनफॉर्मिक्स, माइक्रोसॉफ्ट ओएलएपी सर्विसेज, हाइपरियन सॉल्यूशंस, एसएएस इंस्टीट्यूट रिलेशनल ओएलएपी शामिल हैं।

डेस्कटॉप OLAP- स्थानीय सूचना प्रणाली (स्प्रेडशीट, फ्लैट फाइल) के लिए बहुआयामी प्रश्न और रिपोर्ट तैयार करने के लिए उपकरण। निम्नलिखित प्रणालियों को प्रतिष्ठित किया जा सकता है - व्यावसायिक वस्तुएं, कॉग्नोस पावर प्ले।

ई.एफ. कोडड ने बारह नियमों को परिभाषित किया है जो एक OLAP-श्रेणी के उत्पाद को संतुष्ट करना चाहिए, जिसमें बहुआयामी डेटा अवधारणा, पारदर्शिता, उपलब्धता, टिकाऊ प्रदर्शन, क्लाइंट-सर्वर वास्तुकला, आयाम निष्पक्षता, विरल मैट्रिक्स गतिशील प्रसंस्करण, बहु-उपयोगकर्ता समर्थन, असीमित क्रॉस-आयामी समर्थन, सहज ज्ञान युक्त शामिल हैं। डेटा हेरफेर। , लचीला रिपोर्टिंग तंत्र, असीमित संख्या में आयाम और एकत्रीकरण स्तर।



ROLAP वर्ग की सबसे आम प्रणालियाँ। वे आपको किसी भी संरचना के संबंधपरक रूप से पूर्ण भंडारण या एक विशेष डेटा मार्ट पर एक सूचना मॉडल को व्यवस्थित करने की अनुमति देते हैं।

चावल। 3.12. भागों की आपूर्ति शोकेस की स्टार स्कीमा

अधिकांश डेटा वेयरहाउस के लिए, एन-डायमेंशनल क्यूब को मॉडल करने का सबसे कुशल तरीका एक तारा है। अंजीर में। 3.11 भागों की आपूर्ति का विश्लेषण करने के लिए एक हाइपरक्यूब मॉडल दिखाता है, जिसमें सूचना को चार आयामों (आपूर्तिकर्ता, भाग, माह, वर्ष) द्वारा समेकित किया जाता है। स्टार स्कीमा एक तथ्य तालिका पर आधारित है। तथ्य तालिका में वितरण के दायरे के साथ-साथ सभी आयाम तालिकाओं के लिए विदेशी कुंजी के लिए कॉलम के लिए एक कॉलम होता है। घन के प्रत्येक आयाम को मूल्यों की एक तालिका द्वारा दर्शाया जाता है, जो तथ्य तालिका का संदर्भ है। माप की संदर्भ पुस्तकों के ऊपर सूचना के सामान्यीकरण के स्तरों को व्यवस्थित करने के लिए, श्रेणीबद्ध आदानों का आयोजन किया जाता है (उदाहरण के लिए, "सामग्री-विवरण", "शहर-आपूर्तिकर्ता")।

अंजीर में सर्किट का कारण। 3.12 को "स्टार" कहा जाता है, यह बहुत स्पष्ट है। "स्टार" के सिरे आयाम तालिकाओं द्वारा बनते हैं, और केंद्र में तथ्य तालिका के साथ उनके लिंक किरणें बनाते हैं। इस डेटाबेस संरचना के साथ, अधिकांश व्यावसायिक खुफिया प्रश्न एक या अधिक आयाम तालिकाओं के साथ एक केंद्रीय तथ्य तालिका को जोड़ते हैं। उदाहरण के लिए, आपूर्तिकर्ताओं द्वारा ब्रेकडाउन के साथ 2004 में महीनों तक सभी भागों की आपूर्ति मात्रा प्राप्त करने का अनुरोध इस प्रकार है:

SUM (VALUE), SUPPLIER.SUPPLIER_NAME, FACT.MONTH_ID चुनें

तथ्य से, आपूर्तिकर्ता

जहां FACT.YEAR_ID = 2004

और तथ्य।SUPPLIER_CODE = SUPPLIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MONTH_ID.

अंजीर में। 3.13 किसी दिए गए अनुरोध के परिणामस्वरूप उत्पन्न रिपोर्ट का एक अंश दिखाता है।

अवधि ऑनलाइन विश्लेषणात्मक प्रक्रिया(ऑन-लाइन एनालिटिकल प्रोसेसिंग - OLAP) का उल्लेख सबसे पहले आर्बर सॉफ्टवेयर कॉर्प के लिए तैयार एक रिपोर्ट में किया गया था। 1993 में, हालांकि इस शब्द की परिभाषा, जैसे कि डेटा वेयरहाउस के मामले में, बहुत बाद में तैयार की गई थी। इस शब्द द्वारा इंगित अवधारणा को "डेटा बनाने, बनाए रखने, विश्लेषण करने और रिपोर्ट जारी करने की इंटरैक्टिव प्रक्रिया" के रूप में परिभाषित किया जा सकता है। इसके अलावा, यह आमतौर पर जोड़ा जाता है कि विचाराधीन डेटा को इस तरह से माना और संसाधित किया जाना चाहिए जैसे कि उन्हें संग्रहीत किया गया था बहुआयामी सरणी।लेकिन इससे पहले कि हम स्वयं MDX पर चर्चा करना शुरू करें, आइए पारंपरिक SQL तालिकाओं के संदर्भ में संबंधित विचारों को देखें।

पहली विशेषता यह है कि विश्लेषणात्मक प्रसंस्करण के लिए निश्चित रूप से कुछ एकत्रीकरण की आवश्यकता होती है आंकड़े,आमतौर पर कई अलग-अलग तरीकों से एक साथ, या दूसरे शब्दों में, कई अलग-अलग समूह मानदंडों के अनुसार प्रदर्शन किया जाता है। संक्षेप में, विश्लेषणात्मक प्रसंस्करण की मुख्य समस्याओं में से एक यह है कि समूहीकरण के संभावित तरीकों की संख्या

यह बहुत जल्दी बहुत बड़ा हो जाता है। हालांकि, उपयोगकर्ताओं को इन सभी या लगभग सभी विकल्पों पर विचार करने की आवश्यकता है। बेशक, इस तरह का एकत्रीकरण अब SQL मानक में समर्थित है, लेकिन कोई भी विशेष SQL क्वेरी इसके परिणाम के रूप में केवल एक तालिका उत्पन्न करती है, और इस परिणामी तालिका में सभी पंक्तियों का एक ही रूप और एक ही व्याख्या 10 (कम से कम इस तरह से)

9 यहाँ डेटा वेयरहाउस पर एक पुस्तक से एक टिप दी गई है: "[छोड़ें] सामान्यीकरण ... केवल डिस्क स्थान के संरक्षण के लिए बहुआयामी डेटाबेस में किसी भी तालिका को सामान्य करने का प्रयास करना [बस यही!] समय की बर्बादी है। .. आयाम तालिकाओं को सामान्यीकृत नहीं किया जाना चाहिए ... सामान्यीकृत आयाम तालिकाएं देखने की संभावना को बाहर करती हैं।"

10 जब तक कि इस परिणाम तालिका में कोई भी शून्य मान या NULL मान शामिल न हो (अध्याय 19, खंड 19.3 देखें, उपधारा "भविष्यवाणी के बारे में अधिक")। वास्तव में, इस खंड में वर्णित SQL: 1999 निर्माणों को इस अत्यधिक पदावनत SQL उपकरण (?) पर "आधारित" के रूप में वर्णित किया जा सकता है; वास्तव में, वे इस तथ्य पर जोर देते हैं कि उनकी विभिन्न अभिव्यक्तियों में अपरिभाषित मूल्यों के अलग-अलग अर्थ हो सकते हैं, और इसलिए एक तालिका में कई अलग-अलग विधेय का प्रतिनिधित्व करने की अनुमति देते हैं (जैसा कि नीचे दिखाया जाएगा)।

SQL: 1999 मानक से पहले था)। इसलिए, एहसास करने के लिए एन एससमूहीकरण के विभिन्न तरीके, आपको प्रदर्शन करने की आवश्यकता है एन एसअलग-अलग प्रश्न और परिणाम के रूप में अलग-अलग टेबल बनाएं। उदाहरण के लिए, आपूर्तिकर्ता और भागों डेटाबेस के विरुद्ध निष्पादित प्रश्नों के निम्नलिखित अनुक्रम पर विचार करें।

1. प्रसव की कुल संख्या निर्धारित करें।

2. आपूर्तिकर्ता द्वारा डिलीवरी की कुल संख्या निर्धारित करें।

3. भागों के लिए प्रसव की कुल संख्या निर्धारित करें।

4. आपूर्तिकर्ताओं और भागों द्वारा डिलीवरी की कुल संख्या निर्धारित करें।

(बेशक, किसी दिए गए आपूर्तिकर्ता के लिए और किसी दिए गए हिस्से के लिए "कुल" मात्रा किसी दिए गए आपूर्तिकर्ता के लिए और किसी दिए गए हिस्से के लिए वास्तविक मात्रा है। एक उदाहरण अधिक यथार्थवादी होगा यदि आपूर्तिकर्ताओं, भागों और परियोजनाओं के डेटाबेस का उपयोग किया गया था उदाहरण के लिए, हम अभी भी आपूर्तिकर्ताओं और भागों के सामान्य आधार पर बसे हैं।)

अब मान लीजिए कि केवल दो भाग हैं, क्रमांकित P1 और P2, और आपूर्ति तालिका इस तरह दिखती है।

बहुआयामी डेटाबेस

अब तक, यह माना जाता था कि OLAP डेटा SQL भाषा का उपयोग करते हुए एक नियमित डेटाबेस में संग्रहीत किया जाता है (इस तथ्य के अलावा कि कभी-कभी हम अभी भी शब्दावली और अवधारणा को छूते हैं) बहुआयामी डेटाबेस)।वास्तव में, स्पष्ट रूप से संकेत किए बिना, हमने तथाकथित प्रणाली का वर्णन किया है रोलाप(संबंधपरक ओलाप-रिलेशनल ओलाप)।हालांकि, कई लोग मानते हैं कि सिस्टम का उपयोग करना मोलाप(बहुआयामी OLAP- बहुआयामी OLAP) एक अधिक आशाजनक तरीका है। इस उपधारा में, MOLAP सिस्टम के निर्माण के सिद्धांतों पर अधिक विस्तार से विचार किया जाएगा।

MOLAP प्रणाली के प्रबंधन को सुनिश्चित करता है बहुआयामी डेटाबेस,जिसमें डेटा को एक बहुआयामी सरणी की कोशिकाओं में अवधारणात्मक रूप से संग्रहीत किया जाता है।

ध्यान दें। हालांकि उच्चतर तथाइसके बारे में कहा गया था वैचारिकभंडारण को व्यवस्थित करने का तरीका, वास्तव में, डेटा का भौतिक संगठन मोलापउनके तार्किक संगठन के समान।

सहायक DBMS को कहा जाता है बहुआयामी।जैसा सरल उदाहरणआप क्रमशः उत्पादों, ग्राहकों और समयावधियों का प्रतिनिधित्व करने वाली त्रि-आयामी सरणी डाल सकते हैं। प्रत्येक व्यक्तिगत सेल का मूल्य एक निर्दिष्ट समय अवधि में ग्राहक को बेची गई निर्दिष्ट वस्तु की कुल मात्रा का प्रतिनिधित्व कर सकता है। जैसा कि ऊपर उल्लेख किया गया है, पिछले उपखंड के क्रॉसस्टैब को भी ऐसे सरणियों के रूप में माना जा सकता है।

यदि डेटा के एक सेट की संरचना की पर्याप्त रूप से स्पष्ट समझ है, तो डेटा के बीच सभी संबंधों को जाना जा सकता है। इसके अलावा, चरइस तरह के एक सेट (पारंपरिक प्रोग्रामिंग भाषाओं के अर्थ में नहीं), मोटे तौर पर बोलते हुए, में विभाजित किया जा सकता है आश्रिततथा स्वतंत्र। वीपिछला उदाहरण उत्पाद, ग्राहकतथा समय सीमास्वतंत्र चर के रूप में माना जा सकता है, और संख्या -एकमात्र आश्रित चर। सामान्य तौर पर, व्याख्यात्मक चर वे चर होते हैं जिनके मूल्य एक साथ आश्रित चर के मूल्यों को निर्धारित करते हैं (जैसे, संबंधपरक शब्दावली में, एक संभावित कुंजी एक सेट है

कॉलम जिनके मान शेष कॉलम के मान निर्धारित करते हैं)। नतीजतन, स्वतंत्र चर उस सरणी का आयाम निर्धारित करते हैं जिसके साथ डेटा व्यवस्थित होता है, और यह भी बनता है संबोधित योजना 11किसी दिए गए सरणी के लिए। आश्रित चर मान जो वास्तविक डेटा का प्रतिनिधित्व करते हैं, उन्हें सरणी कोशिकाओं में संग्रहीत किया जाता है।

ध्यान दें। स्वतंत्र के अर्थों के बीच का अंतर, या आयामी,चर,

और आश्रित के मूल्य, या बड़े आकार का,चर को कभी-कभी के बीच अंतर के रूप में वर्णित किया जाता है स्थानतथा विषय।

"इसलिए, सांख्यिक सूचकांकों का उपयोग करने के बजाय, सरणी कोशिकाओं को प्रतीकात्मक रूप से संबोधित किया जाता है, जो आमतौर पर सरणियों के साथ काम करने के लिए उपयोग किया जाता है।

दुर्भाग्य से, बहुआयामी डेटाबेस की उपरोक्त विशेषता बहुत सरल है, क्योंकि अधिकांश डेटासेट शुरू में ही रहते हैं नहींपूरी तरह से अध्ययन किया। इस कारण से, हम इसे बेहतर ढंग से समझने के लिए मुख्य रूप से डेटा का विश्लेषण करते हैं। अक्सर समझ की कमी इतनी महत्वपूर्ण हो सकती है कि पहले से यह निर्धारित करना असंभव है कि कौन से चर स्वतंत्र हैं और कौन से आश्रित हैं। फिर स्वतंत्र चर को उनकी वर्तमान समझ के अनुसार चुना जाता है (अर्थात, कुछ परिकल्पना पर आधारित), जिसके बाद परिणामी सरणी की जाँच यह निर्धारित करने के लिए की जाती है कि स्वतंत्र चर कितनी अच्छी तरह चुने गए हैं (देखें खंड 22.7)। यह दृष्टिकोण इस तथ्य की ओर जाता है कि परीक्षण और त्रुटि के सिद्धांत पर कई पुनरावृत्तियों का प्रदर्शन किया जाता है। इसलिए, सिस्टम आमतौर पर आयामी और गैर-आयामी चर के परिवर्तन की अनुमति देता है, और इस ऑपरेशन को कहा जाता है निर्देशांक अक्षों का परिवर्तन(घुमावदार)। अन्य समर्थित कार्यों में शामिल हैं सरणी स्थानान्तरणतथा आयामों का पुनर्क्रमण।आयाम जोड़ने का एक तरीका भी होना चाहिए।

वैसे, पिछले विवरण से यह स्पष्ट होना चाहिए कि सरणी कोशिकाएं अक्सर खाली होती हैं (और अधिक आयाम, अधिक बार यह घटना देखी जाती है)। दूसरे शब्दों में, सरणियाँ आमतौर पर होती हैं विरल।मान लीजिए, उदाहरण के लिए, उत्पाद पी ग्राहक को पूरी अवधि के लिए नहीं बेचा गया था टी।फिर सेल [एस, पी, टी]खाली होगा (या इसमें सबसे अच्छा शून्य होगा)। बहुआयामी DBMS विरल सरणियों को अधिक कुशल, संघनित रूप में संग्रहीत करने के विभिन्न तरीकों का समर्थन करते हैं। इसमें यह जोड़ा जाना चाहिए कि खाली सेल इसके अनुरूप हैं गयाब सूचनाऔर इसलिए सिस्टम को खाली कोशिकाओं के लिए कुछ कम्प्यूटेशनल समर्थन प्रदान करने की आवश्यकता है। ऐसा समर्थन आमतौर पर उपलब्ध होता है, लेकिन इसकी शैली, दुर्भाग्य से, SQL भाषा में अपनाई गई शैली के समान है। इस तथ्य पर ध्यान दें कि यदि यह सेल खाली है, तो जानकारी या तो ज्ञात नहीं है, या दर्ज नहीं की गई है, या लागू नहीं है, या अन्य कारणों से गायब है।

(अध्याय 19 देखें)।

व्याख्यात्मक चर अक्सर जुड़े हुए हैं पदानुक्रम,उन तरीकों को परिभाषित करना जिनसे आश्रित डेटा का एकत्रीकरण हो सकता है। उदाहरण के लिए, एक अस्थायी है

सेकंड से मिनटों, मिनटों से घंटों, घंटों से दिनों, दिनों से हफ्तों, हफ्तों से महीनों, महीनों से वर्षों तक को जोड़ने वाला एक पदानुक्रम। या कोई अन्य उदाहरण: पदानुक्रम संभव है

भागों के एक सेट के साथ भागों को जोड़ने वाली रचनाएँ, एक असेंबली के साथ भागों के सेट, एक मॉड्यूल के साथ असेंबली, एक उत्पाद के साथ मॉड्यूल। अक्सर एक ही डेटा को कई लोगों द्वारा एकत्रित किया जा सकता है विभिन्न तरीके, अर्थात। एक ही व्याख्यात्मक चर कई अलग-अलग पदानुक्रमों से संबंधित हो सकता है। सिस्टम ऑपरेटरों को प्रदान करता है ऊपर जा रहा है(ड्रिल अप) और नीचे से गुजरना(ड्रिल डाउन) इस तरह के एक पदानुक्रम के साथ। गुजर रहे हैंका अर्थ है एकत्रीकरण के निचले स्तर से ऊपरी स्तर पर संक्रमण, और गुजर रहा है -

विपरीत दिशा में जा रहा है। पदानुक्रम के साथ काम करने के लिए अन्य ऑपरेशन हैं, जैसे कि पदानुक्रम के स्तरों को फिर से व्यवस्थित करने के लिए एक ऑपरेशन।

ध्यान दें।संचालन के बीच ऊपर जा रहा है(ड्रिल अप) और परिणामों का संचय(घूमना

ऊपर) एक सूक्ष्म अंतर है: ऑपरेशन परिणामों का संचय -यह एक कार्यान्वयन ऑपरेशन है

12 रिलेशनल सिस्टम से अंतर पर ध्यान दें। इस उदाहरण के वास्तविक संबंधपरक एनालॉग में, रेखा आईसी, पी,टी) मात्रा का कोई खाली "सेल" नहीं होगा, इस तथ्य के कारण कि रेखा (एस, पी,टी) बस अनुपस्थित होगा। इसलिए, बहुआयामी सरणियों के विपरीत, संबंधपरक मॉडल का उपयोग करते समय, "विरल सरणियों", या "विरल तालिकाओं" का समर्थन करने की आवश्यकता नहीं होती है, और इसलिए ऐसी तालिकाओं के साथ काम करने के लिए परिष्कृत संपीड़न तकनीकों की आवश्यकता नहीं होती है।

आवश्यक समूहीकरण और एकत्रीकरण के तरीके, और संचालन ऊपर जा रहा हैयह एक ऑपरेशन है अभिगमइन विधियों के कार्यान्वयन के परिणामों के लिए। एक ऑपरेशन का एक उदाहरण नीचे से गुजरनाप्रश्न हो सकता है: "डिलीवरी की कुल संख्या ज्ञात है; प्रत्येक व्यक्तिगत आपूर्तिकर्ता के लिए योग प्राप्त करें।" बेशक, इस प्रश्न का उत्तर देने के लिए डेटा के अधिक बारीक स्तर उपलब्ध (या गणना योग्य) होने चाहिए।

बहुआयामी डेटाबेस उत्पाद आपको परिकल्पना तैयार करने और परीक्षण करने में मदद करने के लिए कई सांख्यिकीय और अन्य गणितीय कार्य भी प्रदान करते हैं (अर्थात, कथित संबंधों के बारे में परिकल्पना)। इसके अलावा, इन कार्यों में सहायता के लिए विज़ुअलाइज़ेशन और रिपोर्टिंग टूल प्रदान किए जाते हैं। दुर्भाग्य से, बहुआयामी डेटाबेस के लिए अभी तक कोई मानक क्वेरी भाषा नहीं है, हालांकि एक कैलकुलस विकसित करने के लिए शोध चल रहा है जिस पर ऐसा मानक आधारित हो सकता है। लेकिन, दुर्भाग्य से, सामान्यीकरण के संबंधपरक सिद्धांत जैसा कुछ नहीं है, जो बहुआयामी डेटाबेस के डिजाइन के लिए वैज्ञानिक आधार के रूप में काम कर सकता है।

इस खंड को समाप्त करते हुए, हम ध्यान दें कि कुछ उत्पाद ROLAP और MOLAP दोनों दृष्टिकोणों को मिलाते हैं। ऐसा हाइब्रिड OLAP सिस्टमकहा जाता है होलप।इन तीनों में से कौन सा दृष्टिकोण बेहतर है, यह जानने के लिए व्यापक चर्चा हो रही है, इसलिए इस मुद्दे पर भी कुछ शब्द कहने की कोशिश करना उचित है13. सामान्य तौर पर, MOLAP सिस्टम तेजी से निपटान प्रदान करते हैं, लेकिन ROLAP सिस्टम की तुलना में कम डेटा का समर्थन करते हैं, अर्थात। डेटा की मात्रा बढ़ने पर कम कुशल हो जाते हैं। और ROLAP सिस्टम MOLAP सिस्टम की तुलना में अधिक उन्नत मापनीयता, समानता और नियंत्रण क्षमता प्रदान करते हैं। इसके अलावा, कई सांख्यिकीय और विश्लेषणात्मक कार्यों को शामिल करने के लिए SQL मानक को हाल ही में अद्यतन किया गया है (देखें खंड 22.8)। यह इस प्रकार है कि ROLAP उत्पाद अब उन्नत कार्यक्षमता प्रदान करने में सक्षम हैं।

OLAP (ऑनलाइन एनालिटिकल प्रोसेसिंग) एक सूचनात्मक प्रक्रिया है जो उपयोगकर्ता को सिस्टम को क्वेरी करने, विश्लेषण करने आदि में सक्षम बनाती है। ऑनलाइन (ऑनलाइन)। परिणाम सेकंड के भीतर उत्पन्न होते हैं।

OLAP सिस्टम अंतिम उपयोगकर्ताओं के लिए बनाए गए हैं, जबकि OLTP सिस्टम पेशेवर IP उपयोगकर्ताओं के लिए बनाए गए हैं। OLAP में प्रश्न उत्पन्न करना, तदर्थ रिपोर्ट की क्वेरी करना, सांख्यिकीय विश्लेषण करना और मल्टीमीडिया अनुप्रयोगों का निर्माण जैसी गतिविधियाँ शामिल हैं।

OLAP प्रदान करने के लिए, आपको डेटा वेयरहाउस (या बहुआयामी वेयरहाउस) के साथ-साथ उपकरणों के एक सेट के साथ काम करने की आवश्यकता होती है, आमतौर पर बहुआयामी क्षमताओं के साथ। ये उपकरण क्वेरी टूल, स्प्रेडशीट, डेटा माइनिंग टूल, डेटा विज़ुअलाइज़ेशन टूल आदि हो सकते हैं।

OLAP अवधारणा बहुआयामी डेटा प्रस्तुति के सिद्धांत पर आधारित है। ई। कॉड ने रिलेशनल मॉडल की कमियों पर विचार किया, सबसे पहले कई आयामों के दृष्टिकोण से डेटा के संयोजन, देखने और विश्लेषण करने की असंभवता को इंगित किया, जो कि कॉर्पोरेट विश्लेषकों के लिए सबसे समझने योग्य तरीके से और सामान्य आवश्यकताओं को परिभाषित करता है। OLAP सिस्टम के लिए जो रिलेशनल DBMS की कार्यक्षमता का विस्तार करते हैं और इसकी विशेषताओं में से एक के रूप में बहुआयामी विश्लेषण शामिल करते हैं।

12 नियम जो एक OLAP क्लास सॉफ़्टवेयर उत्पाद द्वारा पूरे किए जाने चाहिए। ये नियम:

1. डेटा का बहुआयामी वैचारिक प्रतिनिधित्व।

2. पारदर्शिता।

3. उपलब्धता।

4. सतत प्रदर्शन।

5. क्लाइंट - सर्वर आर्किटेक्चर।

6. माप की समानता।

7. विरल मैट्रिक्स की गतिशील प्रसंस्करण।

8. मल्टीप्लेयर मोड के लिए सपोर्ट।

9. क्रॉस-डायमेंशनल ऑपरेशंस के लिए असीमित समर्थन।

10. सहज डेटा हेरफेर।

11. रिपोर्ट तैयार करने के लिए लचीला तंत्र।

12. आयामों और एकत्रीकरण स्तरों की असीमित संख्या।

इन आवश्यकताओं का सेट, जो OLAP की वास्तविक परिभाषा के रूप में कार्य करता है, को एक सिफारिश के रूप में माना जाना चाहिए, और विशिष्ट उत्पादों का मूल्यांकन सभी आवश्यकताओं के आदर्श रूप से पूर्ण अनुपालन के लिए निकटता की डिग्री के अनुसार किया जाना चाहिए।


डेटा माइनिंग और नॉलेज माइनिंग। बिग डेटा प्रबंधन और विश्लेषण। बिजनेस इंटेलिजेंस सिस्टम (बीआई)।

डेटा माइनिंग (IAD) दृश्य डेटा प्रस्तुति विधियों को लागू करने के परिणामों का उपयोग करके गणितीय विधियों और एल्गोरिदम (अनुकूलन विधियों, आनुवंशिक एल्गोरिदम, पैटर्न मान्यता, सांख्यिकीय विधियों, डेटा माइनिंग, आदि) के सक्रिय उपयोग के साथ डेटा विश्लेषण के लिए एक सामान्य शब्द है। .

सामान्य तौर पर, IAD प्रक्रिया में तीन चरण होते हैं:

1) पैटर्न की पहचान (मुफ्त खोज);

2) अज्ञात मूल्यों (पूर्वानुमान) की भविष्यवाणी करने के लिए प्रकट पैटर्न का उपयोग करना;

3) पाए गए पैटर्न में विसंगतियों की पहचान और व्याख्या करने के लिए अपवादों का विश्लेषण।

कभी-कभी पाए गए पैटर्न (सत्यापन का चरण) की विश्वसनीयता की जांच करने और उनका उपयोग करने के बीच एक मध्यवर्ती चरण होता है।

प्रारंभिक डेटा के साथ काम करने के सिद्धांत के अनुसार सभी IAD विधियों को दो समूहों में विभाजित किया गया है:

केस विश्लेषण तर्क तकनीकों का उपयोग करें - कच्चे डेटा को एक स्पष्ट दानेदार रूप में संग्रहीत किया जा सकता है और सीधे अपवादों की भविष्यवाणी और / या विश्लेषण करने के लिए उपयोग किया जा सकता है। विधियों के इस समूह का नुकसान बड़ी मात्रा में डेटा पर उनके उपयोग की जटिलता है।

औपचारिक पैटर्न की पहचान करने और उनका उपयोग करने के तरीके जिनमें प्राथमिक डेटा से जानकारी निकालने और इसे कुछ औपचारिक निर्माणों में बदलने की आवश्यकता होती है, जिसका रूप एक विशिष्ट विधि पर निर्भर करता है।

डेटा माइनिंग (DM) मानव गतिविधि के विभिन्न क्षेत्रों में निर्णय लेने के लिए आवश्यक "कच्चे" डेटा में पहले अज्ञात गैर-तुच्छ, व्यावहारिक रूप से उपयोगी और ज्ञान की सुलभ व्याख्या का पता लगाने के लिए एक तकनीक है। डेटा माइनिंग में उपयोग किए जाने वाले एल्गोरिदम को बड़ी मात्रा में गणना की आवश्यकता होती है, जो पहले इन विधियों के व्यापक व्यावहारिक अनुप्रयोग में एक सीमित कारक था, लेकिन आधुनिक प्रोसेसर के प्रदर्शन में वृद्धि ने इस समस्या की गंभीरता को दूर कर दिया है।

बिजनेस इंटेलिजेंस मार्केट में 5 सेक्टर होते हैं:

1. ओलाप उत्पाद;

2. डेटा खनन उपकरण;

3. डेटा वेयरहाउस और मार्ट (डेटा वेयरहाउसिंग) के निर्माण के साधन;

4. प्रबंधन सूचना प्रणाली और अनुप्रयोग;

5. पूछताछ और रिपोर्ट बनाने के लिए अंतिम उपयोगकर्ता उपकरण।

वर्तमान में, कॉर्पोरेट बीआई प्लेटफॉर्म के नेताओं में माइक्रोस्ट्रेटी, बिजनेस ऑब्जेक्ट्स, कॉग्नोस, हाइपरियन सॉल्यूशंस, माइक्रोसॉफ्ट, ओरेकल, एसएपी, एसएएस इंस्टीट्यूट और अन्य हैं (परिशिष्ट बी बीआई सिस्टम की कुछ कार्यक्षमता का तुलनात्मक विश्लेषण प्रदान करता है)।

OLTP एक रीयल-टाइम ट्रांजैक्शन प्रोसेसिंग सिस्टम है। OLTPs को बड़ी संख्या में उपयोगकर्ताओं से अपेक्षाकृत सरल प्रश्नों को शीघ्रता से पूरा करने के लिए डिज़ाइन किया गया है। उन्हें प्रश्नों के निष्पादन के लिए कम प्रतीक्षा समय की विशेषता है। ये सिस्टम छोटे लेन-देन के साथ काम करते हैं लेकिन बड़े प्रवाह के साथ।

मुख्य पवित्र द्वीप: १) परमाणु-संचालन का पूर्ण या गैर-निष्पादन बिल्कुल भी।

2) संगति - आपसी डेटा अखंडता की गारंटी

3) अलगाव - उपयोगकर्ता के नेटवर्क पर अलगाव में संचालन करना

4) टिकाऊपन - यदि लेनदेन सफल होता है, तो डेटाबेस में किए गए परिवर्तन किसी भी परिस्थिति में खो नहीं जाते हैं

31. ओलाप प्रौद्योगिकी (ऑन-लाइन विश्लेषणात्मक प्रसंस्करण)।

OLAP निर्णय समर्थन प्रणाली, अधिक जटिल प्रश्नों के निष्पादन की ओर उन्मुख होती है जिसके लिए एक निश्चित अवधि में संचित ऐतिहासिक डेटा के सांख्यिकीय प्रसंस्करण की आवश्यकता होती है।

OLAP डेटा माइनिंग पर आधारित है। डेटा माइनिंग- पहले अज्ञात, गैर-तुच्छ (कठिन) की पहचान करने के लिए बुद्धिमान डेटा विश्लेषण के तरीकों या तकनीकों का संयोजन, डेटा में निर्णय लेने के लिए आवश्यक ज्ञान की व्यावहारिक रूप से उपयोगी और सुलभ व्याख्या। OLAP में शामिल हैं: 1) कृत्रिम बुद्धिमत्ता विधियों के आधार पर सूचना प्रसंस्करण के साधन

2) बुध-वाह डेटा की ग्राफिकल प्रस्तुति।

OLAP तकनीक OLAP क्यूब्स नामक एक बहुआयामी डेटाबेस पर आधारित है।

32. डेटा वेयरहाउस (डीडब्ल्यू), निर्माण की अवधारणा और अवधारणाएं.

एचडी एक विषय-उन्मुख, एकीकृत, अपरिवर्तनीय, सहायक कालक्रम इलेक्ट्रॉनिक संग्रह (संग्रह) है जो निर्णय लेने के लिए डेटा का संग्रह करता है, यानी विश्लेषण और निर्णय लेने के कार्य।

सीडी के संगठन के एसवी-वीए (सिद्धांत):

1) विषय-उन्मुख। सीडी में जानकारी पी / पी की गतिविधि के मुख्य पहलुओं, यानी व्यावसायिक प्रक्रियाओं के अनुसार आयोजित की जाती है। डेटा को श्रेणियों में संयोजित किया जाता है और उनके द्वारा वर्णित क्षेत्रों के अनुसार संग्रहीत किया जाता है

2) एकीकरण - स्रोत डेटा को ऑपरेटिंग डेटाबेस से निकाला जाता है, चेक किया जाता है, साफ किया जाता है, एक ही रूप में घटाया जाता है, आवश्यक डिग्री तक एकत्रित किया जाता है और सीडी में लोड किया जाता है

3) अपरिवर्तनीयता (असंगतता) - सीडी की एक निश्चित ऐतिहासिक परत में एक बार, डेटा कभी नहीं बदला जाएगा। सीडी में डेटा नहीं बनाया जाता है, यानी यह बाहरी स्रोतों से आता है, इसे ठीक नहीं किया जाता है और इसे हटाया नहीं जाता है

4) कालक्रम (इतिहास) को बनाए रखना - समय के लिए बाध्यकारी, या समय के आधार पर, यानी सीडी में डेटा सीधे एक निश्चित अवधि से संबंधित है।

सीडी-संगठन और एक विषय-उन्मुख, एकीकृत, आंतरिक संरचना में थोड़ा परिवर्तनशील और नए डेटा को निकालने (निकालने) या मौजूदा लोगों को सामान्य बनाने के लिए प्रसंस्करण (विश्लेषण) के लिए इलेक्ट्रॉनिक डेटा संग्रह के कालक्रम का समर्थन करना।

एचडी एक संरचनात्मक रूप से एक्स्टेंसिबल कंप्यूटिंग वातावरण है जिसे समय-अपरिवर्तनीय डेटा के विश्लेषण के लिए डिज़ाइन किया गया है, जो तार्किक और शारीरिक रूप से विभिन्न स्रोतों से परिवर्तित होता है और व्यावसायिक लाइनों के अनुरूप होता है, जिसे लंबे समय तक अद्यतन और बनाए रखा जाता है, सरल शब्दों में व्यक्त किया जाता है और सामान्यीकृत (संक्षेप में) ) त्वरित विश्लेषण के लिए।

33. डेटा माइनिंग पहले से अज्ञात, गैर-तुच्छ (कठिन), व्यावहारिक रूप से उपयोगी, डेटाबेस में व्याख्या के लिए उपलब्ध ज्ञान का पता लगाने के तरीकों का एक सेट है, जो मानव जीवन के विभिन्न क्षेत्रों में निर्णय लेने के लिए आवश्यक है।

डेटामाइनिंग एक डेटाबेस से निहित और असंरचित जानकारी निकालने और इसे उपयोग के लिए उपयुक्त रूप में प्रस्तुत करने की एक प्रक्रिया है।

डीएम कार्य:

    वर्गीकरण अध्ययन या अवलोकन की वस्तुओं को उनकी सामान्य विशेषताओं के अनुसार समूहीकृत करने की प्रक्रिया है। इस समस्या को हल करने के परिणामस्वरूप, ऐसी विशेषताएं पाई जाती हैं जो अध्ययन किए गए डेटासेट की वस्तुओं के समूहों को चिह्नित करती हैं, अर्थात। कक्षाएं। इन आधारों पर, एक नई वस्तु को एक या दूसरे वर्ग के लिए जिम्मेदार ठहराया जा सकता है।

    क्लस्टरिंग किसी स्थिति को सबसेट में तोड़ने का कार्य है, जिसे क्लस्टर कहा जाता है।

    एसोसिएशन पैटर्न की खोज है, जो किसी वस्तु के गुणों के आधार पर नहीं, बल्कि एक साथ होने वाली कई घटनाओं के बीच की जाती है।

    पूर्वानुमान - ऐतिहासिक डेटा के आधार पर, लक्ष्य संख्यात्मक संकेतकों के चूक या भविष्य के मूल्यों का अनुमान लगाया जाता है।

34. 1सी: उद्यम - सॉफ्टवेयरकंपनी 1सी, उद्यम में गतिविधियों को स्वचालित करने के लिए डिज़ाइन किया गया।

1C: एंटरप्राइज (एक ही समय में) एक तकनीकी मंच और संचालन का एक उपयोगकर्ता मोड दोनों है। प्रौद्योगिकी मंच वस्तुओं (डेटा और मेटाडेटा) और वस्तु प्रबंधन तंत्र प्रदान करता है। ऑब्जेक्ट्स (डेटा और मेटाडेटा) को कॉन्फ़िगरेशन के रूप में वर्णित किया गया है। किसी भी गतिविधि को स्वचालित करते समय, वस्तुओं का अपना विन्यास तैयार किया जाता है, जो एक पूर्ण अनुप्रयोग समाधान है। कॉन्फ़िगरेशन "कॉन्फ़िगरेटर" नामक सॉफ़्टवेयर उत्पाद के एक विशेष ऑपरेटिंग मोड में बनाया गया है, फिर "1C: एंटरप्राइज़" नामक ऑपरेटिंग मोड शुरू होता है, जिसमें उपयोगकर्ता को इस एप्लिकेशन समाधान (कॉन्फ़िगरेशन) में लागू मुख्य कार्यों तक पहुंच प्राप्त होती है।

विशिष्ट विन्यास:

    विन्यास "1C: लेखा 8"

प्रमुख विशेषताऐं: अभिलेखों में रखते हुएएक डेटाबेस में कई संगठनों के लिए; लेखांकन और कर लेखांकन दोनों को बनाए रखना (खातों के अलग-अलग चार्ट पर); सरलीकृत कराधान प्रणाली के तहत रिकॉर्ड रखने की क्षमता (प्रत्येक संगठन के लिए, कराधान प्रणाली को स्वतंत्र रूप से चुना जा सकता है); लेखांकन नीति के लिए अधिक लचीले विकल्प (लेखांकन और कर लेखांकन के लिए अलग से सेट), खातों को बंद करना, मूल्यह्रास की गणना, लेखांकन टब, लागत से समावेश/बहिष्करण सहित, खाते में लेना यूटीआईआईखुदरा में।

    विन्यास "1C: व्यापार प्रबंधन 8"

उद्यमों में व्यापार और गोदाम लेखांकन के संचालन के लिए डिज़ाइन किया गया। कॉन्फ़िगरेशन "1C: ट्रेड एंड वेयरहाउस 7.7" की तुलना में कार्यक्षमता का विस्तार किया गया है: ग्राहक संबंध प्रबंधन (CRM) के अवसर हैं, साथ ही बिक्री और खरीद की योजना बनाने की क्षमता भी है।

    कॉन्फ़िगरेशन "1C: वेतन और कार्मिक प्रबंधन 8"

यह उद्यम की कार्मिक नीति के कार्यान्वयन और निम्नलिखित क्षेत्रों में कर्मियों के साथ नकद भुगतान के लिए अभिप्रेत है:

    नियोजन स्टाफिंग की जरूरत;

    कर्मियों की वित्तीय प्रेरणा का प्रबंधन;

    कार्मिक रोजगार की प्रभावी योजना;

    कार्मिक लेखांकन और कार्मिक विश्लेषण;

    मजदूरी की गणना और भुगतान;

    कानून द्वारा विनियमित मजदूरी निधि से करों और योगदान की गणना;

    उद्यम की लागत में अर्जित मजदूरी और करों का प्रतिबिंब।

    कॉन्फ़िगरेशन "1C: विनिर्माण उद्यम प्रबंधन 8"

सबसे दिलचस्प विशेषताएं जो अन्य प्रणालियों के विशाल बहुमत में नहीं पाई जाती हैं:

    विन्यास हैं: "विनिर्माण उद्यम प्रबंधन" (रूस के लिए), "यूक्रेन के लिए उद्यम प्रबंधन का निर्माण" और "कजाकिस्तान के लिए उद्यम प्रबंधन का निर्माण", और ये बिल्कुल अलग कॉन्फ़िगरेशन हैं, सेटिंग्स के लिए अलग-अलग विकल्प नहीं हैं।

    पंजीकृत (आयोजित) दस्तावेजों को बदलने की संभावना है। तकनीकी सहायता का स्तर भागीदार कंपनी (तथाकथित "फ्रेंचाइजी") पर निर्भर करता है। एक साथी खोजने के लिए एक विशेष संसाधन है: "प्रमाणित फ्रेंचाइजी का विकल्प".

आर्किटेक्चर 1C: एंटरप्राइज 8

1) सामान्य तंत्र। सिस्टम 1C: एंटरप्राइज 8 कई तंत्रों पर आधारित है जो लागू समाधान बनाने की अवधारणा को निर्धारित करते हैं। इन तंत्रों की उपस्थिति लागू समाधानों के विकास और कार्यान्वयन के लिए व्यावसायिक योजना के साथ तकनीकी क्षमताओं को अधिकतम रूप से सहसंबंधित करना संभव बनाती है।

मुख्य बिंदु तकनीकी विवरण से डेवलपर का अलगाव, एप्लिकेशन के केवल व्यावसायिक तर्क की एल्गोरिथम प्रोग्रामिंग, एक मालिकाना डेटाबेस मॉडल का उपयोग और आगे के विकास के बिना लागू समाधानों की मापनीयता है।

2) अनुप्रयुक्त तंत्र। 1C की संरचना: उद्यम लागू तंत्र लेखांकन और उद्यम प्रबंधन के स्वचालन की समस्याओं को हल करने पर केंद्रित है। समस्या-उन्मुख वस्तुओं का उपयोग डेवलपर को व्यावसायिक प्रक्रियाओं के स्तर पर गोदाम, लेखा, प्रबंधन लेखांकन, पेरोल लेखांकन, डेटा विश्लेषण और प्रबंधन में कार्यों की विस्तृत श्रृंखला को हल करने की अनुमति देता है। 3) इंटरफ़ेस तंत्र। 1C: एंटरप्राइज़ 8 में, एक आधुनिक इंटरफ़ेस डिज़ाइन लागू किया गया है और लंबे समय तक सिस्टम के साथ काम करने पर उपयोगकर्ता अनुभव को बढ़ाया गया है।

4) मापनीयता। तकनीकी मंच आवेदन समाधान के लिए विभिन्न विकल्प प्रदान करता है: व्यक्तिगत एकल-उपयोगकर्ता से, बड़े कार्यसमूहों और उद्यमों में काम करने के लिए। स्केलेबिलिटी का मुख्य बिंदु यह है कि मंच के माध्यम से प्रदर्शन लाभ प्राप्त किया जाता है, और समवर्ती उपयोगकर्ताओं की संख्या बढ़ने पर एप्लिकेशन समाधानों में सुधार करने की आवश्यकता नहीं होती है।

5) एकीकरण। सिस्टम 1C: एंटरप्राइज 8 एक ओपन सिस्टम है। आम तौर पर मान्यता प्राप्त खुले मानकों और डेटा ट्रांसफर प्रोटोकॉल के आधार पर लगभग किसी भी बाहरी कार्यक्रमों और उपकरणों के साथ एकीकरण के लिए एक अवसर प्रदान किया जाता है।

35. IKIS Galaktika, Galaktika Business Suite बिजनेस सॉल्यूशंस का एक हिस्सा है, जिसका मुख्य उद्देश्य एक आधुनिक अर्थव्यवस्था में एकल सूचना स्थान में एक उद्यम, होल्डिंग, कंपनियों के समूह के प्रबंधन के विशिष्ट और विशिष्ट कार्य करना है।

Galaktika प्रणाली प्रबंधन चक्र के सभी चरणों में उत्पन्न होने वाली समस्याओं के समाधान को स्वचालित करने पर केंद्रित है: पूर्वानुमान और योजना, लेखांकन और योजनाओं के कार्यान्वयन की निगरानी, ​​​​परिणामों का विश्लेषण, पूर्वानुमान और योजनाओं को सही करना। सिस्टम की मुख्य संरचनात्मक इकाई एक निश्चित विषय क्षेत्र के व्यक्तिगत कार्यों को हल करने के लिए डिज़ाइन किया गया एक मॉड्यूल है (उदाहरण के लिए, "बिक्री प्रबंधन", "उत्पादन योजना")। मॉड्यूल, बदले में, कार्यात्मक सर्किट में संयुक्त होते हैं। उत्पादन और आर्थिक आवश्यकता के आधार पर, अलग-अलग मॉड्यूल और उनके मनमाने संयोजनों के अलग-अलग उपयोग की अनुमति है। यह ध्यान दिया जाना चाहिए कि गैलेक्टिका ईआरपी प्रणाली ने एक घटक मॉडल की अवधारणा के कार्यान्वयन की दिशा में पहला कदम उठाया: तार्किक रूप से, सिस्टम मॉड्यूल में ऐसे घटक होते हैं जो विशेष इंटरफेस के माध्यम से एक दूसरे के साथ बातचीत करते हैं।

गैलेक्सी ईआरपी सिस्टम की योजना और वित्तीय प्रबंधन रूपरेखा कंपनी के वित्तीय संसाधनों के प्रबंधन के लिए एक विश्वसनीय उपकरण है। इसे वित्तीय और आर्थिक नियोजन सेवाओं के प्रमुखों और विशेषज्ञों को संबोधित किया जाता है। इसकी मदद से, आप उद्यम की वित्तीय और आर्थिक गतिविधियों की योजना बना सकते हैं, वित्तीय योजनाओं का मॉडलिंग और समन्वय कर सकते हैं, उनके वास्तविक निष्पादन का विश्लेषण कर सकते हैं और परिचालन वित्तीय प्रबंधन कर सकते हैं। गैलेक्सी ईआरपी सिस्टम की योजना और वित्तीय प्रबंधन रूपरेखा में तीन मॉड्यूल शामिल हैं - "बजट प्रबंधन", "भुगतान कैलेंडर" और "वित्तीय विश्लेषण"।

बजटिंग वित्तीय संसाधनों के प्रबंधन की प्रक्रिया है, जिसमें निम्नलिखित चरण शामिल हैं:

विभिन्न बजट विकल्पों की योजना और मॉडलिंग;

बजट का समन्वय और अनुमोदन;

वास्तविक बजट संकेतकों का गठन;

बजट समायोजन करना।

भुगतान कैलेंडर मॉड्यूल का उद्देश्य नकदी प्रवाह के परिचालन वित्तीय प्रबंधन की समस्याओं को हल करना है। मॉड्यूल वित्तीय दायित्वों की पूर्ति की निगरानी, ​​भुगतान के साधनों की पूर्ण तरलता सुनिश्चित करने, दिवाला के जोखिम को कम करने के लिए एक उपकरण है।

वित्तीय विश्लेषण का मुख्य कार्य उद्यम की वित्तीय स्थिति का आकलन करना और इसके आगे के विकास के लिए संभावनाओं की पहचान करना है। वित्तीय स्थिति का विश्लेषण कई तरीकों से किया जा सकता है जो पुराने और नए मानकों में संकेतकों के अनुपात का वर्णन करने वाले विभिन्न सूत्रों का उपयोग करके समान संकेतकों के मूल्यों की गणना करने की अनुमति देता है। वित्तीय विश्लेषण कंपनी के बैलेंस शीट डेटा के साथ-साथ विभिन्न संदर्भों और अनुप्रयोगों के आधार पर किया जाता है। बाहरी स्रोतों और सिस्टम के अन्य मॉड्यूल से रिपोर्ट आयात करने के कार्य के बाद आर्थिक विश्लेषण किया जाता है।

सूचना का विश्लेषणात्मक प्रसंस्करण सीधे एक विश्लेषणात्मक प्रक्रिया है, जिसके संबंध में इसके संगठन के लिए गंभीर आवश्यकताओं को सामने रखा जाता है, अर्थात्, उपयुक्त कार्यप्रणाली समर्थन, विश्लेषकों के प्रशिक्षण का एक निश्चित स्तर, विश्लेषण के तकनीकी साधनों के साथ उनका प्रावधान।
लिए गए प्रबंधन निर्णयों की गुणवत्ता और वैधता काफी हद तक न केवल विश्वसनीयता, पूर्णता, उपलब्धता, सूचना प्राप्त करने की दक्षता से निर्धारित होती है, बल्कि इसके प्रसंस्करण में उपयोग की जाने वाली विधियों की प्रभावशीलता से भी निर्धारित होती है। आर्थिक जानकारी के विश्लेषणात्मक प्रसंस्करण की तकनीक में सुधार प्रबंधन प्रौद्योगिकी में सुधार के प्रमुख तत्वों में से एक है।
व्यवसाय प्रबंधन प्रक्रिया का उच्च-गुणवत्ता वाला सूचना समर्थन तभी संभव है जब व्यवहार में नवीनतम सूचना प्रौद्योगिकियों का उपयोग किया जाए: कंप्यूटर प्रौद्योगिकी, दूरसंचार और सॉफ्टवेयर, साथ ही स्वचालित नियंत्रण प्रणाली।
आर्थिक गतिविधि की शर्तें, जो एक लेखा नीति बनाने के लिए उद्यमों के व्यापक अधिकार, इसे बदलने की संभावना, स्वामित्व के बदलते रूपों को दर्शाती हैं; पुनर्गठन प्रक्रियाओं, कंपनियों के विलय, आदि, बड़ी मात्रा में विश्लेषणात्मक जानकारी को संसाधित करने की आवश्यकता को निर्धारित करते हैं। गणना स्वयं, जो कुछ वित्तीय और आर्थिक लेनदेन को दर्शाते समय उपयोग की जाती हैं, वे भी अधिक जटिल हो गई हैं। अचल संपत्तियों पर मूल्यह्रास की गणना के तरीकों को चुनने के लिए उद्यमों के व्यापक अधिकार सूचना के मैनुअल प्रसंस्करण के अधीन मूल्यह्रास कटौती की मात्रा की गणना करने का कार्य व्यावहारिक रूप से अव्यवहारिक बनाते हैं।
प्रबंधकीय निर्णय लेने के लिए आवश्यक सूचना की दक्षता और विश्वसनीयता की डिग्री की आवश्यकताएं बढ़ रही हैं। यह एक कंप्यूटर वातावरण में आर्थिक विश्लेषण का संगठन है जिसने लेखांकन जानकारी के संग्रह और पंजीकरण की दक्षता में काफी वृद्धि करना संभव बना दिया है, अंकगणितीय त्रुटियों की संभावना को काफी कम कर देता है और परिणामस्वरूप, काम की श्रम तीव्रता को कम करता है उद्यमों में विश्लेषणात्मक सेवाएं।
सूचना प्रवाह की जटिलता, सूचना प्राप्त करने के लिए चैनलों की अपूर्णता, जानकारी एकत्र करने, भंडारण और प्रसंस्करण के लिए विधियों और तकनीकों में अक्सर इसकी महत्वपूर्ण देरी होती है, और इसके परिणामस्वरूप, इसकी "गुणवत्ता। गतिविधि और आर्थिक विश्लेषण" की हानि होती है। उद्यम की सूचना प्रणाली के साथ बस्तियों के स्वचालन का क्रमिक विलय।
संग्रह, प्रसंस्करण और भंडारण के लिए एक स्वचालित प्रणाली, जो रिकॉर्डिंग उपकरणों, संचार लाइनों और कंप्यूटरों का एक व्यापक नेटवर्क है, सूचना के उद्भव और विश्लेषणात्मक कार्य में इसके उपयोग के बीच के समय को कम करता है। तकनीकी साधन उद्यम में होने वाली प्रक्रियाओं के बारे में प्रबंधकों और अन्य प्रबंधन कर्मचारियों को समय पर सूचना का वितरण सुनिश्चित करते हैं। आधुनिक सूचना प्रौद्योगिकियों का उपयोग त्वरित खोज और समय लेने वाली गणना करना संभव बनाता है, साथ ही परिणामों को स्वीकार्य रूप में प्रदर्शित करता है।
आर्थिक जानकारी को बदलने की प्रक्रियाओं में अग्रणी स्थान पर इसके व्यवस्थितकरण और प्रसंस्करण का कब्जा है। कंप्यूटर प्रौद्योगिकी के उपयोग के साथ, सूचना प्रसंस्करण एकल सूचना तकनीकी प्रक्रिया का एक जैविक हिस्सा बन गया है। आधुनिक कंप्यूटरों ने न केवल इस प्रक्रिया के कनेक्शन को दूसरों के साथ बदल दिया, सूचना प्रक्रियाओं की तकनीकी एकता की संभावना पैदा की, बल्कि "डेटा प्रोसेसिंग" की अवधारणा की सामग्री को भी प्रभावित किया। यदि विश्लेषणात्मक कार्य के मैनुअल या मशीनीकृत निष्पादन में, प्रसंस्करण को मुख्य रूप से अंकगणितीय संचालन के रूप में समझा जाता था, तो आज प्रसंस्करण के लिए सबसे जटिल तार्किक और सांख्यिकीय संचालन का उपयोग किया जाता है।
प्रसंस्करण के परिणामस्वरूप प्राप्त अधिकांश आर्थिक जानकारी डेटा संग्रह और प्रसंस्करण कैलेंडर द्वारा प्रदान की गई विशिष्ट शर्तों के भीतर प्रबंधकों, विशेषज्ञों, प्रबंधकों को भेजी जाती है। विनियमित आर्थिक जानकारी के निर्माण में, इसकी तैयारी के समय की स्थापना विशेष रूप से कठिन नहीं है, क्योंकि वे आमतौर पर उत्पादन की स्थितियों से निर्धारित होते हैं। अनियमित समय पर प्रबंधन निर्णय लेने के लिए अनियमित जानकारी के संग्रह और प्रसंस्करण को डिजाइन करने में कठिनाई होती है। ऐसी जानकारी प्राप्त करने के लिए, सिस्टम को एक निर्दिष्ट अवधि के साथ कार्य के परिणामों, योजनाओं की प्रगति, आर्थिक और सामाजिक विकास की गतिशीलता की विशेषता वाले डेटा उत्पन्न करना होगा।
इस तरह की प्रणाली को सूचना प्राप्त करने के विभिन्न तरीकों के लिए प्रदान करने, डेटा एकत्र करने और संसाधित करने की तकनीकी, तकनीकी प्रक्रिया के डिजाइन के लिए एक अलग दृष्टिकोण की आवश्यकता होती है। सबसे आशाजनक इंटरेक्टिव मोड कंप्यूटर के साथ उपयोगकर्ताओं की सीधी बातचीत प्रदान करता है। परिचालन प्रबंधन निर्णय लेने के लिए, प्रबंधक, कुछ संवाद प्रक्रियाओं के आधार पर, आवश्यक जानकारी का चयन करते हैं जो सामग्री, श्रम और वित्तीय संसाधनों, उत्पादन के पाठ्यक्रम और अन्य व्यावसायिक प्रक्रियाओं के प्रावधान और उपयोग को दर्शाती है।
एक संसाधित, परस्पर और समन्वित रूप में, आर्थिक गतिविधियों और निर्णय लेने के विश्लेषण के लिए जिम्मेदार आर्थिक प्रबंधन के विभागों और सेवाओं को सूचना प्रेषित की जाती है। अर्थव्यवस्था का प्रबंधन करने के लिए, उन्हें एक भविष्य कहनेवाला प्रकृति की विशेष जानकारी की आवश्यकता होती है, जो न केवल उद्यम में मामलों की स्थिति को रिकॉर्ड करने की अनुमति देती है, बल्कि किसी विशेष प्रक्रिया या घटना के विकास के रुझानों का विश्लेषण करने और इसके आधार पर इष्टतम और समय पर निर्णय लेने की भी अनुमति देती है। यह नियंत्रित वस्तु और उसके पर्यावरण, लेकिन पूर्वानुमान के लिए उपयुक्त जानकारी का विश्लेषण भी करता है। सिस्टम और उसके पर्यावरण के पिछले व्यवहार के बारे में जानकारी का उपयोग आर्थिक मॉडलिंग टूल, विशेषज्ञ और भविष्य कहनेवाला सॉफ्टवेयर सिस्टम का उपयोग करके एक अनुमानित निर्णय के आधार पर प्रबंधन निर्णय विकसित करने के लिए किया जाता है।

(डीबीएमएस. - 1998. - संख्या 4-5)

पिछले कुछ समय से, हार्डवेयर और सॉफ्टवेयर के विकास के आधुनिक स्तर ने प्रबंधन के सभी स्तरों पर परिचालन जानकारी के डेटाबेस के व्यापक रखरखाव को संभव बनाया है। अपनी गतिविधियों के दौरान, औद्योगिक उद्यमों, निगमों, विभागीय संरचनाओं, सरकारी निकायों और प्रशासनों ने बड़ी मात्रा में डेटा जमा किया है। वे उपयोगी विश्लेषणात्मक जानकारी निकालने के लिए अपने आप में बड़ी क्षमता रखते हैं, जिसके आधार पर छिपी प्रवृत्तियों की पहचान करना, विकास रणनीति बनाना और नए समाधान खोजना संभव है।

हाल के वर्षों में, दुनिया में कॉर्पोरेट डेटा के भंडारण और विश्लेषण के लिए कई नई अवधारणाओं ने आकार लिया है:

यह लेख इन अवधारणाओं के अवलोकन के साथ-साथ प्रबंधन निर्णय लेने के समर्थन में उनकी पूरकता के प्रमाण के लिए समर्पित है।

1. डेटा के गोदाम (गोदाम)

सूचना प्रौद्योगिकी के क्षेत्र में, प्रणालियों के दो वर्ग हमेशा सह-अस्तित्व में रहे हैं [, पृ. 49]:

सूचनाकरण के पहले चरणों में, दैनिक दिनचर्या डेटा प्रोसेसिंग की प्रक्रियाओं में चीजों को ठीक से व्यवस्थित करना हमेशा आवश्यक होता है, जिस पर पारंपरिक ओडीएस पर ध्यान केंद्रित किया जाता है, इसलिए, सिस्टम के इस वर्ग का उन्नत विकास काफी समझ में आता है।

द्वितीय श्रेणी की प्रणालियाँ - DSS - उनके संबंध में गौण हैं। एक स्थिति अक्सर तब उत्पन्न होती है जब किसी संगठन में डेटा कई असंबंधित ओडीएस के साथ जमा होता है, जो बड़े पैमाने पर एक दूसरे की नकल करते हैं, लेकिन किसी भी तरह से सुसंगत नहीं होते हैं। इस मामले में, इसकी स्पष्ट अधिकता के बावजूद, विश्वसनीय जटिल जानकारी प्राप्त करना व्यावहारिक रूप से असंभव है।

कॉरपोरेट डेटा वेयरहाउस बनाने का लक्ष्य विषम स्रोतों से परिचालन डेटा को एकीकृत, अद्यतन और समेटना है ताकि संपूर्ण रूप से नियंत्रण वस्तु का एक सुसंगत दृश्य तैयार किया जा सके। उसी समय, डेटा वेयरहाउस की अवधारणा लेन-देन प्रसंस्करण के लिए उपयोग किए जाने वाले डेटासेट और निर्णय समर्थन प्रणालियों में उपयोग किए जाने वाले डेटासेट को अलग करने की आवश्यकता की मान्यता पर आधारित है। ओडीएस और बाहरी स्रोतों में अलग-अलग विस्तृत डेटा को एक ही भंडार, उनके समन्वय और संभवतः एकत्रीकरण में एकीकृत करके ऐसा विभाजन संभव है। डेटा गोदामों की अवधारणा के लेखक डब्ल्यू इनमोन, ऐसे गोदामों को परिभाषित करते हैं:

  • "विषय-उन्मुख,
  • एकीकृत,
  • अपरिवर्तनीय
  • सहायक कालक्रम

प्रबंधन का समर्थन करने के लिए व्यवस्थित डेटासेट, "सत्य का एकमात्र स्रोत" के रूप में कार्य करने के लिए डिज़ाइन किया गया है ताकि प्रबंधकों और विश्लेषकों को विश्वसनीय जानकारी प्रदान की जा सके जो उन्हें परिचालन विश्लेषण और निर्णय समर्थन के लिए आवश्यक है।

डेटा वेयरहाउस की अवधारणा में संगठन के डेटा का न केवल एक तार्किक दृष्टिकोण शामिल है, बल्कि एक एकीकृत डेटा स्रोत का वास्तविक कार्यान्वयन शामिल है। इस अवधारणा के संबंध में कॉर्पोरेट डेटा का एक एकीकृत दृष्टिकोण बनाने का एक वैकल्पिक तरीका विभिन्न ओडीएस के वितरित डेटाबेस के आधार पर एक आभासी स्रोत बनाना है। इसके अलावा, इस तरह के एक स्रोत के लिए प्रत्येक क्वेरी को गतिशील रूप से स्रोत डेटाबेस में प्रश्नों में अनुवादित किया जाता है, और प्राप्त परिणाम मक्खी पर समन्वित, जुड़े, एकत्रित और उपयोगकर्ता को वापस कर दिए जाते हैं। हालांकि, बाहरी लालित्य के बावजूद, इस पद्धति के कई महत्वपूर्ण नुकसान हैं।

  1. वितरित भंडारण के अनुरोधों का प्रसंस्करण समय केंद्रीकृत भंडारण के लिए संबंधित संकेतकों से काफी अधिक है। इसके अलावा, एकल रिकॉर्ड के गहन अद्यतन के लिए डिज़ाइन किए गए ODS डेटाबेस की संरचनाएं अत्यधिक सामान्यीकृत हैं, इसलिए, एक विश्लेषणात्मक क्वेरी में, बड़ी संख्या में तालिकाओं को उनके साथ जोड़ा जाना चाहिए, जिससे प्रदर्शन में भी कमी आती है।
  2. वितरित कॉर्पोरेट भंडारण का एक एकीकृत दृश्य केवल तभी संभव है जब नेटवर्क पर सभी डेटा स्रोतों की निरंतर कनेक्टिविटी की आवश्यकता पूरी हो। इस प्रकार, कम से कम एक स्रोत की अस्थायी अनुपलब्धता या तो सूचना और विश्लेषणात्मक प्रणाली (IAS) के काम को असंभव बना सकती है, या गलत परिणाम दे सकती है।
  3. ODS तालिकाओं पर जटिल विश्लेषणात्मक प्रश्नों का निष्पादन बड़ी मात्रा में डेटाबेस सर्वर संसाधनों की खपत करता है और ODS प्रदर्शन में कमी की ओर जाता है, जो अस्वीकार्य है, क्योंकि ODS में संचालन का निष्पादन समय अक्सर बहुत महत्वपूर्ण होता है।
  4. विभिन्न ओडीएस विभिन्न डेटा प्रारूपों और एन्कोडिंग का समर्थन कर सकते हैं, उनमें डेटा असंगत हो सकता है। बहुत बार, एक ही प्रश्न के लिए कई उत्तर विकल्प प्राप्त हो सकते हैं, जो डेटा अद्यतन करने के अतुल्यकालिक क्षणों, व्यक्तिगत घटनाओं, अवधारणाओं और डेटा की व्याख्या में अंतर, विकास की प्रक्रिया में डेटा के शब्दार्थ में परिवर्तन के कारण हो सकते हैं। विषय क्षेत्र, इनपुट त्रुटियाँ, अंशों के संग्रह का नुकसान, आदि। इस मामले में, लक्ष्य - प्रबंधन की वस्तु के एकल सुसंगत दृष्टिकोण का गठन - प्राप्त नहीं किया जा सकता है।
  5. मुख्य दोष को लंबे ऐतिहासिक अनुक्रमों की समीक्षा करने की व्यावहारिक असंभवता को पहचाना जाना चाहिए, क्योंकि केंद्रीय भंडार की अनुपस्थिति में, केवल वे डेटा उपलब्ध हैं जो अनुरोध के समय संबंधित एसओडी के वास्तविक डेटाबेस में हैं। ODS का मुख्य उद्देश्य ऑपरेशनल डेटा प्रोसेसिंग है, इसलिए वे लंबी (कई महीनों से अधिक) अवधि के लिए डेटा संग्रहीत करने की विलासिता को वहन नहीं कर सकते हैं; जैसे ही यह अप्रचलित हो जाता है, डेटा को संग्रह में अपलोड कर दिया जाता है और लेनदेन संबंधी डेटाबेस से हटा दिया जाता है। जहां तक ​​विश्लेषणात्मक प्रसंस्करण का सवाल है, प्रबंधन की वस्तु को ऐतिहासिक पूर्वव्यापी में देखना उसके लिए सबसे दिलचस्प है।

इस प्रकार, डेटा वेयरहाउस निम्नलिखित परिदृश्य के अनुसार संचालित होता है। निर्दिष्ट नियमों के अनुसार, यह विभिन्न स्रोतों से डेटा एकत्र करता है - परिचालन प्रसंस्करण प्रणालियों के डेटाबेस। भंडारण कालक्रम को बनाए रखता है: वर्तमान के साथ, ऐतिहासिक डेटा को उस समय के संकेत के साथ संग्रहीत किया जाता है जिससे वे संबंधित होते हैं। नतीजतन, नियंत्रण वस्तु के बारे में आवश्यक उपलब्ध डेटा एक स्थान पर एकत्र किया जाता है, एक प्रारूप में लाया जाता है, सहमत होता है और, कुछ मामलों में, सामान्यीकरण के न्यूनतम आवश्यक स्तर तक एकत्रित किया जाता है।

कॉर्पोरेट डेटा वेयरहाउस का एक हल्का संस्करण डेटा मार्ट हो सकता है, यानी विषयगत डेटाबेस जिसमें संगठन की गतिविधियों के कुछ पहलुओं से संबंधित जानकारी होती है। 1991 में फॉरेस्टर रिसर्च द्वारा डेटा मार्ट अवधारणा प्रस्तावित की गई थी। उसी समय, मुख्य विचार यह था कि डेटा मार्ट में पूर्व-एकत्रित डेटा के विषयगत उपसमुच्चय होते हैं, जो कॉर्पोरेट डेटा वेयरहाउस की तुलना में आकार में बहुत छोटे होते हैं, और इसलिए, बनाए रखने के लिए कम उत्पादक तकनीक की आवश्यकता होती है। 1994 में, एम। डेमरेस्ट ने दो अवधारणाओं को संयोजित करने और कई डेटा मार्ट के लिए एकल एकीकृत स्रोत के रूप में डेटा वेयरहाउस का उपयोग करने का प्रस्ताव रखा। इस संस्करण में, कॉर्पोरेट सूचना और विश्लेषणात्मक प्रणाली में त्रि-स्तरीय संरचना है:

  • कॉर्पोरेट-व्यापी केंद्रीकृत डेटा वेयरहाउस;
  • विभाग स्तरीय विषयगत डेटा बाजार;
  • विश्लेषणात्मक उपकरणों से लैस एंड-यूज़र वर्कस्टेशन।

माना अवधारणा विशेष रूप से भंडारण पर केंद्रित है, न कि कॉर्पोरेट डेटा के प्रसंस्करण पर। यह लक्ष्य विश्लेषणात्मक प्रणालियों की वास्तुकला को पूर्व निर्धारित नहीं करता है, लेकिन केवल डेटा आवश्यकताओं पर ध्यान केंद्रित करते हुए उनके कामकाज के लिए एक क्षेत्र बनाता है। इस प्रकार, वह हर उस चीज़ में पसंद की स्वतंत्रता छोड़ती है जो संबंधित है:

  • लक्ष्य भंडारण में डेटा प्रस्तुत करने के तरीके (उदाहरण के लिए, संबंधपरक, बहुआयामी);
  • भंडारण डेटा विश्लेषण मोड।

2. विश्लेषणात्मक डेटा प्रोसेसिंग के तरीके

मौजूदा डेटा वेयरहाउस के लिए प्रबंधन निर्णयों को अपनाने की सुविधा के लिए, जानकारी को आवश्यक रूप में विश्लेषक को प्रस्तुत किया जाना चाहिए, अर्थात, उसके पास वेयरहाउस में डेटा तक पहुंचने और संसाधित करने के लिए विकसित उपकरण होने चाहिए।

डेटा विश्लेषण मोड की कसौटी के अनुसार, सूचना और विश्लेषणात्मक प्रणालियों को दो श्रेणियों में बांटा गया है [,]:

  • स्थिर (डेटा प्रोसेसिंग और रिपोर्टिंग स्क्रिप्ट के पूर्वनिर्धारित सेट सहित); इस श्रेणी में तथाकथित प्रबंधक सूचना प्रणाली (WIS) शामिल हैं;
  • गतिशील (तदर्थ प्रश्नों के निर्माण और निष्पादन और फ्री-फॉर्म रिपोर्ट की पीढ़ी का समर्थन)।

बहुत बार, निर्णय निर्माताओं द्वारा प्रत्यक्ष उपयोग की अपेक्षा के साथ बनाए गए IAS का उपयोग करना बेहद आसान होता है, लेकिन कार्यक्षमता में गंभीर रूप से सीमित होता है। इस तरह के स्थिर डीएसएस [, पी। 55], या प्रबंधक सूचना प्रणाली (आईएसएस) [, पी। 73] - (कार्यकारी सूचना प्रणाली, ईआईएस) [, पी। 4] - प्रश्नों के पूर्वनिर्धारित सेट होते हैं और दैनिक समीक्षा के लिए पर्याप्त होते हैं। , उपलब्ध डेटा के बारे में सभी सवालों के जवाब देने में असमर्थ हैं जो निर्णय लेते समय उत्पन्न हो सकते हैं (नोट। वी। प्रिज़ियालकोवस्की [, पी। 81] के अनुसार, आईएसआर "एक कंप्यूटर सिस्टम है जो अनुमति देता है ... कंप्यूटर के साथ सीमित अनुभव वाले वरिष्ठ प्रबंधन कर्मियों का निपटान "।) ऐसी प्रणाली के काम का परिणाम, एक नियम के रूप में, बहु-पृष्ठ रिपोर्ट है, जिसके गहन अध्ययन के बाद विश्लेषक के पास प्रश्नों की एक नई श्रृंखला है; हालांकि, प्रत्येक नए अनुरोध, जो ऐसी प्रणाली के डिजाइन में पूर्वाभास नहीं है, को पहले औपचारिक रूप से वर्णित किया जाना चाहिए, प्रोग्रामर को प्रेषित किया जाना चाहिए, कोडित किया जाना चाहिए और उसके बाद ही निष्पादित किया जाना चाहिए। इस मामले में प्रतीक्षा समय घंटे और दिन हो सकता है, जो हमेशा स्वीकार्य नहीं होता है। इस प्रकार, स्थैतिक डीएसएस की बाहरी सादगी, जिसके लिए सूचना-विश्लेषणात्मक प्रणालियों के अधिकांश ग्राहक सक्रिय रूप से लड़ रहे हैं, लचीलेपन के विनाशकारी नुकसान में बदल जाते हैं।

दूसरी ओर, डायनेमिक डीएसएस डेटा के लिए तदर्थ विश्लेषक अनुरोधों को संसाधित करने पर केंद्रित है। OLAP की अवधारणा की नींव रखने वाले लेख में E. F. Codd द्वारा ऐसी प्रणालियों की आवश्यकताओं पर सबसे अधिक गहराई से विचार किया गया था। विश्लेषक इन प्रणालियों के साथ प्रश्नों को बनाने और उनके परिणामों का अध्ययन करने के एक इंटरैक्टिव अनुक्रम में काम करते हैं, जिनमें से प्रत्येक प्रश्नों की एक नई श्रृंखला की आवश्यकता उत्पन्न कर सकता है।

लेकिन गतिशील डीएसएस केवल ऑनलाइन विश्लेषणात्मक प्रसंस्करण (ओएलएपी) के दायरे से कहीं अधिक काम कर सकते हैं; संचित डेटा के आधार पर प्रबंधन निर्णय लेने के लिए समर्थन तीन बुनियादी क्षेत्रों में किया जा सकता है।

कॉड के अनुसार, प्रबंधन की वस्तु पर प्रबंधन कर्मियों का बहुआयामी वैचारिक दृष्टिकोण सबसे स्वाभाविक दृष्टिकोण है। यह कई स्वतंत्र आयामों से बना एक बहु परिप्रेक्ष्य है जिसके साथ डेटा के विशिष्ट सेट का विश्लेषण किया जा सकता है। डेटा के कई आयामों में एक साथ विश्लेषण को बहुभिन्नरूपी विश्लेषण के रूप में परिभाषित किया गया है। प्रत्येक आयाम में डेटा समेकन की दिशाएं शामिल होती हैं, जिसमें एकत्रीकरण के क्रमिक स्तरों की एक श्रृंखला शामिल होती है, जहां प्रत्येक उच्च स्तर संबंधित आयाम के लिए डेटा एकत्रीकरण की एक बड़ी डिग्री से मेल खाता है। इस प्रकार, ठेकेदार आयाम को समेकन की दिशा से निर्धारित किया जा सकता है, जिसमें सामान्यीकरण के स्तर "उद्यम - विभाग - विभाग - कर्मचारी" शामिल हैं। समय आयाम में दो समेकन दिशाएँ भी शामिल हो सकती हैं - वर्ष-तिमाही-महीना-दिन और सप्ताह-दिन, क्योंकि महीने और सप्ताह के अनुसार समय की गणना असंगत है। इस मामले में, प्रत्येक माप के लिए सूचना विवरण के वांछित स्तर का मनमाने ढंग से चयन करना संभव हो जाता है। ड्रिलिंग डाउन ऑपरेशन समेकन के उच्च चरणों से निचले चरणों में आंदोलन से मेल खाता है; इसके विपरीत, रोलिंग अप ऑपरेशन का अर्थ है निचले स्तरों से उच्च स्तरों की ओर बढ़ना (चित्र 2)।


चावल। 2. डेटा समेकन के माप और दिशाएं।

३.१. ऑनलाइन विश्लेषणात्मक प्रसंस्करण के लिए उपकरणों की आवश्यकताएं

कोडड ने 12 नियमों की पहचान की जिन्हें OLAP क्लास सॉफ़्टवेयर उत्पाद (तालिका 1) द्वारा पूरा किया जाना चाहिए।

तालिका 1. OLAP वर्ग के सॉफ़्टवेयर उत्पादों के मूल्यांकन के लिए नियम।

1. बहुआयामी वैचारिक दृष्टिकोण OLAP उत्पाद में डेटा मॉडल का वैचारिक प्रतिनिधित्व प्रकृति में बहुआयामी होना चाहिए, अर्थात, यह विश्लेषकों को सहज "स्लाइस और डाइस" संचालन करने की अनुमति देनी चाहिए (एस डी कुज़नेत्सोव द्वारा अनुवादित, तीसरे वार्षिक सम्मेलन में भाषण "कॉर्पोरेट डेटाबेस "98 "), समेकन के रोटेशन (घुमाने) और प्लेसमेंट (धुरी) दिशाएं।
2. पारदर्शिता उपयोगकर्ता को इस बात की जानकारी नहीं होनी चाहिए कि डेटा को स्टोर और प्रोसेस करने के लिए किन विशिष्ट साधनों का उपयोग किया जाता है, डेटा कैसे व्यवस्थित किया जाता है और यह कहां से आता है।
3. सरल उपयोग विश्लेषक को एक सामान्य वैचारिक ढांचे के ढांचे के भीतर विश्लेषण करने में सक्षम होना चाहिए, लेकिन साथ ही डेटा सामान्य विश्लेषणात्मक मॉडल से बंधे रहते हुए डीबीएमएस की शेष विरासत के नियंत्रण में रह सकता है। अर्थात्, OLAP टूलकिट को अपने तार्किक स्कीमा को भौतिक डेटा सेटों पर अधिरोपित करना चाहिए, सूचना पर उपयोगकर्ता के एकल, सुसंगत और समग्र दृष्टिकोण प्रदान करने के लिए आवश्यक सभी परिवर्तनों को निष्पादित करना चाहिए।
4. लगातार रिपोर्टिंग प्रदर्शन जैसे-जैसे आयामों की संख्या और डेटाबेस आकार बढ़ता है, विश्लेषकों को किसी भी प्रदर्शन में गिरावट का अनुभव नहीं करना चाहिए। OLAP को अंतिम उपयोगकर्ता तक लाने के लिए आवश्यक जटिलता से उपयोग में आसानी और स्वतंत्रता बनाए रखने के लिए निरंतर प्रदर्शन आवश्यक है।
5. क्लाइंट-सर्वर आर्किटेक्चर ऑनलाइन विश्लेषणात्मक प्रसंस्करण की आवश्यकता वाले अधिकांश डेटा को मेनफ्रेम सिस्टम में संग्रहीत किया जाता है, और से पुनर्प्राप्त किया जाता है व्यक्तिगत कम्प्यूटर्स... इसलिए, आवश्यकताओं में से एक क्लाइंट-सर्वर वातावरण में काम करने के लिए OLAP उत्पादों की क्षमता है। यहां मुख्य विचार यह है कि OLAP टूल का सर्वर घटक पर्याप्त स्मार्ट होना चाहिए और पारदर्शी प्रभाव प्रदान करने के लिए कॉर्पोरेट डेटाबेस की विभिन्न तार्किक और भौतिक योजनाओं के सामान्यीकरण और समेकन के आधार पर एक सामान्य वैचारिक योजना बनाने की क्षमता होनी चाहिए।
6. सामान्य आयामीता सभी डेटा माप समान होने चाहिए। व्यक्तिगत आयामों को अतिरिक्त विशेषताएं प्रदान की जा सकती हैं, लेकिन चूंकि वे सभी सममित हैं, इसलिए यह अतिरिक्त कार्यक्षमता किसी भी आयाम को प्रदान की जा सकती है। अंतर्निहित डेटा संरचना, सूत्र और रिपोर्ट प्रारूप किसी एक आयाम पर निर्भर नहीं होने चाहिए।
7. गतिशील विरल मैट्रिक्स हैंडलिंग OLAP उपकरण विरल मैट्रिक्स को बेहतर ढंग से संभालने में सक्षम होना चाहिए। डेटा कोशिकाओं के स्थान की परवाह किए बिना पहुंच की गति को बनाए रखा जाना चाहिए और विभिन्न आयामों और विभिन्न डेटा विरलता वाले मॉडल के लिए स्थिर होना चाहिए।
8. बहु-उपयोगकर्ता समर्थन अक्सर, कई विश्लेषकों को एक ही समय में एक ही विश्लेषणात्मक मॉडल के साथ काम करने या एक ही कॉर्पोरेट डेटा के आधार पर विभिन्न मॉडल बनाने की आवश्यकता होती है। OLAP टूल को उन्हें समवर्ती पहुंच, डेटा अखंडता और सुरक्षा प्रदान करनी चाहिए।
9. अप्रतिबंधित क्रॉस-आयामी संचालन किसी भी संख्या में आयामों पर डेटा की गणना और हेरफेर करना डेटा सेल के बीच किसी भी संबंध को प्रतिबंधित या प्रतिबंधित नहीं करना चाहिए। मनमाने ढंग से परिभाषा की आवश्यकता वाले रूपांतरणों को कार्यात्मक रूप से पूर्ण सूत्रीय भाषा में निर्दिष्ट किया जाना चाहिए।
10. सहज डेटा हेरफेर समेकन दिशाओं का पुनर्विन्यास, स्तंभों और पंक्तियों में डेटा का विवरण, समेकन दिशाओं की संरचना में निहित एकत्रीकरण और अन्य जोड़तोड़ सबसे सुविधाजनक, प्राकृतिक और आरामदायक यूजर इंटरफेस में किया जाना चाहिए।
11. लचीला रिपोर्टिंग तंत्र (लचीली रिपोर्टिंग) समर्थित होना चाहिए विभिन्न तरीकेडेटा विज़ुअलाइज़ेशन, यानी रिपोर्ट किसी भी संभव अभिविन्यास में प्रस्तुत की जानी चाहिए।
12. असीमित आयाम और एकत्रीकरण स्तर हर गंभीर OLAP टूल में विश्लेषणात्मक मॉडल में कम से कम पंद्रह, और अधिमानतः बीस, आयामों को मानने की अत्यधिक अनुशंसा की जाती है। इसके अलावा, इन आयामों में से प्रत्येक को समेकन की किसी भी दिशा में लगभग असीमित संख्या में उपयोगकर्ता-परिभाषित एकत्रीकरण स्तरों की अनुमति देनी चाहिए।

इन आवश्यकताओं का सेट, जो OLAP की वास्तविक परिभाषा के रूप में कार्य करता है, की अक्सर आलोचना की गई है। तो, यह कहता है कि 12 आवश्यकताओं के भीतर मिश्रित हैं:

  • कार्यक्षमता के लिए वास्तविक आवश्यकताएं (1, 2, 3, 6, 9, 12);
  • अनौपचारिक इच्छाएं (4, 7, 10, 11);
  • सूचना प्रणाली की वास्तुकला के लिए आवश्यकताएं, जिनका कार्यक्षमता (5, 8) से बहुत अनुमानित संबंध है; उदाहरण के लिए, आवश्यकता 5 के अनुसार, टर्मिनलों के साथ UNIX सर्वर पर आधारित सिस्टम OLAP उत्पाद नहीं हो सकता, क्योंकि यह क्लाइंट-सर्वर आर्किटेक्चर में काम नहीं करता है; साथ ही, एक OLAP उत्पाद एक डेस्कटॉप एकल-उपयोगकर्ता सिस्टम नहीं हो सकता है, क्योंकि इस मामले में आवश्यकता 8 का उल्लंघन होता है।

दूसरी ओर, कोडड के अनुसार, वर्तमान में बाजार में उपलब्ध कोई भी परिचालन डेटा विश्लेषण उत्पाद पूरी तरह से उसकी सभी आवश्यकताओं को पूरा नहीं करता है। इसलिए, 12 नियमों को सलाहकार के रूप में माना जाना चाहिए, और विशिष्ट उत्पादों का मूल्यांकन सभी आवश्यकताओं के आदर्श पूर्ण अनुपालन के निकटता की डिग्री के अनुसार किया जाना चाहिए।

३.२. डेटा प्रस्तुति द्वारा OLAP उत्पादों का वर्गीकरण

वर्तमान में, बाजार में लगभग 30 उत्पाद हैं जो एक डिग्री या किसी अन्य के लिए OLAP कार्यक्षमता प्रदान करते हैं (सर्वेक्षण वेब सर्वर http://www.olapreport.com के अनुसार फरवरी 1998 तक)। बाहर से एक बहुआयामी वैचारिक दृष्टिकोण प्रदान करना प्रयोक्ता इंटरफ़ेसस्रोत डेटाबेस में, सभी OLAP उत्पादों को स्रोत डेटाबेस के प्रकार के अनुसार तीन वर्गों में विभाजित किया जाता है।

इन उपकरणों के अलावा, एक और वर्ग है - डेस्कटॉप पीसी के लिए प्रश्न और रिपोर्ट तैयार करने के लिए उपकरण, OLAP कार्यों के साथ पूरक और / या ऐसे कार्यों को करने वाले बाहरी उपकरणों के साथ एकीकृत। ये बल्कि उन्नत प्रणालियाँ मूल स्रोतों से डेटा प्राप्त करती हैं, उन्हें रूपांतरित करती हैं और उन्हें अंतिम उपयोगकर्ता के क्लाइंट स्टेशन पर संचालित एक गतिशील बहुआयामी डेटाबेस में रखती हैं। ये उपकरण छोटे, सरल रूप से संगठित डेटाबेस के लिए सबसे उपयुक्त हैं। इस वर्ग के मुख्य प्रतिनिधि एक ही नाम की कंपनी के BusinessObjects हैं, ब्रियो टेक्नोलॉजी से BrioQuery [, पृष्ठ ३४] और कॉग्नोस से पावरप्ले [, पीपी। ३४-३५]।

3.2.1. बहुआयामी OLAP (MOLAP)

बहुआयामी डेटा प्रतिनिधित्व पर आधारित विशिष्ट DBMS में, डेटा को रिलेशनल टेबल के रूप में नहीं, बल्कि ऑर्डर किए गए बहुआयामी सरणियों के रूप में व्यवस्थित किया जाता है:

  • हाइपरक्यूब (डेटाबेस में संग्रहीत सभी कोशिकाओं का आयाम समान होना चाहिए, अर्थात माप के सबसे पूर्ण आधार में होना चाहिए) या
  • पॉलीक्यूब्स (प्रत्येक चर को आयामों के अपने सेट के साथ संग्रहीत किया जाता है, और सभी संबंधित प्रसंस्करण जटिलताओं को सिस्टम के आंतरिक तंत्र में स्थानांतरित कर दिया जाता है)।

ऑनलाइन विश्लेषणात्मक प्रसंस्करण प्रणालियों में बहुआयामी डेटाबेस के उपयोग के निम्नलिखित फायदे हैं।

दूसरी ओर, महत्वपूर्ण सीमाएँ हैं।

इसलिए, बहुआयामी DBMS का उपयोग केवल निम्नलिखित शर्तों के तहत उचित है।

  1. विश्लेषण के लिए प्रारंभिक डेटा की मात्रा बहुत बड़ी नहीं है (कई गीगाबाइट से अधिक नहीं), यानी डेटा एकत्रीकरण का स्तर काफी अधिक है।
  2. किट सूचना मापस्थिर (चूंकि उनकी संरचना में किसी भी परिवर्तन के लिए लगभग हमेशा हाइपरक्यूब के पूर्ण पुनर्निर्माण की आवश्यकता होती है)।
  3. तदर्थ अनुरोधों के लिए सिस्टम प्रतिक्रिया समय सबसे महत्वपूर्ण पैरामीटर है।
  4. हाइपरक्यूब की कोशिकाओं पर क्रॉस-आयामी गणना करने के लिए जटिल अंतर्निहित कार्यों के व्यापक उपयोग की आवश्यकता होती है, जिसमें कस्टम फ़ंक्शन लिखने की क्षमता भी शामिल है।
3.2.2 संबंधपरक ओलाप (रोलाप)

ऑनलाइन विश्लेषणात्मक प्रसंस्करण प्रणालियों में इनपुट डेटा के रूप में रिलेशनल डेटाबेस के प्रत्यक्ष उपयोग के निम्नलिखित फायदे हैं।

  1. डेटा वेयरहाउस की सामग्री के ऑनलाइन विश्लेषणात्मक प्रसंस्करण के लिए, ROLAP टूल आपको सीधे वेयरहाउस पर विश्लेषण करने की अनुमति देते हैं (क्योंकि अधिकांश मामलों में, कॉर्पोरेट डेटा वेयरहाउस रिलेशनल DBMS के माध्यम से कार्यान्वित किए जाते हैं)।
  2. समस्या के एक परिवर्तनशील आयाम के मामले में, जब माप संरचना में अक्सर परिवर्तन करना पड़ता है, आयाम के गतिशील प्रतिनिधित्व के साथ ROLAP सिस्टम इष्टतम समाधान होते हैं, क्योंकि उनमें ऐसे संशोधनों के लिए भौतिक पुनर्गठन की आवश्यकता नहीं होती है डेटाबेस।
  3. ROLAP सिस्टम MOLAP सिस्टम की तुलना में बहुत कम शक्तिशाली क्लाइंट स्टेशनों पर काम कर सकता है, क्योंकि उनमें मुख्य कम्प्यूटेशनल लोड सर्वर पर पड़ता है, जहां सिस्टम द्वारा उत्पन्न जटिल विश्लेषणात्मक SQL क्वेरी निष्पादित की जाती हैं।
  4. रिलेशनल डीबीएमएस डेटा सुरक्षा का एक उच्च स्तर प्रदान करता है और एक्सेस अधिकारों का भेदभाव करता है।
  5. रिलेशनल डीबीएमएस के पास बहुत बड़े डेटाबेस और उन्नत प्रशासन उपकरण के साथ वास्तविक अनुभव है।

बहुआयामी डेटाबेस के उपयोग के लाभों को सूचीबद्ध करते समय ROLAP सिस्टम के नुकसान पर पहले ही चर्चा की जा चुकी है। ये हैं, सबसे पहले, कार्यात्मक प्रकार के मूल्यों की गणना के संदर्भ में सीमित संभावनाएं, और दूसरी बात, कम प्रदर्शन। MOLAP की तुलना में प्रदर्शन प्रदान करने के लिए, रिलेशनल सिस्टम को डेटाबेस स्कीमा के सावधानीपूर्वक डिज़ाइन और इंडेक्स की विशेष ट्यूनिंग की आवश्यकता होती है। लेकिन इन ऑपरेशनों के परिणामस्वरूप, स्टार स्कीमा का उपयोग करते हुए अच्छी तरह से ट्यून किए गए रिलेशनल सिस्टम का प्रदर्शन बहुआयामी डेटाबेस पर आधारित सिस्टम के प्रदर्शन के लिए काफी तुलनीय है।

काम [,,] पूरी तरह से स्टार स्कीमा के विवरण और इसके उपयोग के लिए सिफारिशों के लिए समर्पित हैं। इसका विचार यह है कि प्रत्येक आयाम के लिए तालिकाएँ होती हैं, और सभी तथ्यों को एक तालिका में रखा जाता है, जो अलग-अलग आयामों की कुंजियों से बनी कई कुंजियों द्वारा अनुक्रमित होती है। स्टार स्कीमा की प्रत्येक किरण, कॉड की शब्दावली में, संबंधित आयाम के साथ डेटा समेकन की दिशा को परिभाषित करती है (उदाहरण के लिए, स्टोर - शहर / जिला - क्षेत्र)।

सामान्य मामले में, तथ्यों के आयामों के विभिन्न सेट होते हैं, और फिर उन्हें एक में नहीं, बल्कि कई तालिकाओं में संग्रहीत करना सुविधाजनक होता है; इसके अलावा, विभिन्न अनुरोधों में, उपयोगकर्ता संभावित माप के केवल एक हिस्से में रुचि ले सकते हैं। लेकिन इस दृष्टिकोण के साथ, बड़ी संख्या में स्वतंत्र आयामों के साथ, क्वेरी में चुने गए आयामों के प्रत्येक संभावित संयोजन के अनुरूप कई तथ्य तालिकाओं को बनाए रखना आवश्यक है, जिससे बेकार उपयोग होता है बाह्य स्मृति, बाहरी स्रोतों से स्टार स्कीमा डेटाबेस में डेटा लोड करने के समय में वृद्धि और प्रशासन की जटिलता। इस समस्या को हल करने के लिए, काम के लेखक एक विशेष विस्तार का प्रस्ताव करते हैं एसक्यूएल भाषा("ग्रुप बाय क्यूब" ऑपरेटर और "ऑल" कीवर्ड) (नोट: यह एक्सटेंशन अभी तक अपनाया नहीं गया है, इसलिए यह प्रस्ताव अभी भी विशुद्ध रूप से अकादमिक हित का है।), और लेखक [,] तथ्य तालिका बनाने की सलाह देते हैं, न कि इसके लिए आयामों के सभी संभावित संयोजन, लेकिन केवल सबसे पूर्ण लोगों के लिए (जिनके सेल मान डेटाबेस में अन्य तथ्य तालिकाओं में कोशिकाओं के बाद के एकत्रीकरण का उपयोग करके प्राप्त नहीं किए जा सकते हैं)।

बहुस्तरीय आयामों के साथ जटिल समस्याओं में, स्टार स्कीमा के विस्तार की ओर मुड़ना समझ में आता है - तथ्य नक्षत्र स्कीमा [, पीपी। 10-11] और स्नोफ्लेक स्कीमा [, पीपी। 13-15]। इन मामलों में, विभिन्न आयामों के सारांश स्तरों के संभावित संयोजनों के लिए अलग तथ्य तालिकाएँ बनाई जाती हैं। यह सर्वोत्तम प्रदर्शन की अनुमति देता है, लेकिन अक्सर डेटा अतिरेक का परिणाम होता है।

किसी भी स्थिति में, यदि बहुआयामी मॉडल को एक संबंधपरक डेटाबेस के रूप में लागू किया जाता है, तो आपको लंबी और "संकीर्ण" तथ्य तालिकाएँ और अपेक्षाकृत छोटी और "चौड़ी" आयाम तालिकाएँ बनानी चाहिए। तथ्य तालिकाओं में हाइपरक्यूब की कोशिकाओं के संख्यात्मक मान होते हैं, और शेष तालिकाएं बहुआयामी आयाम आधार को परिभाषित करती हैं जिसमें वे शामिल होते हैं।

स्टार-आकार के रिलेशनल मॉडल का उपयोग करके बहुआयामी जानकारी के प्रतिनिधित्व पर ध्यान केंद्रित करने से आप विरल मैट्रिस के भंडारण के अनुकूलन की समस्या से छुटकारा पा सकते हैं, जो बहुआयामी डीबीएमएस के लिए तीव्र है (जहां विरलता की समस्या को स्कीमा के एक विशेष विकल्प द्वारा हल किया जाता है) . यद्यपि प्रत्येक सेल को तथ्य तालिका में संग्रहीत करने के लिए एक संपूर्ण रिकॉर्ड का उपयोग किया जाता है (जिसमें, स्वयं मूल्यों के अलावा, माध्यमिक कुंजी - आयाम तालिकाओं के लिंक शामिल हैं), गैर-मौजूद मूल्यों को केवल तथ्य तालिका में शामिल नहीं किया जा सकता है, अर्थात्, डेटाबेस में रिक्त कक्षों की उपस्थिति को बाहर रखा गया है। इंडेक्सिंग तथ्य तालिकाओं में डेटा तक पहुंचने के लिए उचित गति प्रदान करता है।

4. डाटा माइनिंग

नियमितता का क्षेत्र पिछले दो से भिन्न होता है कि इसमें संचित जानकारी स्वचालित रूप से उस जानकारी के लिए सामान्यीकृत होती है जिसे ज्ञान के रूप में वर्णित किया जा सकता है। यह प्रक्रिया अब उपयोगकर्ताओं के लिए अत्यंत प्रासंगिक है, और इसका महत्व केवल समय के साथ ही बढ़ेगा, क्योंकि, "दुनिया में सूचना की मात्रा हर 20 महीने में दोगुनी हो जाती है", जबकि "कंप्यूटर प्रौद्योगिकियां जो एक फव्वारे का वादा करती हैं" ज्ञान, अब तक केवल डेटा प्रवाह को नियंत्रित करता है।"

डेटा माइनिंग को अधिकांश प्रकाशनों में कामोद्दीपक रूप से परिभाषित किया गया है - "डेटा के पहाड़ों से ज्ञान के दाने निकालना", "डेटा माइनिंग - माइनिंग के साथ सादृश्य द्वारा।" इसके अलावा, अंग्रेजी में IAD के रूप में अनुवादित दो शब्द हैं - डेटाबेस में ज्ञान की खोज (KDD) और डेटा माइनिंग (DM)। अधिकांश कार्यों में, उन्हें समानार्थक शब्द के रूप में उपयोग किया जाता है [देखें, उदाहरण के लिए,], हालांकि कुछ लेखक [,] केडीडी को एक व्यापक अवधारणा के रूप में मानते हैं - एक वैज्ञानिक दिशा जो "कृत्रिम बुद्धिमत्ता, सांख्यिकी और डेटाबेस सिद्धांत के चौराहे पर" बनाई गई है और प्रदान करती है डेटा और उसके उपयोग से सूचना निष्कर्षण की प्रक्रिया, और डीएम - इस प्रक्रिया के आगमनात्मक तरीकों के एक सेट के रूप में, जो कि नीचे आईएडी के लिए मुफ्त खोज के चरण के रूप में परिभाषित किया जाएगा।

आइए हम निम्नलिखित परिभाषा पर ध्यान दें: आईएडी डेटा में छिपे हुए पैटर्न (सूचना पैटर्न) [,] की खोज के आधार पर एक निर्णय समर्थन प्रक्रिया है। यह ध्यान दिया जाना चाहिए कि अधिकांश आईएडी विधियों को मूल रूप से कृत्रिम बुद्धि (एआई) के सिद्धांत के ढांचे के भीतर 70 और 80 के दशक में विकसित किया गया था, लेकिन हाल के वर्षों में ही व्यापक हो गया, जब बड़े और तेजी से प्रसंस्करण के बौद्धिककरण की समस्या कॉर्पोरेट डेटा की बढ़ती मात्रा के लिए डेटा वेयरहाउस पर ऐड-ऑन के रूप में उनके उपयोग की आवश्यकता होती है।

4.2.2 भविष्य कहनेवाला मॉडलिंग

यहाँ, IAD के दूसरे चरण में, पहले के कार्य के फल का उपयोग किया जाता है, अर्थात डेटाबेस में पाए जाने वाले पैटर्न का उपयोग अज्ञात मानों की भविष्यवाणी करने के लिए किया जाता है:

  • एक नई वस्तु को वर्गीकृत करते समय, हम इसकी विशेषताओं के ज्ञात मूल्यों पर विचार करने के परिणामों के एक निश्चित समूह के साथ इसे एक निश्चित निश्चितता के साथ जोड़ सकते हैं;
  • एक गतिशील प्रक्रिया की भविष्यवाणी करते समय, प्रवृत्ति और आवधिक उतार-चढ़ाव के निर्धारण के परिणामों का उपयोग भविष्य में कुछ गतिशील प्रक्रिया के संभावित विकास के बारे में अनुमान लगाने के लिए किया जा सकता है।

सुविचारित उदाहरणों पर लौटते हुए, हम उन्हें इस स्तर तक जारी रखेंगे। यह जानते हुए कि कोई इवानोव एक प्रोग्रामर है, कोई ६१% सुनिश्चित हो सकता है कि उसकी उम्र

यह ध्यान दिया जाना चाहिए कि एक मुक्त खोज सामान्य पैटर्न को प्रकट करती है, अर्थात यह आगमनात्मक है, जबकि कोई भी पूर्वानुमान विशिष्ट अज्ञात मात्राओं के मूल्यों के बारे में अनुमान लगाता है, इसलिए, यह निगमनात्मक है। इसके अलावा, परिणामी निर्माण दोनों पारदर्शी हो सकते हैं, अर्थात्, एक उचित व्याख्या को स्वीकार करना (जैसे कि उत्पन्न तार्किक नियमों के साथ उदाहरण में), और अप्राप्य - "ब्लैक बॉक्स" (उदाहरण के लिए, एक निर्मित और प्रशिक्षित तंत्रिका नेटवर्क के बारे में, नहीं कोई जानता है कि वह कैसे काम करती है)।

4.2.3. फोरेंसिक विश्लेषण

इस विश्लेषण का विषय प्रकट पैटर्न में विसंगतियां हैं, जो कि अस्पष्टीकृत अपवाद हैं। उन्हें खोजने के लिए, किसी को पहले मानदंड (मुक्त खोज का चरण) निर्धारित करना होगा, और फिर इसके उल्लंघनों को उजागर करना होगा। इसलिए, यह निर्धारित करने के बाद कि ८४% सामान्य शिक्षा स्कूलों को स्वामित्व के नगरपालिका रूप के लिए जिम्मेदार ठहराया जाता है, कोई सवाल पूछ सकता है - इस नियम के अपवाद का गठन करने वाले १६% में क्या शामिल है? शायद उनके लिए एक तार्किक व्याख्या होगी, जिसे एक पैटर्न के रूप में भी औपचारिक रूप दिया जा सकता है। लेकिन ऐसा भी हो सकता है कि हम मूल डेटा में त्रुटियों से निपट रहे हैं, और फिर अपवादों के विश्लेषण का उपयोग डेटा वेयरहाउस में जानकारी की सफाई के लिए एक उपकरण के रूप में किया जा सकता है।

4.3. तकनीकी विधियों का वर्गीकरण IAD

प्रारंभिक प्रशिक्षण डेटा के साथ काम करने के सिद्धांत के अनुसार सभी IAD विधियों को दो बड़े समूहों में विभाजित किया गया है।

  1. पहले मामले में, मूल डेटा को स्पष्ट रूप से विस्तृत रूप में संग्रहीत किया जा सकता है और सीधे भविष्य कहनेवाला मॉडलिंग और / या अपवादों के विश्लेषण के लिए उपयोग किया जा सकता है; उदाहरणों के विश्लेषण पर आधारित तर्क करने की ये तथाकथित विधियाँ हैं। विधियों के इस समूह की मुख्य समस्या बड़ी मात्रा में डेटा पर उनका उपयोग करने में कठिनाई है, हालांकि यह बड़े डेटा वेयरहाउस के विश्लेषण में है कि आईएडी विधियां सबसे उपयोगी हैं।
  2. दूसरे मामले में, जानकारी को पहले प्राथमिक डेटा से निकाला जाता है और कुछ औपचारिक निर्माणों में बदल दिया जाता है (उनका रूप विशिष्ट विधि पर निर्भर करता है)। पिछले वर्गीकरण के अनुसार, यह चरण मुक्त खोज के चरण में किया जाता है, जो सिद्धांत रूप में पहले समूह के तरीकों में अनुपस्थित है। इस प्रकार, भविष्य कहनेवाला मॉडलिंग और अपवादों के विश्लेषण के लिए, इस चरण के परिणामों का उपयोग किया जाता है, जो मूल डेटा सेट की तुलना में बहुत अधिक कॉम्पैक्ट होते हैं। इस मामले में, परिणामी निर्माण या तो "पारदर्शी" (व्याख्या योग्य) या "ब्लैक बॉक्स" (अनट्रैक्टेड) ​​हो सकते हैं।

इन दो समूहों और उनमें शामिल विधियों को अंजीर में दिखाया गया है। 4.


चावल। 4. आईएडी के तकनीकी तरीकों का वर्गीकरण।

4.3.1. प्रशिक्षण डेटा का प्रत्यक्ष उपयोग

विचाराधीन समूह से संबंधित सामान्यीकृत आलसी-लर्निंग एल्गोरिथ्म इस तरह दिखता है (एल्गोरिदम का विवरण से लिया गया है)। क्लासिफायरियर के इनपुट के लिए एक उदाहरण दिया गया है, और आउटपुट से उस वर्ग की भविष्यवाणी करने की उम्मीद है जिसमें यह शामिल है। प्रत्येक उदाहरण किसी वर्ग से संबंधित गुणों (विशेषताओं) के बहुआयामी स्थान में एक बिंदु द्वारा दर्शाया गया है। प्रत्येक विशेषता एक निश्चित सेट से निरंतर मान या असतत मान लेती है। उदाहरण के लिए, इसकी सबसे संभावित कक्षा लौटा दी जाती है।

के-निकटतम पड़ोसी एल्गोरिथ्म की एक व्यक्तिगत विशेषता इसमें एक वर्ग से संबंधित उदाहरण की पश्च संभावना को निर्धारित करने की विधि है:

जहां 1 देता है जब तर्क बराबर होते हैं, या 0 अन्यथा, निकटता फ़ंक्शन है, जिसे परिभाषित किया गया है

a ज्ञात प्रशिक्षण उदाहरणों के सेट में k निकटतम पड़ोसियों का समूह है, जिसकी वर्गीकृत उदाहरण से निकटता दूरी फ़ंक्शन द्वारा निर्धारित की जाती है। k-निकटतम पड़ोसी विधि सूत्र का उपयोग करके प्रत्येक से दूरी की गणना करती है:

इसके अलावा, r = 2 को सबसे अधिक बार लिया जाता है (यूक्लिडियन स्पेस), और विशेषता के प्रकार के आधार पर फ़ंक्शन को निम्नलिखित तरीकों से परिभाषित किया जाता है:

w (f) f विशेषता के भार का एक फलन है। शुद्ध के-निकटतम पड़ोसी एल्गोरिथ्म में:

यानी इस फ़ंक्शन को स्थिर माना जाता है।

निकटतम पड़ोसी विधि k = 1 के लिए k-निकटतम पड़ोसी विधि का एक विशेष मामला है। आलसी-लर्निंग जैसे अधिक जटिल एल्गोरिदम एक ही सामान्यीकृत एल्गोरिदम [,] पर आधारित होते हैं, लेकिन या तो कक्षाओं से संबंधित उदाहरणों की पिछली संभावनाओं को किसी अन्य तरीके से निर्धारित करते हैं, या (उदाहरण के लिए, नेस्टेड सामान्यीकृत उदाहरण एल्गोरिदम) की गणना को जटिल करते हैं फ़ंक्शन डब्ल्यू (एफ)।

विधियों के इस समूह की ख़ासियत यह है कि अज्ञात मूल्यों की भविष्यवाणी ज्ञात उदाहरणों के साथ एक नई वस्तु (उदाहरण) की स्पष्ट तुलना के आधार पर की जाती है। बड़ी संख्या में प्रशिक्षण उदाहरणों के मामले में, प्रत्येक नए उदाहरण को वर्गीकृत करने के लिए पूरे प्रशिक्षण सेट को क्रमिक रूप से स्कैन नहीं करने के लिए, कभी-कभी प्रशिक्षण उदाहरणों के "विशिष्ट प्रतिनिधियों" के अपेक्षाकृत छोटे सबसेट के नमूने का उपयोग किया जाता है, के आधार पर तुलना जिसके साथ वर्गीकरण किया जाता है। हालाँकि, इस तकनीक का उपयोग कुछ सावधानी के साथ किया जाना चाहिए, क्योंकि कुछ आवश्यक नियमितताएँ चयनित उपसमुच्चय में परिलक्षित नहीं हो सकती हैं।

इस समूह के सबसे प्रसिद्ध प्रतिनिधि के रूप में, के-निकटतम पड़ोसी विधि, यह उन डोमेन के लिए अधिक अनुकूलित है जहां वस्तु विशेषताएँ मुख्य रूप से संख्यात्मक होती हैं, क्योंकि इस मामले में उदाहरणों के बीच की दूरी का निर्धारण असतत विशेषताओं की तुलना में अधिक स्वाभाविक है।

4.3.2. औपचारिक पैटर्न की पहचान और उपयोग

इस समूह की विधियाँ डेटा के एक सेट से सामान्य निर्भरताएँ निकालती हैं और फिर उन्हें व्यवहार में लागू करने की अनुमति देती हैं। वे एक दूसरे से भिन्न हैं:

  • पुनर्प्राप्त की गई जानकारी के प्रकार (जो हल की जा रही समस्या से निर्धारित होते हैं - ऊपर आईएडी कार्यों का वर्गीकरण देखें);
  • जिस तरह से पाए गए पैटर्न प्रस्तुत किए जाते हैं।

पैटर्न को व्यक्त करने के लिए चुनी गई औपचारिकता हमें तीन अलग-अलग दृष्टिकोणों को अलग करने की अनुमति देती है, जिनमें से प्रत्येक गणित के संबंधित वर्गों में निहित है:

  • क्रॉस-सारणी पद्धति;
  • तार्किक प्रेरण के तरीके;
  • समीकरणों की व्युत्पत्ति के तरीके।

बूलियन विधियां इस अर्थ में सबसे बहुमुखी हैं कि वे संख्यात्मक और अन्य प्रकार की विशेषताओं दोनों के साथ काम कर सकती हैं। समीकरणों के निर्माण के लिए सभी विशेषताओं को एक संख्यात्मक रूप में परिवर्तित करने की आवश्यकता होती है, जबकि क्रॉस-सारणी, इसके विपरीत, प्रत्येक संख्यात्मक विशेषता को अंतराल के असतत सेट में परिवर्तित करने की आवश्यकता होती है।

क्रॉस-सारणीबद्ध तरीके

क्रॉस-सारणी विश्लेषण का एक सरल रूप है जिसका व्यापक रूप से ऑनलाइन विश्लेषणात्मक प्रसंस्करण (OLAP) रिपोर्टिंग में उपयोग किया जाता है। द्वि-आयामी क्रॉसस्टैब मानों का एक मैट्रिक्स है, जिनमें से प्रत्येक सेल विशेषता मानों के चौराहे पर स्थित है। हाइपरक्यूबिक के मामले में क्रॉस-सारणीबद्ध प्रतिनिधित्व के विचार का विस्तार सूचना मॉडलजैसा कि पहले ही उल्लेख किया गया है, बहुभिन्नरूपी डेटा विश्लेषण का आधार है, इसलिए, विधियों के इस समूह को बहुभिन्नरूपी परिचालन विश्लेषण और डेटा खनन के सहजीवन के रूप में माना जा सकता है।

क्रॉस-टेबुलर विज़ुअलाइज़ेशन, क्रॉस-टैब्यूलेशन पद्धति का उपयोग करके डेटा में जानकारी खोजने के विचार का सबसे सरल अवतार है। कड़ाई से बोलते हुए, यह विधि आईएडी की विख्यात संपत्ति के लिए बिल्कुल फिट नहीं है - मुक्त खोज के चरण में पहल का सिस्टम में संक्रमण। वास्तव में, क्रॉस-सारणीबद्ध प्रतिपादन OLAP कार्यक्षमता का हिस्सा है। यहां सिस्टम केवल संकेतकों का एक मैट्रिक्स प्रदान करता है जिसमें विश्लेषक पैटर्न देख सकता है। लेकिन इस तरह के क्रॉस-टैब के प्रावधान का उद्देश्य निर्णय समर्थन के लिए डेटा में "सूचना पैटर्न" की खोज करना है, अर्थात यह आईएडी की उपरोक्त परिभाषा को पूरा करता है। इसलिए, यह कोई संयोग नहीं है कि कई लेखक [,,] अभी भी क्रॉस-टेबल विज़ुअलाइज़ेशन को IAD विधियों के रूप में वर्गीकृत करते हैं।

क्रॉस-टैब्यूलेशन समूह के आईएडी विधियों में बायेसियन नेटवर्क का उपयोग भी शामिल है, जो प्रायिकता सिद्धांत के बायेसियन प्रमेय पर आधारित हैं, जो कि उनकी प्राथमिक संभावनाओं द्वारा जोड़ीदार असंगत घटनाओं के पूरे समूह की पश्च संभावनाओं को निर्धारित करने के लिए है:

विशेषज्ञ प्रणालियों में विशेषज्ञों के ज्ञान को औपचारिक रूप देने के लिए बायेसियन नेटवर्क का सक्रिय रूप से उपयोग किया गया था, लेकिन हाल ही में डेटा से ज्ञान निकालने के लिए उनका उपयोग IAD में किया जाने लगा।

एक पेड़ की छंटाई करने के बाद, इसके विभिन्न टर्मिनल नोड अलग-अलग स्तरों पर होते हैं, यानी उनके पथ में विशेषता मानों पर अलग-अलग संख्या में चेक शामिल होते हैं; दूसरे शब्दों में, पेड़ के उच्च स्तर पर स्थित टर्मिनल नोड्स तक पहुंचने के लिए, कई विशेषताओं के मूल्यों पर विचार नहीं किया जाता है। इसलिए, निर्णय पेड़ों का निर्माण करते समय, निर्णय नोड्स पर विशेषताओं का परीक्षण करने का क्रम महत्वपूर्ण है।

डिसीजन ट्री इंडक्शन एल्गोरिदम में उपयोग की जाने वाली रणनीति को डिवाइड-एंड-कॉनकॉर रणनीति कहा जाता है, जो कि अलग-और-जीत की रणनीति के विपरीत होती है, जिस पर बड़ी संख्या में नियम इंडक्शन एल्गोरिदम बनाए जाते हैं। क्विनलान ने निम्नलिखित विभाजन और कैप्चर एल्गोरिथम का वर्णन किया।

बहुत सारे गुण;
- विशेषता के संभावित मूल्यों का सेट (इस प्रकार, निर्णय वृक्षों के निर्माण के लिए निरंतर विशेषताओं की परिभाषा के डोमेन को भी अंतराल के एक सीमित सेट में विभाजित किया जाना चाहिए)।

क्विनलान ने निम्नानुसार ई-स्कोर की गणना करने का प्रस्ताव रखा। वर्तमान नोड के लिए दें:

सकारात्मक उदाहरणों की संख्या;
- नकारात्मक उदाहरणों की संख्या;
- के लिए मूल्य के साथ सकारात्मक उदाहरणों की संख्या;
- के लिए मान के साथ नकारात्मक उदाहरणों की संख्या।

ई-स्कोर एन्ट्रापी पर आधारित एक सूचना-सैद्धांतिक उपाय है। यह वर्गीकरण अनिश्चितता की मात्रा को दर्शाता है जो तब होती है जब प्रश्न में विशेषता का उपयोग निर्णय नोड में किया जाता है। इसलिए, सबसे कम ई-स्कोर वाली विशेषता को उच्चतम वर्गीकरण शक्ति माना जाता है। हालाँकि, इस तरह से परिभाषित ई-स्कोर के नुकसान भी हैं: यह, विशेष रूप से, बड़ी संख्या में मूल्यों के साथ विशेषताओं के लिए एक पेड़ का निर्माण करते समय एक फायदा देता है। इसलिए, कुछ कागजात [,] में ई-अनुमान के संशोधन प्रस्तावित हैं जो इन कमियों को दूर करते हैं।

नए उदाहरणों को वर्गीकृत करते समय भविष्य कहनेवाला सटीकता में सुधार करने के लिए निर्णय वृक्ष की छंटाई आमतौर पर निर्मित पूर्ण वृक्ष पर की जाती है, अर्थात वृद्धि की प्रक्रिया की जाती है। नीचे से ऊपर की ओर बढ़ते हुए, निर्णय नोड्स को संबंधित उप-प्रकारों के साथ टर्मिनल नोड्स से बदलें, जब तक कि निर्दिष्ट अनुमानी माप अनुकूलित न हो जाए।

नियमों का प्रेरण

निर्णय वृक्षों की लोकप्रियता उनके निर्माण की गति और वर्गीकरण में उपयोग में आसानी से उत्पन्न होती है। इसके अलावा, रूट से टर्मिनल वर्टेक्स तक प्रत्येक पथ से एक नियम उत्पन्न करके निर्णय पेड़ों को आसानी से प्रतीकात्मक नियमों में परिवर्तित किया जा सकता है। हालांकि, ऐसे सेट में नियम गैर-अतिव्यापी होंगे, क्योंकि निर्णय वृक्ष में, प्रत्येक उदाहरण को एक और केवल एक टर्मिनल नोड को सौंपा जा सकता है। अधिक सामान्य (और अधिक यथार्थवादी) एक सिद्धांत के अस्तित्व का मामला है जिसमें गैर-श्रेणीबद्ध अतिव्यापी प्रतीकात्मक नियमों का एक सेट शामिल है। नियमों के ऐसे सेटों को शामिल करने के लिए एल्गोरिदम का एक महत्वपूर्ण हिस्सा अलगाव और कब्जा (अलग-और-जीत), या कवर करने की रणनीति द्वारा संयुक्त है, जो आर। माइकल्स्की [,] के काम से शुरू हुआ। इस प्रेरण रणनीति का वर्णन इस प्रकार करते हुए, अलगाव और कब्जा शब्द पैगलो और हॉसलर द्वारा गढ़ा गया था:

  • प्रशिक्षण सेट के हिस्से को कवर करने वाला एक नियम तैयार करें;
  • प्रशिक्षण सेट (शाखा) से नियम द्वारा कवर किए गए उदाहरणों को हटा दें;
  • सभी उदाहरणों की व्याख्या किए जाने तक शेष उदाहरणों (कैप्चर) के समूहों को कवर करने वाले अन्य नियमों को क्रमिक रूप से सीखें।

चावल। 5 पृथक्करण और कैप्चर की विधि द्वारा नियमों को शामिल करने के लिए एक सामान्य एल्गोरिथम दिखाता है। सामान्य एल्गोरिदम में बुलाए गए सबरूटीन्स के कार्यान्वयन के विभिन्न प्रकार ज्ञात पृथक्करण और कैप्चर विधियों की विविधता निर्धारित करते हैं।


चावल। 5. नियमों को शामिल करने के लिए पृथक्करण और कैप्चर का सामान्य एल्गोरिदम।

SEPARATEANDCONQUER एल्गोरिथ्म एक खाली सिद्धांत से शुरू होता है। यदि प्रशिक्षण सेट में सकारात्मक उदाहरण हैं, तो कुछ सकारात्मक उदाहरणों को शामिल करने वाले नियम को पुनः प्राप्त करने के लिए FINDBESTRULE सबरूटीन को बुलाया जाता है। सभी कवर किए गए उदाहरणों को फिर प्रशिक्षण सेट से अलग किया जाता है, उत्पन्न नियम को सिद्धांत में शामिल किया जाता है, और अगले नियम को शेष उदाहरणों पर खोजा जाता है। नियम तब तक पुनर्प्राप्त किए जाते हैं जब तक कि कोई सकारात्मक उदाहरण न हो या स्टॉप मानदंड RULESTOPINGCRITERION पूरा न हो जाए। अक्सर परिणामी सिद्धांत को POSTPROCESS द्वारा पोस्ट-प्रोसेस किया जाता है।

FINDBESTRULE प्रक्रिया एक नियम के लिए परिकल्पना स्थान में खोज करती है जो EVALUATERULE में वर्णित चयनित गुणवत्ता मानदंड को अनुकूलित करता है। इस अनुमानी कार्य का मूल्य, एक नियम के रूप में, अधिक है, अधिक सकारात्मक और कम नकारात्मक उदाहरण उम्मीदवार नियम द्वारा कवर किए जाते हैं। FINDBESTRULE नियमों को संसाधित करता है, INITIALIZERULE प्रक्रिया द्वारा उत्पन्न उम्मीदवार नियमों की एक आदेशित सूची।

नए नियम हमेशा सही स्थानों (INSERTSORT) में डाले जाते हैं, ताकि नियम हमेशा अनुमानी नियम स्कोर के अवरोही क्रम में एक सूची हो। प्रत्येक लूप में SELECTCANDIDATES उम्मीदवार नियमों का एक सबसेट चुनता है, जिसे बाद में REFINERULE में साफ़ कर दिया जाता है। प्रत्येक क्लीनअप परिणाम का मूल्यांकन किया जाता है और नियमों की एक क्रमबद्ध सूची में डाला जाता है, जब तक कि STOPPINGCRITERION इसे रोकता नहीं है। यदि NewRule स्कोर पहले पाए गए सर्वोत्तम नियम से बेहतर है, तो NewRule मान BestRule वैरिएबल को असाइन किया जाता है। FILTERRULES आगे के पुनरावृत्तियों में उपयोग के लिए नियमों की क्रमबद्ध सूची के एक सबसेट का चयन करता है। जब सभी आवेदक नियमों को संसाधित किया गया है, तो सर्वोत्तम नियम वापस कर दिया जाता है।

नियम प्रेरण एल्गोरिदम का सामना करने वाली मुख्य समस्या शोर डेटा का उपयोग करते समय ओवरफिटिंग से बचना है। डिटैच और कैप्चर एल्गोरिदम में ओवरफिटिंग परिहार उपकरण शोर को संभाल सकते हैं:

निर्णय वृक्षों की संभावनाओं की तुलना और नियमों को शामिल करना

नियम प्रेरण और निर्णय वृक्ष, एक ही समस्या को हल करने के तरीके होने के कारण, उनकी क्षमताओं में काफी भिन्न होते हैं। निर्णय वृक्षों के व्यापक उपयोग के बावजूद, [,,] में उल्लिखित कई कारणों से नियमों को शामिल करना पसंदीदा तरीका प्रतीत होता है।

दूसरी ओर, निर्णय वृक्ष प्रेरण की तुलना में नियम प्रेरण बहुत अधिक जटिल (और धीमी) एल्गोरिदम द्वारा किया जाता है। विशेष रूप से निर्मित सिद्धांत के सरलीकरण के साथ बड़ी कठिनाइयाँ उत्पन्न होती हैं, निर्णय पेड़ों की छंटाई की सादगी के विपरीत, जिस पर फ़र्नक्रान्ज़ ने ध्यान आकर्षित किया: एक निर्णय पेड़ में शाखाओं की छंटाई कभी भी आसन्न शाखाओं को प्रभावित नहीं करेगी, जबकि छंटाई नियम की स्थिति इसके साथ अतिव्यापी सभी नियमों को प्रभावित करती है। (चित्र 6)।


चावल। 6. प्रशिक्षण एल्गोरिदम में प्रगति
(ए) अलगाव और कब्जा; और (बी) अलगाव और कब्जा।

चावल। 6 (ए) निर्णय वृक्षों को शामिल करने में कमी के कार्य को दर्शाता है। जटिल पेड़ के दाहिने आधे हिस्से को प्रशिक्षण उदाहरणों के सेट सी और डी द्वारा कवर किया गया है। जब सरलीकरण एल्गोरिथ्म इन दो टर्मिनल शीर्षों को काटने का निर्णय लेता है, तो मूल नोड टर्मिनल नोड बन जाता है, जो अब उदाहरणों द्वारा कवर किया गया है। इस ऑपरेशन से निर्णय वृक्ष की बाईं शाखा प्रभावित नहीं होती है।

दूसरी ओर, किसी नियम से शर्तों को काटने का अर्थ है उसका सामान्यीकरण, यानी नए रूप में यह अधिक सकारात्मक और अधिक नकारात्मक उदाहरणों को कवर करेगा। इसलिए, इन अतिरिक्त सकारात्मक और नकारात्मक उदाहरणों को प्रशिक्षण सेट से बाहर रखा जाना चाहिए, ताकि बाद के नियमों के शामिल होने को प्रभावित न करें। अंजीर में मामले में। ६ (बी) तीन नियमों में से पहला सरल है और न केवल मूल संस्करण द्वारा कवर किए गए उदाहरणों को कवर करना शुरू करता है, बल्कि उन सभी उदाहरणों को भी शामिल करता है जो तीसरे नियम में शामिल हैं, साथ ही कुछ उदाहरण जो दूसरे नियम में शामिल हैं। यदि तीसरे नियम को केवल वृद्धिशील एल्गोरिथम द्वारा हटाया जा सकता है, तो बी 2 उदाहरणों के शेष सेट के साथ स्थिति इतनी सरल नहीं है। दूसरा नियम स्वाभाविक रूप से सेट बी 2 के सभी उदाहरणों को शामिल करता है, क्योंकि इसे सेट बी के उदाहरणों को कवर करने के लिए तैयार किया गया था। हालांकि, यह अच्छी तरह से हो सकता है कि बी 2 के सकारात्मक उदाहरणों को अलग करने के लिए एक और नियम अधिक उपयुक्त हो। शेष नकारात्मक उदाहरण। ऐसी स्थितियों के सही प्रसंस्करण के लिए पूर्व-माफी और उन्नति की प्रक्रियाओं के घनिष्ठ एकीकरण की आवश्यकता होती है, जो नियम-प्रेरण एल्गोरिथम को महत्वपूर्ण रूप से जटिल बनाता है और इसके प्रदर्शन को कम करता है।

इसलिए, की गई तुलना के आधार पर, हम यह निष्कर्ष निकाल सकते हैं कि निर्णय वृक्षों का निर्माण सरल समस्याओं में उनके प्रेरण की सादगी और गति के कारण प्रारंभिक जानकारी की एक छोटी राशि के साथ उचित है। हालांकि, भंडारण में जमा बड़ी मात्रा में डेटा का विश्लेषण करते समय, नियम प्रेरण विधियों का उपयोग उनकी सापेक्ष जटिलता के बावजूद बेहतर होता है।

समीकरण व्युत्पत्ति के तरीके

समीकरण व्युत्पत्ति विधियाँ गणितीय अभिव्यक्तियों के रूप में डेटा में छिपे पैटर्न को व्यक्त करने का प्रयास करती हैं। इसलिए, वे केवल संख्यात्मक प्रकार की विशेषताओं के साथ काम करने में सक्षम हैं, जबकि अन्य विशेषताओं को संख्यात्मक मानों के साथ कृत्रिम रूप से एन्कोड किया जाना चाहिए। इससे कई समस्याएं होती हैं जो व्यवहार में इन विधियों के उपयोग को सीमित करती हैं। हालांकि, वे कई अनुप्रयोगों में व्यापक रूप से उपयोग किए जाते हैं।

आंकड़े

पूर्वानुमान की समस्या को हल करने के लिए सांख्यिकीय विश्लेषण के शास्त्रीय तरीकों का उपयोग आईएडी उपकरणों में अक्सर किया जाता है।

  1. समय श्रृंखला में रुझानों का खुलासा। औसत स्तर की प्रवृत्ति को एक ग्राफ या एक विश्लेषणात्मक कार्य के रूप में दर्शाया जा सकता है, जिसके मूल्य के आसपास अध्ययन के तहत प्रक्रिया के स्तरों के वास्तविक मूल्य भिन्न होते हैं। मध्यम स्तर की प्रवृत्तियों को अक्सर प्रक्रिया का नियतात्मक घटक कहा जाता है, और इसी गतिशील श्रृंखला को समीकरण द्वारा व्यक्त किया जाता है। , जहां t समय पर श्रृंखला का स्तर है, श्रृंखला का नियतात्मक घटक है, और यादृच्छिक घटक है। नियतात्मक घटक को आमतौर पर एक काफी सरल विश्लेषणात्मक कार्य के रूप में दर्शाया जाता है - रैखिक, परवलयिक, अतिशयोक्तिपूर्ण, घातीय - जिनके मापदंडों को ऐतिहासिक डेटा के अनुसार बेहतर अनुमानित ऐतिहासिक डेटा के अनुसार चुना जाता है।
  2. हार्मोनिक विश्लेषण। कई मामलों में, प्रवृत्ति निर्धारण का उपयोग करके गतिशीलता की श्रृंखला को सुचारू करना संतोषजनक परिणाम नहीं देता है, क्योंकि अवशिष्टों में स्वत: सहसंबंध देखा जाता है। अवशेषों के स्वत: सहसंबंध का कारण चयनित प्रवृत्ति के संबंध में ध्यान देने योग्य आवधिक उतार-चढ़ाव हो सकता है, जो अक्सर गतिशीलता की श्रृंखला में पाए जाते हैं। ऐसे मामलों में, किसी को हार्मोनिक विश्लेषण का सहारा लेना चाहिए, अर्थात् गतिशील श्रृंखला से आवधिक घटक को अलग करना। प्रवृत्ति और आवधिक घटक को गतिशील श्रृंखला से अलग करने के परिणामों के आधार पर, प्रक्रिया का एक सांख्यिकीय पूर्वानुमान एक्सट्रपलेशन के सिद्धांत के अनुसार किया जा सकता है, इस धारणा पर कि पूर्वानुमान के लिए प्रवृत्ति और उतार-चढ़ाव के पैरामीटर बने रहेंगे अवधि [, पी। ३०४]।
  3. सहसंबंध और प्रतिगमन विश्लेषण। एक कार्यात्मक (कठोर रूप से निर्धारित) संबंध के विपरीत, चर के बीच एक सांख्यिकीय (स्टोकेस्टिक रूप से नियतात्मक) संबंध तब होता है, जब उनमें से एक के मूल्य में परिवर्तन के साथ, दूसरा, कुछ सीमाओं के भीतर, कुछ संभावनाओं के साथ किसी भी मूल्य को ले सकता है। , लेकिन इसका औसत मूल्य या अन्य सांख्यिकीय विशेषताएं बदल जाती हैं। एक निश्चित कानून के अनुसार [, एस। 191-192]। एक सांख्यिकीय संबंध का एक विशेष मामला, जब एक चर के विभिन्न मान दूसरे के विभिन्न माध्य मानों के अनुरूप होते हैं, एक सहसंबंध संबंध होता है। सहसंबंध संबंध के सार के अनुसार, इसके अध्ययन के दो लक्ष्य हैं:
    1) स्वतंत्र चर के मूल्यों के साथ आश्रित चर के औसत मूल्यों के बीच संबंध को व्यक्त करने वाले समीकरण के मापदंडों का माप (के मूल्यों पर प्रभावी संकेतक के औसत मूल्यों की निर्भरता) कारक संकेतक);
    2) आपस में संकेतों के संबंध की जकड़न का मापन [, एस। 195-196]।
    सहसंबंध-प्रतिगमन विश्लेषण की विधि का अच्छी तरह से अध्ययन किया गया है [, 19, 29] और व्यापक रूप से व्यवहार में इसका उपयोग किया जाता है। हालाँकि, इसकी कई सीमाएँ हैं:
    1) पर्याप्त सटीकता और विश्वसनीयता सुनिश्चित करने के लिए, अवलोकनों की संख्या कारकों की संख्या से दसियों या सैकड़ों गुना अधिक होनी चाहिए, ताकि बड़ी संख्या का कानून, पूरी ताकत से कार्य करते हुए, नियमित से यादृच्छिक विचलन के प्रभावी पारस्परिक रद्दीकरण प्रदान करे। संकेतों के संबंध की प्रकृति;
    2) औसत के संदर्भ में नियमितता की एक विश्वसनीय अभिव्यक्ति के लिए, जनसंख्या की पर्याप्त उच्च गुणवत्ता वाली समरूपता की आवश्यकता होती है ताकि सहसंबंध पैरामीटर विकृत न हों; इसके अलावा, कभी-कभी, सहसंबंध विश्लेषण के लिए एक शर्त के रूप में, परिणामी और तथ्यात्मक विशेषताओं द्वारा जनसंख्या के वितरण को संभाव्यता वितरण के सामान्य कानून के अधीन करने की आवश्यकता को सामने रखा जाता है (यह स्थिति कम से कम वर्ग विधि के उपयोग से जुड़ी है सहसंबंध मापदंडों की गणना में - केवल एक सामान्य वितरण के साथ यह उन मापदंडों का अनुमान देता है जो अधिकतम संभावना के सिद्धांतों को पूरा करते हैं), हालांकि व्यवहार में, इस आधार की अनुमानित पूर्ति के साथ भी, कम से कम वर्ग विधि अच्छे परिणाम देती है [, पी. 14];
    3) सहसंबंध-प्रतिगमन विश्लेषण की विधि एक प्रभावी विशेषता के निर्माण में तथ्यात्मक विशेषताओं की भूमिका की व्याख्या नहीं कर सकती है [, पृष्ठ 198];
    4) सहसंबंध संकेतकों की व्याख्या केवल प्रभावी और कारक विशेषताओं में भिन्नता के संदर्भ में की जानी चाहिए; यदि कार्य समय में किसी वस्तु की विशेषताओं में परिवर्तन के बीच संबंध को मापना है, तो सहसंबंध-प्रतिगमन विश्लेषण की विधि में महत्वपूर्ण परिवर्तन की आवश्यकता होती है (गतिकी की श्रृंखला के सहसंबंध के अध्ययन की आवश्यकता होती है) [; एस. 307-313]।
    विश्लेषण के परिणामस्वरूप प्राप्त सहसंबंध-प्रतिगमन मॉडल (RPM) की आमतौर पर काफी अच्छी तरह से व्याख्या की जाती है और इसका उपयोग भविष्य कहनेवाला मॉडलिंग में किया जा सकता है। लेकिन, जैसा कि उल्लेख किया गया है, सांख्यिकी के क्षेत्र में गहन ज्ञान के बिना इस प्रकार के विश्लेषण को लागू करना असंभव है। विश्लेषक का सैद्धांतिक प्रशिक्षण यहां विशेष रूप से महत्वपूर्ण भूमिका निभाता है, इसलिए, कुछ मौजूदा आईएडी उपकरण डेटा प्रोसेसिंग टूल में से एक के रूप में सहसंबंध-प्रतिगमन विश्लेषण की विधि प्रदान करते हैं।
  4. गतिकी की श्रृंखला का सहसंबंध। समय में कारण संबंधों का अध्ययन करने की समस्या बहुत जटिल है, और इस तरह के अध्ययन की सभी समस्याओं का पूर्ण समाधान अभी तक विकसित नहीं हुआ है [, पी। 307]। मुख्य कठिनाई यह है कि यदि पर्याप्त लंबी अवधि के लिए कोई प्रवृत्ति होती है, तो विचलन के वर्गों का अधिकांश योग प्रवृत्ति से जुड़ा होता है; एक ही समय में, यदि दो संकेतों में स्तरों में परिवर्तन की एक ही दिशा के साथ रुझान हैं, तो इसका मतलब एक कारण संबंध बिल्कुल नहीं होगा। इसलिए, सहसंबंध के वास्तविक संकेतक प्राप्त करने के लिए, प्रवृत्तियों के विकृत प्रभाव से सार निकालना आवश्यक है - प्रवृत्तियों से विचलन की गणना करने और उतार-चढ़ाव के सहसंबंध को मापने के लिए (यह पूरा काम इस दृष्टिकोण के विस्तृत विचार के लिए समर्पित है)। हालांकि, उतार-चढ़ाव के बीच संबंधों की जकड़न के बारे में निष्कर्ष को पूरी तरह से गतिशीलता की श्रृंखला के संबंध में स्थानांतरित करने की अनुमति नहीं है ([, पी। ३१२] में दिए गए उदाहरण के अनुसार, रिश्ते पर विचार करना वैध है। उपज में उतार-चढ़ाव और गर्मियों में गिरने वाली वर्षा की मात्रा में उतार-चढ़ाव के बीच, लेकिन उपज और खुराक उर्वरकों के बीच के संबंध को केवल उतार-चढ़ाव के सहसंबंध तक ही कम नहीं किया जा सकता है)।

तंत्रिका जाल

कृत्रिम तंत्रिका जालसूचना प्रसंस्करण के साधन के रूप में जैविक तंत्रिका नेटवर्क के कामकाज के प्रसिद्ध सिद्धांतों के साथ सादृश्य द्वारा मॉडलिंग की गई थी। उनकी संरचना निम्नलिखित मान्यताओं पर आधारित है [, पृ. ३]:

  • सूचना प्रसंस्करण विभिन्न सरल तत्वों में किया जाता है - न्यूरॉन्स;
  • न्यूरॉन्स के बीच सिग्नल आउटपुट से इनपुट तक कनेक्शन के माध्यम से प्रेषित होते हैं;
  • प्रत्येक कड़ी को एक भार द्वारा अभिलक्षित किया जाता है जिससे उस पर संचरित संकेत गुणा हो जाता है;
  • प्रत्येक न्यूरॉन में एक सक्रियण कार्य होता है (आमतौर पर नॉनलाइनियर), जिसके तर्क की गणना भारित इनपुट संकेतों के योग के रूप में की जाती है, और परिणाम को आउटपुट सिग्नल माना जाता है।

इस प्रकार, तंत्रिका नेटवर्क जुड़े हुए नोड्स का संग्रह है, जिनमें से प्रत्येक में एक इनपुट, एक आउटपुट और एक सक्रियण फ़ंक्शन (आमतौर पर नॉनलाइनियर) (चित्र 7) होता है। उनके पास प्रशिक्षण सेट उदाहरणों के ज्ञात सेट से सीखने की क्षमता है। एक प्रशिक्षित तंत्रिका नेटवर्क एक "ब्लैक बॉक्स" (भविष्य कहनेवाला मॉडल की व्याख्या करने के लिए एक अप्राप्य या बहुत कठिन) है जिसे वर्गीकरण, क्लस्टरिंग और पूर्वानुमान समस्याओं में लागू किया जा सकता है।


चावल। 7. सक्रियण समारोह एफ के साथ न्यूरॉन; .

तंत्रिका नेटवर्क प्रशिक्षण में वज़न को समायोजित करना शामिल है जो कुछ न्यूरॉन्स के आउटपुट को दूसरों के इनपुट से जोड़ता है। नेटवर्क प्रशिक्षण दो बुनियादी परिदृश्यों में से एक के अनुसार किया जा सकता है:

अक्सर, आईएडी उपकरण "एक शिक्षक के साथ" प्रशिक्षित एक विशेष प्रकार के तंत्रिका नेटवर्क का उपयोग करते हैं - बहुपरत परसेप्ट्रोन [, पीपी। 54-55]। अंजीर में। 8 न्यूरॉन्स की दो परतों के साथ इस तरह के एक तंत्रिका नेटवर्क को दिखाता है, जिसमें तीन इनपुट और तीन आउटपुट चर होते हैं (सामान्य तौर पर, इनपुट की संख्या, आउटपुट की संख्या, परतों की संख्या और प्रत्येक आंतरिक परत में न्यूरॉन्स की संख्या कुछ भी हो सकती है) . पिछली परत के प्रत्येक न्यूरॉन का आउटपुट अगली परत के प्रत्येक न्यूरॉन के इनपुट से जुड़ा होता है।


चावल। 8. त्रुटि बैकप्रोपेगेशन प्रक्रिया द्वारा प्रशिक्षित बहुपरत परसेप्ट्रॉन।

बहुपरत परसेप्ट्रॉन के वजन का समायोजन त्रुटि बैकप्रोपेगेशन एल्गोरिथ्म [, पीपी। 56-69] द्वारा किया जाता है। प्रशिक्षण के दौरान, यह माना जाता है कि प्रत्येक इनपुट वेक्टर (इनपुट का सेट) के लिए एक लक्ष्य वेक्टर (आउटपुट का सेट) होता है, और साथ में वे एक प्रशिक्षण जोड़ी (उदाहरण) बनाते हैं। प्रशिक्षण शुरू करने से पहले, प्रशिक्षण की असंभवता के रोग संबंधी मामलों को दूर करने के लिए, सभी भारों को यादृच्छिक रूप से चुने गए छोटे प्रारंभिक मान दिए जाने चाहिए। प्रशिक्षण जोड़े का पूरा सेट एक प्रशिक्षण सेट का गठन करता है। नेटवर्क प्रशिक्षण के लिए निम्नलिखित कार्यों की आवश्यकता होती है:

  1. प्रशिक्षण सेट से एक प्रशिक्षण जोड़ी चुनें;
  2. प्रशिक्षण जोड़ी के इनपुट वेक्टर को नेटवर्क के इनपुट में जमा करें;
  3. नेटवर्क आउटपुट की गणना करें;
  4. नेटवर्क आउटपुट और प्रशिक्षण जोड़ी के लक्ष्य वेक्टर के बीच अंतर की गणना करें;
  5. त्रुटि को कम करने के लिए नेटवर्क भार को समायोजित करें;
  6. प्रशिक्षण सेट की प्रत्येक जोड़ी के लिए चरण 1-5 दोहराएं जब तक कि पूरे सेट पर त्रुटि स्वीकार्य स्तर तक न पहुंच जाए।

बैकप्रोपेगेशन विधि को परत दर परत प्रशिक्षित किया जाता है, जो आउटपुट परत से शुरू होकर, चरण 4 और 5 में होता है।

"सार्वभौमिक सन्निकटन" होने के नाते, परसेप्ट्रोन प्रतिगमन मॉडल के विपरीत बल्कि जटिल पैटर्न सीख सकते हैं, जिसमें एक सीमित संभव सेट से सन्निकटन फ़ंक्शन का रूप चुना जाता है। लेकिन इस लचीलेपन का एक नकारात्मक पहलू भी है - बनाए गए भविष्य कहनेवाला मॉडल की स्वतंत्रता की डिग्री की संख्या अक्सर प्रशिक्षण के लिए उपयोग किए जाने वाले उदाहरणों की संख्या से अधिक होती है। इसका मतलब है कि तंत्रिका नेटवर्क उत्पन्न यादृच्छिक संख्याओं की एक सरणी पर भी "सीख" सकता है। वास्तव में, जैसा कि स्टॉक मार्केट के विश्लेषण के लिए परीक्षण समस्या को हल करने के लिए एक तंत्रिका नेटवर्क के उपयोग से पता चलता है, यह अतीत में बाजार के सभी उतार-चढ़ाव को पूरी तरह से समझाता है, लेकिन भविष्य के लिए उचित पूर्वानुमान नहीं देता है। प्रशिक्षित नेटवर्क की भविष्य कहनेवाला सटीकता में सुधार तंत्रिका नेटवर्क के प्रशिक्षण के लिए प्रशिक्षण सेट के केवल कुछ हिस्से का उपयोग करके प्राप्त किया जा सकता है, जबकि शेष उदाहरणों का उपयोग अज्ञात डेटा पर बनाए गए मॉडल की पर्याप्तता की जांच करने के लिए किया जाता है; उसी समय, स्वतंत्रता की डिग्री की संख्या को कम करने के लिए नेटवर्क को कम से कम जटिल कॉन्फ़िगरेशन के साथ प्रशिक्षित करने का प्रयास करना चाहिए।

कई अन्य कमियां हैं जो आईएडी उपकरण के रूप में तंत्रिका नेटवर्क के उपयोग को सीमित करती हैं।

तंत्रिका नेटवर्क के प्रशिक्षण की मुख्य समस्या किसी दिए गए प्रशिक्षण सेट पर सीखने में सक्षम नेटवर्क संरचना का संश्लेषण है। इस बात की कोई गारंटी नहीं है कि एक निश्चित संरचना के नेटवर्क को सीखने की प्रक्रिया स्वीकार्य त्रुटि सीमा तक पहुंचे बिना नहीं रुकेगी, या स्थानीय न्यूनतम में नहीं गिरेगी। यद्यपि बहुपरत नेटवर्क व्यापक रूप से कार्यों के वर्गीकरण और सन्निकटन के लिए उपयोग किए जाते हैं, फिर भी उनके संरचनात्मक मापदंडों को परीक्षण और त्रुटि द्वारा निर्धारित किया जाना है। निष्कर्ष के अनुसार, मौजूदा सैद्धांतिक परिणाम व्यावहारिक अनुप्रयोगों में इन मापदंडों के चुनाव के लिए केवल कमजोर दिशानिर्देश प्रदान करते हैं।

इस प्रकार, तंत्रिका नेटवर्क - आईएडी के लिए एक शक्तिशाली और लचीला उपकरण - का उपयोग कुछ सावधानी के साथ किया जाना चाहिए और उद्यम डेटा खनन की आवश्यकता वाली सभी समस्याओं के लिए उपयुक्त नहीं हैं।

४.३.३. निष्कर्ष

जैसा कि इस समीक्षा से देखा जा सकता है, कोई भी माना गया तरीका उन सभी कार्यों को कवर करने में सक्षम नहीं है जो डेटा वेयरहाउस की सामग्री के बौद्धिक विश्लेषण के आधार पर प्रबंधन निर्णय लेने में सहायता प्रदान करते हैं। लेकिन बाजार में मौजूद अधिकांश मौजूदा खनन प्रणालियां एक या तीन तरीकों को लागू करती हैं (उदाहरण के लिए, पायलट सॉफ्टवेयर इंक से पायलट डिस्कवरी सर्वर और सूचना हार्वेस्टर कार्पोरेशन से सूचना हार्वेस्टर - केवल निर्णय पेड़, सूचना डिस्कवरी इंक से इडिस - निर्णय पेड़ और नियम प्रेरण, थिंकिंग मशीन द्वारा डार्विन - तंत्रिका नेटवर्क, निर्णय पेड़ और डेटा विज़ुअलाइज़ेशन, सिलिकॉन ग्राफिक्स द्वारा माइनसेट - निर्णय पेड़, एसोसिएशन नियम प्रेरण और डेटा विज़ुअलाइज़ेशन), इसलिए, वास्तविक अनुप्रयोगों में, बड़ी संख्या में महत्वपूर्ण पैटर्न खोने के क्रम में , एक नियम के रूप में, कई अलग-अलग उपकरणों का उपयोग करना पड़ता है। इसके अलावा, कई उपकरण डेटा गोदामों के साथ सीधे काम करने की अनुमति नहीं देते हैं, एक निश्चित संरचना की फ्लैट फाइलों के रूप में विश्लेषण के लिए प्रारंभिक डेटा की प्रारंभिक तैयारी की आवश्यकता होती है, जो उनके व्यावहारिक उपयोग को भी जटिल बनाती है।

5. OLAP और IAD की पूरकता

ऑनलाइन विश्लेषणात्मक प्रसंस्करण और डेटा माइनिंग निर्णय समर्थन प्रक्रिया के दो भाग हैं। लेकिन आज अधिकांश OLAP प्रणालियाँ केवल बहुआयामी डेटा तक पहुँच प्रदान करने पर ध्यान केंद्रित करती हैं, और अधिकांश IAD उपकरण जो पैटर्न के क्षेत्र में काम करते हैं, एक-आयामी डेटा दृष्टिकोण से निपटते हैं। इन दो प्रकार के विश्लेषणों को बारीकी से जोड़ा जाना चाहिए, अर्थात, OLAP सिस्टम को न केवल पहुंच पर, बल्कि पैटर्न खोजने पर भी ध्यान केंद्रित करना चाहिए।


चावल। 9. बहुआयामी डेटा माइनिंग सिस्टम की वास्तुकला।

एक कॉर्पोरेट सूचना और विश्लेषणात्मक प्रणाली के निर्माण का आदर्श लक्ष्य एक क्लोज्ड-लूप डीएसएस बनाना है। जैसा कि एन. राडेन ने उल्लेख किया है, "कई कंपनियों ने ... उत्कृष्ट डेटा भंडारण बनाया है, आदर्श रूप से अलमारियों पर अप्रयुक्त जानकारी के पहाड़ों को छांटना, जो अपने आप में बाजार की घटनाओं के लिए त्वरित या पर्याप्त रूप से सक्षम प्रतिक्रिया प्रदान नहीं करता है" [, पृष्ठ ३९ ]. विशेष रूप से गतिशील क्षेत्रों में (उदाहरण के लिए, खुदरा व्यापार में), जहां स्थिति दैनिक आधार पर बदलती है, पारंपरिक OLAP और IAD उपकरणों का उपयोग करते समय भी सक्षम निर्णयों को समय पर अपनाना सुनिश्चित नहीं किया जाता है। उन्हें एक दूसरे के साथ जोड़ा जाना चाहिए और होना चाहिए प्रतिक्रियामूल डेटा प्रोसेसिंग सिस्टम के लिए ताकि डीएसएस कार्य के परिणाम तुरंत नियंत्रण क्रियाओं के रूप में परिचालन प्रणालियों को प्रेषित किए जा सकें। इस प्रकार, वॉल-मार्ट, सबसे बड़ी अमेरिकी खुदरा कंपनी, एक क्लोज्ड-लूप डीएसएस विकसित कर रही है)

संबंधित आलेख: