Преглед и анализ на софтуерни технологии за разработване на WEB-приложения за аналитична обработка на данни. Методи за обработка на аналитични данни в подкрепа на вземането на решения Технология за оперативна обработка на аналитични данни

3.4 Методи за обработка на аналитични данни

За да могат съществуващите складове с данни да улеснят приемането на решения за управление, информацията трябва да бъде представена на анализатора в необходимата форма, тоест той трябва да е разработил инструменти за достъп и обработка на данни в склада.

Много често информационните и аналитичните системи, създадени с очакването за директна употреба от вземащите решения, са изключително лесни за използване, но силно ограничени във функционалността. Такива статични системи се наричат Информационни системиръководител (EIS) или Изпълнителни информационни системи (EIS). Те съдържат много запитвания и, като са достатъчни за ежедневен преглед, не са в състояние да отговорят на всички въпроси, които могат да възникнат при вземането на решения. Резултатът от работата на такава система, като правило, са многостранични доклади, след внимателно проучване, които анализаторът има нова поредица от въпроси. Всяка нова заявка, която не е предвидена при проектирането на такава система, трябва първо да бъде официално описана, кодирана от програмиста и едва след това да бъде изпълнена. Времето за изчакване в този случай може да бъде часове и дни, което не винаги е приемливо.

Онлайн аналитична обработка... Или онлайн аналитична обработка, OLAP е ключов компонент на организацията за съхранение на данни. Концепцията OLAP е описана през 1993 г. от Едгар Код и има следните изисквания за приложения с многовариантни анализи:

- многоизмерно концептуално представяне на данни, включително пълна поддръжка за йерархии и множество йерархии (ключово изискване на OLAP);

- предоставяне на потребителя на резултатите от анализа в разумен срок (обикновено не повече от 5 s), дори с цената на по -малко подробен анализ;

- способността да се извършват всякакви логически и статистически анализи, характерни за на това приложениеи запазване във форма, достъпна за крайния потребител;

- многопотребителски достъп до данни с поддръжка на подходящи заключващи механизми и разрешени средства за достъп;

- възможност за достъп до всяка необходима информация, независимо от нейния обем и място за съхранение.

OLAP системата се състои от много компоненти. На най -високо ниво на представяне системата включва източник на данни, многоизмерна база данни (MDB), която предоставя възможност за внедряване на механизъм за отчитане, базиран на OLAP технология, OLAP сървър и клиент. Системата е изградена на принципа клиент-сървър и осигурява отдалечен и многопотребителски достъп до MDB сървъра.

Помислете за компонентите на OLAP система.

Източници.Източникът в OLAP системите е сървърът, който доставя данните за анализ. В зависимост от обхвата на използване на OLAP продукта, източникът може да бъде хранилище за данни, наследена база данни, съдържаща общи данни, набор

таблици, които комбинират финансови данни или комбинация от горните.

Съхранение на данни. Необработените данни се събират и съхраняват в хранилище, проектирано в съответствие с принципите за изграждане на складове с данни. HD е релационна база данни (RDB). Основната CD таблица (таблица с факти) съдържа числовите стойности на индикаторите, за които се събира статистическа информация.

Многомерна база данниСъхранението на данни служи като доставчик на информация за многоизмерна база данни, която е колекция от обекти. Основните класове на тези обекти са размери и мерки. Размерите включват набор от стойности (параметри), чрез които се индексират данни, например време, региони, тип институция и т.н. Всяко измерение се попълва със стойности от съответните таблици с размери на хранилището с данни. Наборът от измервания определя пространството на изследвания процес. Мерките са многоизмерни кубчета данни (хиперкуби). Хиперкубът съдържа самите данни, както и съвкупните суми за размерите, които са част от индикатора. Показателите съставляват основното съдържание на MDB и се попълват според таблицата с факти. По всяка ос на хиперкуба данните могат да бъдат организирани в йерархия, представляваща различни нива на детайлност. Това ви позволява да създавате йерархични измерения, които ще бъдат използвани за обобщаване или анализиране на представянето на данни по време на последващ анализ на данни. Типичен пример за йерархично измерение е списък на териториални обекти, групирани по области, региони, области.

Сървър. OLAP сървърът е приложената част от системата OLAP. Този компонент върши цялата работа (в зависимост от модела на системата) и съхранява в себе си цялата информация, до която се предоставя активен достъп. Архитектурата на сървъра се управлява от различни концепции. По -специално, основната функционална характеристика на OLAP продуктите е използването на MDB или RDB за съхранение на данни.

Клиентско приложениеДанните, структурирани съответно и съхранявани в MDB, са достъпни за анализ с помощта на клиентското приложение. Потребителят получава възможност отдалечен достъпкъм данни, формулиране на сложни заявки, генериране на отчети, получаване на произволни подмножества от данни. Получаването на отчет се свежда до избора на конкретни измервателни стойности и изграждането на участък от хиперкуба. Напречното сечение се определя от избраните стойности на измерване. Данните за останалите измерения се сумират.

OLAPна клиента и на сървъра.Многоизмерният анализ на данни може да се извърши с помощта на различни инструменти, които условно могат да бъдат разделени на клиентски и сървърни OLAP инструменти.

Клиентските инструменти на OLAP (например обобщени таблици в Excel 2000 от Microsoft или ProClarity от Knosys) са приложения, които изчисляват и показват съвкупни данни. В този случай самите обобщени данни се съдържат в кеша в адресното пространство на такъв инструмент за OLAP.

Ако изходните данни се съдържат в настолната СУБД, изчисляването на обобщените данни се извършва от самия инструмент OLAP. Ако източникът на оригиналните данни е сървърна СУБД, много от клиентските OLAP инструменти изпращат SQL заявки към сървъра и в резултат на това получават обобщени данни, изчислени на сървъра.

Обикновено функционалността на OLAP е внедрена в инструменти за обработка на статистически данни и в някои електронни таблици.

Много инструменти за разработка съдържат библиотеки от класове или компоненти, които ви позволяват да създавате приложения, които реализират най -простата OLAP функционалност (като компонентите на решението Cube в Borland Delphi и Borland C ++ Builder). В допълнение, много компании предлагат ActiveX контроли и други библиотеки, които осигуряват подобна функционалност.

Клиентските OLAP инструменти обикновено се използват с малък брой размери (обикновено не повече от шест) и малко разнообразие от стойности за тези параметри - тъй като получените обобщени данни трябва да се поберат в адресното пространство на такъв инструмент , а броят им нараства експоненциално с увеличаване на броя на размерите.

Много клиентски инструменти на OLAP ви позволяват да запазвате съдържанието на кеша с обобщени данни като файл, за да не ги преизчислявате. Тази възможност обаче често се използва за отчуждаване на обобщени данни с цел прехвърлянето им на други организации или за публикуване.

Идеята за съхраняване на кеша с обобщени данни във файл получи своята по-нататъчно развитиев OLAP инструменти на сървъра (например Oracle Express Server или Microsoft OLAP Services), в които съхранението и промяната на съвкупните данни, както и поддръжката на хранилището, което ги съдържа, се извършва от отделно приложение или процес, наречен OLAP сървър. Клиентските приложения могат да поискат такова многоизмерно хранилище и да получат определени данни в отговор. Някои клиентски приложения също могат да създават такива хранилища или да ги актуализират според променените изходни данни.

Предимствата от използването на сървърно базирани OLAP инструменти в сравнение с клиентските OLAP инструменти са подобни на предимствата от използването на СУБД от страна на сървъра в сравнение с инструментите за настолни компютри: в случай на използване на сървърно базирани инструменти изчисляването и съхранението на съвкупните данни се извършва на сървър и клиентското приложение получава само резултатите от заявките към тях, което позволява като цяло да се намали мрежовия трафик, времето за изпълнение на заявките и ресурсните изисквания за клиентското приложение.

3.5 Технически аспекти на многоизмерното съхранение на данни

Многоизмерността в OLAP приложенията може да бъде разделена на три нива:

1... Многоизмерно представяне на данни- инструменти за крайни потребители, които осигуряват многоизмерна визуализация и манипулиране на данни; MDI слоят се абстрахира от физическата структура на данните и третира данните като многоизмерни.

    Многоизмерна обработка- инструмент (език) за формулиране на многоизмерни заявки (традиционният релационен SQL език се оказва неподходящ тук) и процесор, който може да обработи и изпълни такава заявка.

    Многоизмерно съхранение- средства за физическа организация на данните, осигуряващи ефективно изпълнение на многоизмерни заявки.

Първите две нива са задължителни във всички инструменти на OLAP. Третото ниво, макар и широко разпространено, не се изисква, тъй като данните за многоизмерния изглед също могат да бъдат извлечени от обикновени релационни структури. Процесорът за многоизмерни заявки в този случай превежда многоизмерните заявки в SQL заявки, които се изпълняват от релационната СУБД.

Във всеки склад на данни - както конвенционален, така и многоизмерен - заедно с подробни данни, извлечени от операционните системи, се съхраняват и обобщени показатели (общи показатели), като например сумите на обемите на продажби по месеци, по продуктови категории и т.н. Агрегатите се съхраняват изрично за единствената цел да се ускорят заявките. Наистина, от една страна, като правило в склада се натрупва много голямо количество данни, а от друга, анализаторите в повечето случаи се интересуват не от подробни, а от обобщени показатели. И ако милиони индивидуални продажби трябваше да се сумират всеки път за изчисляване на годишните продажби, скоростта най -вероятно би била неприемлива. Следователно, при зареждане на данни в многоизмерна база данни, всички обобщени показатели или част от тях се изчисляват и запазват.

Използването на обобщени данни обаче е изпълнено с недостатъци. Основните недостатъци са увеличаването на обема на съхранената информация (когато се добавят нови измерения, количеството данни, които съставляват куба, нараства експоненциално) и времето, необходимо за тяхното зареждане. Освен това количеството информация може да се увеличи десетки и дори стотици пъти. Например, в един от публикуваните стандартни тестове, пълен общ брой за 10 MB необработени данни изисква 2.4 GB, тоест данните са нараснали 240 пъти!

Степента, до която обемът на данните се увеличава при изчисляване на агрегатите, зависи от броя на размерите в куба и структурата на тези измерения, тоест съотношението на броя на „родителите“ и „потомците“ на различни нива на измерението. За да се реши проблемът със съхранението на агрегати, се използват сложни схеми, които позволяват при изчисляване далеч от всички възможни агрегати да се постигне значително увеличение на производителността на заявките.

И началните, и обобщените данни могат да се съхраняват в

релационни или в многоизмерни структури. В тази връзка в момента се използват три начина за съхранение на многоизмерни данни:

MOLAP (Многоизмерен OLAP) - Изходните и обобщените данни се съхраняват в многоизмерна база данни. Съхраняването на данни в многоизмерни структури ви позволява да манипулирате данни като многоизмерен масив, така че скоростта на изчисляване на съвкупните стойности да е еднаква за всяко от измеренията. В този случай обаче многоизмерната база данни се оказва излишна, тъй като многоизмерните данни съдържат изцяло оригиналните релационни данни.

Тези системи осигуряват пълен цикъл на обработка на OLAP. Те или включват, в допълнение към сървърния компонент, свой собствен интегриран клиентски интерфейс, или използват външни програми за електронни таблици за комуникация с потребителя.

ROLAP (Релационен OLAP) - оригиналните данни остават в същата релационна база данни, където са били първоначално разположени. Обобщените данни се поставят в сервизни таблици, специално създадени за съхранението им в същата база данни.

HOLAP (Hybrid OLAP) - оригиналните данни остават в същата релационна база данни, където са били първоначално разположени, а обобщените данни се съхраняват в многоизмерната база данни.

Някои инструменти на OLAP поддържат съхраняване на данни само в релационни структури, някои само в многоизмерни структури. Въпреки това, повечето съвременни OLAP сървърни инструменти поддържат и трите метода за съхранение на данни. Изборът на метод за съхранение зависи от размера и структурата на изходните данни, изискванията за скоростта на изпълнение на заявките и честотата на актуализиране на OLAP кубовете.

3.6 Извличане на данни (ДанниМинен)

Терминът Data Mining обозначава процеса на намиране на корелации, тенденции и взаимоотношения чрез различни математически и статистически алгоритми: групиране, регресионен и корелационен анализ и т.н. В този случай натрупаната информация автоматично се обобщава до информация, която може да се характеризира като знание.

Съвременната технология Data Mining се основава на концепцията за шаблони, отразяващи моделите, присъщи на подпробите от данни, и съставляващи така наречените скрити знания.

Търсенето на модели се извършва с помощта на методи, които не използват априорни предположения за тези подпроби. Важна характеристика на Data Mining е нестандартността и неочевидността на търсените модели. С други думи, инструментите за извличане на данни се различават от инструментите за статистическа обработка на данни и инструментите за OLAP по това, че вместо да проверяват връзките, поети от потребителите предварително

между данните, въз основа на наличните данни, те са в състояние независимо да намерят такива взаимоотношения, както и да изградят хипотези за тяхната природа.

Като цяло процесът на извличане на данни се състои от три етапа

    идентифициране на модели (безплатно търсене);

    използване на разкритите модели за прогнозиране на неизвестни стойности (прогнозно моделиране);

    анализ на изключенията, предназначен да идентифицира и интерпретира аномалии в намерените модели.

Понякога междинен етап на проверка на надеждността на установените модели между тяхното откриване и използване (етапът на валидиране) е ясно разграничен.

Има пет стандартни типа модели, идентифицирани чрез методите за извличане на данни:

1. Асоциацияви позволява да избирате стабилни групи обекти, между които има неявно посочени връзки. Честотата на появата на отделен артикул или група от артикули, изразена като процент, се нарича разпространение. Ниският процент на разпространение (по -малко от една хилядна от процента) предполага, че такава асоциация не е значима. Асоциациите са написани под формата на правила: А=> Б, където А -пакет, V -последица. За да се определи важността на всяко получено правило за асоцииране, е необходимо да се изчисли стойност, наречена доверие АДа се V(или връзка А и В).Увереността показва колко често кога Апоявява се В.Например, ако d (A / B)= 20%, това означава, че когато купувате продукт Авъв всеки пети случай стоките също се купуват В.

Типичен пример за използването на асоциацията е анализът на структурата на покупките. Например, при провеждане на проучване в супермаркет, може да се установи, че 65% от тези, които са закупили картофен чипс, също приемат Coca-Cola, а ако има отстъпка за такъв комплект, Cola се купува в 85% от случаите. Резултати като тези са ценни при формирането на маркетингови стратегии.

2. Последователност - това е метод за идентифициране на асоциации във времето. В този случай са дефинирани правила, които описват последователното възникване на определени групи събития. Тези правила са от съществено значение за създаването на скриптове. В допълнение, те могат да се използват например за формиране на типичен набор от предишни продажби, които могат да доведат до последващи продажби на определен продукт.

3. Класификация - инструмент за обобщение. Тя ви позволява да преминете от разглеждане на единични обекти към обобщени понятия, които характеризират някои набори обекти и са достатъчни за разпознаване на обекти, принадлежащи към тези набори (класове). Същността на процеса на формиране на концепция е да се намерят модели, присъщи на класовете. Много различни характеристики (атрибути) се използват за описание на обекти. Проблемът за формирането на концепции въз основа на описания на характеристики е формулиран от М.М. Бонгарт. Решението му се основава на прилагането на две основни процедури: обучение и тестване. В процедурите за обучение се създава правило за класифициране въз основа на обработката на набор от обучителни обекти. Процедурата за проверка (проверка) се състои в използването на полученото класифициращо правило за разпознаване на обекти от нова (изпитваща) извадка. Ако се установи, че резултатите от теста са задоволителни, процесът на обучение завършва, в противен случай правилото за класифициране се усъвършенства по време на процеса на повторно обучение.

4 групиране Дали разпределението на информация (записи) от базата данни в групи (клъстери) или сегменти с едновременно определяне на тези групи. За разлика от класификацията, тук за анализ не се изисква предварително задаване на класове.

Прогнозиране на 5 времеви серии е инструмент за определяне на тенденциите на промени в атрибутите на разглежданите обекти във времето. Анализът на поведението на времевите редове дава възможност да се предскажат стойностите на изследваните характеристики.

За решаването на такива проблеми се използват различни методи и алгоритми за извличане на данни. Предвид факта, че Data Mining се е развил и развива в пресечната точка на дисциплини като статистика, теория на информацията, машинно обучение, теория на бази данни, съвсем естествено е, че повечето алгоритми и методи на Data Mining са разработени въз основа на различни методи от тези дисциплини .

От разнообразието от съществуващи методи за извличане на данни могат да се разграничат следните:

    регресионен, вариационен и корелационен анализ(внедрено в повечето съвременни статистически пакети, по -специално в продуктите на компаниите SAS Institute, StatSoft и др.);

    методи за анализв конкретна тематична област, базирана на емпирични модели (често използвани например в евтини инструменти за финансов анализ);

    алгоритми на невронни мрежи- метод за симулиране на процеси и явления, който позволява възпроизвеждане на сложни зависимости. Методът се основава на използването на опростен модел на биологичен мозък и се състои в това, че първоначалните параметри се разглеждат като сигнали, които се трансформират в съответствие със съществуващите връзки между "невроните", и отговора на цялата мрежа на първоначалните данни се разглеждат като отговор в резултат на анализа. В този случай връзките се създават с помощта на т. Нар. Мрежово обучение посредством голяма извадка, съдържаща както началните данни, така и правилните отговори. Невронните мрежи се използват широко за решаване на проблеми с класификацията;

    размита логикасе използва за обработка на данни с размити истински стойности, които могат да бъдат представени с различни езикови променливи. Представянето на размито знание се използва широко за решаване на проблеми с класификацията и прогнозирането, например в системата на XpertRule Miner (Attar Software Ltd., Великобритания), както и в AIS, NeuFuz и др.

    индуктивни проводнициви позволяват да обобщавате фактите, съхранявани в базата данни. В процеса на индуктивно обучение може да бъде включен специалист, предлагащ хипотези. Това се нарича контролирано обучение. Търсенето на правила за обобщение може да се извърши без учител чрез автоматично генериране на хипотези. В съвременния софтуер по правило и двата метода се комбинират и се използват статистически методи за проверка на хипотези. Пример за система, използваща индуктивни проводници, е XpertRule Miner, разработен от Attar Software Ltd. (Великобритания);

    разсъждения въз основа на подобни случаи(Метод „Най -близък съсед“) (Мотиви, базирани на случай - CBR) се основават на търсене в база данни за ситуации, чиито описания са сходни по редица характеристики с дадена ситуация. Принципът на аналогията ни позволява да приемем, че резултатите от подобни ситуации също ще бъдат близки един до друг. Недостатъкът на този подход е, че той не създава никакви модели или правила, които да обобщават предишния опит. В допълнение, надеждността на изведените резултати зависи от пълнотата на описанието на ситуациите, както в процесите на индуктивен извод. Примери за системи, използващи CBR, са: KATE Tools (Acknosoft, Франция), Workbench Recognition Workbench (Unica, САЩ);

    дървета на решенията- метод за структуриране на задача под формата на дървовидна графика, чиито върхове съответстват на производствените правила, които позволяват класифициране на данни или анализ на последиците от решенията. Този метод дава визуално представяне на системата за класифициране на правила, ако няма много от тях. Простите проблеми се решават с помощта на този метод много по -бързо от използването на невронни мрежи. За сложни проблеми и за някои типове данни дърветата на решенията може да не са подходящи. В допълнение, този метод има проблем със значение. Едно от последиците от йерархичното групиране на данни е липсата на голям брой примери за обучение за много специални случаи и поради това класификацията не може да се счита за надеждна. Методите на дървото на решенията са внедрени в много софтуерни инструменти, а именно: С5.0 (RuleQuest, Австралия), Clementine (Интегрални решения, Великобритания), SIPINA (Университет в Лион, Франция), IDIS (Информационно откриване, САЩ);

    еволюционно програмиране- търсене и генериране на алгоритъм, изразяващ взаимозависимостта на данните, въз основа на първоначално посочения алгоритъм, модифициран в процеса на търсене; понякога търсенето на взаимозависимости се извършва между всякакви специфични типове функции (например полиноми);

ограничени алгоритми за търсенекоито изчисляват комбинации от прости логически събития в подгрупи от данни.

3.7 ИнтеграцияOLAPиДанниМинен

Онлайн аналитичната обработка (OLAP) и извличането на данни (Data Mining) са две части от процеса на подпомагане на вземането на решения. Днес обаче повечето OLAP системисе фокусира само върху осигуряването на достъп до многоизмерни данни, а повечето инструменти за извличане на данни, които работят в областта на шаблоните, се занимават с едноизмерни перспективи на данните. За да се повиши ефективността на обработката на данни за системите за подпомагане на вземането на решения, тези два вида анализ трябва да се комбинират.

Понастоящем съществува сложен термин "OLAP Data Mining" (многоизмерно извличане), който обозначава такава комбинация.

Има три основни начина за формиране на „OLAP Data Mining“:

    "Cubing then mining". Възможността за извършване на анализ на копаене трябва да бъде предоставена при всеки резултат от заявка към многоизмерно концептуално представяне, тоест върху всеки фрагмент от всяка проекция на хиперкуб от индикатори.

    Добив, след това кубиране. Подобно на данните, извлечени от хранилище, резултатите от копаенето трябва да бъдат представени в хиперкубична форма за последващ многовариантен анализ.

    "Cubing while mining". Този гъвкав начин на интеграция ви позволява автоматично да активирате същия тип интелигентни механизми за обработка в резултат на всяка стъпка от многовариантния анализ (преход) между нивата на обобщение, извличане на нов фрагмент от хиперкуба и т.н.).

    11 клас [Текст ... тяхкак частцялото системи ... асистент ... Чебоксари, 2009. No 10. С. 44 -49 .... Автори- компилатори: Н. ... конспектилекции, ...

  • Учебно ръководство

    ... лекции... Подготовка лекцииматематика. Писане резюмелекции лекции... Употреба информациятехнологии ...

  • I к кондаурова с v лебедева

    Учебно ръководство

    ... лекции... Подготовка лекцииматематика. Писане резюмелекции... Подготовка на визуални помагала. Техника на четене лекции... Употреба информациятехнологии ...

  • МОНИТОРИНГ НА МЕДИИ Модернизация на професионалното образование март - август 2011 г.

    Резюме

    ... 11 .08.2011 „Мъртви души-2“ в RNIMU тях ... 3,11 -3,44 ... ... публично лекциилидери ... Чебоксари... и драскане конспектипублика - ... информациясистемии технологии. ... системаобразование, казва асистент ... компилатори ... части отподобряване на реалното съдържание ...

Аналитични технологии на бизнес процесите

Системи за бизнес разузнаване - Business Intelligence (BI) комбинират различни инструменти и технологии за анализ и обработка на данни в мащаб на предприятието. Въз основа на тези инструменти се създават BI-системи, чиято цел е да подобрят качеството на информацията за вземане на управленски решения.

BI включва софтуерни продукти от следните класове:

· Системи за онлайн аналитична обработка (OLAP);

· Средства за извличане на данни (DM);

Софтуерните продукти от всеки клас изпълняват определен набор от функции или операции, използвайки специални технологии.

OLAP (On-Line Analytical Processing) е името не на конкретен продукт, а на цяла технология. Концепцията OLAP се основава на многоизмерно представяне на данни.

През 1993 г. основателят на релационния подход към изграждането на бази данни, Едгар Код и партньорите (Едгар Код, математик и сътрудник на IBM), публикува документ, иницииран от компанията, озаглавен „Предоставяне на OLAP (Онлайн аналитична обработка) за потребители на анализатори “, който формулира 12 технологични критерия OLAP, които по -късно станаха основното съдържание на нова и много обещаваща технология.

По -късно те бяха преработени в теста FASMI, който определя изискванията за продуктите OLAP:

· БЪРЗО (бързо). Приложението OLAP трябва да осигурява минимално време за достъп до аналитични данни - средно около 5 секунди;

АНАЛИЗ (анализ). Приложението OLAP трябва да даде възможност на потребителя да извършва числени и статистически анализи;

СПОДЕЛЕН (споделен достъп). Приложението OLAP трябва да предоставя възможност за работа с информация за много потребители едновременно;

MULTIDIMENSIONAL (многоизмерност);

ИНФОРМАЦИЯ Приложението OLAP трябва да дава възможност на потребителя да получи необходимата информация, независимо как електронно съхранениеданни не е намерен.

Въз основа на FASMI може да се даде следното определение: OLAP приложения -Това са системи за бърз многопотребителски достъп до многоизмерна аналитична информация с възможности за цифров и статистически анализ.

Основната идея зад OLAP е да се създадат многоизмерни кубчета, които да бъдат достъпни за персонализирани заявки. Многоизмерните кубове (Фигура 5.3) са изградени от необработени и обобщени данни, които могат да се съхраняват както в релационни, така и в многоизмерни бази данни. Следователно в момента се използват три начина за съхранение на данни: MOLAP (Многоизмерен OLAP), ROLAP (Релационен OLAP) и HOLAP (Хибриден OLAP).

Съответно, OLAP продуктите са разделени в три подобни категории по отношение на метода за съхранение на данни:

1. В случай на MOLAP, оригиналните и многоизмерни данни се съхраняват в многоизмерна база данни или в многоизмерен локален куб. Този метод за съхранение осигурява висока скорост на изпълнение на OLAP операции. Но многоизмерната база в този случай най -често ще бъде излишна. Изграденият на негова основа куб ще зависи силно от броя на размерите. С увеличаването на броя на размерите обемът на куба ще расте експоненциално. Понякога това може да доведе до „експлозивен растеж“ в обема на данните.

2. В продуктите ROLAP изходните данни се съхраняват в релационни бази данни или в апартамент местни масина файловия сървър. Обобщените данни могат да бъдат поставени в сервизни таблици в същата база данни. Преобразуването на данни от релационна база данни в многоизмерни кубчета става по искане на инструмента OLAP. В този случай скоростта на изграждане на куб до голяма степен ще зависи от типа източник на данни.

3. В случай на използване на хибридна архитектура, оригиналните данни остават в релационната база данни, докато агрегатите се поставят в многоизмерната. OLAP кубът се изгражда при поискване от OLAP инструмент, базиран на релационни и многоизмерни данни. Този подход избягва експлозивния растеж на данни. В същото време е възможно да се постигне оптималното време за изпълнение на клиентски заявки.

Използвайки OLAP технологии, потребителят може да извършва гъвкаво преглеждане на информация, да получава различни срезове данни, да извършва аналитични операции за детайлизиране, конволюция, разпределение от край до край, сравнение във времето, т.е. съставя и динамично публикува отчети и документи.

Структурата на складовата база данни обикновено е проектирана по такъв начин, че да улесни максимално анализа на информацията. Данните трябва да бъдат удобно "разпределени" в различни посоки (наречени размери). Например, днес потребителят иска да види резюме на доставките на части от доставчик, за да сравни дейностите им. Утре същият потребител ще се нуждае от картина на промените в обема на доставките на части по месеци, за да проследи динамиката на доставките. Структурата на базата данни трябва да поддържа тези видове анализи, позволяващи извличане на данни, съответстващи на даден набор от измерения.

Оперативната аналитична обработка на данни се основава на принципа на организиране на информацията в хиперкубичен модел. Най-простият триизмерен куб с данни за доставка на части за разглежданата по-рано тестова база данни е показан на фиг. 3.11. Всяка от нейните клетки съответства на "факт" - например обхвата на доставка на част. По протежение на едната страна на куба (едно измерение) са месеците, през които са били извършени доставките, отразени от куба. Второто измерение е видовете части, а третото е свързано с доставчиците. Всяка клетка съдържа количеството на доставка за съответната комбинация от стойности и в трите измерения. Трябва да се отбележи, че при попълването на куба стойностите бяха агрегирани за доставките за всеки месец от тестовата база данни.


3.11. Опростена опция за хиперкуб за анализ на предлагането на части

Системите от клас OLAP се различават по начина, по който се представят данните.

Многоизмерен OLAP (MOLAP) - тези системи се основават на многоизмерна структура от данни, базирана на динамични масиви с подходящи методи за достъп. MOLAP е внедрен върху патентовани технологии за организиране на многоизмерни СУБД. Предимството на този подход е удобството при извършване на изчисления върху клетките на хиперкуба, тъй като за всички комбинации от измервания, съответните клетки се навиват (както в електронна таблица). Класическите представители на такива системи включват Oracle Express, SAS Institute MDDB.

Релационен OLAP (ROLAP)- Поддържа многоизмерни аналитични модели в релационни бази данни. Този клас системи включва Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP.

OLAP за настолни компютри- инструменти за генериране на многомерни заявки и отчети за локални информационни системи (електронни таблици, плоски файлове). Могат да се разграничат следните системи - Business Objects, Cognos Power Play.

E.F. Codd дефинира дванадесет правила, на които OLAP продуктът трябва да отговаря, включително многоизмерни концептуални данни, прозрачност, наличност, стабилна производителност, архитектура клиент-сървър, справедливост на измеренията, рядка матрична динамична обработка, поддръжка за много потребители, неограничена междуизмерна поддръжка, интуитивно манипулиране на данни ., гъвкав механизъм за отчитане, неограничен брой измерения и нива на агрегиране.



Най -често срещаните системи от клас ROLAP. Те ви позволяват да организирате информационен модел върху релационно пълно съхранение на всяка структура или върху специална база данни.

Ориз. 3.12. Звездна схема на витрина за доставка на части

За повечето складове с данни най-ефективният начин за моделиране на N-мерния куб е звезда. На фиг. 3.11 показва модел на хиперкуб за анализ на доставката на части, в който информацията се консолидира по четири измерения (доставчик, част, месец, година). Схемата със звезди се основава на таблица с факти. Таблицата с факти съдържа колона, показваща обхвата на доставката, както и колони, показващи чужди ключове за всички таблици с размери. Всяко измерение на куба е представено от таблица със стойности, която е препратка към таблицата с факти. За да се организират нивата на обобщение на информацията над справочниците на измерванията, се организират категорични входове (например "материал-детайл", "град-доставчик").

Причината, поради която веригата на фиг. 3.12 се нарича "звезда" е доста очевидно. Краищата на "звездата" са оформени от таблици с размери, а връзките им с таблицата с факти в центъра образуват лъчи. С тази структура на базата данни повечето заявки за бизнес разузнаване комбинират централна таблица с факти с една или повече таблици с измерения. Например искане за получаване на обемите на доставка на всички части през 2004 г. по месеци с разбивка по доставчици е както следва:

SELECT SUM (VALUE), SUPPLIER.SUPPLIER_NAME, FACT.MONTH_ID

ОТ ФАКТ, ДОСТАВЧИК

WHERE FACT.YEAR_ID = 2004

AND FACT.SUPPLIER_CODE = SUPPLIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MONTH_ID.

На фиг. 3.13 показва фрагмент от отчет, генериран в резултат на дадена заявка.

Срок онлайн аналитична обработка(Онлайн аналитична обработка - OLAP) за първи път се споменава в доклад, изготвен за Arbor Software Corp. през 1993 г., въпреки че дефиницията на този термин, както в случая със складовете с данни, е формулирана много по -късно. Концепцията, посочена от този термин, може да бъде определена като „интерактивен процес на създаване, поддържане, анализ на данни и издаване на отчети“. Освен това обикновено се добавя, че въпросните данни трябва да се възприемат и обработват по такъв начин, сякаш са съхранявани в многоизмерен масив.Но преди да започнем да обсъждаме самия MDX, нека разгледаме свързаните идеи по отношение на традиционните SQL таблици.

Първата характеристика е, че аналитичната обработка със сигурност изисква известно обобщение данни,обикновено се изпълняват по няколко различни начина едновременно, или с други думи, според много различни критерии за групиране. По същество един от основните проблеми на аналитичната обработка е, че броят на възможните начини за групиране

скоро става твърде голям. Потребителите обаче трябва да обмислят всички или почти всички тези опции. Разбира се, този вид агрегиране сега се поддържа в стандарта SQL, но всяка конкретна SQL заявка произвежда само една таблица като резултат и всички редове в тази получена таблица имат една и съща форма и същата интерпретация10 (поне по този начин

9 Ето един съвет от книга за складовете с данни: „[Изхвърляне] нормализиране ... Опитите за нормализиране на която и да е от таблиците в многоизмерна база данни единствено за спестяване на дисково пространство [така е!] Загуба на време ... Измерение таблиците не трябва да се нормализират ... Таблиците с нормализирани размери изключват възможността за преглед. "

10 Освен ако тази таблица с резултати не съдържа нулеви стойности или NULL стойности (вижте глава 19, раздел 19.3, подраздел „Повече за предикати“). Всъщност конструкциите на SQL: 1999, които трябва да бъдат описани в този раздел, могат да се характеризират като "базирани" на този силно отхвърлен SQL инструмент (?); всъщност те подчертават факта, че в различните им проявления неопределените стойности могат да имат различни значения и следователно позволяват да се представят много различни предикати в една таблица (както ще бъде показано по -долу).

беше преди стандарта SQL: 1999). Следователно, за да се реализира NSразлични начини за групиране, трябва да изпълнявате NSотделни заявки и като резултат създайте l отделни таблици. Например, помислете за следната последователност от заявки, изпълнени срещу база данни на доставчик и части.

1. Определете общия брой доставки.

2. Определете общия брой доставки по доставчик.

3. Определете общия брой доставки на части.

4. Определете общия брой доставки от доставчици и части.

(Разбира се, "общото" количество за даден доставчик и за дадена част е просто действителното количество за даден доставчик и за дадена част. Пример би бил по -реалистичен, ако се използва база данни с доставчици, части и проекти . Например, все още се спряхме на обичайната база от доставчици и части.)

Да предположим, че има само две части, номерирани с P1 и P2, и таблицата за доставка изглежда така.

Многоизмерни бази данни

Досега се приемаше, че OLAP данните се съхраняват в обикновена база данни, използвайки езика SQL (освен факта, че понякога все още се докосвахме до терминологията и концепцията многоизмерни бази данни).Всъщност, без изрично посочване, описахме така наречената система ROLAP(Релационно OLAP-релационни OLAP).Мнозина обаче смятат, че използването на системата MOLAP(Многоизмерно OLAP- многоизмерен OLAP) е по -обещаващ начин. В този подраздел ще бъдат разгледани по -подробно принципите на изграждане на системи MOLAP.

Системата MOLAP осигурява управлението на многоизмерни бази данни,в който данните се съхраняват концептуално в клетките на многоизмерен масив.

Забележка. Макар и по -високо ибеше казано за идеенначинът на организиране на съхранението, всъщност физическата организация на данните в MOLAPмного подобни на логическата им организация.

Поддържащата СУБД се нарича многоизмерна.Като прост примерможете да хвърлите триизмерен масив, представляващ съответно продукти, клиенти и периоди от време. Стойността на всяка отделна клетка може да представлява общия обем на определен артикул, продаден на клиент в определен период от време. Както бе отбелязано по -горе, кръстосаните раздели от предишния подраздел също могат да се считат за такива масиви.

Ако има достатъчно ясно разбиране за структурата на набора от данни, тогава всички връзки между данните могат да бъдат известни. Освен това, променливитакъв набор (не в смисъла на конвенционалните езици за програмиране), грубо казано, може да бъде разделен на зависими независими. Vпредишен пример продукт, клиенти времеви периодмогат да се разглеждат като независими променливи и номер -единствената зависима променлива. По принцип обяснителните променливи са променливи, чиито стойности заедно определят стойностите на зависимите променливи (точно както в релационната терминология потенциалният ключ е набор

колони, чиито стойности определят стойностите на останалите колони). Следователно независимите променливи задават измерението на масива, с който са организирани данните, а също и формата схема за адресиране 11за даден масив. Зависимите стойности на променливите, които представляват действителните данни, се съхраняват в клетките на масива.

Забележка. Разликата между значенията на независим, или размерна,променливи,

и стойностите на зависимите, или извънгабаритни,променливите понякога се характеризират като разликата между местоположениеи съдържание.

"Следователно клетките на масива се адресират символично, вместо да се използват числови индекси, които обикновено се използват за работа с масиви.

За съжаление горната характеристика на многоизмерните бази данни е твърде опростена, тъй като повечето от наборите от данни първоначално остават ненапълно проучени. Поради тази причина ние сме склонни да анализираме предимно данните, за да ги разберем по -добре. Често липсата на разбиране може да бъде толкова значителна, че е невъзможно предварително да се определи кои променливи са независими и кои зависими. След това независимите променливи се избират според сегашното им разбиране (тоест въз основа на някаква хипотеза), след което полученият масив се проверява, за да се определи колко добре са избрани независимите променливи (виж раздел 22.7). Този подход води до факта, че много итерации се извършват на принципа проба и грешка. Следователно системата обикновено позволява промяната на размерните и неразмерните променливи и тази операция се нарича промяна на координатните оси(завъртане). Други поддържани операции включват транспониране на масиваи пренареждане на размерите.Трябва да има и начин за добавяне на размери.

Между другото, от предишното описание трябва да стане ясно, че клетките на масива често са празни (и колкото повече размери, толкова по -често се наблюдава това явление). С други думи, масивите обикновено са оскъден.Да предположим например, че продуктът p не е бил продаден на клиента през целия период от време T.След това клетка [s, p, t]ще бъде празно (или в най -добрия случай съдържа нула). Многоизмерните СУБД поддържат различни методи за съхраняване на редки масиви в по -ефективна, кондензирана форма12. Към това трябва да се добави, че празни клетки съответстват на липсваща информацияи следователно системите трябва да осигурят известна изчислителна поддръжка за празни клетки. Такава поддръжка обикновено е налична, но стилът й, за съжаление, е подобен на стила, възприет в езика SQL. Обърнете внимание на факта, че ако тази клетка е празна, тогава информацията или не е известна, или не е въведена, или не е приложима, или липсва по други причини.

(виж глава 19).

Обяснителните променливи често са свързани йерархия,дефиниране на начините, по които може да се получи обобщаването на зависими данни. Например има временен

йерархия, свързваща секунди с минути, минути с часове, часове с дни, дни със седмици, седмици с месеци, месеци с години. Или друг пример: възможна е йерархия

композиции, свързващи части с набор от части, комплекти части с монтаж, възли с модул, модули с продукт. Често едни и същи данни могат да бъдат обобщени от много различни начини, т.е. същата обяснителна променлива може да принадлежи към много различни йерархии. Системата предоставя на операторите за изкачване нагоре(пробийте) и преминавайки надолу(пробийте надолу) по такава йерархия. Преминаванеозначава преход от долното ниво на агрегиране към горното, и преминаване надолу -

тръгвайки в обратната посока. Има и други операции за работа с йерархии, като например операция за пренареждане на нива на йерархия.

Забележка.Между операциите изкачване нагоре(пробийте) и натрупване на резултати(ролка

нагоре) има една фина разлика: операцията натрупване на резултати -това е операция по внедряване

12 Обърнете внимание на разликата от релационните системи. В реалния релационен аналог на този пример линията Ic, p, t) няма да има празна "клетка" на количеството, поради факта, че редът (s, p,т) просто отсъства. Следователно, когато се използва релационният модел, за разлика от многоизмерните масиви, няма нужда да се поддържат „разредени масиви“, или по -скоро „редки таблици“, и следователно не се изискват сложни техники за компресиране за работа с такива таблици.

необходимите методи за групиране и агрегиране и операцията изкачване нагоретова е операция достъпкъм резултатите от прилагането на тези методи. Пример за операция преминавайки надолузаявката може да бъде: "Общият брой доставки е известен; вземете сумите за всеки отделен доставчик." Разбира се, трябва да са налични (или изчислими) по -подробни нива на данни, за да се отговори на това запитване.

Продуктите с многоизмерни бази данни също предоставят редица статистически и други математически функции, които да ви помогнат да формулирате и тествате хипотези (тоест хипотези за предполагаеми взаимоотношения). Освен това са предоставени инструменти за визуализация и отчитане, които да помогнат при тези задачи. За съжаление все още няма стандартен език за заявки за многоизмерни бази данни, въпреки че се провеждат изследвания за разработване на изчисление, на което може да се основава такъв стандарт. Но, за съжаление, няма нищо подобно на релационната теория на нормализацията, която би могла да служи като научна основа за проектирането на многоизмерни бази данни.

В заключение на този раздел отбелязваме, че някои продукти комбинират и двата подхода - ROLAP и MOLAP. Такива хибридна OLAP системаса наречени HOLAP.Има обширни дискусии, за да се установи кой от тези три подхода е по -добър, така че си струва да се опитаме да кажем няколко думи по този въпрос13. Като цяло системите MOLAP осигуряват по -бързо уреждане, но поддържат по -малко данни от системите ROLAP, т.е. стават по -малко ефективни с увеличаване на количеството данни. А системите ROLAP осигуряват по -напреднали възможности за мащабиране, паралелизъм и контрол от тези на системите MOLAP. В допълнение, стандартът SQL е наскоро актуализиран, за да включва много статистически и аналитични функции (вж. Раздел 22.8). От това следва, че продуктите на ROLAP вече могат да осигурят подобрена функционалност.

OLAP (Онлайн аналитична обработка) е информационен процес, който позволява на потребителя да запитва системата, да извършва анализ и т.н. онлайн (онлайн). Резултатите се генерират в рамките на секунди.

OLAP системите са създадени за крайни потребители, докато OLTP системите са предназначени за професионални потребители на IP. OLAP включва дейности като генериране на заявки, търсене на ad hoc отчети, извършване на статистически анализ и изграждане на мултимедийни приложения.

За да предоставите OLAP, трябва да работите със склад за данни (или многоизмерно хранилище), както и с набор от инструменти, обикновено с многоизмерни възможности. Тези инструменти могат да бъдат инструменти за заявки, електронни таблици, инструменти за извличане на данни, инструменти за визуализация на данни и др.

Концепцията OLAP се основава на принципа на многоизмерно представяне на данни. Е. Код разгледа недостатъците на релационния модел, като на първо място посочи невъзможността за комбиниране, разглеждане и анализиране на данни от гледна точка на множество измерения, тоест по най -разбираем начин за корпоративните анализатори, и определи общи изисквания за OLAP системи, които разширяват функционалността на релационните СУБД и включват многоизмерен анализ като една от характеристиките му.

12 правила, които трябва да бъдат спазени от софтуерен продукт от клас OLAP. Тези правила:

1. Многоизмерно концептуално представяне на данни.

2. Прозрачност.

3. Наличност.

4. Устойчиво представяне.

5. Клиент - сървърна архитектура.

6. Равенство на измерването.

7. Динамична обработка на разредени матрици.

8. Поддръжка за мултиплейър режим.

9. Неограничена поддръжка за многоизмерни операции.

10. Интуитивно манипулиране на данни.

11. Гъвкав механизъм за генериране на отчети.

12. Неограничен брой измерения и нива на агрегиране.

Наборът от тези изисквания, който служи като действително определение на OLAP, трябва да се разглежда като препоръка, а специфичните продукти трябва да се оценяват в зависимост от степента на близост до идеалното пълно съответствие с всички изисквания.


Извличане на данни и добив на знания. Управление и анализ на големи данни. Системи за бизнес разузнаване (BI).

Извличане на данни (IAD) е общ термин за анализ на данни с активно използване на математически методи и алгоритми (методи за оптимизация, генетични алгоритми, разпознаване на модели, статистически методи, извличане на данни и др.), Като се използват резултатите от прилагането на методи за визуално представяне на данни .

Като цяло процесът на IAD се състои от три етапа:

1) идентифициране на модели (безплатно търсене);

2) използване на разкритите модели за прогнозиране на неизвестни стойности (прогнозиране);

3) анализ на изключенията за идентифициране и интерпретиране на аномалии в установените модели.

Понякога има междинен етап на проверка на надеждността на намерените модели (етап на валидиране) между намирането и използването им.

Всички методи на IAD, съгласно принципа на работа с първоначални данни, са разделени на две групи:

Използвайте разсъждаващи техники за анализ на случаите - необработените данни могат да се съхраняват в изрична гранулирана форма и директно да се използват за прогнозиране и / или анализ на изключения. Недостатъкът на тази група методи е сложността на използването им върху големи количества данни.

Методи за идентифициране и използване на формализирани модели, които изискват извличане на информация от първични данни и превръщането й в някои формални конструкции, чиято форма зависи от конкретен метод.

Data Mining (DM) е технология за откриване на неизвестни досега нетривиални, практически полезни и достъпни интерпретации на знания, необходими за вземане на решения в различни сфери на човешката дейност в „необработени“ данни. Алгоритмите, използвани в Data Mining, изискват голямо количество изчисления, което по -рано беше ограничаващ фактор в широкото практическо приложение на тези методи; обаче увеличаването на производителността на съвременните процесори премахна остротата на този проблем.

Пазарът на бизнес разузнаване се състои от 5 сектора:

1. OLAP продукти;

2. Инструменти за извличане на данни;

3. Средства за изграждане на складове и бази данни (Data Warehousing);

4. Информационни системи и приложения за управление;

5. Инструменти за крайни потребители за запитване и изграждане на отчети.

В момента сред лидерите на корпоративните BI платформи са MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute и други (Приложение Б предоставя сравнителен анализ на някои от функционалностите на BI системите).

OLTP е система за обработка на транзакции в реално време. OLTP са проектирани да обслужват бързо сравнително прости заявки от голям брой потребители. Те се характеризират с ниско време на изчакване за изпълнение на заявки. Тези системи работят с малки транзакции, но с големи потоци.

Основен Светите острови: 1) Атомност-извършване на операции в пълно или неизпълнение изобщо.

2) Последователност - гаранция за взаимна цялост на данните

3) Изолация - извършване на операции в изолация в мрежата на потребителя

4) Устойчивост - ако транзакцията е успешна, тогава промените, направени в нея в базата данни, не се губят при никакви обстоятелства

31. olap технология (Онлайн аналитична обработка).

Система за поддръжка на решения OLAP, ориентирана към изпълнение на по -сложни заявки, които изискват статистическа обработка на исторически данни, натрупани за определен период от време.

OLAP се основава на Data Mining. Извличане на данни-комбинация от методи или технологии за интелигентен анализ на данни с цел идентифициране на неизвестни досега, нетривиални (трудни), практически полезни и достъпни интерпретации на знания, необходими за вземане на решения в данните. OLAP включва: 1) средства за обработка на информация въз основа на методи за изкуствен интелект

2) Графично представяне на данни за сряда и утре.

OLAP технологията се основава на многоизмерна база данни, наречена OLAP кубчета.

32. Склад за данни (DW), концепцията и концепциите за строителството.

HD е обектно-ориентирана, интегрирана, непроменена, поддържаща хронология електронно събиране (събиране) на данни за вземане на решение, т.е.за задачи за анализ и вземане на решения.

Sv-va (принципи) на организация на CD:

1) субектно-ориентирани. Информацията в компактдиска е организирана в съответствие с основните аспекти на дейността на p / p, тоест бизнес процесите. Данните се обединяват в категории и се съхраняват в съответствие с областите, които те описват

2) интеграция - изходните данни се извличат от оперативната база данни, проверяват се, почистват се, свеждат се до една форма, агрегират се до необходимата степен и се зареждат в компактдиска

3) неизменност (непоправимост) - веднъж в определен исторически слой на CD, данните никога няма да бъдат променени. Данните в компактдиска не се създават, тоест идват от външни източници, не се коригират и не се изтриват

4) поддържане на хронологията (история) - обвързване с времето, или в зависимост от времето, тоест данните в компактдиска са пряко свързани с определен период от време.

CD-организация и поддръжка на субектно-ориентирана, интегрирана, леко променяща се вътрешна структура и поддържаща хронологията на електронно събиране на данни за обработка (анализ) с цел извличане (извличане) на нови данни или обобщаване на съществуващи.

HD е структурно разширяема изчислителна среда, предназначена за анализ на инвариантни във времето данни, които логически и физически се трансформират от различни източници и съответстват на бизнес линии, актуализирани и поддържани за дълъг период от време, изразени с прости термини и обобщени (обобщени ) за бърз анализ.

33. Извличането на данни е набор от методи за откриване на неизвестни досега, нетривиални (трудни), практически полезни, налични за интерпретация знания в база данни, необходими за вземане на решения в различни сфери на човешкия живот.

Извличането на данни е процес на извличане на неявна и неструктурирана информация от база данни и представянето й във форма, подходяща за използване.

DM задачи:

    Класификацията е процесът на групиране на обекти на изследване или наблюдение в съответствие с техните общи характеристики. В резултат на решаването на този проблем се откриват особености, които характеризират групи обекти от изследвания набор от данни, т.е. класове. На тези основания нов обект може да бъде приписан на един или друг клас.

    Групирането е задачата да се раздели дадена ситуация на подмножества, наречени клъстери.

    Асоциацията е търсене на модели, извършвано не въз основа на свойствата на обект, а между няколко събития, които се случват едновременно.

    Прогнозиране - въз основа на исторически данни се изчисляват пропуснати или бъдещи стойности на целевите числени показатели.

34. 1С: Предприятие - софтуертърговско дружество , предназначени за автоматизиране на дейностите в предприятието.

1С: Предприятието е (в същото време) едновременно технологична платформа и потребителски режим на работа. Технологичната платформа предоставя обекти (данни и метаданни) и механизми за управление на обекти. Обектите (данни и метаданни) са описани като конфигурации. При автоматизиране на всяка дейност се изготвя собствена конфигурация на обекти, което е цялостно приложение. Конфигурацията се създава в специален режим на работа на софтуерния продукт, наречен "Конфигуратор", след това стартира режимът на работа, наречен "1С: Предприятие", при който потребителят получава достъп до основните функции, реализирани в това приложение (конфигурация).

Типични конфигурации:

    Конфигурация „1С: Счетоводство 8“

Основни функции: водене на записиза няколко организации в една база данни; водене както на счетоводно, така и на данъчно счетоводство (на отделни сметки); възможност за водене на записи в рамките на опростената система за данъчно облагане (за всяка организация данъчната система може да бъде избрана независимо); по -гъвкави опции за счетоводна политика (зададени отделно за счетоводно и данъчно счетоводство), приключване на сметки, изчисляване на амортизацията, счетоводство ДДС, включително включването / изключването от цената, като се вземе предвид UTIIв търговията на дребно.

    Конфигурация „1С: Търговско управление 8“

Предназначен за търговско и складово счетоводство в предприятията. Функционалността в сравнение с конфигурацията „1С: Търговия и Склад 7.7“ е разширена: има възможност за управление на взаимоотношенията с клиенти (CRM), както и възможност за планиране на продажби и покупки.

    Конфигурация "1С: Управление на заплатите и персонала 8"

Той е предназначен за прилагане на кадровата политика на предприятието и парични плащания с персонал в следните области:

    планиране на нуждите от персонал;

    управление на финансовата мотивация на персонала;

    ефективно планиране на заетостта на персонала;

    счетоводство на персонала и анализ на персонала;

    изчисляване и изплащане на заплати;

    изчисляване на данъци и вноски от фонда за заплати, регламентирани от законодателството;

    отражение на начислените заплати и данъци в разходите на предприятието.

    Конфигурация „1С: Управление на производствено предприятие 8“

Най -интересните функции, които не се срещат в по -голямата част от другите системи:

    Има конфигурации: „Управление на производствено предприятие“ (за Русия), „Управление на производствено предприятие за Украйна“ и „Управление на производствено предприятие за Казахстан“ и това са точно различни конфигурации, а не различни опции за настройки.

    Има възможност за промяна на регистрираните (проведени) документи.Нивото на техническа поддръжка зависи от компанията партньор (т.нар. "Франчайзополучател"). Има специален ресурс за намиране на партньор: „Избор на сертифицирани франчайзополучатели“.

Архитектура 1С: Предприятие 8

1) Общи механизми. Система 1С: Предприятие 8 се основава на редица механизми, които определят концепцията за създаване на приложни решения. Наличието на тези механизми дава възможност за максимална корелация на технологичните възможности с бизнес схемата за разработване и внедряване на приложни решения.

Ключовите моменти са изолирането на разработчика от технологичните детайли, алгоритмичното програмиране само на бизнес логиката на приложението, използването на патентован модел на база данни и мащабируемостта на приложените решения без по -нататъшно развитие.

2) Приложени механизми. Съставът на прилаганите механизми на 1С: Предприятие е фокусиран върху решаването на проблеми с автоматизацията на счетоводството и управлението на предприятието. Използването на проблемно ориентирани обекти позволява на разработчика да решава най-широк спектър от задачи в склада, счетоводството, управленското счетоводство, счетоводството на заплатите, анализа и управлението на данни на ниво бизнес процеси. 3) Механизми на интерфейса. В 1С: Предприятие 8 е внедрен модерен интерфейсен дизайн и потребителският опит е увеличен при работа със системата за дълго време.

4) Мащабируемост. Технологичната платформа предоставя различни възможности за решението на приложението: от персонален еднопотребител до работа в големи работни групи и предприятия. Ключовият момент на мащабируемост е, че повишаването на производителността се постига чрез платформата, а приложните решения не се нуждаят от подобряване, когато броят на едновременните потребители се увеличи.

5) Интеграция. Система 1С: Предприятие 8 е отворена система. Той предоставя възможност за интеграция с почти всякакви външни програми и оборудване въз основа на общопризнати отворени стандарти и протоколи за пренос на данни.

35. IKIS Galaktika е част от бизнес решенията на Galaktika Business Suite, чиято основна цел е да изпълнява типични и специализирани задачи за управление на предприятие, холдинг, група компании в единно информационно пространство в съвременната икономика.

Системата Galaktika е фокусирана върху автоматизиране на решаването на проблеми, възникващи на всички етапи от управленския цикъл: прогнозиране и планиране, счетоводство и наблюдение на изпълнението на плановете, анализ на резултатите, коригиране на прогнози и планове. Основната структурна единица на системата е модул, предназначен за решаване на отделни задачи от определена предметна област (например "Управление на продажбите", "Планиране на производството"). Модулите от своя страна се комбинират във функционални схеми. Допустимо е както отделното използване на отделни модули, така и произволните им комбинации в зависимост от производствените и икономическите нужди. Трябва да се отбележи, че ERP системата Galaktika направи първата стъпка към прилагането на концепцията за компонентния модел: логично системните модули се състоят от компоненти, които взаимодействат помежду си чрез специални интерфейси.

Контурът за планиране и финансово управление на системата ERP на Galaxy е надежден инструмент за управление на финансовите ресурси на една компания. Той е адресиран до ръководители и специалисти на служби за финансово и икономическо планиране. С негова помощ можете да планирате финансовите и икономическите дейности на предприятието, да извършвате моделиране и координиране на финансовите планове, да анализирате действителното им изпълнение и да провеждате оперативно финансово управление. Контурът за планиране и финансово управление на системата ERP на Galaxy се състои от три модула - „Управление на бюджета“, „Календар на плащанията“ и „Финансов анализ“.

Бюджетирането е процес на управление на финансовите ресурси, който включва следните етапи:

Планиране и моделиране на различни бюджетни опции;

Координиране и одобряване на бюджети;

Формиране на реални бюджетни показатели;

Извършване на корекции в бюджета.

Целта на модула Календар на плащанията е да реши проблемите на оперативното финансово управление на паричните потоци. Модулът е инструмент за наблюдение на изпълнението на финансови задължения, осигуряване на абсолютна ликвидност на платежните средства, свеждане до минимум на риска от неплатежоспособност.

Основната задача на финансовия анализ е да оцени финансовото състояние на предприятието и да идентифицира перспективите за по -нататъшното му развитие. Анализът на финансовото състояние може да се извърши с помощта на няколко метода, които позволяват изчисляване на стойностите на едни и същи показатели, като се използват различни формули, описващи съотношението на показателите в старите и новите стандарти. Финансовият анализ се прави въз основа на балансовите данни на компанията, както и въз основа на различни справки и приложения. Икономическият анализ се извършва след функцията за импортиране на отчети, както от външни източници, така и от други модули на системата.

Аналитичната обработка на информация е пряко аналитична процедура, във връзка с която се поставят сериозни изисквания за нейната организация, а именно, подходяща методологическа подкрепа, определено ниво на подготовка на анализаторите, осигуряването им с технически средства за анализ.
Качеството и валидността на взетите управленски решения до голяма степен се определят не само от надеждността, пълнотата, наличността, ефективността на получаване на информация, но и от ефективността на методите, използвани при нейната обработка. Подобряването на технологията за аналитична обработка на икономическа информация е един от ключовите елементи за подобряване на технологията за управление.
Висококачествената информационна поддръжка на процеса на управление на бизнеса е възможна само при използване на практика на най-новите информационни технологии: компютърни технологии, телекомуникации и софтуер, както и автоматизирани системи за управление.
Условия за стопанска дейност, които предполагат широки права на предприятията да формират счетоводна политика, възможност за промяна на нея, промяна на формите на собственост; процесите на преструктуриране, сливания на компании и т.н., диктуват необходимостта от обработка на голямо количество аналитична информация. Самите изчисления, които се използват при отразяване на определени финансови и икономически транзакции, също се усложниха. Широките права на предприятията да избират методите за изчисляване на амортизацията на дълготрайните активи правят задачата да се изчисляват размерите на амортизационните отчисления практически непрактична, при условие че ръчната обработка на информация.
Изискванията за степента на ефективност и надеждност на информацията, необходима за вземане на управленски решения, нарастват. Именно организацията на икономически анализ в компютърна среда е направила възможно значително да се увеличи ефективността на събиране и регистриране на счетоводна информация, значително да се намали вероятността от аритметични грешки и в резултат на това да се намали трудоемкостта на работата на аналитични услуги в предприятията.
Сложността на информационните потоци, несъвършенството на каналите за получаване на информация, методите и техниките за събиране, съхранение и обработка на информация често водят до нейното значително забавяне и, следователно, до загуба на нейната „качество. Дейност и икономически анализ, води до постепенното сливане на автоматизацията на населените места с информационната система на предприятието.
Автоматизирана система за събиране, обработка и съхранение, която представлява обширна мрежа от записващи устройства, комуникационни линии и компютри, намалява времето между появата на информация и нейното използване в аналитичната работа. Техническите средства гарантират своевременна доставка на информация за процесите, протичащи в предприятието, на мениджъри и други мениджърски работници. Използването на съвременни информационни технологии дава възможност за бързо търсене и отнемащи време изчисления, както и за показване на резултатите в приемлива форма.
Водещото място в процедурите за трансформиране на икономическата информация заема нейната систематизация и обработка. С използването на компютърни технологии обработката на информация се превърна в органична част от единен информационен технологичен процес. Съвременните компютри не само промениха връзките на този процес с други, създавайки възможност за технологично единство на информационните процеси, но и повлияха на съдържанието на понятието „обработка на данни“. Ако при ръчно или механизирано изпълнение на аналитична работа обработката се разбираше главно като аритметични операции, днес за обработка се използват най -сложните логически и статистически операции.
По -голямата част от икономическата информация, получена в резултат на обработката, се изпраща на мениджъри, специалисти, мениджъри в определени срокове, предвидени в календара за събиране и обработка на данни. При формирането на регулирана икономическа информация установяването на времето за нейното изготвяне не е особено трудно, тъй като те обикновено се определят от условията на производство. Трудността е в проектирането на събирането и обработката на нерегламентирана информация за вземане на управленски решения в произволни моменти във времето. За да получи такава информация, системата трябва да генерира данни, характеризиращи резултатите от работата, напредъка на плановете, динамиката на икономическото и социалното развитие, с определен период.
Такава система изисква различен подход към проектирането на технологичния, технологичен процес на събиране и обработка на данни, предвиждащ различни начини за получаване на информация. Най -обещаващият интерактивен режим осигурява директно взаимодействие на потребителите с компютър. За да вземат оперативни управленски решения, мениджърите, въз основа на определени процедури за диалог, избират необходимата информация, която отразява сигурността и използването на материални, трудови и финансови ресурси, хода на производството и други бизнес процеси.
В обработена, взаимосвързана и координирана форма информацията се предава на отделите и службите на икономическото управление, отговорни за анализа на икономическите дейности и вземането на решения. За да управляват икономиката, те се нуждаят от специална информация с предсказуем характер, която позволява не само да се записва състоянието на нещата в предприятието, но и да се анализират тенденциите в развитието на определен процес или явление и да се вземат оптимални и навременни решения въз основа на този контролиран обект и неговата среда, но също така анализирана информация, подходяща за прогнозиране. Информацията за миналото поведение на системата и нейната среда се използва за разработване на управленски решения въз основа на предвидимо решение, използвайки инструменти за икономическо моделиране, експертни и прогнозни софтуерни системи.

(СУБД. - 1998. - No 4-5)

Съвременното ниво на развитие на хардуер и софтуер от известно време направи възможно широкото поддържане на бази данни с оперативна информация на всички нива на управление. В хода на своята дейност индустриалните предприятия, корпорациите, ведомствените структури, държавните органи и администрациите са натрупали големи количества данни. Те съхраняват в себе си голям потенциал за извличане на полезна аналитична информация, въз основа на която е възможно да се идентифицират скритите тенденции, да се изгради стратегия за развитие и да се намерят нови решения.

През последните години в света се оформиха редица нови концепции за съхранение и анализ на корпоративни данни:

Тази статия е посветена на преглед на тези концепции, както и на доказателството за тяхната допълняемост в подкрепа на вземането на управленски решения.

1. Складове (складове) на данни

В областта на информационните технологии винаги са съществували два класа системи [, стр. 49]:

На първите етапи на информатизация винаги е необходимо да се подредят нещата точно в процесите на ежедневна рутинна обработка на данни, върху което са насочени традиционните ОРВ, следователно предсказуемото развитие на този клас системи е напълно разбираемо.

Системите от втори клас - DSS - са вторични по отношение на тях. Често възниква ситуация, когато данните в дадена организация се натрупват с редица несвързани ODS, като до голяма степен се дублират, но не са последователни по никакъв начин. В този случай е практически невъзможно да се получи надеждна сложна информация, въпреки очевидния й излишък.

Целта на изграждането на корпоративен склад за данни е да се интегрират, актуализират и съгласуват оперативните данни от хетерогенни източници, за да се образува единна последователна представа за обекта на контрол като цяло. В същото време концепцията за хранилища на данни се основава на признаването на необходимостта от разделяне на наборите от данни, използвани за обработка на транзакции, и наборите от данни, използвани в системите за подпомагане на вземането на решения. Такова разделяне е възможно чрез интегриране на подробните данни, дезагрегирани в ODS и външни източници в едно хранилище, тяхната координация и евентуално агрегиране. W. Inmon, авторът на концепцията за хранилища на данни, определя такива складове като:

  • „предметно ориентиран,
  • интегриран,
  • непроменен
  • подкрепящи хронологията

набори от данни, организирани в подкрепа на управлението, „предназначени да действат като„ единствен и единствен източник на истина “, за да предоставят на мениджърите и анализаторите надеждната информация, от която се нуждаят за бърз анализ и подпомагане на вземането на решения.

Концепцията за хранилища на данни не е просто единен логически изглед на данните на организацията, а действителното внедряване на единен интегриран източник на данни. Алтернативен начин за формиране на единен поглед върху корпоративните данни във връзка с тази концепция е създаването на виртуален източник, базиран на разпределени бази данни от различни ODS. В същото време всяка заявка към такъв източник се преобразува динамично в заявки към изходните бази данни, а получените резултати се координират в движение, свързват се, обобщават и се връщат на потребителя. Въпреки външната елегантност, този метод има редица съществени недостатъци.

  1. Времето за обработка на заявки за разпределено съхранение значително надвишава съответните показатели за централизирано съхранение. В допълнение, структурите на ODS бази данни, предназначени за интензивно актуализиране на единични записи, са силно нормализирани, поради което при аналитична заявка към тях трябва да се присъединят голям брой таблици, което също води до намаляване на производителността.
  2. Интегриран изглед на разпределено корпоративно съхранение е възможен само ако е изпълнено изискването за постоянна свързаност на всички източници на данни в мрежата. По този начин временната липса на поне един от източниците може или да направи работата на информационно -аналитичната система (IAS) невъзможна, или да доведе до погрешни резултати.
  3. Изпълнението на сложни аналитични заявки над ODS таблиците консумира голямо количество ресурси на сървъра на бази данни и води до намаляване на производителността на ODS, което е неприемливо, тъй като времето за изпълнение на операциите в ODS често е много критично.
  4. Различните ODS могат да поддържат различни формати и кодировки на данни, данните в тях може да са несъвместими. Много често за един и същ въпрос могат да се получат няколко варианта на отговор, които могат да се дължат на асинхронни моменти на актуализиране на данните, различия в тълкуването на отделни събития, концепции и данни, промени в семантиката на данните в процеса на разработване на предметна област, грешки при въвеждане, загуба на фрагменти архиви и др. В този случай целта - формирането на единна последователна представа за обекта на управление - може да не бъде постигната.
  5. Основният недостатък трябва да се признае като практическата невъзможност за преглед на дълги исторически последователности, тъй като при липса на централно хранилище са налични само тези данни, които по време на заявката са в реални бази данни на свързани СОД. Основната цел на ODS е оперативната обработка на данни, така че те не могат да си позволят лукса да съхраняват данни за дълъг (повече от няколко месеца) период; тъй като остарява, данните се качват в архива и се изтриват от транзакционната база данни. Що се отнася до аналитичната обработка, за нея е най -интересно да разгледа обекта на управление в историческа ретроспекция.

По този начин хранилището за данни работи съгласно следния сценарий. Съгласно посочените разпоредби, той събира данни от различни източници - бази данни на оперативни системи за обработка. Съхранението поддържа хронология: заедно с текущите се съхраняват исторически данни с указание за времето, за което се отнасят. В резултат на това необходимите налични данни за обекта на управление се събират на едно място, привеждат се в един формат, договарят се и в някои случаи се обобщават до минимално необходимото ниво на обобщение.

Облекчена версия на корпоративно хранилище за данни може да бъде data mart, тоест тематични бази данни, съдържащи информация, свързана с определени аспекти от дейността на организацията. Концепцията за данни март е предложена от Forrester Research през 1991 г. В същото време основната идея беше, че пазарите на данни съдържат тематични подгрупи от предварително обобщени данни, които са много по-малки по размер от корпоративното хранилище за данни и следователно изискват по-малко продуктивна технология за поддържане. През 1994 г. М. Демарест предлага да се комбинират двете концепции и да се използва хранилището на данни като единен интегриран източник за множество области на данни. В тази версия корпоративната информационна и аналитична система има тристепенна структура:

  • корпоративно централизирано хранилище за данни;
  • тематични данни на ниво отдел;
  • работни станции за крайни потребители, оборудвани с аналитични инструменти.

Разглежданата концепция е фокусирана изключително върху съхранението, а не върху обработката на корпоративни данни. Той не предопределя архитектурата на целевите аналитични системи, а само създава поле за тяхното функциониране, като се фокусира върху изискванията за данни. По този начин тя оставя свободата на избор във всичко, което се отнася:

  • начини за представяне на данни в целевото хранилище (например релационни, многоизмерни);
  • режими за анализ на данни за съхранение.

2. Методи за обработка на аналитични данни

За да могат съществуващите складове с данни да улеснят приемането на решения за управление, информацията трябва да бъде представена на анализатора в необходимата форма, тоест той трябва да е разработил инструменти за достъп и обработка на данни в склада.

Според критерия за режима на анализ на данните информационните и аналитичните системи са разделени на две категории [,]:

  • статични (включително предварително зададен набор от скриптове за обработка на данни и отчитане); тази категория включва така наречените мениджърски информационни системи (WIS);
  • динамичен (подпомагащ изграждането и изпълнението на ad-hoc заявки и генерирането на отчети в свободна форма).

Много често IAS, създадени с очакване за директна употреба от вземащите решения, са изключително лесни за използване, но силно ограничени във функционалността. Такива статични DSS [, стр. 55], или Информационни системи за мениджъри (ISS) [, стр. 73] - (Изпълнителни информационни системи, EIS) [, стр. 4] - съдържат предварително дефинирани набори от заявки и са достатъчни за ежедневен преглед , не могат да отговорят на всички въпроси относно наличните данни, които могат да възникнат при вземане на решения (ЗАБЕЛЕЖКА. Според В. Пржиялковски [, стр. 81], ISR е „компютърна система, която позволява ... да предоставя информация на изхвърляне на висш ръководен персонал с ограничен опит с компютри ".). Резултатът от работата на такава система, като правило, са многостранични доклади, след задълбочено проучване на които анализаторът има нова поредица от въпроси; всяка нова заявка, която не е предвидена при проектирането на такава система, трябва първо да бъде официално описана, предадена на програмиста, кодирана и едва след това изпълнена. Времето за изчакване в този случай може да бъде часове и дни, което не винаги е приемливо. По този начин външната простота на статичните DSS, за която повечето клиенти на информационно-аналитични системи се борят активно, се превръща в катастрофална загуба на гъвкавост.

Динамичният DSS, от друга страна, е фокусиран върху обработката на ad hoc искания на анализатори за данни. Изискванията за такива системи бяха разгледани най -задълбочено от Е. Ф. Код в статията, която положи основите на концепцията за OLAP. Анализаторите работят с тези системи в интерактивна последователност от формиране на заявки и изучаване на техните резултати, всяка от които може да породи необходимостта от нова поредица от заявки.

Но динамичните DSS могат да работят не само в сферата на онлайн аналитичната обработка (OLAP); подкрепа за вземане на управленски решения въз основа на натрупани данни може да се осъществи в три основни области.

Според Код многоизмерният концептуален поглед е най-естественият възглед на управленския персонал върху обекта на управление. Това е множествена перспектива, съставена от множество независими измерения, по които могат да се анализират конкретни набори от данни. Едновременният анализ на множество измерения на данните се определя като многовариантен анализ. Всяко измерение включва насоки за консолидиране на данни, състоящи се от поредица от последователни нива на агрегиране, където всяко по -високо ниво съответства на по -голяма степен на агрегиране на данни за съответното измерение. По този начин измерението на изпълнителя може да бъде определено от посоката на консолидация, която се състои от нивата на обобщение „предприятие - отдел - отдел - служител“. Измерението Време може дори да включва две посоки на консолидация - година - тримесечие - месец - ден и седмица - ден, тъй като броенето на време по месец и по седмица е несъвместимо. В този случай става възможно произволно да се избере желаното ниво на детайлност на информацията за всяко от измерванията. Операцията за пробиване съответства на движението от по -високите етапи на уплътняване към по -ниските; напротив, подвижна операция означава преминаване от по -ниски нива към по -високи нива (фиг. 2).


Ориз. 2. Измервания и насоки за обединяване на данни.

3.1. Изисквания към инструментите за онлайн аналитична обработка

Код идентифицира 12 правила, които трябва да бъдат спазени от софтуерен продукт от клас OLAP (Таблица 1).

Таблица 1. Правила за оценяване на софтуерни продукти от клас OLAP.

1. Многоизмерен концептуален изглед Концептуалното представяне на модела на данните в OLAP продукт трябва да има многоизмерен характер, тоест да позволява на анализаторите да извършват интуитивни операции „филийка и зарове“ (превод С. Д. Кузнецов, реч на 3 -та годишна конференция „Корпоративна база данни“ 98 "), посоки на въртене (завъртане) и разположение (завъртане) на консолидация.
2. Прозрачност Потребителят не трябва да знае какви специфични средства се използват за съхранение и обработка на данни, как са организирани данните и откъде идват.
3. Достъпност Анализаторът трябва да може да извършва анализ в рамките на обща концептуална рамка, но в същото време данните могат да останат под контрола на останалото наследство на СУБД, като същевременно са обвързани с общия аналитичен модел. Тоест, инструментариумът OLAP трябва да наслагва своята логическа схема върху физически набори от данни, изпълнявайки всички трансформации, необходими за осигуряване на единен, последователен и цялостен поглед върху потребителя върху информацията.
4. Постоянна отчетност С увеличаването на броя на размерите и размерите на базата данни анализаторите не трябва да изпитват влошаване на производителността. Устойчивата производителност е от съществено значение за поддържане на лекота на използване и свобода от сложността, необходима за довеждането на OLAP до крайния потребител.
5. Архитектура клиент-сървър Повечето от данните, изискващи онлайн аналитична обработка, се съхраняват в мейнфрейм системи и се извличат от персонални компютри... Следователно едно от изискванията е способността на OLAP продуктите да работят в клиент-сървърна среда. Основната идея тук е, че сървърният компонент на инструмента OLAP трябва да бъде достатъчно интелигентен и да има способността да изгражда обща концептуална схема въз основа на обобщаването и консолидирането на различни логически и физически схеми на корпоративни бази данни, за да осигури прозрачен ефект.
6. Обща размерност Всички измервания на данните трябва да са равни. На отделните размери могат да бъдат предоставени допълнителни характеристики, но тъй като всички те са симетрични, тази допълнителна функционалност може да бъде предоставена на всяко измерение. Основната структура на данните, формулите и форматите на отчетите не трябва да разчитат на нито едно измерение.
7. Динамична манипулация с рядка матрица Инструментът OLAP трябва да може оптимално да обработва редки матрици. Скоростта на достъп трябва да се поддържа независимо от местоположението на клетките с данни и да бъде постоянна за модели с различен брой размери и различна рядкост на данните.
8. Поддръжка за много потребители Често много анализатори трябва да работят с един и същ аналитичен модел едновременно или да създават различни модели въз основа на едни и същи корпоративни данни. Инструментът OLAP трябва да им осигурява едновременен достъп, цялост на данните и защита.
9. Неограничени междуизмерни операции Изчисляването и манипулирането на данни върху произволен брой измерения не трябва да забранява или ограничава никаква връзка между клетките с данни. Трансформациите, изискващи произволна дефиниция, трябва да бъдат посочени на функционално завършен формулен език.
10. Интуитивно манипулиране на данни Преориентирането на посоките на консолидация, детайлизиране на данни в колони и редове, агрегиране и други манипулации, присъщи на структурата на йерархията на посоките на консолидация, трябва да се извършват в най -удобния, естествен и удобен потребителски интерфейс.
11. Гъвкав механизъм за отчитане (гъвкав отчет) Трябва да се поддържа различни начинивизуализация на данни, тоест докладите трябва да се представят във всяка възможна ориентация.
12. Неограничени размери и нива на агрегиране Силно се препоръчва да се приемат поне петнадесет, а за предпочитане двадесет, измерения в аналитичния модел във всеки сериозен инструмент за OLAP. Освен това всяко от тези измерения трябва да позволява практически неограничен брой дефинирани от потребителя нива на агрегиране във всяка посока на консолидация.

Наборът от тези изисквания, който служи като фактическо определение на OLAP, е критикуван доста често. И така, той казва, че в рамките на 12 -те изисквания са смесени:

  • действителните изисквания за функционалност (1, 2, 3, 6, 9, 12);
  • неофициални желания (4, 7, 10, 11);
  • изисквания за архитектурата на информационната система, които имат много приблизително отношение към функционалността (5, 8); например, съгласно изискване 5, система, базирана на UNIX сървър с терминали, не може да бъде OLAP продукт, тъй като не работи в архитектура клиент-сървър; също така, OLAP продукт не може да бъде настолна система за един потребител, тъй като в този случай изискване 8 е нарушено.

От друга страна, според самия Код, нито един от наличните в момента на пазара продукти за анализ на оперативните данни не отговаря напълно на всички негови изисквания. Следователно 12 -те правила трябва да се разглеждат като препоръчителни, а специфичните продукти трябва да се оценяват според степента на близост до идеалното пълно съответствие с всички изисквания.

3.2. Класификация на OLAP продуктите по начина на представяне на данните

В момента на пазара има около 30 продукта, които предоставят OLAP функционалност в една или друга степен (според уеб сървъра за проучване http://www.olapreport.com към февруари 1998 г.). Осигуряване на многоизмерен концептуален поглед отвън потребителски интерфейскъм изходната база данни, всички OLAP продукти са разделени на три класа според типа на изходната база данни.

В допълнение към тези инструменти има и друг клас - инструменти за генериране на заявки и отчети за настолни компютри, допълнени с OLAP функции и / или интегрирани с външни инструменти, които изпълняват такива функции. Тези доста усъвършенствани системи извличат данни от оригинални източници, трансформират ги и ги поставят в динамична многоизмерна база данни, работеща на клиентската станция на крайния потребител. Тези инструменти са най -подходящи за малки, просто организирани бази данни. Основните представители на този клас са BusinessObjects на едноименната компания, BrioQuery от Brio Technology [, стр. 34] и PowerPlay от Cognos [, стр. 34-35].

3.2.1. Многоизмерен OLAP (MOLAP)

В специализирани СУБД, базирани на многоизмерно представяне на данни, данните са организирани не под формата на релационни таблици, а под формата на подредени многоизмерни масиви:

  • хиперкуби (всички клетки, съхранявани в базата данни, трябва да имат едно и също измерение, тоест да са в най -пълната основа на измерванията) или
  • поликуби (всяка променлива се съхранява със собствен набор от измерения и всички свързани сложности при обработката се изместват към вътрешните механизми на системата).

Използването на многоизмерни бази данни в он-лайн аналитични системи за обработка има следните предимства.

От друга страна, съществуват значителни ограничения.

Следователно използването на многоизмерна СУБД е оправдано само при следните условия.

  1. Обемът на първоначалните данни за анализ не е твърде голям (не повече от няколко гигабайта), тоест нивото на агрегиране на данни е доста високо.
  2. Комплект информационни измерваниястабилен (тъй като всяка промяна в тяхната структура почти винаги изисква пълно преструктуриране на хиперкуба).
  3. Времето за реакция на системата за ad hoc заявки е най -критичният параметър.
  4. Необходимо е широко използване на сложни вградени функции за извършване на междуизмерни изчисления върху клетки от хиперкуб, включително възможност за писане на персонализирани функции.
3.2.2. Релационен OLAP (ROLAP)

Директното използване на релационни бази данни като входни данни в онлайн аналитични системи за обработка има следните предимства.

  1. За онлайн аналитична обработка на съдържанието на складовете с данни инструментите ROLAP ви позволяват да извършвате анализ директно в склада (тъй като в по -голямата част от случаите корпоративните хранилища на данни се реализират чрез релационни СУБД).
  2. В случай на променливо измерение на проблема, когато промените в структурата на измерването трябва да се правят доста често, ROLAP системите с динамично представяне на измерението са оптималното решение, тъй като при тях такива модификации не изискват физическа реорганизация на базата данни.
  3. Системите ROLAP могат да работят на много по -малко мощни клиентски станции от системите MOLAP, тъй като основното изчислително натоварване в тях пада върху сървъра, където се изпълняват сложни аналитични SQL заявки, генерирани от системата.
  4. Релационните СУБД осигуряват значително по -високо ниво на защита на данните и диференциране на правата за достъп.
  5. Релационните СУБД имат реален опит с много големи бази данни и усъвършенствани инструменти за администриране.

Недостатъците на системите ROLAP вече бяха обсъдени при изброяване на предимствата от използването на многоизмерни бази данни. Това са, първо, ограничени възможности по отношение на изчисляване на стойности от функционален тип, и второ, по -ниска производителност. За да осигурят производителност, сравнима с MOLAP, релационните системи изискват внимателно проектиране на схемата на базата данни и специално настройване на индексите. Но в резултат на тези операции производителността на добре настроени релационни системи, използващи звездната схема, е доста сравнима с производителността на системите, базирани на многоизмерни бази данни.

Работите [,,] са изцяло посветени на описанието на звездната схема и препоръките за нейното използване. Идеята му е, че има таблици за всяко измерение и всички факти са поставени в една таблица, индексирана от множествен ключ, съставен от ключовете на отделни измерения. Всеки лъч от звездната схема определя, в терминологията на Код, посоката на консолидиране на данни по съответното измерение (например Магазин - Град / Област - Регион).

В общия случай фактите имат различни набори от измерения и тогава е удобно да ги съхранявате не в една, а в няколко таблици; освен това при различни заявки потребителите може да се интересуват само от част от възможните измервания. Но с този подход, с голям брой независими измерения, е необходимо да се поддържат много таблици с факти, съответстващи на всяка възможна комбинация от измерения, избрани в заявката, което води до разточителна употреба външна памет, увеличаване на времето за зареждане на данни в базата данни със звездна схема от външни източници и сложността на администрирането. За да разрешат този проблем, авторите на работата предлагат специално разширение за SQL език(Оператор „GROUP BY CUBE“ и ключова дума „ALL“) (ЗАБЕЛЕЖКА: Това разширение все още не е прието, така че това предложение все още има чисто академичен интерес.), И авторите [,] препоръчват създаването на таблици с факти не за всички възможни комбинации от измерения, но само за най -пълните (тези, чиито стойности на клетки не могат да бъдат получени с помощта на последващото агрегиране на клетки в други таблици с факти в базата данни).

При сложни проблеми с многостепенни измерения има смисъл да се позоваваме на разширенията на звездната схема-схемата на съзвездието [, стр. 10-11] и схемата на снежинката [, стр. 13-15]. В тези случаи се създават отделни таблици с факти за възможни комбинации от обобщени нива с различни измерения. Това позволява най -добрата производителност, но често води до излишък на данни.

Във всеки случай, ако многоизмерният модел е реализиран като релационна база данни, трябва да създадете дълги и "тесни" таблици с факти и сравнително малки и "широки" таблици с измерения. Таблиците с факти съдържат числовите стойности на клетките на хиперкуба, а останалите таблици определят многоизмерната основа на измерението, която ги съдържа.

Фокусирането върху представянето на многоизмерна информация с помощта на звездообразни релационни модели ви позволява да се отървете от проблема за оптимизиране на съхранението на редки матрици, който е остър за многоизмерните СУБД (където проблемът с рядкостта се решава чрез специален избор на схема ). Въпреки че цял запис се използва за съхраняване на всяка клетка в таблицата с факти (която освен самите стойности включва вторични ключове - връзки към таблици с размери), несъществуващите стойности може просто да не бъдат включени в таблицата с факти, тоест присъствието на празни клетки в базата данни е изключено. Индексирането осигурява разумна скорост за достъп до данни в фактически таблици.

4. Извличане на данни

Сферата на закономерностите се различава от двете предишни по това, че натрупаната в нея информация автоматично се обобщава до информация, която може да се характеризира като знание. Този процес е изключително актуален за потребителите сега и значението му ще расте само с течение на времето, тъй като според цитирания закон „количеството информация в света се удвоява на всеки 20 месеца“, докато „компютърните технологии обещават извор на мъдрост, дотолкова, че само регулират потоците от данни. "

Извличането на данни се дефинира в повечето публикации афористично - „извличане на зърна от знания от планини от данни“, „извличане на данни - по аналогия с добив“. Освен това на английски език има два термина, преведени като IAD - Откриване на знания в бази данни (KDD) и Извличане на данни (DM). В повечето произведения те се използват като синоними [вижте например], въпреки че някои автори [,] разглеждат KDD като по -широко понятие - научно направление, образувано „в пресечната точка на изкуствения интелект, статистиката и теорията на базата данни“ и предоставящо процес на извличане на информация от данните и тяхното използване, и DM - като съвкупност от индуктивни методи на този процес, тоест това, което ще бъде определено по -долу като етап от безплатното търсене на IAD.

Нека се спрем на следната дефиниция: IAD е процес на подкрепа за вземане на решения, основан на търсенето на скрити модели (информационни модели) в данните [,]. Трябва да се отбележи, че повечето от методите на IAD първоначално са разработени в рамките на теорията за изкуствения интелект (AI) през 70 -те и 80 -те години, но стават широко разпространени едва през последните години, когато проблемът за интелектуализирането на обработката на големи и бързо нарастващите обеми корпоративни данни изискват използването им като добавки към хранилища за данни.

4.2.2. Прогнозно моделиране

Тук, на втория етап на IAD, се използват плодовете на работата на първия, тоест моделите, намерени в базата данни, се използват за прогнозиране на неизвестни стойности:

  • когато класифицираме нов обект, можем да го свържем с известна сигурност с определена група резултати от разглеждане на известните стойности на неговите атрибути;
  • Когато се предсказва динамичен процес, резултатите от определянето на тенденцията и периодичните колебания могат да бъдат използвани, за да се направят предположения за вероятното развитие на определен динамичен процес в бъдеще.

Връщайки се към разглежданите примери, ще ги продължим до този етап. Знаейки, че някой Иванов е програмист, човек може да бъде 61% сигурен, че е на неговата възраст

Трябва да се отбележи, че безплатното търсене разкрива общи модели, тоест е индуктивно, докато всяка прогноза прави предположения за стойностите на конкретни неизвестни величини, следователно е дедуктивно. В допълнение, получените конструкции могат да бъдат както прозрачни, тоест допускащи разумно тълкуване (както в примера с генерираните логически правила), така и неотстраними - „черни кутии“ (например за изградена и обучена невронна мрежа, не човек знае точно как работи тя).

4.2.3. Съдебномедицински анализ

Предмет на този анализ са аномалии в разкритите модели, тоест необясними изключения. За да ги намерите, първо трябва да определите нормата (етапа на свободно търсене) и след това да подчертаете нейните нарушения. Така че, след като установихме, че 84% от средните училища се приписват на общинската форма на собственост, може да се зададе въпросът - какво е включено в 16%, които представляват изключение от това правило? Може би ще има логично обяснение за тях, което също може да бъде формализирано под формата на модел. Но също така може да се случи, че имаме работа с грешки в оригиналните данни, а след това анализът на изключенията може да се използва като инструмент за почистване на информация в хранилището за данни.

4.3. Класификация на технологичните методи IAD

Всички методи на IAD са разделени на две големи групи според принципа на работа с първоначалните данни за обучение.

  1. В първия случай оригиналните данни могат да се съхраняват в изрична подробна форма и директно да се използват за прогнозно моделиране и / или анализ на изключенията; това са така наречените методи на разсъждение, основано на анализа на прецеденти. Основният проблем на тази група методи е трудността при използването им върху големи обеми данни, въпреки че именно при анализа на големи складове с данни методите на IAD са най -полезни.
  2. Във втория случай информацията първо се извлича от първичните данни и се трансформира в някои формални конструкции (формата им зависи от конкретния метод). Според предишната класификация този етап се извършва на етапа на свободно търсене, което по принцип отсъства в методите на първата група. По този начин за прогнозно моделиране и анализ на изключенията се използват резултатите от този етап, които са много по -компактни от самите оригинални набори от данни. В този случай получените конструкции могат да бъдат или "прозрачни" (интерпретируеми), или "черни кутии" (без договор).

Тези две групи и включените в тях методи са показани на фиг. 4.


Ориз. 4. Класификация на технологичните методи на IAD.

4.3.1. Директно използване на данни за обучение

Обобщеният алгоритъм за мързеливо обучение, свързан с разглежданата група, изглежда така (описанието на алгоритъма е взето от). Даден е пример за входа на класификатора и се очаква изходът да предскаже класа, който го включва. Всеки пример е представен от точка в многоизмерното пространство на свойства (атрибути), принадлежащи на някакъв клас. Всеки атрибут приема или непрекъснати стойности, или дискретни стойности от фиксиран набор. Например, най -вероятният му клас се връща.

Индивидуална характеристика на алгоритъма k-най-близък съсед е методът за определяне на последната вероятност на пример, принадлежащ към клас в него:

където връща 1, когато аргументите са равни, или 0 в противен случай, е функция за близост, дефинирана като

а - множеството от k най -близки съседи в множеството известни примери за обучение, близостта на които до класифицирания пример се определя от функцията за разстояние. Методът k-най-близък съсед изчислява разстоянието от до всеки, използвайки формулата:

освен това най -често се взема r = 2 (евклидово пространство), а функцията, в зависимост от вида на атрибута, се определя по следните начини:

w (f) е функция от тежестта на атрибута f. В чистия k-най-близък съсед алгоритъм:

тоест тази функция се счита за постоянна.

Методът на най-близкия съсед е специален случай на метода k-най-близък съсед за k = 1. По-сложни алгоритми като Lazy-Learning се основават на същия обобщен алгоритъм [,,], но или дефинират задните вероятности на примери, принадлежащи към класове по друг начин, или (като например вложен алгоритъм за генерализирани примери) усложняват изчисляването на функцията w (f).

Особеността на тази група методи е, че прогнозирането на неизвестни стойности се извършва въз основа на изрично сравнение на нов обект (пример) с известни примери. В случай на голям брой примери за обучение, за да не се сканира последователно целия набор от обучения, за да се класифицира всеки нов пример, понякога се използва извадка от сравнително малка подмножество от „типични представители“ на примери за обучение, въз основа на сравнение, с което се извършва класификацията. Тази техника обаче трябва да се използва с известно внимание, тъй като някои съществени закономерности може да не бъдат отразени в избраната подмножество.

Що се отнася до най-известния представител на тази група, метода k-най-близък съсед, той е по-адаптиран към тези области, където атрибутите на обекта са предимно числени, тъй като определянето на разстоянието между примерите в този случай е по-естествено, отколкото за дискретни атрибути.

4.3.2. Идентифициране и използване на формализирани модели

Методите в тази група извличат общи зависимости от набор от данни и след това им позволяват да се прилагат на практика. Те се различават един от друг:

  • по видовете извлечена информация (които се определят от решаващия се проблем - вижте класификацията на задачите на IAD по -горе);
  • по начина, по който са представени намерените модели.

Формализмът, избран за изразяване на модели, ни позволява да разграничим три различни подхода, всеки от които се корени в съответните раздели на математиката:

  • методи за кръстосани таблици;
  • методи за логическа индукция;
  • методи за извеждане на уравнения.

Булевите методи са най -универсалните в смисъл, че могат да работят както с числови, така и с други типове атрибути. Конструирането на уравнения изисква преобразуване на всички атрибути в числова форма, докато кръстосаното натрупване, напротив, изисква преобразуване на всеки числов атрибут в дискретен набор от интервали.

Методи за кръстосано разпределяне

Кръстосаните таблици са проста форма на анализ, широко използвана в отчитането на онлайн аналитична обработка (OLAP). Двуизмерната кръстосана таблица е матрица от стойности, всяка клетка от които лежи в пресечната точка на стойностите на атрибутите. Разширяване на идеята за кръстосано таблично представяне до случая на хиперкубик информационен моделе, както вече беше споменато, в основата на многовариантния анализ на данните, следователно тази група методи може да се разглежда като симбиоза от многовариантния оперативен анализ и извличането на данни.

Кръстосаната таблична визуализация е най-простото въплъщение на идеята за намиране на информация в данните, използвайки метода за кръстосано табулиране. Строго погледнато, този метод не отговаря напълно на отбелязаното свойство на IAD - преминаването на инициативата към системата на етапа на свободно търсене. Всъщност кръстосаното изобразяване е част от функционалността на OLAP. Тук системата предоставя само матрица от индикатори, в които анализаторът може да види модела. Но самото предоставяне на такъв кръстосан раздел има за цел да търси „информационни модели“ в данните за подкрепа на решенията, тоест отговаря на горното определение на IAD. Следователно не е случайно, че много автори [,,] все още класифицират кръстосаната таблична визуализация като IAD методи.

Методите на IAD на групата за кръстосани таблици включват също използването на байесови мрежи, които се основават на байесовата теорема за теорията на вероятностите за определяне на задните вероятности на пълната група от двойки несъвместими събития по техните предишни вероятности:

Байесовите мрежи бяха активно използвани за формализиране на знанията на експертите в експертни системи, но наскоро те започнаха да се използват в IAD за извличане на знания от данни.

След подрязването на дърво различните му крайни възли са на различни нива, тоест пътят до тях включва различен брой проверки на стойностите на атрибутите; с други думи, за достигане до крайни възли, разположени на високи нива на дървото, стойностите на много атрибути изобщо не се вземат предвид. Следователно, при изграждането на дървета за вземане на решения, редът, в който атрибутите се тестват на възли на вземане на решения, е критичен.

Стратегията, използвана в алгоритмите за въвеждане на дърво на решения, се нарича стратегия „разделяй и владей“, за разлика от стратегията за отделно и завладяване, върху която са изградени голям брой алгоритми за въвеждане на правила. Куинлан описа следния алгоритъм за разделяне и улавяне.

Много атрибути;
- набор от възможни стойности на атрибута (по този начин областите на дефиниране на непрекъснати атрибути за изграждане на дървета на решенията също трябва да бъдат разделени на краен набор от интервали).

Куинлан предложи да изчисли E-резултата, както следва. Нека за текущия възел:

Брой положителни примери;
- броя на отрицателните примери;
- броя на положителните примери със стойност за;
- броя на отрицателните примери със стойност за.

E-score е информационно-теоретична мярка, основана на ентропията. Той показва размера на класификационната несигурност, която възниква, когато въпросният атрибут се използва в възел за вземане на решение. Следователно, атрибутът с най-нисък E-резултат се счита за най-висок класифициращ потенциал. Определената по този начин E-оценка също има недостатъци: тя по-специално дава предимство при изграждането на дърво на атрибути с голям брой стойности. Следователно в някои документи [,] се предлагат модификации на E-оценката, които премахват тези недостатъци.

Подрязването на дърво за вземане на решения за подобряване на точността на предсказване при класифициране на нови примери обикновено се извършва върху конструираното цялостно дърво, тоест се извършва процедурата на увеличаване. Придвижвайки се отдолу нагоре, заменете възлите за вземане на решения със съответни поддървета с терминални възли, докато посочената евристична мярка се оптимизира.

Въвеждане на правила

Популярността на дърветата на решения се дължи на бързината им на изграждане и лекотата на използване за класификация. Освен това дърветата на решенията могат лесно да бъдат трансформирани в символни набори от правила чрез генериране на едно правило от всеки път от корена до крайния връх. Правилата в такъв набор обаче няма да се припокриват, защото в дървото на решенията всеки пример може да бъде присвоен на един и само един терминален възел. По-общ (и по-реалистичен) е случаят на съществуване на теория, състояща се от набор от неиерархично припокриващи се символни правила. Значителна част от алгоритмите за въвеждане на такива набори от правила се съчетават от стратегията за разделяне и улавяне (отделно и завладяване), или покриване, започнала с работата на Р. Михалски [,]. Терминът разделяне и улавяне е въведен от Pagallo и Haussler, описвайки тази индукционна стратегия, както следва:

  • изготвят правило, обхващащо част от учебния комплект;
  • премахнете примерите, обхванати от правилото, от учебния комплект (клон);
  • последователно научете други правила, обхващащи групи от останали примери (улавяне), докато не бъдат обяснени всички примери.

Ориз. 5 показва общ алгоритъм за въвеждане на правила по метода на разделяне и улавяне. Различните варианти на изпълнението на подпрограмите, извикани в общия алгоритъм, определят разнообразието от известни методи за разделяне и улавяне.


Ориз. 5. Общ алгоритъм на разделяне и улавяне за въвеждане на правила.

Алгоритъмът SEPARATEANDCONQUER започва с празна теория. Ако в учебния набор има положителни примери, подпрограмата FINDBESTRULE се извиква за извличане на правило, което обхваща някои от положителните примери. След това всички обхванати примери се отделят от учебния набор, генерираното правило се включва в теорията, а следващото правило се търси в останалите примери. Правилата се извличат, докато няма положителни примери или докато не бъде изпълнен критерият за спиране RULESTOPPINGCRITERION. Често получената теория се обработва допълнително от POSTPROCESS.

Процедурата FINDBESTRULE търси в пространството за хипотези за правило, което оптимизира избрания критерий за качество, описан в EVALUATERULE. Стойността на тази евристична функция, като правило, е колкото по -висока, толкова по -положителни и по -малко отрицателни примери са обхванати от правилото за кандидатстване. FINDBESTRULE обработва Правилата, подреден списък с правила -кандидати, генериран от процедурата INITIALIZERULE.

Новите правила винаги се вмъкват на правилните места (INSERTSORT), така че Правилата винаги са списък в низходящ ред на резултатите от евристичните правила. Във всеки цикъл SELECTCANDIDATES избира подмножество от правила -кандидати, които след това се изчистват в REFINERULE. Всеки резултат от почистване се оценява и вмъква в сортирания списък с правила, освен ако STOPPINGCRITERION не го предотврати. Ако резултатът от NewRule е по -добър от най -доброто предишно намерено правило, стойността NewRule се присвоява на променливата BestRule. FILTERRULES избира подмножество от подредения списък с правила за използване при по -нататъшни итерации. Когато всички правила за кандидатстване са обработени, се връща най -доброто правило.

Основният проблем, с който се сблъскват алгоритмите за въвеждане на правила, е да се избегне пренастройване при използване на шумни данни. Инструментите за избягване на свръхкомпонентите в алгоритмите за отделяне и улавяне могат да се справят с шума:

Сравнение на възможностите на дърветата на решенията и въвеждането на правила

Индукцията на правилата и дърветата на решения, като начини за решаване на един и същ проблем, се различават значително по своите възможности. Въпреки широкото използване на дървета на решения, въвеждането на правила поради редица причини, отбелязани в [,,], изглежда е предпочитаният подход.

От друга страна, въвеждането на правила се извършва чрез много по -сложни (и по -бавни) алгоритми от индукцията на дървото на решенията. Особено големи трудности възникват с опростяването на конструираната теория, за разлика от простотата на подрязване на дървета за вземане на решения, на която обърна внимание Фурнкранц: подрязването на клони в дървото на решенията никога няма да засегне съседни клони, докато условията на правилата за подрязване засягат всички правила, припокриващи се с него (Фиг. 6).


Ориз. 6. Прогресивност в алгоритмите за обучение
а) разделяне и улавяне и б) отделяне и улавяне.

Ориз. 6 (а) илюстрира работата по намаляване на индуцирането на дървета на решенията. Дясната половина на прекалено сложното дърво е покрита от набори C и D от примери за обучение. Когато опростяващият алгоритъм реши да отреже тези два крайни върха, първоначалният възел се превръща в терминален възел, който сега е обхванат от примери. Левият клон на дървото на решенията не се влияе от тази операция.

От друга страна, отрязването на условията от правило означава неговото обобщение, тоест в нова форма то ще обхване повече положителни и по -отрицателни примери. Следователно тези допълнителни положителни и отрицателни примери трябва да бъдат изключени от обучителния набор, за да не повлияят на въвеждането на последващи правила. В случая на фиг. 6 (б) първото от трите правила е опростено и започва да обхваща не само примерите, обхванати от първоначалната версия, но всички примери, които третото правило обхваща, както и някои от примерите, които обхваща второто правило. Ако след това третото правило може просто да бъде премахнато чрез нарастващия алгоритъм, тогава ситуацията с останалия набор от примери на B2 не е толкова проста. Второто правило естествено обхваща всички примери за множеството В2, тъй като е създадено, за да обхване примерите от множеството В. включително и него. Възможно е обаче друго правило да се окаже по -подходящо за отделяне на положителните примери на В2 от останалите отрицателни примери. Правилното обработване на такива ситуации изисква тясно интегриране на процесите на предварително прошка и напредък, което значително усложнява алгоритъма за въвеждане на правила и влошава неговата производителност.

Следователно, въз основа на направеното сравнение, можем да заключим, че изграждането на дървета на решения е оправдано в прости задачи с малко количество първоначална информация поради простотата и скоростта на тяхното въвеждане. Въпреки това, когато се анализират големи количества данни, натрупани в хранилища, използването на методи за въвеждане на правила е за предпочитане, въпреки относителната им сложност.

Методи за извеждане на уравнения

Методите за извеждане на уравнения се опитват да изразят скритите в данните модели под формата на математически изрази. Следователно те могат да работят само с атрибути от числов тип, докато другите атрибути трябва да бъдат изкуствено кодирани с числови стойности. Това води до няколко проблема, ограничаващи използването на тези методи на практика. Те обаче се използват широко в много приложения.

Статистика

Класическите методи за статистически анализ се използват най -често в инструментите на IAD за решаване на проблема с прогнозирането.

  1. Разкриване на тенденциите във времевите серии. Тенденцията на средното ниво може да бъде представена под формата на графика или аналитична функция, около чиято стойност варират действителните стойности на нивата на изследвания процес. Тенденциите на средното ниво често се наричат ​​детерминиран компонент на процеса и съответните динамични серии се изразяват с уравнението , където е нивото на серията в момент t, е детерминираната компонента на поредицата и е случайната компонента. Детерминираният компонент обикновено се представя като доста проста аналитична функция - линейна, параболична, хиперболична, експоненциална - чиито параметри са избрани според историческите данни, за да се сближат по -добре историческите данни.
  2. Хармоничен анализ. В много случаи изглаждането на поредицата от динамики чрез определяне на тенденцията не дава задоволителни резултати, тъй като в остатъците се наблюдава автокорелация. Причината за автокорелацията на остатъците могат да бъдат забележими периодични колебания по отношение на избраната тенденция, които често се срещат в поредицата от динамики. В такива случаи трябва да се прибегне до хармоничен анализ, тоест да се изолира периодичният компонент от динамичния ред. Въз основа на резултатите от отделянето на тенденцията и периодичния компонент от динамичния ред, може да се направи статистическа прогноза на процеса съгласно принципа на екстраполация, като се предположи, че параметрите на тенденцията и колебанията ще останат за прогнозата период [, стр. 304].
  3. Корелационен и регресионен анализ. За разлика от функционалната (строго определена) връзка, статистическа (стохастично детерминирана) връзка между променливите се осъществява, когато с промяна в стойността на една от тях втората може в определени граници да приеме всякакви стойности с определени вероятности , но средната му стойност или други статистически характеристики се променят според определен закон [, С. 191-192]. Специален случай на статистическа връзка, когато различни стойности на една променлива съответстват на различни средни стойности на друга, е корелационна връзка. В съответствие със същността на корелационната връзка, нейното изследване има две цели:
    1) измерване на параметрите на уравнението, изразяващи връзката между средните стойности на зависимите променливи със стойностите на независимата променлива (зависимостта на средните стойности на ефективния индикатор от стойностите на факторните показатели);
    2) измерване на плътността на връзката на знаците помежду си [, С. 195-196].
    Методът на корелационно-регресионен анализ е добре проучен [, 19, 29] и е широко използван в практиката. Той обаче има редица ограничения:
    1) за да се осигури достатъчна точност и надеждност, броят на наблюденията трябва да бъде десетки или стотици пъти по -голям от броя на факторите, така че законът за големи числа, действащ с пълна сила, осигурява ефективно взаимно отменяне на случайни отклонения от нормалното характер на връзката на знаците;
    2) за надежден израз на редовността по отношение на средната стойност е необходима достатъчно качествена хомогенност на популацията, така че корелационните параметри да не се изкривяват; в допълнение, понякога, като условие за корелационен анализ, се излага необходимостта от подчиняване на разпределението на населението по получените и факториални характеристики на нормалния закон на вероятностното разпределение (това условие е свързано с използването на метода на най -малките квадрати при изчисляване на параметрите на корелация - само с нормално разпределение дава оценка на параметрите, които отговарят на принципите на максимална вероятност), въпреки че на практика, дори и с приблизително изпълнение на тази предпоставка, методът на най -малките квадрати дава добри резултати [, Стр. 14];
    3) методът на корелационно-регресионен анализ не може да обясни ролята на факториалните характеристики при създаването на ефективна характеристика [, стр. 198];
    4) показателите на корелация трябва да се тълкуват само от гледна точка на вариации в ефективните и факторните показатели; ако задачата е да се измери връзката между промените в характеристиките на обекта във времето, тогава методът на корелационно-регресионен анализ изисква значителни промени (изисква проучване на корелацията на поредицата от динамики) [; С. 307-313].
    Моделите на корелация-регресия (CRM), получени в резултат на анализа, обикновено се интерпретират доста добре и могат да се използват при прогнозно моделиране. Но, както е отбелязано в, невъзможно е да се приложи този тип анализ без задълбочени познания в областта на статистиката. Теоретичното обучение на анализатора играе особено важна роля тук, поради което малко съществуващи инструменти на IAD предлагат метода на корелационно-регресионния анализ като един от инструментите за обработка на данни.
  4. Корелация на редица динамики. Проблемът с изучаването на причинно -следствените връзки във времето е много труден и цялостно решение на всички проблеми на такова изследване все още не е разработено [, С. 307]. Основната трудност е, че ако има тенденция за достатъчно дълъг период от време, по -голямата част от сумата от квадратите на отклоненията е свързана с тенденцията; в същото време, ако два знака имат тенденции със същата посока на промяна в нивата, това изобщо няма да означава причинно -следствена връзка. Следователно, за да се получат реални показатели на корелация, е необходимо да се абстрахира от изкривяващото влияние на тенденциите - да се изчислят отклоненията от тенденциите и да се измери корелацията на колебанията (цялата тази работа е посветена на подробно изследване на този подход). Не винаги обаче е допустимо да се прехвърлят заключенията за стегнатостта на връзката между колебанията към връзката на поредицата от динамики като цяло (според примера, даден в [, стр. 312], е законно да се разгледа връзката между колебанията в добива и колебанията в количеството на валежите, паднали през лятото, но връзката между добива и дозата торове не може да бъде сведена само до корелацията на колебанията).

Невронни мрежи

Изкуствен невронни мрежикато средство за обработка на информация бяха моделирани по аналогия с добре познатите принципи на функциониране на биологичните невронни мрежи. Тяхната структура се основава на следните предположения [, стр. 3]:

  • обработката на информация се извършва в различни прости елементи - неврони;
  • сигналите между невроните се предават чрез връзки от изходи към входове;
  • всяка връзка се характеризира с тежест, чрез която се умножава предаваният по нея сигнал;
  • всеки неврон има функция за активиране (обикновено нелинейна), чийто аргумент се изчислява като сумата от претеглените входни сигнали, а резултатът се счита за изходен сигнал.

По този начин невронните мрежи са колекции от свързани възли, всеки от които има вход, изход и функция за активиране (обикновено нелинейна) (фиг. 7). Те имат способността да се учат от известен набор от обучителни примери. Обучената невронна мрежа е "черна кутия" (нелечим или много труден за тълкуване предсказващ модел), която може да бъде приложена при проблеми с класификацията, групирането и прогнозирането.


Ориз. 7. Неврон с функция за активиране F; .

Обучението за невронна мрежа се състои в регулиране на теглата, които свързват изходите на някои неврони с входовете на други. Обучението в мрежа може да се извърши според един от двата основни сценария:

Най -често инструментите на IAD използват специален тип невронни мрежи, обучени „с учител“ - многослойни персептрони [, стр. 54-55]. На фиг. 8 показва такава невронна мрежа с два слоя неврони, имащи три входни и три изходни променливи (в общия случай броят на входовете, броят на изходите, броят на слоевете и броят на невроните във всеки вътрешен слой може да бъде нещо). Изходът на всеки неврон от предишния слой е свързан с входа на всеки неврон от следващия слой.


Ориз. 8. Многослоен перцептрон, обучен от процедурата за обратно разпространение на грешки.

Регулирането на теглата на многослойния перцептрон се извършва чрез алгоритъма за обратно разпространение на грешки [, стр. 56-69]. По време на обучението се приема, че за всеки входен вектор (набор от входове) има целеви вектор (набор от изходи), сдвоен с него, и заедно те образуват обучителна двойка (пример). Преди започване на тренировката на всички тежести трябва да се присвоят малки начални стойности, избрани на случаен принцип, за да се преодолеят патологичните случаи на невъзможност за обучение. Целият набор от тренировъчни двойки представлява набор от тренировки. Мрежовото обучение изисква следните операции:

  1. изберете тренировъчна двойка от тренировъчния комплект;
  2. подайте входния вектор на обучителната двойка към входа на мрежата;
  3. изчисляване на мрежовия изход;
  4. изчислява разликата между мрежовия изход и целевия вектор на тренировъчната двойка;
  5. коригирайте теглото на мрежата, за да сведете до минимум грешката;
  6. повторете стъпки 1-5 за всяка двойка от тренировъчния набор, докато грешката в целия комплект достигне приемливо ниво.

Методът за обратно разпространение се обучава слой по слой, започвайки от изходния слой, в стъпки 4 и 5.

Като "универсални приближители", персептроните могат да научат доста сложни модели, за разлика от регресионните модели, при които формата на приближаващата функция е избрана от ограничен възможен набор. Но тази гъвкавост има и недостатък - броят на степента на свобода на създадения модел за прогнозиране често надвишава броя на примерите, използвани за обучение. Това означава, че невронната мрежа може да "учи" дори върху масив от генерирани случайни числа. Всъщност, както е показано използването на невронна мрежа за решаване на тестовия проблем за анализ на фондовия пазар, то перфектно обяснява всички колебания на пазара в миналото, но не дава разумна прогноза за бъдещето. Подобряването на прогнозната точност на обучената мрежа може да бъде постигнато чрез използване само на част от обучителния набор за обучение на невронната мрежа, докато останалите примери се използват за проверка на адекватността на създадения модел по неизвестни данни; в същото време трябва да се опитаме да обучим мрежата с възможно най -сложната конфигурация, за да намалим броя на степента на свобода.

Има редица други недостатъци, които ограничават използването на невронни мрежи като инструмент за IAD.

Основният проблем при обучението на невронни мрежи е синтезът на мрежова структура, способна да се учи на даден набор от обучения. Няма гаранция, че процесът на изучаване на мрежа с определена структура няма да спре, без да достигне допустимия праг на грешка, или няма да падне в локален минимум. Въпреки че многослойните мрежи се използват широко за класификация и сближаване на функциите, техните структурни параметри все още трябва да бъдат определени чрез опит и грешка. Според заключенията, съществуващите теоретични резултати дават само слаби насоки за избора на тези параметри в практическите приложения.

По този начин невронните мрежи - доста мощен и гъвкав инструмент за IAD - трябва да се използват с известно внимание и не са подходящи за всички проблеми, изискващи корпоративно извличане на данни.

4.3.3. изводи

Както може да се види от този преглед, никой от разглежданите методи не е в състояние да обхване всички задачи, които осигуряват подкрепа за вземане на управленски решения въз основа на интелектуалния анализ на съдържанието на складовете с данни. Но повечето от съществуващите системи за добив на пазара прилагат един или три метода (например Pilot Discovery Server от Pilot Software Inc. и Information Harvester от Information Harvester Corp. - само дървета за решения, Idis от Information Discovery Inc. - дървета за вземане на решения и индукция на правила, Дарвин от Thinking Machines - невронни мрежи, дървета на решения и визуализация на данни, MineSet от Silicon Graphics - дървета на решения, индукция на асоциативни правила и визуализация на данни), следователно, в реални приложения, за да не се загубят голям брой значими модели като правило човек трябва да използва няколко различни инструмента. Освен това много инструменти не позволяват директна работа със складове с данни, изискващи предварителна подготовка на първоначалните данни за анализ под формата на плоски файлове с фиксирана структура, което също усложнява практическото им използване.

5. Допълване на OLAP и IAD

Онлайн аналитичната обработка и извличането на данни са две части от процеса на подпомагане на вземането на решения. Но днес повечето OLAP системи се фокусират само върху осигуряването на достъп до многоизмерни данни, а повечето инструменти на IAD, които работят в областта на шаблоните, се занимават с едноизмерни перспективи за данни. Тези два типа анализ трябва да бъдат тясно комбинирани, тоест OLAP системите трябва да се фокусират не само върху достъпа, но и върху намирането на модели.


Ориз. 9. Архитектура на многоизмерната система за извличане на данни.

Идеалната цел за изграждане на корпоративна информационна и аналитична система е да се създаде DSS със затворен контур. Както отбелязва Н. Раден, „много компании са създали ... отлични хранилища за данни, идеално сортиращи планини от неизползвана информация по рафтовете, което само по себе си не осигурява нито бърза, нито достатъчно компетентна реакция на пазарните събития“ [, стр. 39 ]. В особено динамични области (например в търговията на дребно), където ситуацията се променя ежедневно, не се осигурява своевременно компетентно вземане на решения дори при използване на конвенционални инструменти OLAP и IAD. Те трябва да се комбинират помежду си и да имат обратна връзкакъм оригиналните системи за обработка на данни, така че резултатите от операцията DSS незабавно да се предават под формата на контролни действия на оперативните системи. Например, Wal-Mart, най-голямата американска компания за търговия на дребно, разработва DSS със затворен цикъл)

Свързани статии: