분석 데이터 처리를 위한 WEB 응용 프로그램 개발을 위한 소프트웨어 기술 검토 및 분석. 의사결정 지원을 위한 분석 데이터 처리 방법 운영 분석 데이터 처리 기술

3.4 분석 데이터 처리 방법

기존 데이터 웨어하우스가 관리 결정의 채택을 용이하게 하려면 정보가 필요한 형식으로 분석가에게 제공되어야 합니다. 즉, 분석가는 웨어하우스의 데이터에 액세스하고 처리하기 위한 도구를 개발해야 합니다.

의사 결정자가 직접 사용할 것으로 예상하여 생성된 정보 및 분석 시스템은 사용하기가 매우 쉽지만 기능이 매우 제한적인 경우가 많습니다. 이러한 정적 시스템은 정보 시스템헤드(EIS) 또는 EIS(Executive Information Systems). 여기에는 많은 쿼리가 포함되어 있으며 일상적인 검토에 충분하기 때문에 결정을 내릴 때 발생할 수 있는 모든 질문에 대답할 수 없습니다. 이러한 시스템 작업의 결과는 원칙적으로 분석가에게 새로운 일련의 질문이 있는 신중한 연구 후에 여러 페이지로 된 보고서입니다. 그러나 이러한 시스템의 설계에서 예측할 수 없는 각각의 새로운 요청은 먼저 공식적으로 설명하고 프로그래머가 코딩한 다음 실행해야 합니다. 이 경우 대기 시간은 몇 시간 또는 며칠이 될 수 있으며 항상 허용되는 것은 아닙니다.

온라인 분석 처리... 또는 온라인 분석 처리, OLAP는 데이터 웨어하우징 조직의 핵심 구성 요소입니다. OLAP 개념은 1993년 Edgar Codd에 의해 설명되었으며 다변수 분석 응용 프로그램에 대한 다음 요구 사항이 있습니다.

- 계층 및 다중 계층에 대한 완전한 지원을 포함한 데이터의 다차원 개념 표현(OLAP의 핵심 요구 사항)

- 사용자에게 합리적인 시간(보통 5초 이내)에 분석 결과를 제공합니다.

- 일반적으로 논리적 및 통계적 분석을 수행하는 능력 이 응용 프로그램의, 최종 사용자가 액세스할 수 있는 형식으로 저장합니다.

- 적절한 잠금 메커니즘 및 승인된 액세스 수단의 지원으로 데이터에 대한 다중 사용자 액세스

- 볼륨 및 저장 위치에 관계없이 필요한 정보에 액세스할 수 있는 기능.

OLAP 시스템은 많은 구성 요소로 구성됩니다. 가장 높은 수준의 프레젠테이션에서 시스템에는 데이터 소스, OLAP 기술을 기반으로 하는 보고 엔진을 구현하는 기능을 제공하는 다차원 데이터베이스(MDB), OLAP 서버 및 클라이언트가 포함됩니다. 이 시스템은 클라이언트-서버 원칙에 따라 구축되었으며 MDB 서버에 대한 원격 및 다중 사용자 액세스를 제공합니다.

OLAP 시스템의 구성 요소를 살펴보겠습니다.

출처. OLAP 시스템의 소스는 분석을 위한 데이터를 제공하는 서버입니다. OLAP 제품의 사용 범위에 따라 소스는 데이터 웨어하우스, 일반 데이터를 포함하는 상속된 데이터베이스, 집합이 될 수 있습니다.

재무 데이터 또는 위의 조합을 결합한 테이블.

데이터 저장소. 원시 데이터는 데이터 웨어하우스 구축 원칙에 따라 설계된 저장소에 수집 및 저장됩니다. HD는 관계형 데이터베이스(RDB)입니다. 기본 CD 테이블(팩트 테이블)에는 통계 정보가 수집되는 지표의 숫자 값이 포함됩니다.

다차원 데이터베이스데이터 저장소는 개체 모음인 다차원 데이터베이스에 대한 정보 제공자 역할을 합니다. 이러한 개체의 주요 클래스는 차원과 측정값입니다. 차원에는 데이터가 인덱싱되는 값(매개변수) 집합이 포함됩니다(예: 시간, 지역, 기관 유형 등). 각 차원은 데이터 웨어하우스의 해당 차원 테이블 값으로 채워집니다. 측정 세트는 조사된 프로세스의 공간을 정의합니다. 측정값은 다차원 데이터 큐브(하이퍼큐브)입니다. 하이퍼큐브에는 데이터 자체와 지표의 일부인 차원에 대한 집계 금액이 포함됩니다. 지표는 MDB의 주요 내용을 구성하며 사실표에 따라 작성됩니다. 하이퍼큐브의 각 축을 따라 데이터는 다양한 세부 수준을 나타내는 계층 구조로 구성될 수 있습니다. 이를 통해 후속 데이터 분석 중에 데이터 표시를 집계하거나 드릴다운하는 데 사용할 계층적 차원을 생성할 수 있습니다. 계층적 차원의 일반적인 예는 구역, 주, 구역별로 그룹화된 영토 개체 목록입니다.

섬기는 사람. OLAP 서버는 OLAP 시스템의 적용된 부분입니다. 이 구성 요소는 시스템 모델에 따라 모든 작업을 수행하고 활성 액세스가 제공되는 모든 정보를 자체적으로 저장합니다. 서버 아키텍처는 다양한 개념에 의해 관리됩니다. 특히 OLAP 제품의 주요 기능적 특징은 데이터 저장을 위해 MDB나 RDB를 사용한다는 점이다.

클라이언트 애플리케이션. 이에 따라 구조화되어 MDB에 저장된 데이터는 클라이언트 응용 프로그램을 사용하여 분석에 사용할 수 있습니다. 사용자가 기회를 얻습니다 원격 액세스데이터에 대한 복잡한 쿼리 공식화, 보고서 생성, 데이터의 임의 하위 집합 얻기. 보고서를 얻는 것은 특정 측정 값의 선택과 하이퍼 큐브 섹션의 구성으로 축소됩니다. 단면은 선택한 측정 값에 의해 결정됩니다. 나머지 차원에 대한 데이터가 요약됩니다.

OLAP클라이언트와 서버에서.다차원 데이터 분석은 다양한 도구를 사용하여 수행할 수 있으며 조건부로 클라이언트 및 서버 OLAP 도구로 나눌 수 있습니다.

OLAP 클라이언트 도구(예: Microsoft Excel 2000의 피벗 테이블 또는 Knosys의 ProClarity)는 집계 데이터를 계산하고 표시하는 응용 프로그램입니다. 이 경우 집계 데이터 자체는 이러한 OLAP 도구의 주소 공간 내부 캐시에 포함됩니다.

소스 데이터가 데스크탑 DBMS에 포함되어 있는 경우 집계 데이터의 계산은 OLAP 도구 자체에서 수행됩니다. 원본 데이터의 소스가 서버 DBMS인 경우 많은 OLAP 클라이언트 도구는 SQL 쿼리를 서버로 보내고 결과적으로 서버에서 계산된 집계 데이터를 받습니다.

일반적으로 OLAP 기능은 통계 데이터 처리 도구와 일부 스프레드시트에서 구현됩니다.

많은 개발 도구에는 가장 단순한 OLAP 기능(예: Borland Delphi 및 Borland C ++ Builder의 Decision Cube 구성 요소)을 구현하는 응용 프로그램을 만들 수 있는 클래스 또는 구성 요소 라이브러리가 포함되어 있습니다. 또한 많은 회사에서 유사한 기능을 제공하는 ActiveX 컨트롤 및 기타 라이브러리를 제공합니다.

클라이언트 OLAP 도구는 일반적으로 이러한 매개변수에 대해 소수의 차원(보통 6개 이하)과 다양한 값으로 사용됩니다. 획득한 집계 데이터는 이러한 도구의 주소 공간에 맞아야 하기 때문입니다. , 그리고 그 수는 차원 수가 증가함에 따라 기하급수적으로 증가합니다.

많은 OLAP 클라이언트 도구를 사용하면 집계 데이터가 있는 캐시 내용을 다시 계산하지 않도록 파일로 저장할 수 있습니다. 그러나 이 기회는 종종 집계 데이터를 다른 조직으로 전송하거나 게시하기 위해 소외시키는 데 사용됩니다.

파일에 집계 데이터와 함께 캐시를 저장하는 아이디어는 추가 개발서버 OLAP 도구(예: Oracle Express Server 또는 Microsoft OLAP Services)에서 집계 데이터의 저장 및 수정은 물론 이를 포함하는 저장소의 유지 관리가 OLAP라는 별도의 응용 프로그램 또는 프로세스에 의해 수행됩니다. 섬기는 사람. 클라이언트 응용 프로그램은 이러한 다차원 저장소를 요청하고 응답으로 특정 데이터를 받을 수 있습니다. 일부 클라이언트 응용 프로그램은 이러한 리포지토리를 만들거나 변경된 소스 데이터에 따라 업데이트할 수도 있습니다.

클라이언트 OLAP 도구에 비해 서버 기반 OLAP 도구를 사용할 때의 장점은 데스크톱 도구에 비해 서버 측 DBMS를 사용할 때의 장점과 유사합니다. 서버 기반 도구를 사용하는 경우 집계 데이터의 계산 및 저장이 서버와 클라이언트 응용 프로그램은 쿼리 결과만 수신하므로 일반적으로 클라이언트 응용 프로그램에 대한 네트워크 트래픽, 쿼리 실행 시간 및 리소스 요구 사항을 줄일 수 있습니다.

3.5 다차원 데이터 저장의 기술적 측면

OLAP 응용 프로그램의 다차원성은 세 가지 수준으로 나눌 수 있습니다.

1... 다차원 데이터 표현- 다차원 시각화 및 데이터 조작을 제공하는 최종 사용자 도구 MDI 계층은 물리적 데이터 구조에서 추상화하고 데이터를 다차원으로 취급합니다.

    다차원 처리- 다차원 쿼리를 공식화하기 위한 수단(언어)(전통적인 관계형 SQL 언어는 여기에 적합하지 않은 것으로 판명됨) 및 이러한 쿼리를 처리하고 실행할 수 있는 프로세서.

    다차원 저장- 다차원 쿼리의 효율적인 실행을 보장하는 데이터의 물리적 구성 수단.

처음 두 수준은 모든 OLAP 도구에서 필수입니다. 세 번째 수준은 광범위하지만 MDX에 대한 데이터도 일반 관계 구조에서 검색할 수 있기 때문에 필요하지 않습니다. 이 경우 다차원 쿼리 프로세서는 다차원 쿼리를 관계형 DBMS에서 실행되는 SQL 쿼리로 변환합니다.

기존 및 다차원의 모든 데이터 웨어하우스에는 운영 체제에서 검색된 세부 데이터와 함께 월별, 제품 범주별 판매량 합계와 같은 집계 지표(요약 지표)도 저장됩니다. 집계는 다음을 위해 명시적으로 저장됩니다. 쿼리 실행 속도를 높이는 유일한 목적입니다. 실제로 한편으로는 일반적으로 웨어하우스에 매우 많은 양의 데이터가 축적되고 다른 한편으로는 대부분의 경우 분석가가 상세하지만 일반화된 지표에 관심이 없습니다. 그리고 연간 매출을 계산하기 위해 매번 수백만 건의 개별 매출을 합산해야 한다면 그 속도는 수용할 수 없을 것입니다. 따라서 다차원 데이터베이스에 데이터를 로드할 때 전체 지표의 전체 또는 일부를 계산하여 저장합니다.

그러나 집계된 데이터의 사용에는 단점이 있습니다. 주요 단점은 저장된 정보의 양이 증가하고(새 차원이 추가될 때 큐브를 구성하는 데이터 양이 기하급수적으로 증가함) 정보를 로드하는 데 걸리는 시간입니다. 게다가 정보의 양은 수십 배, 심지어 수백 배까지 늘어날 수 있습니다. 예를 들어, 게시된 표준 테스트 중 하나에서 10MB의 원시 데이터에 대한 전체 집계 수에는 2.4GB가 필요했습니다. 즉, 데이터가 240배 증가했습니다!

집계를 계산할 때 데이터 볼륨이 증가하는 정도는 큐브의 차원 수와 이러한 차원의 구조, 즉 차원의 다른 수준에서 "상위" 및 "하위 항목" 수의 비율에 따라 다릅니다. 집계 저장 문제를 해결하기 위해 가능한 모든 집계에서 멀리 계산할 때 쿼리 성능을 크게 향상시킬 수 있는 복잡한 체계가 사용됩니다.

초기 데이터와 집계 데이터는 둘 다 다음 중 하나에 저장할 수 있습니다.

관계형 또는 다차원 구조에서. 이와 관련하여 현재 다차원 데이터를 저장하는 세 가지 방법이 사용됩니다.

몰랍 (다차원 OLAP) - 소스 및 집계 데이터가 다차원 데이터베이스에 저장됩니다. 다차원 구조에 데이터를 저장하면 데이터를 다차원 배열로 조작할 수 있으므로 모든 차원에 대해 집계 값 계산 속도가 동일합니다. 그러나 이 경우 다차원 데이터는 원래 관계형 데이터를 완전히 포함하기 때문에 다차원 데이터베이스가 중복되는 것으로 판명됩니다.

이러한 시스템은 OLAP 처리의 전체 주기를 제공합니다. 여기에는 서버 구성 요소 외에도 자체 통합 클라이언트 인터페이스가 포함되거나 외부 스프레드시트 프로그램을 사용하여 사용자와 통신합니다.

롤랩 (관계형 OLAP) - 원래 데이터가 원래 있던 동일한 관계형 데이터베이스에 남아 있습니다. 집계 데이터는 동일한 데이터베이스에 저장하기 위해 특별히 생성된 서비스 테이블에 배치됩니다.

(하이브리드 OLAP) - 원래 데이터는 원래 있던 동일한 관계형 데이터베이스에 남아 있고 집계 데이터는 다차원 데이터베이스에 저장됩니다.

일부 OLAP 도구는 관계형 구조에만 데이터 저장을 지원하고 일부는 다차원 구조에만 저장합니다. 그러나 대부분의 최신 OLAP 서버 기반 도구는 세 가지 데이터 저장 방법을 모두 지원합니다. 저장 방법의 선택은 원본 데이터의 크기와 구조, 쿼리 실행 속도 요구 사항 및 OLAP 큐브의 새로 고침 빈도에 따라 다릅니다.

3.6 데이터 마이닝(데이터채광)

데이터 마이닝이라는 용어는 의사 결정 지원 시스템을 위한 클러스터링, 회귀 및 상관 분석 등 다양한 수학적 및 통계적 알고리즘을 통해 상관 관계, 추세 및 관계를 찾는 프로세스를 나타냅니다. 이 경우 축적된 정보는 지식으로 특징지어질 수 있는 정보로 자동 일반화된다.

기본 현대 기술데이터 마이닝은 데이터 서브샘플에 내재된 패턴을 반영하고 소위 숨겨진 지식을 구성하는 템플릿의 개념을 기반으로 합니다.

패턴 검색은 이러한 하위 샘플에 대한 선험적 가정을 사용하지 않는 방법으로 수행됩니다. 데이터 마이닝의 중요한 특징은 추구하는 패턴이 비표준적이고 명확하지 않다는 것입니다. 즉, 데이터 마이닝 도구는 사용자가 가정하는 관계를 미리 확인하는 것이 아니라 통계 데이터 처리 도구 및 OLAP 도구와 다릅니다.

사용 가능한 데이터를 기반으로 데이터 사이에서 이러한 관계를 독립적으로 찾고 속성에 대한 가설을 세울 수 있습니다.

일반적으로 데이터 마이닝 프로세스는 3단계로 구성됩니다.

    패턴 식별(무료 검색);

    공개된 패턴을 사용하여 알려지지 않은 값을 예측합니다(예측 모델링).

    발견된 패턴의 이상을 식별하고 해석하도록 설계된 예외 분석.

때로 발견된 패턴의 신뢰도를 확인하는 중간 단계(검증 단계)가 명확하게 구분되는 경우가 있습니다.

데이터 마이닝 방법으로 식별되는 5가지 표준 유형의 패턴이 있습니다.

1.협회암시적으로 지정된 링크가 있는 안정적인 개체 그룹을 선택할 수 있습니다. 백분율로 표시되는 개별 항목 또는 항목 그룹의 발생 빈도를 유병률이라고 합니다. 낮은 유병률(1/1000% 미만)은 그러한 연관성이 중요하지 않음을 나타냅니다. 연관은 규칙 형식으로 작성됩니다. => , 어디 ㅏ -패키지, V -결과. 획득한 각 연관 규칙의 중요성을 결정하려면 신뢰도라고 하는 값을 계산해야 합니다. 에게 V(또는 관계 A와 B).자신감은 얼마나 자주, 언제 나타난다 V.예를 들어 디(A/B)= 20%, 이는 제품을 구매할 때 다섯 번째 경우마다 상품도 구매됩니다. V.

연계 활용의 대표적인 예는 구매구조 분석이다. 예를 들어 슈퍼마켓에서 조사를 하면 감자칩을 산 사람의 65%가 코카콜라도 함께 먹는 것으로 나타났고, 그런 세트를 할인하면 85%에서 콜라를 사는 것으로 나타났다. 이와 같은 결과는 마케팅 전략을 수립하는 데 중요합니다.

2.순서 - 그것은 제 시간에 연관을 식별하는 방법입니다. 이 경우 특정 이벤트 그룹의 순차적 발생을 설명하는 규칙이 정의됩니다. 이러한 규칙은 스크립트를 빌드하는 데 필수적입니다. 또한, 예를 들어 특정 제품의 후속 판매로 이어질 수 있는 전형적인 이전 판매 세트를 형성하는 데 사용할 수 있습니다.

3.분류 - 일반화 도구. 이를 통해 단일 객체를 고려하는 것에서 일부 객체 세트를 특징짓고 이러한 세트(클래스)에 속하는 객체를 인식하기에 충분한 일반화된 개념으로 이동할 수 있습니다. 개념 형성 과정의 본질은 클래스 고유의 패턴을 찾는 것입니다. 개체를 설명하는 데 다양한 기능(속성)이 사용됩니다. 특징 설명을 기반으로 한 개념 형성 문제는 M.M.에 의해 공식화되었습니다. 봉가트. 이 솔루션은 교육과 테스트라는 두 가지 기본 절차의 적용을 기반으로 합니다. 훈련 절차에서 분류 규칙은 훈련 개체 집합의 처리를 기반으로 구성됩니다. 검증 (검사) 절차는 새로운 (검사) 샘플에서 객체를 인식하기 위해 얻은 분류 규칙을 사용하는 것으로 구성됩니다. 테스트 결과가 만족스러우면 학습 프로세스가 종료되고, 그렇지 않으면 재학습 과정에서 분류 규칙이 세분화됩니다.

4 클러스터링 데이터베이스의 정보(레코드)를 그룹(클러스터) 또는 세그먼트로 배포하고 이러한 그룹을 동시에 결정합니다. 분류와 달리 여기에서는 분석을 위해 클래스의 사전 할당이 필요하지 않습니다.

5가지 시계열 예측 시간 경과에 따른 고려 중인 객체의 속성 변화 경향을 결정하기 위한 도구입니다. 시계열의 거동을 분석하면 연구된 특성의 값을 예측할 수 있습니다.

이러한 문제를 해결하기 위해 다양한 데이터 마이닝 방법과 알고리즘이 사용됩니다. 데이터마이닝은 통계, 정보이론, 기계 학습, 데이터베이스 이론에 따르면 데이터 마이닝의 대부분의 알고리즘과 방법은 이러한 분야의 다양한 방법을 기반으로 개발된 것이 매우 자연스럽습니다.

기존의 다양한 데이터 마이닝 방법 중에서 다음을 구별할 수 있습니다.

    회귀, 분산 및 상관 분석(대부분의 최신 통계 패키지, 특히 SAS Institute, StatSoft 등의 제품에서 구현됨)

    분석 방법경험적 모델을 기반으로 하는 특정 주제 영역에서(예: 저렴한 재무 분석 도구에서 자주 사용됨)

    신경망 알고리즘- 복잡한 종속성을 재현할 수 있는 프로세스 및 현상을 시뮬레이션하는 방법. 이 방법은 생물학적 뇌의 단순화된 모델 사용을 기반으로 하며 초기 매개변수가 "뉴런" 간의 기존 연결에 따라 변환되는 신호로 간주되고 전체 네트워크의 응답으로 구성됩니다. 초기 데이터는 분석 결과의 응답으로 간주됩니다. 이 경우 초기 데이터와 정답이 모두 포함된 대규모 샘플을 통해 소위 네트워크 교육을 사용하여 연결이 생성됩니다. 신경망은 분류 문제를 해결하는 데 널리 사용됩니다.

    퍼지 논리다양한 언어적 변수로 표현할 수 있는 퍼지 진리값으로 데이터를 처리하는 데 사용됩니다. 퍼지 지식 표현은 예를 들어 XpertRule Miner 시스템(Attar Software Ltd., UK)과 AIS, NeuFuz 등에서 분류 및 예측 문제를 해결하는 데 널리 사용됩니다.

    유도 리드데이터베이스에 저장된 사실을 일반화할 수 있습니다. 귀납적 학습 과정에는 가설을 제시하는 전문가가 포함될 수 있습니다. 이것을 지도 학습이라고 합니다. 일반화 규칙 검색은 교사 없이 자동으로 가설을 생성하여 수행할 수 있습니다. 현대에서 소프트웨어 도구아, 원칙적으로 두 가지 방법을 결합하고 통계적 방법을 사용하여 가설을 테스트합니다. 유도 리드를 사용하는 시스템의 예는 Attar Software Ltd에서 개발한 XpertRule Miner입니다. (대 브리튼 섬);

    근거한 추론 유사한 사례("가장 가까운 이웃" 방법) (케이스 기반 추론 - CBR) 주어진 상황에 대해 여러 기능에서 설명이 유사한 상황에 대한 데이터베이스 검색을 기반으로 합니다. 유추의 원리를 통해 유사한 상황의 결과도 서로 가까울 것이라고 가정할 수 있습니다. 이 접근 방식의 단점은 이전 경험을 일반화하는 모델이나 규칙을 생성하지 않는다는 것입니다. 또한 귀납적 추론 과정에서와 같이 출력된 결과의 신뢰성은 상황 설명의 완전성에 달려 있습니다. CBR을 사용하는 시스템의 예는 다음과 같습니다. KATE Tools(Acknosoft, France), Pattern Recognition Workbench(Unica, USA);

    의사 결정 나무- 데이터를 분류하거나 결정의 결과를 분석할 수 있는 생산 규칙에 해당하는 정점을 갖는 트리 그래프 형태로 작업을 구조화하는 방법. 이 방법은 규칙이 많지 않은 경우 분류 규칙 시스템을 시각적으로 나타냅니다. 이 방법을 사용하면 신경망을 사용하는 것보다 훨씬 빠르게 간단한 문제를 해결할 수 있습니다. 복잡한 문제 및 일부 데이터 유형의 경우 의사 결정 트리가 허용되지 않을 수 있습니다. 또한, 이 방법은 의의의 문제가 있다. 계층적 데이터 클러스터링의 결과 중 하나는 많은 특별한 경우에 대한 많은 수의 훈련 예제가 없기 때문에 분류를 신뢰할 수 있는 것으로 간주할 수 없다는 것입니다. 의사 결정 트리 방법은 다음과 같은 많은 소프트웨어 도구에서 구현됩니다.

    진화 프로그래밍- 초기에 지정된 알고리즘을 기반으로 검색 프로세스에서 수정된 데이터의 상호 의존성을 표현하는 알고리즘의 검색 및 생성 때로는 상호 의존성에 대한 검색이 특정 유형의 함수(예: 다항식) 간에 수행됩니다.

제한된 검색 알고리즘데이터의 하위 그룹에서 간단한 논리적 이벤트의 조합을 계산합니다.

3.7 통합OLAP그리고데이터채광

OLAP(온라인 분석 처리) 및 데이터 마이닝은 의사 결정 지원 프로세스의 두 부분입니다. 그러나 오늘날 대부분의 OLAP 시스템다차원 데이터에 대한 액세스 제공에만 초점을 맞추고 패턴 분야에서 작동하는 대부분의 데이터 마이닝 도구는 1차원 데이터 관점을 다룹니다. 의사결정 지원 시스템의 데이터 처리 효율성을 높이려면 이 두 가지 유형의 분석을 결합해야 합니다.

현재 이러한 조합을 나타내는 복합 용어 "OLAP 데이터 마이닝"(다차원 마이닝)이 있습니다.

"OLAP 데이터 마이닝"을 구성하는 세 가지 주요 방법이 있습니다.

    "큐빙 후 마이닝". 마이닝 분석을 수행할 수 있는 기능은 다차원 개념 표현에 대한 쿼리 결과, 즉 지표의 하이퍼큐브 투영의 모든 조각에 제공되어야 합니다.

    마이닝 후 큐브. 리포지토리에서 추출한 데이터와 마찬가지로 마이닝 결과는 차후 다변량 분석을 위해 초입방 형태로 표시되어야 합니다.

    "채굴 중 큐브". 이 유연한 통합 방식을 통해 일반화 수준, 하이퍼큐브의 새 조각 추출 등) 각 단계의 다변수 분석(전환) 결과에 대해 동일한 유형의 지능형 처리 메커니즘을 자동으로 활성화할 수 있습니다.

    11학년 [텍스트 ... 그들을어떻게 부분전체 시스템 ... 조교수 ... 체복사리, 2009. No. 10. S. 44 -49 .... 저자- 컴파일러: N. ... 시놉시스강의, ...

  • 학습 가이드

    ... 강의... 훈련 강의수학. 글쓰기 개요강의 강의... 용법 정보기술 ...

  • I K. Kondaurova S. V. Lebedeva 미래 수학 교사의 연구 활동 초등 수학에 대한 창의적 과제 및 교수법

    학습 가이드

    ... 강의... 훈련 강의수학. 글쓰기 개요강의... 시각 자료의 준비. 읽기 기술 강의... 용법 정보기술 ...

  • M MEDIA MONITORING 직업교육 현대화 2011년 3~8월

    요약

    ... 11 .08.2011 RNIMU의 "Dead Souls-2" 그들을 ... 3,11 -3,44 ... ... 공공의 강의지도자 ... 체복사리... 그리고 낙서 시놉시스강의실 - ... 정보시스템그리고 기술. ... 체계교육은 말한다 조교수 ... 컴파일러 ... 부속현실을 향상시키는 콘텐츠 ...

비즈니스 프로세스의 분석 기술

비즈니스 인텔리전스 시스템 - 비즈니스 인텔리전스(BI)는 엔터프라이즈 규모에서 데이터를 분석하고 처리하기 위한 다양한 도구와 기술을 결합합니다. 이러한 도구를 기반으로 BI 시스템이 만들어지며 그 목적은 관리 결정을 내리기 위한 정보 품질을 향상시키는 것입니다.

BI에는 다음 클래스의 소프트웨어가 포함됩니다.

· 온라인 분석 처리(OLAP) 시스템;

· 데이터 마이닝 수단(DM)

각 클래스의 소프트웨어 제품은 특수 기술을 사용하여 특정 기능 또는 작업 세트를 수행합니다.

OLAP(On-Line Analytical Processing)는 특정 제품의 이름이 아니라 전체 기술의 이름입니다. OLAP 개념은 데이터의 다차원 표현을 기반으로 합니다.

1993년 데이터베이스 구축에 대한 관계형 접근 방식의 창시자인 Edgar Codd와 파트너(Edgar Codd, 수학자 및 IBM 동료)는 회사에서 시작한 "분석 사용자를 위한 OLAP(Online Analytical Processing) 제공"이라는 기사를 발표했습니다. 12개의 OLAP 기술 기준을 공식화했으며, 이는 나중에 새롭고 매우 유망한 기술의 주요 내용이 되었습니다.

나중에 OLAP 제품에 대한 요구 사항을 정의하는 FASMI 테스트로 재설계되었습니다.

· 빨리 빨리). OLAP 애플리케이션은 분석 데이터에 대한 최소 액세스 시간(평균 약 5초)을 제공해야 합니다.

분석(분석). OLAP 응용 프로그램은 사용자가 수치 및 통계 분석을 수행할 수 있도록 해야 합니다.

SHARED(공유 액세스). OLAP 응용 프로그램은 동시에 많은 사용자의 정보 작업을 수행할 수 있는 기능을 제공해야 합니다.

MULTIDIMENSIONAL(다차원);

정보 OLAP 애플리케이션은 사용자가 어떤 방법을 사용하든 필요한 정보를 얻을 수 있는 기능을 제공해야 합니다. 전자 저장데이터를 찾을 수 없습니다.

FASMI를 기반으로 다음과 같은 정의를 내릴 수 있습니다. OLAP 애플리케이션 -수치 및 통계 분석 기능을 갖춘 다차원 분석 정보에 대한 다중 사용자의 빠른 액세스를 위한 시스템입니다.

OLAP의 주요 아이디어는 사용자 지정 쿼리에 사용할 수 있는 다차원 큐브를 구축하는 것입니다. 다차원 큐브(그림 5.3)는 관계형 데이터베이스와 다차원 데이터베이스 모두에 저장할 수 있는 원시 및 집계 데이터를 기반으로 구축됩니다. 따라서 현재 데이터를 저장하는 세 가지 방법이 있습니다. 몰랍 (다차원 OLAP), 롤랩 (관계형 OLAP) 및 (하이브리드 OLAP).

따라서 OLAP 제품은 데이터 저장 방식에 따라 세 가지 유사한 범주로 나뉩니다.

1. MOLAP의 경우 원본 및 다차원 데이터는 다차원 데이터베이스 또는 다차원 로컬 큐브에 저장됩니다. 이 저장 방법은 OLAP 작업의 빠른 실행을 제공합니다. 그러나 이 경우 다차원 기반은 대부분 중복됩니다. 기반으로 만들어진 큐브는 차원 수에 크게 의존합니다. 차원의 수가 증가함에 따라 큐브의 부피는 기하급수적으로 증가합니다. 이는 때때로 데이터 볼륨의 "폭발적인 증가"로 이어질 수 있습니다.

2. ROLAP 제품에서 소스 데이터는 관계형 데이터베이스 또는 플랫에 저장됩니다. 로컬 테이블파일 서버에서. 집계 데이터는 동일한 데이터베이스의 서비스 테이블에 배치할 수 있습니다. 관계형 데이터베이스에서 다차원 큐브로의 데이터 변환은 OLAP 도구의 요청에 따라 발생합니다. 이 경우 큐브를 만드는 속도는 데이터 원본의 유형에 따라 크게 달라집니다.

3. 하이브리드 아키텍처를 사용하는 경우 원본 데이터는 관계형 데이터베이스에 남아 있고 집계는 다차원 데이터베이스에 배치됩니다. OLAP 큐브 구축은 관계형 및 다차원 데이터를 기반으로 하는 OLAP 도구의 요청에 따라 수행됩니다. 이 접근 방식은 폭발적인 데이터 증가를 방지합니다. 동시에 클라이언트 요청의 최적 실행 시간을 달성할 수 있습니다.

OLAP 기술을 사용하여 사용자는 정보를 유연하게 볼 수 있고 다양한 데이터 조각을 얻을 수 있으며 상세 분석, 컨볼루션, 종단 간 분포, 시간 비교 등의 분석 작업을 수행할 수 있습니다. 보고서 및 문서를 컴파일하고 동적으로 게시합니다.

창고 데이터베이스의 구조는 일반적으로 가능한 한 정보의 분석을 용이하게 하는 방식으로 설계됩니다. 데이터는 여러 방향(차원이라고 함)으로 편리하게 "배치"되어야 합니다. 예를 들어, 오늘날 사용자는 활동을 비교하기 위해 공급업체별 부품 공급 요약을 확인하려고 합니다. 내일 동일한 사용자는 공급의 역학을 추적하기 위해 월별 부품 공급량의 변화에 ​​대한 그림이 필요합니다. 데이터베이스의 구조는 이러한 유형의 분석을 지원해야 하며 주어진 차원 집합에 해당하는 데이터를 추출할 수 있어야 합니다.

운영 분석 데이터 처리는 정보를 초입방 모델로 구성하는 원칙을 기반으로 합니다. 이전에 고려한 테스트 데이터베이스에 대한 부품 공급을 위한 가장 간단한 3차원 데이터 큐브가 그림 1에 나와 있습니다. 3.11. 각 셀은 "사실"에 해당합니다(예: 부품 배송 범위). 큐브의 한 면(1차원)에는 큐브에 의해 반영된 배달이 이루어진 달이 표시됩니다. 두 번째 차원은 부품 유형이고 세 번째 차원은 공급업체와 관련이 있습니다. 각 셀에는 3차원 모두의 해당 값 조합에 대한 배송 수량이 포함됩니다. 큐브를 채울 때 테스트 데이터베이스에서 매월 배달에 대한 값이 집계되었다는 점에 유의해야 합니다.


3.11. 부품 공급 분석을 위한 단순화된 Hypercube 옵션

OLAP 클래스 시스템은 데이터가 표시되는 방식이 다릅니다.

다차원 OLAP(MOLAP) - 이러한 시스템은 적절한 액세스 방법이 있는 동적 배열을 기반으로 하는 다차원 데이터 구조를 기반으로 합니다. MOLAP은 다차원 DBMS 구성을 위한 특허 기술로 구현됩니다. 이 접근 방식의 장점은 하이퍼큐브의 셀에 대해 계산을 수행할 수 있다는 것입니다. 모든 측정 조합에 대해 해당 셀이 감겨집니다(스프레드시트에서와 같이). 이러한 시스템의 고전적인 대표자는 Oracle Express, SAS Institute MDDB를 포함합니다.

관계형 OLAP(ROLAP)- 관계형 데이터베이스에 대한 다차원 분석 모델을 지원합니다. 이 시스템 클래스에는 Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP가 포함됩니다.

데스크탑 OLAP- 지역 정보 시스템(스프레드시트, 플랫 파일)에 대한 다차원 쿼리 및 보고서 생성 도구. Business Objects, Cognos Power Play와 같은 시스템을 구별할 수 있습니다.

E.F. Codd는 다차원 데이터 개념화, 투명성, 가용성, 강력한 성능, 클라이언트-서버 아키텍처, 차원 공정성, 희소 행렬 동적 처리, 다중 사용자 지원, 무제한 교차 차원 지원, 직관적인 등 OLAP 클래스 제품이 충족해야 하는 12가지 규칙을 정의했습니다. 데이터 조작, 유연한 보고 메커니즘, 무제한 차원 및 집계 수준.



ROLAP 클래스의 가장 일반적인 시스템입니다. 모든 구조 또는 특수 데이터 마트에 대해 관계적으로 완전한 저장소를 통해 정보 모델을 구성할 수 있습니다.

쌀. 3.12. 부품 공급 쇼케이스의 스타 스키마

대부분의 데이터 웨어하우스에서 N차원 큐브를 모델링하는 가장 효율적인 방법은 별입니다. 그림에서. 3.11은 정보가 4차원(공급자, 부품, 월, 년)으로 통합된 부품 공급 분석을 위한 하이퍼큐브 모델을 보여줍니다. 스타 스키마는 팩트 테이블을 기반으로 합니다. 팩트 테이블에는 전달 범위에 대한 열과 모든 차원 테이블에 대한 외래 키에 대한 열이 포함됩니다. 큐브의 각 차원은 사실 테이블에 대한 참조인 값 테이블로 표시됩니다. 측정 참조 책 이상의 정보 일반화 수준을 구성하기 위해 범주 입력이 구성됩니다(예: "재료 세부 정보", "도시 공급업체").

그림의 회로가 이유입니다. 3.12는 "별"이라고 하는 것이 매우 분명합니다. "별"의 끝은 차원 테이블에 의해 형성되고 중앙에 있는 팩트 테이블에 대한 링크는 광선을 형성합니다. 이 데이터베이스 구조에서 대부분의 비즈니스 인텔리전스 쿼리는 중앙 팩트 테이블을 하나 이상의 차원 테이블과 결합합니다. 예를 들어 2004년 전체 부품의 공급량을 공급업체별로 분류하여 월별로 구하는 요청은 다음과 같습니다.

합계(VALUE) 선택, SUPPLIER.SUPPLIER_NAME, FACT.MONTH_ID

사실, 공급자

WHERE FACT.YEAR_ID = 2004

그리고 FACT.SUPPLIER_CODE = SUPPLIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MONTH_ID.

그림에서. 3.13은 주어진 요청의 결과로 생성된 보고서의 일부를 보여줍니다.

용어 온라인 분석 처리(On-Line Analytical Processing - OLAP)은 Arbor Software Corp.를 위해 준비된 보고서에서 처음 언급되었습니다. 1993년에 이 용어의 정의는 데이터 웨어하우스의 경우와 마찬가지로 훨씬 나중에 공식화되었습니다. 이 용어가 나타내는 개념은 "데이터 생성, 유지, 분석 및 보고서 발행의 상호 작용 프로세스"로 정의할 수 있습니다. 또한 일반적으로 문제의 데이터는 마치 저장되어 있는 것처럼 인식되고 처리되어야 한다고 덧붙입니다. 다차원 배열.그러나 MDX 자체에 대해 논의하기 전에 기존 SQL 테이블의 관점에서 관련 아이디어를 살펴보겠습니다.

첫 번째 특징은 분석 처리에는 확실히 일부 집계가 필요하다는 것입니다. 데이터,일반적으로 한 번에 여러 가지 다른 방식으로, 즉 여러 다른 그룹화 기준에 따라 수행됩니다. 본질적으로 분석 처리의 주요 문제 중 하나는 가능한 그룹화 방법의 수입니다.

그것은 곧 너무 커집니다. 그러나 사용자는 이러한 옵션을 모두 또는 거의 모두 고려해야 합니다. 물론 이제 SQL 표준은 이러한 집계를 지원하지만 특정 SQL 쿼리는 결과로 하나의 테이블만 생성하고 이 결과 테이블의 모든 행은 동일한 형식과 동일한 해석을 갖습니다.

9 다음은 데이터 웨어하우스에 관한 책의 팁입니다. "[Discard] normalization ... 디스크 공간을 절약하기 위해 다차원 데이터베이스의 테이블을 정규화하려고 시도하는 것은 [그냥!] 시간 낭비입니다 ... Dimension 테이블을 정규화하면 안 됩니다...정규화된 차원 테이블은 조회 가능성을 배제합니다."

10 이 결과 테이블에 null 값 또는 NULL 값이 포함되지 않는 한(19장, 섹션 19.3, 하위 섹션 "술어에 대한 추가 정보" 참조). 사실, 이 섹션에서 설명해야 하는 SQL: 1999 구문은 많이 사용되지 않는 이 SQL 도구(?); 사실, 그들은 정의되지 않은 값이 다른 의미를 가질 수 있다는 사실을 강조합니다.

SQL: 1999 표준 이전). 그러므로 실현하기 위해서는 다양한 그룹화 방법을 수행해야 합니다. 쿼리를 분리하고 결과적으로 l개의 개별 테이블을 만듭니다. 예를 들어, 공급자 및 부품 데이터베이스에 대해 실행된 다음 쿼리 시퀀스를 고려하십시오.

1. 총 배송 수를 결정합니다.

2. 공급자별 총 납품 수를 결정합니다.

3. 부품의 총 납품 수를 결정합니다.

4. 공급자 및 부품별 총 납품 수를 결정합니다.

(물론 특정 공급업체와 특정 부품에 대한 "총" 수량은 단순히 특정 공급업체와 특정 부품에 대한 실제 수량입니다. 공급업체, 부품 및 프로젝트의 데이터베이스를 사용하는 경우 예가 더 현실적일 것입니다. 예를 들어, 우리는 여전히 공급업체와 부품의 일반적인 기반에 정착했습니다.)

이제 P1과 P2로 번호가 매겨진 두 부분만 있고 공급 테이블이 다음과 같다고 가정합니다.

다차원 데이터베이스

지금까지는 OLAP 데이터가 SQL을 사용하여 일반 데이터베이스에 저장되는 것으로 가정했습니다. 다차원 데이터베이스).사실, 명시적으로 나타내지 않고 우리는 소위 시스템을 설명했습니다. 롤랩(관계형 OLAP-관계형 OLAP).그러나 많은 사람들은 시스템을 사용하여 몰랍(다차원 OLAP- 다차원 OLAP)이 더 유망한 방법입니다. 이 하위 섹션에서는 MOLAP 시스템을 구축하는 원칙에 대해 더 자세히 설명합니다.

MOLAP 시스템은 다차원 데이터베이스,여기서 데이터는 개념적으로 다차원 배열의 셀에 저장됩니다.

메모. 더 높지만 그리고에 대해 말했다 개념적스토리지를 구성하는 방법, 실제로 데이터의 물리적 구성 몰랍그들의 논리적 조직과 매우 유사합니다.

지원하는 DBMS는 다차원.처럼 간단한 예제품, 고객 및 기간을 각각 나타내는 3차원 배열을 캐스팅할 수 있습니다. 각 개별 셀의 값은 지정된 기간 동안 고객에게 판매된 지정된 품목의 총량을 나타낼 수 있습니다. 위에서 언급했듯이 이전 하위 섹션의 교차 분석도 이러한 배열로 간주될 수 있습니다.

데이터 세트의 구조를 충분히 명확하게 이해하면 데이터 간의 모든 관계를 알 수 있습니다. 게다가, 변수이러한 집합(기존 프로그래밍 언어의 의미가 아님)은 대략적으로 다음과 같이 나눌 수 있습니다. 매달린그리고 독립적 인. V이전 예 제품, 고객그리고 기간독립변수로 생각할 수 있고, 숫자 -유일한 종속변수. 일반적으로 설명 변수는 값이 함께 종속 변수의 값을 결정하는 변수입니다(관계 용어로 잠재적 키가 집합

값이 나머지 열의 값을 결정하는 열). 결과적으로 독립 변수는 데이터가 구성되는 배열의 차원을 설정하고 주소 지정 방식 11~을위한 주어진 배열... 실제 데이터를 나타내는 종속 변수의 값은 배열의 셀에 저장됩니다.

메모. 독립의 의미의 차이, 또는 차원,변수,

그리고 부양 가족의 가치, 또는 특대형,변수는 때때로 다음과 같은 차이로 특징지어집니다. 위치그리고 콘텐츠.

"따라서 배열 셀은 일반적으로 배열 작업에 사용되는 숫자 인덱스를 사용하는 대신 기호로 지정됩니다.

불행히도, 다차원 데이터베이스의 위의 특성은 대부분의 데이터 세트가 초기에 남아 있기 때문에 너무 단순합니다. ~ 아니다완전히 공부했습니다. 이러한 이유로 우리는 일반적으로 데이터를 더 잘 이해하기 위해 먼저 데이터를 분석하는 것을 목표로 합니다. 종종 이해 부족이 너무 커서 어떤 변수가 독립적이고 어떤 변수가 종속적인지 미리 결정하는 것이 불가능할 수 있습니다. 그런 다음 독립 변수에 대한 현재 이해에 따라(즉, 일부 가설에 기초하여) 선택되고, 그 후 결과 배열을 확인하여 독립 변수가 얼마나 잘 선택되었는지 결정합니다(섹션 22.7 참조). 이 접근 방식은 많은 시행 착오를 반복합니다. 따라서 시스템은 일반적으로 차원 및 무차원 변수의 변경을 허용하며 이 작업을 좌표축 변경(피벗). 기타 지원되는 작업은 다음과 같습니다. 배열 전치그리고 차원 재정렬.차원을 추가하는 방법도 있어야 합니다.

그건 그렇고, 배열 셀이 종종 비어 있다는 이전 설명에서 명확해야 합니다(차원이 많을수록 이 현상이 더 자주 관찰됩니다). 즉, 배열은 일반적으로 부족한.예를 들어, 제품 p가 전체 기간 동안 고객에게 판매되지 않았다고 가정합니다. 티.그런 다음 셀 [s, p, t]비어 있습니다(또는 기껏해야 0을 포함). 다차원 DBMS는 희소 배열을 보다 효율적이고 압축된 형태로 저장하는 다양한 방법을 지원합니다12. 여기에 빈 셀이 다음에 해당한다는 것을 추가해야 합니다. 빠진 정보따라서 시스템은 빈 셀에 대한 일부 계산 지원을 제공해야 합니다. 이러한 지원은 일반적으로 사용 가능하지만 불행히도 그 스타일은 SQL 언어에서 채택된 스타일과 유사합니다. 이 셀이 비어 있으면 정보가 알려지지 않았거나 입력되지 않았거나 적용할 수 없거나 다른 이유로 누락되었다는 사실에 주의하십시오.

(19장 참조).

설명 변수는 종종 다음과 같이 연결됩니다. 계층,종속 데이터의 집계가 발생할 수 있는 방법을 정의합니다. 예를 들어, 임시

초에서 분, 분에서 시간, 시간에서 일, 일에서 주, 주에서 월, 월에서 년을 연결하는 계층 구조. 또는 다른 예: 계층 구조가 가능합니다.

부품을 부품 세트로 연결하는 구성, 부품 세트와 어셈블리, 어셈블리와 모듈, 모듈과 제품을 연결하는 구성. 종종 동일한 데이터가 여러 사람에 의해 집계될 수 있습니다. 다른 방법들, 즉. 동일한 설명 변수가 여러 다른 계층에 속할 수 있습니다. 시스템은 운영자에게 다음을 제공합니다. 올라가다(드릴업) 그리고 아래로 전달(드릴다운) 이러한 계층 구조를 따라. 합격하위 집계 수준에서 상위 집계 수준으로의 전환을 의미하며, 아래로 전달 -

반대 방향으로 가고 있습니다. 계층 구조의 수준을 재정렬하는 작업과 같이 계층 구조 작업을 위한 다른 작업이 있습니다.

메모.작업 사이 올라가다(드릴업) 그리고 결과의 축적(롤

up) 한 가지 미묘한 차이점이 있습니다. 작업 결과의 축적 -이것은 구현 작업입니다

12 관계형 시스템과의 차이점에 주목하십시오. 이 예의 실제 관계형 아날로그에서 선 이, 피, t) 라인이 (들, 피, t) 단순히 결석합니다. 따라서 관계형 모델을 사용할 때 다차원 배열과 달리 "희소 배열" 또는 "희소 테이블"을 지원할 필요가 없으므로 이러한 테이블을 사용하기 위해 정교한 압축 기술이 필요하지 않습니다.

필요한 그룹화 및 집계 방법 및 작업 올라가다이것은 조작이다 입장이러한 방법의 구현 결과. 작업의 예 아래로 전달쿼리는 "총 배송 횟수를 알고 있으며 각 개별 공급업체에 대한 총계를 가져옵니다."일 수 있습니다. 물론 이 쿼리에 응답하려면 더 세분화된 수준의 데이터를 사용할 수 있거나 계산할 수 있어야 합니다.

다차원 데이터베이스 제품은 또한 가설(즉, 가정된 관계에 대한 가설)을 공식화하고 테스트하는 데 도움이 되는 여러 통계 및 기타 수학적 기능을 제공합니다. 또한 이러한 작업을 지원하기 위해 시각화 및 보고 도구가 제공됩니다. 불행히도 다차원 데이터베이스에 대한 표준 쿼리 언어는 아직 없지만 그러한 표준의 기반이 될 수 있는 미적분학을 개발하기 위한 연구가 진행 중입니다. 그러나 불행하게도 다차원 데이터베이스 설계를 위한 과학적 기초로 작용할 수 있는 관계형 정규화 이론과 같은 것은 없습니다.

이 섹션을 마치면서 일부 제품은 ROLAP 및 MOLAP의 두 가지 접근 방식을 모두 결합한다는 점에 주목합니다. 그런 하이브리드 OLAP 시스템라고 헐.이 세 가지 접근 방식 중 어느 것이 더 나은지 알아보기 위한 광범위한 토론이 있으므로 이 문제에 대해 몇 마디 말해볼 가치가 있습니다13. 일반적으로 MOLAP 시스템은 더 빠른 결제를 제공하지만 ROLAP 시스템보다 적은 데이터를 지원합니다. 데이터 양이 증가함에 따라 효율성이 떨어집니다. 그리고 ROLAP 시스템은 MOLAP 시스템보다 고급 확장성, 병렬 처리 및 제어 기능을 제공합니다. 또한 SQL 표준은 최근 많은 통계 및 분석 기능을 포함하도록 업데이트되었습니다(섹션 22.8 참조). ROLAP 제품은 이제 향상된 기능을 제공할 수 있습니다.

OLAP(Online Analytical Processing)는 사용자가 시스템 쿼리, 분석 등을 수행할 수 있도록 하는 정보 프로세스입니다. 온라인(온라인). 결과는 몇 초 이내에 생성됩니다.

OLAP 시스템은 최종 사용자를 위해 만들어진 반면 OLTP 시스템은 전문 IP 사용자를 위해 만들어졌습니다. OLAP에는 쿼리 생성, 임시 보고서 쿼리, 통계 분석 수행, 멀티미디어 응용 프로그램 구축과 같은 활동이 포함됩니다.

OLAP를 제공하려면 데이터 웨어하우스(또는 다차원 웨어하우스)와 함께 일반적으로 다차원 기능을 갖춘 일련의 도구를 사용해야 합니다. 이러한 도구는 쿼리 도구, 스프레드시트, 데이터 마이닝 도구, 데이터 시각화 도구 등이 될 수 있습니다.

OLAP 개념은 다차원 데이터 표현의 원리를 기반으로 합니다. E. Codd는 관계형 모델의 단점을 고려하여 다차원 관점, 즉 기업 분석가가 가장 이해할 수 있는 방식으로 데이터를 결합, 조회 및 분석할 수 없다는 점을 지적하고 일반적인 요구 사항을 정의했습니다. 관계형 DBMS의 기능을 확장하고 그 특성 중 하나로 다차원 분석을 포함하는 OLAP 시스템용.

당신이 만족해야 하는 12가지 규칙 소프트웨어 OLAP 클래스. 다음 규칙:

1. 데이터의 다차원 개념적 표현.

2. 투명성.

3. 가용성.

4. 지속 가능한 성과.

5. 클라이언트 - 서버 아키텍처.

6. 측정의 평등.

7. 희소 행렬의 동적 처리.

8. 멀티플레이어 모드 지원.

9. 교차 차원 작업에 대한 무제한 지원.

10. 직관적인 데이터 조작.

11. 보고서 생성을 위한 유연한 메커니즘.

12. 차원과 집계 수준의 무제한.

OLAP의 실제 정의가 된 이러한 요구 사항 집합은 권장 사항으로 간주되어야 하며 모든 요구 사항을 이상적으로 완전하게 준수하는 정도에 따라 특정 제품을 평가해야 합니다.


데이터 마이닝 및 지식 마이닝. 빅 데이터 관리 및 분석. 비즈니스 인텔리전스 시스템(BI).

데이터 마이닝(IAD)은 시각적 데이터 표현 방법을 적용한 결과를 수학적 방법과 알고리즘(최적화 방법, 유전 알고리즘, 패턴 인식, 통계 방법, 데이터 마이닝 등)을 적극적으로 사용하여 데이터를 분석하는 총칭입니다. .

일반적으로 IAD 프로세스는 세 단계로 구성됩니다.

1) 패턴 식별(무료 검색)

2) 공개된 패턴을 사용하여 알려지지 않은 값을 예측합니다(예측).

3) 발견된 패턴의 이상을 식별하고 해석하기 위한 예외 분석.

발견한 패턴의 신뢰도를 확인하는 중간 단계(검증 단계)를 찾아 사용하는 경우가 있습니다.

초기 데이터 작업 원칙에 따라 모든 IAD 방법은 두 그룹으로 나뉩니다.

사용 사례 분석 추론 기술 - 원시 데이터는 명시적인 세분화된 형식으로 저장되고 예외를 예측 및/또는 분석하는 데 직접 사용할 수 있습니다. 이 방법 그룹의 단점은 많은 양의 데이터에 대한 사용의 복잡성입니다.

형식화된 패턴을 식별하고 사용하는 방법으로, 기본 데이터에서 정보를 추출하고 형식이 특정 방법에 따라 달라지는 형식 구성으로의 변환이 필요합니다.

데이터 마이닝(DM)은 인간 활동의 다양한 영역에서 의사 결정을 내리는 데 필요한 지식의 이전에 알려지지 않은 중요하지 않고 실질적으로 유용하고 접근 가능한 해석을 "원시" 데이터에서 탐지하는 기술입니다. 데이터 마이닝에 사용되는 알고리즘은 이전에 이러한 방법의 광범위한 실제 적용에 제한 요소였던 많은 양의 계산을 필요로 하지만 최신 프로세서의 성능이 향상되면서 이 문제의 심각성이 제거되었습니다.

비즈니스 인텔리전스 시장은 5개 부문으로 구성됩니다.

1. OLAP 제품

2. 데이터 마이닝 도구

3. 데이터 웨어하우스 및 마트 구축 수단(데이터 웨어하우징)

4. 관리 정보 시스템 및 응용 프로그램

5. 보고서 조회 및 생성을 위한 최종 사용자 도구.

현재 기업 BI 플랫폼의 리더 중에는 MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute 등이 있습니다(부록 B는 BI 시스템의 일부 기능에 대한 비교 분석을 제공합니다).

OLTP는 실시간 트랜잭션 처리 시스템입니다. OLTP는 다수의 사용자로부터 비교적 간단한 쿼리를 신속하게 처리하도록 설계되었습니다. 쿼리 실행 대기 시간이 짧은 것이 특징입니다. 이러한 시스템은 작은 트랜잭션이지만 큰 흐름으로 작동합니다.

기본 Holy Island: 1) 원자성(Atomicity) - 완전한 작동 또는 전혀 작동하지 않는 작업의 수행.

2) 일관성 - 상호 데이터 무결성 보장

3) 격리 - 사용자의 네트워크에서 격리된 작업 수행

4) 내구성 - 트랜잭션이 성공하면 데이터베이스의 변경 사항은 어떤 경우에도 손실되지 않습니다.

31. olap 기술(온라인 분석 처리).

OLAP 의사결정 지원 시스템, 특정 기간 동안 축적된 이력 데이터의 통계 처리가 필요한 보다 복잡한 쿼리 실행을 지향합니다.

OLAP는 데이터 마이닝을 기반으로 합니다. 데이터 마이닝- 데이터의 의사 결정에 필요한 이전에 알려지지 않은, 사소하지 않은(어려운), 실질적으로 유용하고 접근 가능한 지식 해석을 식별하기 위한 지능형 데이터 분석 방법 또는 기술의 조합. OLAP에는 다음이 포함됩니다. 1) 인공 지능 방법에 기반한 정보 처리 수단

2) 데이터의 Wed-wah 그래픽 프레젠테이션.

OLAP 기술은 OLAP 큐브라는 다차원 데이터베이스를 기반으로 합니다.

32. 데이터 웨어하우스(DW), 건설의 개념과 개념.

HD는 의사 결정을 위한 데이터의 주제 지향적 통합, 불변 지원 연대기 전자 수집(수집)입니다. 즉, HD는 시스템에서 수집된 데이터 및 정보 소스가 분석 및 의사 결정 작업에 추가되는 장소입니다. .

CD 구성의 Sv-va(원칙):

1) 주제 지향적. CD의 정보는 p / p 활동의 주요 측면, 즉 비즈니스 프로세스에 따라 구성됩니다. 데이터는 범주로 결합되고 설명하는 영역에 따라 저장됩니다.

2) 통합 - 운영 데이터베이스에서 소스 데이터를 추출하고, 확인하고, 정리하고, 단일 형식으로 축소하고, 필요한 정도로 집계하여 CD에 로드합니다.

3) 불변성(incorrigibility) - CD의 특정 기록 레이어에 한 번 있으면 데이터가 변경되지 않습니다. CD의 데이터는 생성되지 않습니다. 즉, 외부 소스에서 가져오고 수정되지 않으며 삭제되지 않습니다.

4) 연대기(히스토리) 유지 - 시간에 구속되거나 시간에 따라, 즉 CD의 데이터가 특정 기간과 직접적으로 관련됩니다.

CD-조직화 및 내부 구조에서 약간 변경 가능한 주제 지향적 통합 지원 및 새로운 데이터 추출(추출) 또는 기존 데이터 일반화를 목적으로 처리(분석)를 위한 전자 데이터 수집의 연대기를 지원합니다.

HD는 다양한 소스에서 논리적, 물리적으로 변환되고 비즈니스 라인에 해당하는 시불변 데이터의 분석을 위해 설계된 구조적으로 확장 가능한 컴퓨팅 환경이며, 장기간에 걸쳐 업데이트 및 유지되며, 간단한 용어로 표현되고 일반화됩니다. ) 빠른 분석을 위해.

33. 데이터 마이닝은 인간 생활의 다양한 영역에서 결정을 내리는 데 필요한 이전에 알려지지 않은, 사소하지 않은(어려운), 실질적으로 유용한, 데이터베이스에서 해석에 사용할 수 있는 지식을 탐지하는 방법 집합입니다.

데이터마이닝은 데이터베이스에서 암묵적이고 구조화되지 않은 정보를 추출하여 사용하기에 적합한 형태로 제시하는 프로세스입니다.

DM 작업:

    분류는 연구 또는 관찰 대상을 공통 특성에 따라 그룹화하는 과정입니다. 이 문제를 해결한 결과 연구된 데이터 세트의 개체 그룹을 특성화하는 기호가 발견됩니다. 클래스. 이러한 근거에서 새 개체는 하나 또는 다른 클래스에 귀속될 수 있습니다.

    클러스터링은 주어진 상황을 클러스터라고 하는 하위 집합으로 나누는 작업입니다.

    연관은 개체의 속성을 기반으로 하는 것이 아니라 동시에 발생하는 여러 이벤트 사이에서 수행되는 패턴 검색입니다.

    예측 - 과거 데이터를 기반으로 목표 수치 지표의 누락 또는 미래 값을 추정합니다.

34. 1C: 엔터프라이즈 - 소프트웨어회사 1C, 기업에서 활동을 자동화하도록 설계되었습니다.

1C: 엔터프라이즈는 (동시에) 기술 플랫폼이자 사용자 운영 모드입니다. 기술 플랫폼은 개체(데이터 및 메타데이터) 및 개체 관리 메커니즘을 제공합니다. 개체(데이터 및 메타데이터)는 구성으로 설명됩니다. 모든 활동을 자동화할 때 자체 개체 구성이 작성되며 이는 완전한 애플리케이션 솔루션입니다. "Configurator"라는 소프트웨어 제품의 특수 작동 모드에서 구성이 생성되면 "1C: Enterprise"라는 작동 모드가 시작되어 사용자가 이 애플리케이션 솔루션(구성)에 구현된 주요 기능에 액세스할 수 있습니다.

일반적인 구성:

    구성 "1C: 회계 8"

주요 특징들: 기록 유지하나의 데이터베이스에 있는 여러 조직의 경우 회계 및 세무 회계 유지(별도의 계정과목표) 단순화 된 과세 시스템에서 기록을 유지하는 기능 (각 조직에 대해 과세 시스템을 독립적으로 선택할 수 있음) 회계 정책에 대한 보다 유연한 옵션(회계 및 세무 회계에 대해 별도로 설정), 계정 폐쇄, 감가상각 계산, 회계 큰 통, 비용에 포함/제외 포함, 고려 UTII소매에서.

    구성 "1C: 무역 관리 8"

기업의 무역 및 창고 회계용으로 설계되었습니다. 구성 "1C: Trade and Warehouse 7.7"과 비교하여 기능이 확장되었습니다. 고객 관계 관리(CRM)의 가능성과 판매 및 구매 계획 기능이 있었습니다.

    구성 "1C: 급여 및 인사 관리 8"

기업의 인사 정책을 구현하고 다음 분야의 직원과 현금을 지급하기 위한 것입니다.

    인력 충원 계획;

    직원의 재정적 동기 관리;

    직원 고용의 효과적인 계획;

    인사 회계 및 인사 분석;

    임금의 계산 및 지불;

    법률에 의해 규제되는 임금 기금의 세금 및 기여금 계산;

    기업 비용에 발생한 임금 및 세금 반영.

    구성 "1C: 제조 엔터프라이즈 관리 8"

대다수의 다른 시스템에서는 볼 수 없는 가장 흥미로운 기능:

    "Manufacturing Enterprise Management"(러시아용), "Manufacturing Enterprise Management for Ukraine" 및 "Manufacturing Enterprise Management for Kazakhstan" 구성이 있으며 이는 설정에 대한 다른 옵션이 아니라 완전히 다른 구성입니다.

    등록(실시) 문서가 변경될 가능성이 있으며, 기술 지원 수준은 협력업체(소위 "프랜차이즈")에 따라 다릅니다. 파트너를 찾기 위한 특별 리소스가 있습니다. "인증된 프랜차이즈 선택".

아키텍처 1C: 엔터프라이즈 8

1) 일반 메커니즘. System 1C: Enterprise 8은 적용된 솔루션을 만드는 개념을 결정하는 여러 메커니즘을 기반으로 합니다. 이러한 메커니즘이 있으면 기술 기능을 응용 솔루션의 개발 및 구현을 위한 비즈니스 계획과 최대한 연관시킬 수 있습니다.

핵심 포인트는 기술적 세부 사항에서 개발자의 격리, 응용 프로그램의 비즈니스 로직만 알고리즘 프로그래밍, 독점 데이터베이스 모델의 사용, 추가 개발 없이 적용된 솔루션의 확장성입니다.

2) 적용된 메커니즘. 1C의 구성: 엔터프라이즈 적용 메커니즘은 회계 및 엔터프라이즈 관리 자동화 문제를 해결하는 데 중점을 둡니다. 문제 지향 개체를 사용하면 개발자가 창고, 회계, 관리 회계, 급여 회계, 데이터 분석 및 관리의 가장 광범위한 작업을 비즈니스 프로세스 수준에서 해결할 수 있습니다. 3) 인터페이스 메커니즘. 1C: Enterprise 8에서는 현대적인 인터페이스 디자인이 구현되었으며 오랜 시간 시스템으로 작업할 때 사용자 경험이 향상되었습니다.

4) 확장성. 기술 플랫폼은 개인 단일 사용자부터 대규모 작업 그룹 및 기업 전반에 걸친 작업에 이르기까지 응용 프로그램 솔루션을 위한 다양한 옵션을 제공합니다. 확장성의 핵심은 플랫폼을 통해 성능 향상을 달성하고 동시 사용자 수가 증가해도 애플리케이션 솔루션을 개선할 필요가 없다는 것입니다.

5) 통합. 시스템 1C: 엔터프라이즈 8은 개방형 시스템입니다. 일반적으로 인정되는 공개 표준 및 데이터 전송 프로토콜을 기반으로 거의 모든 외부 프로그램 및 장비와 통합할 수 있는 기회가 제공됩니다.

35. IKIS Galaktika는 Galaktika Business Suite 비즈니스 솔루션의 일부로, 주요 목적은 현대 경제에서 단일 정보 공간에서 기업, 지주, 기업 그룹을 관리하는 일반적이고 전문적인 작업을 수행하는 것입니다.

Galaktika 시스템은 예측 및 계획, 계획 이행의 회계 및 모니터링, 결과 분석, 예측 및 계획 수정과 같은 관리 주기의 모든 단계에서 발생하는 문제의 솔루션을 자동화하는 데 중점을 둡니다. 시스템의 주요 구조 단위는 특정 주제 영역(예: "판매 관리", "생산 계획")의 개별 작업을 해결하도록 설계된 모듈입니다. 모듈은 차례로 기능 회로로 결합됩니다. 생산 및 경제적 필요에 따라 개별 모듈의 분리된 사용과 임의의 조합이 모두 허용됩니다. Galaktika ERP 시스템은 구성 요소 모델 개념의 구현을 향한 첫 걸음을 내디뎠습니다. 논리적으로 시스템 모듈은 특수 인터페이스를 통해 서로 상호 작용하는 구성 요소로 구성됩니다.

Galaxy ERP 시스템의 계획 및 재무 관리 윤곽은 회사의 재무 자원을 관리하기 위한 신뢰할 수 있는 도구입니다. 재무 및 경제 계획 서비스의 책임자 및 전문가를 대상으로 합니다. 도움을 받아 기업의 재무 및 경제 활동을 계획하고 재무 계획의 모델링 및 조정을 수행하고 실제 실행을 분석하고 운영 재무 관리를 수행할 수 있습니다. Galaxy ERP 시스템의 계획 및 재무 관리 윤곽은 "예산 관리", "지급 일정" 및 "재무 분석"의 세 가지 모듈로 구성됩니다.

예산 책정은 다음 단계를 포함하는 재정 자원을 관리하는 프로세스입니다.

다양한 예산 옵션의 계획 및 모델링

예산 조정 및 승인

실제예산지표의 형성

예산 조정.

지불 일정 모듈의 목적은 현금 흐름의 운영 재무 관리 문제를 해결하는 것입니다. 이 모듈은 재정적 의무 이행을 모니터링하고 지불 수단의 절대 유동성을 보장하며 지급 불능 위험을 최소화하는 도구입니다.

재무 분석의 주요 임무는 기업의 재무 상태를 평가하고 추가 발전 가능성을 식별하는 것입니다. 재무 상태 분석은 이전 표준과 새 표준의 지표 비율을 설명하는 다른 공식을 사용하여 동일한 지표의 값을 계산할 수 있는 여러 방법에 따라 수행할 수 있습니다. 재무 분석은 회사의 대차 대조표 데이터와 다양한 참조 및 응용 프로그램을 기반으로 이루어집니다. 경제 분석은 외부 소스와 시스템의 다른 모듈에서 보고서를 가져오는 기능 후에 수행됩니다.

정보의 분석 처리는 조직에 대한 심각한 요구 사항, 즉 적절한 방법론적 지원, 분석가에 대한 일정 수준의 교육, 기술적 분석 수단 제공과 관련하여 직접적으로 분석 절차입니다.
취해진 관리 결정의 품질과 유효성은 정보 획득의 신뢰성, 완전성, 가용성, 효율성뿐만 아니라 정보 처리에 사용된 방법의 효율성에 의해 크게 결정됩니다. 분석 처리 기술의 향상 경제 정보- 제어 기술 향상의 핵심 요소 중 하나.
비즈니스 관리 프로세스의 고품질 정보 지원은 컴퓨터 기술, 통신 및 소프트웨어, 뿐만 아니라 자동화된 제어 시스템.
경제 활동 조건, 기업이 회계 정책을 형성할 수 있는 광범위한 권리, 변경 가능성, 소유권 형태 변경, 구조 조정 프로세스, 회사 합병 등으로 인해 많은 양의 분석 정보를 처리해야 합니다. 특정 금융 및 경제 거래를 반영할 때 사용되는 계산 자체가 더 복잡해졌습니다. 고정 자산에 대한 감가상각 계산 방법을 선택할 수 있는 기업의 광범위한 권리로 인해 정보가 수동으로 처리되는 경우 감가상각 공제 금액을 계산하는 작업이 사실상 불가능합니다.
경영상의 의사결정에 필요한 정보의 효율성과 신뢰성에 대한 요구가 높아지고 있습니다. 수집 및 등록의 효율성을 크게 높일 수 있었던 것은 컴퓨터 환경에서 경제 분석의 조직입니다 회계 정보, 산술 오류의 가능성을 크게 줄이고 결과적으로 기업에서 분석 서비스의 노동 강도를 줄입니다.
정보 흐름의 복잡성, 정보 획득을 위한 채널의 불완전성, 정보 수집, 저장 및 처리를 위한 방법 및 기술은 종종 상당한 지연으로 이어지며 결과적으로 "품질. 활동 및 경제적 분석의 손실로 이어지며 기업의 정보 시스템과 결제 자동화의 점진적 병합.
기록 장치, 통신 회선 및 컴퓨터의 광범위한 네트워크인 수집, 처리 및 저장을 위한 자동화 시스템은 정보의 출현과 분석 작업에서의 사용 사이의 시간을 단축합니다. 기술적 수단관리자 및 기타 관리 직원에게 기업에서 발생하는 프로세스에 대한 정보의 적시 의사 소통을 보장합니다. 최신 정보 기술을 사용하면 빠른 검색과 시간이 많이 소요되는 계산을 수행할 수 있을 뿐만 아니라 결과를 허용 가능한 형식으로 표시할 수 있습니다.
경제 정보 변환 절차의 선두 자리는 체계화 및 처리에 있습니다. 컴퓨터 기술의 사용으로 정보 처리는 단일 정보 기술 프로세스의 유기적인 부분이 되었습니다. 현대 컴퓨터는이 프로세스와 다른 프로세스의 연결을 변경하여 정보 프로세스의 기술 통합 가능성을 만들었을뿐만 아니라 "데이터 처리"개념의 내용에도 영향을 미쳤습니다. 수동 또는 기계화된 분석 작업 수행에서 처리가 주로 산술 연산을 의미했다면 오늘날 가장 복잡한 논리 및 통계 연산이 처리에 사용됩니다.
처리의 결과로 얻은 대부분의 경제 정보는 데이터 수집 및 처리 캘린더에서 제공하는 특정 조건 내에서 관리자, 전문가, 관리자에게 전송됩니다. 규제 경제 정보의 형성에서 준비 시점의 설정은 일반적으로 생산 조건에 의해 결정되기 때문에 특별히 어렵지 않습니다. 임의의 시점에서 관리 결정을 내리기 위해 규제되지 않은 정보의 수집 및 처리를 설계하는 데 어려움이 있습니다. 이러한 정보를 얻으려면 시스템에서 작업 결과, 계획 진행 상황, 경제 및 사회 발전의 역학을 특정 기간 동안 특성화하는 데이터를 생성해야 합니다.
이러한 시스템은 다양한 정보 획득 모드를 제공하는 데이터 수집 및 처리의 기술적, 기술적 프로세스 설계에 대해 다른 접근 방식을 요구합니다. 가장 유망한 대화형 모드는 사용자와 컴퓨터의 직접적인 상호 작용을 제공합니다. 운영 관리 결정을 내리기 위해 관리자는 특정 대화 절차에 따라 자재, 노동 및 재정 자원의 제공 및 사용, 생산 과정 및 기타 비즈니스 프로세스를 반영하는 필요한 정보를 선택합니다.
처리되고 상호 연결되고 조정된 형태로 정보는 경제 활동 및 의사 결정 분석을 담당하는 경제 관리 부서 및 서비스에 전송됩니다. 경제를 관리하려면 기업의 상황을 기록할 뿐만 아니라 특정 프로세스나 현상의 발전 추세를 분석하고 다음을 기반으로 최적의 시기적절한 결정을 내릴 수 있는 예측적 성격의 특수 정보가 필요합니다. 이것은 통제 대상과 그 환경뿐만 아니라 예측에 적합한 정보를 분석했습니다. 시스템 및 환경의 과거 행동에 대한 정보는 경제 모델링 도구, 전문가 및 예측 소프트웨어 시스템을 사용하여 예측 가능한 결정을 기반으로 관리 결정을 개발하는 데 사용됩니다.

(DBMS. - 1998. - 제4-5호)

현재로서는 최신 수준의 하드웨어 및 소프트웨어 개발로 인해 모든 관리 수준에서 운영 정보 데이터베이스의 광범위한 유지 관리가 가능해졌습니다. 그들의 활동 과정에서 산업 기업, 기업, 부서 구조, 정부 및 행정 기관은 많은 양의 데이터를 축적했습니다. 그들은 유용한 분석 정보를 추출할 수 있는 큰 잠재력을 자체적으로 저장하며, 이를 기반으로 숨겨진 트렌드를 식별하고 개발 전략을 수립하며 새로운 솔루션을 찾을 수 있습니다.

최근 몇 년 동안 기업 데이터를 저장하고 분석하기 위한 여러 가지 새로운 개념이 세계에서 형성되었습니다.

이 기사는 이러한 개념에 대한 개요와 경영진 의사 결정을 지원하는 상보성 증거에 대해 설명합니다.

1. 데이터의 창고(창고)

정보 기술 분야에서는 두 가지 종류의 시스템이 항상 공존해 왔습니다[, P. 49].

정보화의 첫 번째 단계에서는 일상적인 데이터 처리 과정에서 항상 사물을 정확하게 정리할 필요가 있습니다. 이는 전통적인 ODS가 중점을 두는 부분이므로 이러한 유형의 시스템의 예상 개발은 충분히 이해할 수 있습니다.

두 번째 클래스의 시스템인 DSS는 이와 관련하여 이차적입니다. 조직의 데이터가 많은 관련 없는 ODS와 함께 누적되어 서로 크게 중복되지만 어떤 식으로든 일관성이 없는 상황이 종종 발생합니다. 이 경우 명백한 초과에도 불구하고 신뢰할 수있는 복잡한 정보를 얻는 것이 실제로 불가능합니다.

기업 데이터 웨어하우스를 구축하는 목적은 이기종 소스의 운영 데이터를 통합, 업데이트 및 조정하여 제어 개체 전체에 대한 일관된 단일 보기를 형성하는 것입니다. 동시에, 데이터 웨어하우스의 개념은 트랜잭션 처리에 사용되는 데이터 세트와 의사 결정 지원 시스템에 사용되는 데이터 세트를 분리해야 할 필요성에 대한 인식을 기반으로 합니다. 이러한 분할은 ODS 및 외부 소스에서 세분화된 세부 데이터를 단일 저장소, 조정 및 가능한 경우 집계로 통합함으로써 가능합니다. 데이터 웨어하우스 개념의 저자인 W. Inmon은 이러한 웨어하우스를 다음과 같이 정의합니다.

  • "주제 지향적,
  • 통합,
  • 변하지 않는,
  • 연대기 지원

관리자와 분석가가 신속하게 분석하고 의사 결정을 지원하는 데 필요한 신뢰할 수 있는 정보를 제공하기 위해 "유일한 정보 소스 역할을 하도록 설계된" 관리를 지원하도록 구성된 데이터 세트입니다.

데이터 웨어하우스의 개념에는 조직 데이터에 대한 단일 논리적 보기뿐만 아니라 단일 통합 데이터 소스의 실제 구현이 포함됩니다. 이 개념과 관련하여 기업 데이터의 통합된 보기를 형성하는 다른 방법은 다양한 ODS의 분산 데이터베이스를 기반으로 가상 소스를 만드는 것입니다. 또한 이러한 소스에 대한 각 쿼리는 소스 데이터베이스에 대한 쿼리로 동적으로 변환되며 얻은 결과는 즉시 조정, 연결, 집계되어 사용자에게 반환됩니다. 그러나 외부의 우아함에도 불구하고 이 방법에는 여러 가지 중요한 단점이 있습니다.

  1. 분산 저장소에 대한 요청 처리 시간은 중앙 집중식 저장소에 대한 해당 지표를 크게 초과합니다. 또한 단일 레코드의 집중적인 업데이트를 위해 설계된 ODS 데이터베이스의 구조는 고도로 정규화되어 있으므로 이에 대한 분석 쿼리는 많은 수의 테이블을 조인해야 하므로 성능이 저하됩니다.
  2. 분산된 기업 스토리지에 대한 통합 보기는 네트워크의 모든 데이터 소스에 대한 지속적인 연결 요구 사항이 충족되는 경우에만 가능합니다. 따라서 적어도 하나의 소스를 일시적으로 사용할 수 없으면 정보 및 분석 시스템(IAS) 작업을 불가능하게 하거나 잘못된 결과를 초래할 수 있습니다.
  3. ODS 테이블에 대한 복잡한 분석 쿼리를 실행하면 많은 양의 데이터베이스 서버 리소스가 소모되고 ODS의 성능이 저하되는데, 이는 ODS에서 작업의 실행 시간이 종종 매우 중요하기 때문에 허용할 수 없는 수준입니다.
  4. 다른 ODS는 다른 형식과 데이터 인코딩을 지원할 수 있으며, 그 안에 있는 데이터는 일치하지 않을 수 있습니다. 매우 자주 동일한 질문에 대해 여러 답변 옵션을 받을 수 있습니다. 이는 데이터 업데이트의 비동기적 순간, 개별 이벤트, 개념 및 데이터의 해석 차이, 개발 과정에서 데이터 의미의 변경으로 인한 것일 수 있습니다. 주제 영역, 입력 오류, 조각 아카이브 손실 등. 이 경우 목표(관리 대상에 대한 일관된 단일 보기 형성)가 달성되지 않을 수 있습니다.
  5. 주요 단점은 중앙 저장소가 없으면 요청 당시 관련 SOD의 실제 데이터베이스에 있는 데이터만 사용할 수 있기 때문에 긴 기록 시퀀스를 검토하는 것이 실질적으로 불가능하다는 점을 인식해야 합니다. ODS의 주요 목적은 운영 데이터 처리이므로 장기간(수개월 이상) 데이터를 저장할 여유가 없습니다. 더 이상 사용되지 않으면 데이터가 아카이브에 업로드되고 트랜잭션 데이터베이스에서 삭제됩니다. 분석적 처리에 관해서는 역사적 회고에서 관리의 대상을 바라보는 것이 가장 흥미롭다.

따라서 데이터 웨어하우스는 다음 시나리오에 따라 작동합니다. 지정된 규정에 따라 운영 처리 시스템의 데이터베이스와 같은 다양한 소스에서 데이터를 수집합니다. 스토리지는 연대기를 유지합니다. 현재의 과거 데이터와 함께 관련된 시간 표시가 함께 저장됩니다. 결과적으로 제어 개체에 대해 필요한 사용 가능한 데이터가 한 곳에서 수집되고 단일 형식으로 가져와서 합의되고 경우에 따라 필요한 최소 일반화 수준으로 집계됩니다.

기업 데이터 웨어하우스의 경량 버전은 데이터 마트, 즉 조직 활동의 특정 측면과 관련된 정보를 포함하는 주제별 데이터베이스가 될 수 있습니다. 데이터 마트 개념은 1991년 Forrester Research에서 제안했습니다. 동시에 주요 아이디어는 데이터 마트에 사전 집계된 데이터의 주제별 하위 집합이 포함되어 있다는 것입니다. 이 하위 집합은 기업 데이터 웨어하우스보다 크기가 훨씬 작기 때문에 유지 관리에 덜 효율적인 기술이 필요합니다. 1994년에 M. Demarest는 두 개념을 결합하고 데이터 웨어하우스를 여러 데이터 마트에 대한 단일 통합 소스로 사용할 것을 제안했습니다. 이 버전에서 기업 정보 및 분석 시스템은 3단계 구조로 되어 있습니다.

  • 전사적 중앙 집중식 데이터 웨어하우스;
  • 부서 수준의 주제별 데이터 마트;
  • 분석 도구가 장착된 최종 사용자 워크스테이션.

고려된 개념은 기업 데이터 처리가 아닌 스토리지에만 집중되어 있습니다. 대상 분석 시스템의 아키텍처를 미리 결정하지 않고 데이터 요구 사항에 중점을 두고 기능을 위한 필드만 만듭니다. 따라서 그녀는 관련된 모든 것에 선택의 자유를 남깁니다.

  • 대상 저장소에 데이터를 표시하는 방법(예: 관계형, 다차원)
  • 스토리지 데이터 분석 모드.

2. 분석자료의 처리방법

기존 데이터 웨어하우스가 관리 결정의 채택을 용이하게 하려면 정보가 필요한 형식으로 분석가에게 제공되어야 합니다. 즉, 분석가는 웨어하우스의 데이터에 액세스하고 처리하기 위한 도구를 개발해야 합니다.

데이터 분석 모드의 기준에 따라 정보 및 분석 시스템은 두 가지 범주 [,]로 나뉩니다.

  • 정적(미리 정의된 데이터 처리 및 보고 스크립트 세트 포함) 이 범주에는 소위 관리자 정보 시스템(WIS)이 포함됩니다.
  • 동적(임시 쿼리의 구성 및 실행 및 자유 형식 보고서 생성 지원).

의사 결정자가 직접 사용할 것으로 예상하여 만든 IAS는 사용하기가 매우 쉽지만 기능이 매우 제한적인 경우가 많습니다. 이러한 정적 DSS [, p. 55] 또는 ISS(Manager Information Systems) [, p. 73] - (Executive Information Systems, EIS) [, p. 4] - 미리 정의된 쿼리 집합을 포함하고 일상적인 검토에 충분합니다. , 결정을 내릴 때 발생할 수 있는 사용 가능한 데이터에 대한 모든 질문에 대답할 수 없습니다(참고. V. Przhiyalkovsky[, p. 81]에 따르면 ISR은 "... 컴퓨터 사용 경험이 제한된 고위 관리 요원의 처분 ".). 이러한 시스템의 작업 결과는 원칙적으로 분석가가 새로운 일련의 질문을 가지고 있는 신중한 연구 후에 여러 페이지로 된 보고서입니다. 그러나 이러한 시스템의 설계에서 예측할 수 없는 각각의 새로운 요청은 먼저 공식적으로 설명하고 프로그래머에게 전송하고 코딩한 다음 실행해야 합니다. 이 경우 대기 시간은 몇 시간 또는 며칠이 될 수 있으며 항상 허용되는 것은 아닙니다. 따라서 정보 분석 시스템의 대부분의 고객이 적극적으로 싸우고 있는 정적 DSS의 외부 단순성은 유연성의 치명적인 손실로 바뀝니다.

반면 동적 DSS는 데이터에 대한 임시 분석가 요청을 처리하는 데 중점을 둡니다. E. F. Codd는 OLAP 개념의 토대를 마련한 기사에서 이러한 시스템에 대한 가장 심층적인 요구 사항을 고려했습니다. 분석가는 쿼리를 형성하고 결과를 연구하는 대화식 순서로 이러한 시스템을 사용하며, 각각은 새로운 쿼리 시리즈에 대한 필요성을 생성할 수 있습니다.

그러나 동적 DSS는 OLAP(온라인 분석 처리) 영역 이상에서 작동할 수 있습니다. 축적된 데이터를 기반으로 한 경영 의사결정 지원은 3가지 기본 영역에서 수행할 수 있습니다.

Codd에 따르면 다차원적 개념적 관점은 관리 대상에 대한 관리 직원의 가장 자연스러운 관점입니다. 특정 데이터 세트를 분석할 수 있는 여러 독립 차원으로 구성된 다중 관점입니다. 여러 차원의 데이터에 대한 동시 분석을 다변량 분석이라고 합니다. 각 차원에는 일련의 연속적인 집계 수준으로 구성된 데이터 통합 ​​방향이 포함되며, 각 상위 수준은 해당 차원에 대한 더 높은 수준의 데이터 집계에 해당합니다. 따라서 계약자 차원은 "엔터프라이즈 - 부서 - 부서 - 직원"의 일반화 수준으로 구성된 통합 방향으로 결정할 수 있습니다. 월별 및 주별 시간 계산이 호환되지 않기 때문에 시간 차원에는 연도 - 분기 - 월 - 일 및 주 - 일의 두 가지 통합 방향이 포함될 수도 있습니다. 이 경우, 각각의 측정에 대해 원하는 정보 상세 수준을 임의로 선택하는 것이 가능해진다. 드릴다운 작업은 통합의 상위 단계에서 하위 단계로의 이동에 해당합니다. 반대로 롤업 작업은 낮은 수준에서 높은 수준으로 이동하는 것을 의미합니다(그림 2).


쌀. 2. 데이터 통합의 측정 및 방향.

3.1. 온라인 분석 처리를 위한 도구 요구 사항

Codd는 OLAP 클래스의 소프트웨어 제품이 충족해야 하는 12가지 규칙을 식별했습니다(표 1).

표 1. OLAP 클래스의 소프트웨어 제품 평가 규칙.

1. 다차원적 개념적 관점 OLAP 제품에서 데이터 모델의 개념적 표현은 본질적으로 다차원적이어야 합니다. 즉, 분석가가 "분석을 따라 그리고 가로질러"("슬라이스 및 주사위" - SD Kuznetsov 번역, 연설 3차 연례 회의 "기업 데이터베이스 "98"), 통합의 회전(회전) 및 배치(피벗) 방향.
2. 투명도 사용자는 데이터를 저장하고 처리하는 데 사용되는 특정 수단이 무엇인지, 데이터가 어떻게 구성되며 어디에서 왔는지 알지 않아야 합니다.
3. 접근성 분석가는 공통 개념 프레임워크의 프레임워크 내에서 분석을 수행할 수 있어야 하지만 동시에 데이터는 일반 분석 모델에 묶이면서 DBMS의 나머지 레거시의 제어 하에 남아 있을 수 있습니다. 즉, OLAP 툴킷은 정보에 대한 사용자의 일관되고 전체론적인 단일 보기를 제공하는 데 필요한 모든 변환을 수행하여 물리적 데이터 세트에 논리적 체계를 중첩해야 합니다.
4. 일관된 보고 성능 차원의 수와 데이터베이스 크기가 증가함에 따라 분석가는 성능 저하를 경험해서는 안 됩니다. 지속적인 성능은 최종 사용자에게 OLAP를 제공하는 데 필요한 복잡성에서 벗어나 사용 편의성을 유지하는 데 필수적입니다.
5. 클라이언트-서버 아키텍처 온라인 분석 처리가 필요한 대부분의 데이터는 메인프레임 시스템에 저장되며 개인용 컴퓨터... 따라서 요구 사항 중 하나는 클라이언트-서버 환경에서 작동하는 OLAP 제품의 기능입니다. 여기에서 주요 아이디어는 OLAP 도구의 서버 구성 요소가 충분히 지능적이어야 하며 투명한 효과를 제공하기 위해 다양한 논리적 및 물리적 기업 데이터베이스 스키마의 일반화 및 통합을 기반으로 하는 일반 개념 다이어그램을 작성할 수 있는 능력이 있어야 한다는 것입니다.
6. 일반 차원 모든 데이터 측정값은 동일해야 합니다. 개별 차원에 추가 특성을 제공할 수 있지만 모두 대칭이므로 이 추가 기능은 모든 차원에 제공할 수 있습니다. 기본 데이터 구조, 수식 및 보고서 형식은 어느 한 차원에 의존해서는 안 됩니다.
7. 동적 희소 행렬 처리 OLAP 도구는 희소 행렬을 최적으로 처리할 수 있어야 합니다. 액세스 속도는 데이터 셀의 위치에 관계없이 유지되어야 하며 차원 수와 데이터 희소성이 다른 모델에 대해 일정해야 합니다.
8. 다중 사용자 지원 종종 여러 분석가가 동일한 분석 모델로 동시에 작업하거나 동일한 기업 데이터를 기반으로 다른 모델을 생성해야 합니다. OLAP 도구는 동시 액세스, 데이터 무결성 및 보호 기능을 제공해야 합니다.
9. 무제한 교차 차원 작업 여러 차원에서 데이터를 계산하고 조작하는 것은 데이터 셀 간의 관계를 금지하거나 제한해서는 안 됩니다. 임의의 정의가 필요한 변환은 기능적으로 완전한 공식 언어로 지정되어야 합니다.
10. 직관적인 데이터 조작 통합 방향의 방향 변경, 열과 행의 세부 데이터, 통합 방향 계층 구조에 내재된 집계 및 기타 조작은 가장 편리하고 자연스럽고 편안한 사용자 인터페이스에서 수행되어야 합니다.
11. 유연한 보고 메커니즘(Flexible Reporting) 지원되어야 함 다른 방법들데이터 시각화, 즉 보고서는 가능한 모든 방향으로 제시되어야 합니다.
12. 무제한 차원 및 집계 수준 모든 심각한 OLAP 도구의 분석 모델에서 최소 15개, 바람직하게는 20개 차원을 가정하는 것이 좋습니다. 또한 이러한 각 차원은 통합 방향에 관계없이 사용자 정의 집계 수준을 거의 무제한으로 허용해야 합니다.

OLAP의 사실상 정의 역할을 하는 이러한 요구 사항 집합은 자주 비판을 받아 왔습니다. 따라서 12가지 요구 사항이 혼합되어 있다고 말합니다.

  • 기능에 대한 실제 요구 사항(1, 2, 3, 6, 9, 12)
  • 비공식적인 소원(4, 7, 10, 11);
  • 기능(5, 8)과 매우 유사한 정보 시스템 아키텍처에 대한 요구 사항; 예를 들어 요구 사항 5에 따르면 터미널이 있는 UNIX 서버 기반 시스템은 클라이언트-서버 아키텍처에서 작동하지 않기 때문에 OLAP 제품이 될 수 없습니다. 또한 OLAP 제품은 데스크톱 단일 사용자 시스템이 될 수 없습니다. 이 경우 요구 사항 8이 위반되기 때문입니다.

반면에 Codd 자신에 따르면 현재 시장에 나와 있는 운영 데이터 분석 제품 중 그의 모든 요구 사항을 완전히 충족하는 제품은 없습니다. 따라서 12가지 규칙은 권고 사항으로 간주되어야 하며 모든 요구 사항을 이상적으로 완전하게 준수하는 정도에 따라 특정 제품을 평가해야 합니다.

3.2. 데이터 표시 방식에 따른 OLAP 제품 분류

현재 시장에는 다양한 수준의 OLAP 기능을 제공하는 약 30개의 제품이 있습니다(1998년 2월 현재 설문조사 웹 서버 http://www.olapreport.com에 따름). 외부에서 다차원적 개념적 관점 제공 사용자 인터페이스소스 데이터베이스에 대한 모든 OLAP 제품은 소스 데이터베이스의 유형에 따라 세 가지 클래스로 나뉩니다.

이러한 도구 외에도 데스크톱 PC용 쿼리 및 보고서 생성을 위한 도구, OLAP 기능으로 보완 및/또는 이러한 기능을 수행하는 외부 도구와 통합된 도구가 있습니다. 이러한 고급 시스템은 원본 소스에서 데이터를 검색하고 변환하여 최종 사용자의 클라이언트 스테이션에서 작동하는 동적 다차원 데이터베이스에 배치합니다. 이러한 도구는 작고 단순하게 구성된 데이터베이스에 가장 적합합니다. 이 클래스의 주요 대표자는 같은 이름 회사의 BusinessObjects, Brio Technology의 BrioQuery[, 34페이지] 및 Cognos의 PowerPlay[, 34-35페이지]입니다.

3.2.1. 다차원 OLAP(MOLAP)

다차원 데이터 표현을 기반으로 하는 특수 DBMS에서 데이터는 관계형 테이블 형태가 아니라 정렬된 다차원 배열 형태로 구성됩니다.

  • 하이퍼큐브(데이터베이스에 저장된 모든 셀은 동일한 차원, 즉 가장 완전한 측정 기준에 있어야 함) 또는
  • 폴리큐브(각 변수는 고유한 차원 집합과 함께 저장되고 모든 관련 처리 어려움은 시스템의 내부 메커니즘으로 전송됨).

온라인 분석 처리 시스템에서 다차원 데이터베이스를 사용하면 다음과 같은 이점이 있습니다.

반면에 상당한 한계가 있습니다.

따라서 다차원 DBMS의 사용은 다음과 같은 조건에서만 정당화된다.

  1. 분석을 위한 초기 데이터의 양은 너무 크지 않습니다(수 기가바이트 이하). 즉, 데이터 집계 수준이 상당히 높습니다.
  2. 전부 정보 측정안정적입니다(구조의 모든 변경은 거의 항상 하이퍼큐브의 완전한 재구축을 필요로 하기 때문에).
  3. Ad Hoc 요청에 대한 시스템 응답 시간은 가장 중요한 매개변수입니다.
  4. 사용자 지정 함수를 작성하는 기능을 포함하여 하이퍼큐브의 셀에 대한 교차 차원 계산을 수행하려면 복잡한 내장 함수를 광범위하게 사용해야 합니다.
3.2.2. 관계형 OLAP(ROLAP)

온라인 분석 처리 시스템에서 관계형 데이터베이스를 입력 데이터로 직접 사용하면 다음과 같은 이점이 있습니다.

  1. 데이터 웨어하우스 콘텐츠의 온라인 분석 처리를 위해 ROLAP 도구를 사용하면 웨어하우스에서 직접 분석을 수행할 수 있습니다(대부분의 경우 기업 데이터 웨어하우스는 관계형 DBMS를 사용하여 구현되기 때문).
  2. 문제의 가변 차원의 경우 측정 구조를 자주 변경해야 하는 경우 차원을 동적으로 표시하는 ROLAP 시스템이 최적의 솔루션입니다. 데이터베이스.
  3. ROLAP 시스템은 MOLAP 시스템보다 훨씬 덜 강력한 클라이언트 스테이션에서 작동할 수 있습니다. 그 이유는 시스템에서 생성된 복잡한 분석 SQL 쿼리가 실행되는 서버에서 주요 컴퓨팅 부하가 발생하기 때문입니다.
  4. 관계형 DBMS는 훨씬 더 높은 수준의 데이터 보호와 접근 권한의 차별화를 제공합니다.
  5. 관계형 DBMS는 매우 큰 데이터베이스와 고급 관리 도구에 대한 실제 경험이 있습니다.

ROLAP 시스템의 단점은 다차원 데이터베이스 사용의 장점을 나열할 때 이미 논의되었습니다. 이들은 첫째, 기능 유형의 값 계산 측면에서 제한된 가능성과 둘째, 낮은 성능입니다. MOLAP에 필적하는 성능을 제공하기 위해 관계형 시스템은 데이터베이스 스키마의 신중한 설계와 인덱스의 특수 조정이 필요합니다. 그러나 이러한 작업의 결과로 스타 스키마를 사용하여 잘 조정된 관계형 시스템의 성능은 다차원 데이터베이스를 기반으로 하는 시스템의 성능과 상당히 비슷합니다.

작업 [,,]은 스타 스키마에 대한 설명과 사용 권장 사항에 완전히 전념합니다. 그 아이디어는 각 차원에 대한 테이블이 있고 모든 사실이 개별 차원의 키로 구성된 다중 키로 인덱싱된 하나의 테이블에 배치된다는 것입니다. 별 스키마의 각 광선은 Codd의 용어로 해당 차원(예: Store - City / District - Region)을 따라 데이터 통합 ​​방향을 정의합니다.

일반적인 경우 사실은 차원 집합이 다르므로 하나가 아닌 여러 테이블에 저장하는 것이 편리합니다. 또한 다양한 요청에서 사용자는 가능한 측정의 일부에만 관심을 가질 수 있습니다. 그러나 이 접근 방식에서는 많은 수의 독립적인 차원을 사용하여 쿼리에서 선택한 각 가능한 차원의 조합에 해당하는 많은 팩트 테이블을 유지해야 하므로 낭비가 됩니다. 외부 메모리, 외부 소스에서 스타 스키마 데이터베이스로 데이터를 로드하는 시간의 증가 및 관리의 복잡성. 이 문제를 해결하기 위해 작업의 저자는 다음을 위한 특별한 확장을 제안합니다. SQL 언어("GROUP BY CUBE" 연산자 및 "ALL" 키워드) (참고: 이 확장은 현재 아직 채택되지 않았으므로 이 제안은 여전히 ​​순수한 학문적 관심 대상입니다.) 차원의 조합이지만 가장 완전한 것( 데이터베이스의 다른 팩트 테이블에 있는 셀의 후속 집계를 사용하여 셀 값을 얻을 수 없음).

다단계 차원과 관련된 복잡한 문제에서는 별 스키마 확장인 팩트 별자리 스키마[, pp. 10-11] 및 눈송이 스키마[, pp. 13-15]로 전환하는 것이 좋습니다. 이러한 경우 요약 수준의 가능한 조합에 대해 별도의 팩트 테이블이 생성됩니다. 다른 차원... 이를 통해 다음을 달성할 수 있습니다. 최고의 성능그러나 종종 데이터 중복으로 이어집니다.

어쨌든 다차원 모델이 관계형 데이터베이스로 구현되면 길고 "좁은" 팩트 테이블과 상대적으로 작고 "넓은" 차원 테이블을 만들어야 합니다. 팩트 테이블은 하이퍼큐브 셀의 숫자 값을 포함하고 나머지 테이블은 차원의 다차원 기반을 포함하는 정의를 정의합니다.

별 모양의 관계형 모델을 사용하여 다차원 정보의 표현에 집중하면 다차원 DBMS에서 심각한 희소 행렬의 저장 최적화 문제를 제거할 수 있습니다(희소성 문제가 스키마의 특별한 선택에 의해 해결되는 경우) . 전체 레코드가 팩트 테이블의 각 셀을 저장하는 데 사용되지만(값 자체 외에도 보조 키 포함 - 차원 테이블에 대한 링크) 존재하지 않는 값은 단순히 팩트 테이블에 포함되지 않을 수 있습니다. 즉, 데이터베이스에 빈 셀이 있는 경우 제외됩니다. 인덱싱은 팩트 테이블의 데이터에 액세스하는 합리적인 속도를 제공합니다.

4. 데이터 마이닝

규칙성의 영역은 그 안에 축적된 정보가 지식으로 특징지어질 수 있는 정보로 자동 일반화된다는 점에서 앞의 두 영역과 다르다. 이 프로세스는 현재 사용자와 매우 관련이 있으며, "세계의 정보 양은 20개월마다 두 배로 증가"하는 법에 인용된 법률에 따르면 "컴퓨터 기술은 지혜, 지금까지는 데이터 흐름만 규제합니다."

데이터 마이닝은 대부분의 출판물에서 "산더미 같은 데이터에서 지식의 알갱이 추출", "데이터 마이닝 - 마이닝과의 유추"로 정의됩니다. 더욱이 에서 영어 IAD는 KDD(Knowledge Discovery in Databases)와 DM(Data Mining)으로 번역됩니다. 대부분의 저작에서는 동의어로 사용되지만 일부 저자는 [,] KDD를 "인공 지능, 통계 및 데이터베이스 이론의 교차점에서" 형성된 과학적 방향을 제공하는 더 넓은 개념으로 간주합니다. 데이터 및 그 사용에서 정보 추출 프로세스 및 DM - 이 프로세스의 귀납적 방법 세트, 즉 IAD에 대한 무료 검색 단계로 아래에서 정의됩니다.

다음 정의에 대해 살펴보겠습니다. IAD는 데이터에서 숨겨진 패턴(정보 패턴) [,] 검색을 기반으로 하는 의사 결정 지원 프로세스입니다. IAD 방법의 대부분은 원래 70년대와 80년대에 인공지능(AI) 이론의 틀 내에서 개발되었지만 대규모 및 빠르게 증가하는 기업 데이터의 양은 데이터 웨어하우스에 추가 기능으로 사용해야 했습니다.

4.2.2. 예측 모델링

여기서 IAD의 두 번째 단계에서 첫 번째 작업의 결과가 사용됩니다. 즉, 데이터베이스에서 찾은 패턴을 사용하여 알 수 없는 값을 예측합니다.

  • 새 객체를 분류할 때 속성의 알려진 값을 고려한 결과의 특정 그룹과 확실하게 연관시킬 수 있습니다.
  • 동적 프로세스를 예측할 때 추세 및 주기적인 변동을 결정한 결과를 사용하여 미래에 특정 동적 프로세스의 개발 가능성에 대한 가정을 할 수 있습니다.

고려한 예제로 돌아가서 이 단계로 계속 진행합니다. Ivanov가 프로그래머라는 것을 알면 그의 나이를 61% 확신할 수 있습니다.

무료 검색은 일반적인 패턴, 즉 귀납적 인 패턴을 보여 주지만 모든 예측은 특정 알려지지 않은 양의 값에 대해 추측하므로 연역적입니다. 또한 결과 구성은 투명할 수 있습니다. 즉, 합리적인 해석(생성된 논리 규칙이 있는 예에서와 같이)을 허용하고 다루기 힘든 "블랙 박스"(예: 구성 및 훈련된 신경망에 대해 그녀가 일하는 방식을 정확히 알고 있습니다.)

4.2.3. 포렌식 분석

이 분석의 주제는 공개된 패턴의 이상, 즉 설명할 수 없는 예외입니다. 그것들을 찾으려면 먼저 규범 (자유 검색 단계)을 결정한 다음 위반 사항을 강조 표시해야합니다. 따라서 일반 교육 학교의 84%가 시립 형태의 소유권에 귀속된다고 결정한 후 이 규칙의 예외를 구성하는 16%에 무엇이 포함되는지 질문할 수 있습니다. 아마도 그것들에 대한 논리적인 설명이 있을 것이며, 이는 또한 패턴의 형태로 공식화될 수 있습니다. 그러나 원본 데이터의 오류를 처리한 다음 예외 분석을 데이터 웨어하우스의 정보 정리 도구로 사용할 수도 있습니다.

4.3. 기술적 방법의 분류 IAD

모든 IAD 방법은 초기 훈련 데이터로 작업하는 원칙에 따라 두 개의 큰 그룹으로 나뉩니다.

  1. 첫 번째 경우에는 원본 데이터를 명시적 세부 형식으로 저장하고 예측 모델링 및/또는 예외 분석에 직접 사용할 수 있습니다. 이것은 판례의 분석에 근거한 소위 추론 방법입니다. 이 방법 그룹의 주요 문제는 IAD 방법이 가장 유용한 대용량 데이터 웨어하우스 분석에 있지만 많은 양의 데이터에 사용하기 어렵다는 것입니다.
  2. 두 번째 경우에는 먼저 기본 데이터에서 정보를 추출하고 일부 형식 구성으로 변환합니다(형식은 특정 방법에 따라 다름). 이전 분류에 따르면 이 단계는 원칙적으로 첫 번째 그룹의 방법에는 없는 자유 검색 단계에서 수행됩니다. 따라서 예측 모델링 및 예외 분석을 위해 이 단계의 결과가 사용되며 이는 원래 데이터 세트 자체보다 훨씬 더 간결합니다. 이 경우 결과 구성은 "투명"(해석 가능) 또는 "블랙 박스"(비추적)일 수 있습니다.

이 두 그룹과 여기에 포함된 방법은 그림 1에 나와 있습니다. 4.


쌀. 4. IAD의 기술적 방법의 분류.

4.3.1. 훈련 데이터의 직접 사용

고려 중인 그룹과 관련된 일반화된 Lazy-Learning 알고리즘은 다음과 같습니다(알고리즘에 대한 설명은 에서 가져옴). 분류기의 입력에 대한 예가 제공되며 출력은 분류기를 포함하는 클래스를 예측할 것으로 예상됩니다. 각 예는 어떤 클래스에 속하는 속성(속성)의 다차원 공간에서 점으로 표현됩니다. 각 속성은 고정 세트에서 연속 값 또는 이산 값을 취합니다. 예를 들어 가장 가능성이 높은 클래스가 반환됩니다.

k-최근접 이웃 알고리즘의 개별 기능은 해당 클래스에 속하는 예제의 사후 확률을 결정하는 방법입니다.

여기서 인수가 같으면 1을 반환하고 그렇지 않으면 0을 반환하며 다음과 같이 정의된 근접 함수입니다.

a - 알려진 훈련 예제 세트에서 k개의 최근접 이웃 세트, 분류된 예제에 대한 근접성은 거리 함수에 의해 결정됩니다. k-최근접 이웃 방법은 다음 공식을 사용하여 에서 각각까지의 거리를 계산합니다.

또한 r = 2가 가장 많이 사용되며(Euclidean space) 속성의 유형에 따라 다음과 같이 함수를 정의합니다.

w(f)는 f 속성의 가중치 함수입니다. 순수 k-최근접 이웃 알고리즘에서:

즉, 이 함수는 상수로 간주됩니다.

최근접 이웃 방법은 k = 1에 대한 k-최근접 이웃 방법의 특수한 경우입니다. Lazy-Learning과 같은 더 복잡한 알고리즘은 동일한 일반화된 알고리즘 [,,]을 기반으로 하지만 클래스에 속하는 예제의 사후 확률을 다른 방식으로 결정하거나(예: Nested Generalized Exemplars Algoritm) 계산을 복잡하게 합니다. 함수 w(f).

이 방법 그룹의 특징은 새 개체(예제)와 알려진 예를 명시적으로 비교하여 알 수 없는 값의 예측이 수행된다는 것입니다. 많은 수의 훈련 예제의 경우, 각각의 새로운 예제를 분류하기 위해 전체 훈련 세트를 순차적으로 스캔하지 않기 위해 때때로 훈련 예제의 "전형적인 대표자"의 비교적 작은 하위 집합의 샘플링이 사용됩니다. 분류가 수행되는 비교. 그러나 이 기술은 일부 필수 규칙이 선택한 하위 집합에 반영되지 않을 수 있으므로 어느 정도 주의하여 사용해야 합니다.

이 그룹의 가장 유명한 대표자인 k-최근접 이웃 방법은 객체의 속성이 주로 숫자인 주제 영역에 더 적합합니다. 개별 속성.

4.3.2. 정형화된 패턴의 식별 및 사용

이 그룹의 방법은 데이터 집합에서 공통 종속성을 추출한 다음 실제로 적용할 수 있도록 합니다. 그것들은 서로 다릅니다:

  • 검색된 정보 유형별(해결 중인 문제에 따라 결정됨 - 위의 IAD 작업 분류 참조)
  • 발견된 패턴이 제시되는 방식으로.

패턴을 표현하기 위해 선택된 형식주의를 통해 세 가지 다른 접근 방식을 구별할 수 있으며, 각각은 수학의 해당 섹션에 뿌리를 두고 있습니다.

  • 교차표 방법;
  • 논리적 귀납법;
  • 방정식 유도 방법.

부울 메서드는 숫자 및 다른 유형의 속성 모두에 사용할 수 있다는 점에서 가장 다재다능합니다. 방정식을 구성하려면 모든 속성을 숫자 형식으로 변환해야 하는 반면, 교차표에서는 각 숫자 속성을 이산 간격 집합으로 변환해야 합니다.

교차표 방법

교차표는 OLAP(온라인 분석 처리) 보고에 널리 사용되는 간단한 분석 형식입니다. 2차원 크로스탭은 각 셀이 특성 값의 교차점에 있는 값의 행렬입니다. 교차 테이블 표현의 아이디어를 하이퍼 큐빅의 경우로 확장 정보 모델이미 언급했듯이 다변수 데이터 분석의 기초이므로 이 방법 그룹은 다변수 운영 분석과 데이터 마이닝의 공생으로 간주될 수 있습니다.

교차 테이블 시각화는 교차 테이블 방법을 사용하여 데이터에서 정보를 찾는 아이디어의 가장 간단한 구현입니다. 엄밀히 말하면, 이 방법은 IAD의 언급된 속성, 즉 자유 검색 단계에서 이니셔티브를 시스템으로 전환하는 것과 완전히 일치하지 않습니다. 실제로 교차 테이블 형식 렌더링은 OLAP 기능의 일부입니다. 여기서 시스템은 분석가가 패턴을 볼 수 있는 지표 매트릭스만 제공합니다. 그러나 이러한 크로스탭의 제공 자체가 의사결정 지원을 위한 데이터에서 "정보 패턴"을 검색하기 위한 것, 즉 IAD의 위 정의를 만족시키는 것입니다. 따라서 많은 저자 [,,]가 여전히 교차 테이블 시각화를 IAD 방법으로 분류하는 것은 우연이 아닙니다.

교차표 그룹의 IAD 방법에는 확률 이론의 베이지안 정리를 기반으로 하는 베이지안 네트워크의 사용도 포함됩니다.

베이지안 네트워크는 전문가 시스템에서 전문가의 지식을 공식화하는 데 적극적으로 사용되었지만 최근에는 데이터에서 지식을 추출하기 위해 IAD에서 사용되기 시작했습니다.

트리를 프루닝(pruning)한 후, 다양한 터미널 노드는 다른 레벨에 있습니다. 즉, 트리의 상위 레벨에 있는 터미널 노드에 도달하기 위해 많은 속성의 값은 전혀 고려되지 않습니다. 따라서 의사결정 트리를 작성할 때 특성이 의사결정 노드에서 테스트되는 순서가 중요합니다.

많은 규칙 유도 알고리즘이 구축되는 분리 및 정복 전략과 반대되는 의사결정 트리 유도 알고리즘에 사용되는 전략을 분할 정복 전략이라고 합니다. Quinlan은 다음과 같은 분할 및 캡처 알고리즘을 설명했습니다.

많은 속성;
- 속성의 가능한 값 세트 (따라서, 의사 결정 트리를 구성하기 위한 연속 속성 정의 영역도 유한한 간격 집합으로 분할되어야 합니다).

Quinlan은 다음과 같이 E-점수를 계산할 것을 제안했습니다. 현재 노드에 대해 다음을 수행합니다.

긍정적인 예의 수;
- 부정적인 예의 수;
- 에 대한 값을 갖는 긍정적인 예의 수;
- 에 대한 값을 갖는 음수 예의 수.

E-점수는 엔트로피를 기반으로 하는 정보 이론적인 측정입니다. 해당 속성이 결정 노드에서 사용될 때 발생하는 분류 불확실성의 양을 보여줍니다. 따라서 E-score가 가장 낮은 속성이 가장 큰 분류력을 갖는 것으로 간주됩니다. 그러나 고려된 방식으로 정의된 E-estimate에는 단점도 있습니다. 많은 분량가치. 따라서 일부 연구[,]에서는 이러한 단점을 제거하는 E-estimate의 수정이 제안됩니다.

새로운 예를 분류할 때 예측 정확도를 높이기 위한 의사결정 트리 프루닝은 일반적으로 구성된 전체 트리에 대해 수행됩니다. 즉, 진행 절차를 수행합니다. 아래에서 위로 이동하면서 지정된 휴리스틱 측정이 최적화될 때까지 결정 노드를 터미널 노드가 있는 해당 하위 트리로 교체합니다.

규칙의 도입

결정 트리의 인기는 구축 속도와 분류 사용 용이성에서 비롯됩니다. 또한 루트에서 터미널 정점까지의 각 경로에서 하나의 규칙을 생성하여 결정 트리를 기호 규칙 집합으로 쉽게 변환할 수 있습니다. 그러나 결정 트리에서 각 예는 하나의 터미널 노드에만 할당될 수 있기 때문에 이러한 집합의 규칙은 겹치지 않습니다. 더 일반적이고 더 현실적인 것은 비계층적 중첩 기호 규칙 집합으로 구성된 이론이 존재하는 경우입니다. 이러한 규칙 집합의 유도를 위한 알고리즘의 상당 부분은 R. Michalski [,]의 작업으로 시작된 분리 및 캡처(separate-and-conquer) 또는 덮는 전략에 의해 결합됩니다. 분리 및 포획이라는 용어는 Pagallo와 Haussler에 의해 만들어졌으며, 이 유도 전략을 다음과 같이 특징지었습니다.

  • 훈련 세트의 일부를 다루는 규칙을 생성합니다.
  • 훈련 세트(분기)에서 규칙이 적용되는 예제를 제거합니다.
  • 모든 예제가 설명될 때까지 나머지 예제(캡처) 그룹을 다루는 다른 규칙을 순차적으로 학습합니다.

쌀. 도 5는 분리 및 포획 방법에 의한 규칙 유도를 위한 일반적인 알고리즘을 나타낸다. 일반 알고리즘에서 호출되는 서브루틴의 다양한 구현은 알려진 다양한 분리 및 캡처 방법을 결정합니다.


쌀. 5. 규칙 유도를 위한 분리 및 캡처의 일반 알고리즘.

SEPARATEANDCONQUER 알고리즘은 빈 이론으로 시작합니다. 훈련 세트에 긍정적인 예가 있는 경우 서브루틴 FINDBESTRULE이 호출되어 긍정적인 예 중 일부를 다루는 규칙을 검색합니다. 그런 다음 포함된 모든 예제가 훈련 세트에서 분리되고 생성된 규칙이 이론에 포함되고 나머지 예제에서 다음 규칙이 검색됩니다. 긍정적인 예가 없거나 중지 기준 RULESTOPPINGCRITERION이 충족될 때까지 규칙이 검색됩니다. 종종 결과 이론은 POSTPROCESS에 의해 후처리됩니다.

FINDBESTRULE 프로시저는 EVALUATERULE에 설명된 선택된 품질 기준을 최적화하는 규칙에 대한 가설 공간을 검색합니다. 일반적으로 이 휴리스틱 함수의 값은 높을수록 후보 규칙에 포함되는 긍정적인 사례가 많고 부정적인 사례가 적습니다. FINDBESTRULE은 INITIALIZERULE 프로시저에 의해 생성된 후보 규칙의 정렬된 목록인 규칙을 처리합니다.

새 규칙은 항상 올바른 위치(INSERTSORT)에 삽입되므로 규칙은 항상 발견적 규칙 점수의 내림차순으로 목록을 유지합니다. 각 루프에서 SELECTCANDIDATES는 후보 규칙의 하위 집합을 선택한 다음 REFINERULE로 지워집니다. 각 정리 결과는 STOPPINGCRITERION이 방지하지 않는 한 평가되고 정렬된 규칙 목록에 삽입됩니다. NewRule 점수가 이전에 찾은 최상의 규칙보다 좋은 경우 NewRule 값이 BestRule 변수에 할당됩니다. FILTERRULES는 추가 반복에 사용하기 위해 순서가 지정된 규칙 목록의 하위 집합을 선택합니다. 모든 신청자 규칙이 처리되면 최상의 규칙이 반환됩니다.

규칙 유도 알고리즘이 직면한 주요 문제는 잡음이 있는 데이터를 사용할 때 과적합을 피하는 것입니다. 분리 및 캡처 알고리즘의 과적합 방지 도구는 노이즈를 처리할 수 있습니다.

의사결정나무의 가능성과 규칙의 유도 비교

동일한 문제를 해결하는 방법인 규칙 유도 및 의사 결정 트리는 기능이 크게 다릅니다. 의사결정 트리의 광범위한 사용에도 불구하고 [,,]에 언급된 여러 가지 이유로 규칙의 유도가 선호되는 접근 방식인 것 같습니다.

반면에 규칙 유도는 의사 결정 트리 유도보다 훨씬 더 복잡하고 느린 알고리즘에 의해 수행됩니다. Furnkranz가 주목한 가지치기 결정 트리의 단순성과 대조적으로 구성된 이론의 단순화에는 특히 큰 어려움이 있습니다. (그림 6).


쌀. 6. 훈련 알고리즘의 진행성
(a) 분리 및 포획 (b) 분리 및 포획

쌀. 도 6(a)는 의사결정나무 유도의 감소 작업을 예시한다. 지나치게 복잡한 트리의 오른쪽 절반은 훈련 예제의 집합 C와 D로 덮여 있습니다. 단순화 알고리즘이 이 두 터미널 꼭짓점을 잘라내기로 결정하면 시작 노드가 터미널 노드가 되며 이제 예제에서 다룹니다. 의사결정 트리의 왼쪽 분기는 이 작업의 영향을 받지 않습니다.

반면에 규칙에서 조건을 제거한다는 것은 일반화를 의미합니다. 즉, 새로운 형태로 더 긍정적이고 더 부정적인 예를 다룰 것입니다. 따라서 이러한 추가 긍정 및 부정 예는 후속 규칙의 유도에 영향을 미치지 않도록 훈련 세트에서 제외되어야 합니다. 그림의 경우 6(b) 세 가지 규칙 중 첫 번째 규칙은 단순화되어 원래 버전에서 다루는 예제뿐만 아니라 세 번째 규칙에서 다루는 모든 예제와 두 번째 규칙에서 다루는 일부 예제를 다루기 시작합니다. 세 번째 규칙이 증분 알고리즘에 의해 간단히 제거될 수 있다면 나머지 B2 예제 세트의 상황은 그렇게 간단하지 않습니다. 두 번째 규칙은 집합 B의 예를 포함하기 위해 생성되었기 때문에 당연히 집합 B2의 모든 예를 포함하지만 B2의 긍정적인 예를 나머지 부정적인 예. 이러한 상황을 올바르게 처리하려면 사전 용서 및 발전 프로세스의 긴밀한 통합이 필요하며, 이는 규칙 유도 알고리즘을 상당히 복잡하게 만들고 성능을 저하시킵니다.

따라서 비교를 바탕으로 유도의 단순성과 속도로 인해 초기 정보가 적은 단순한 문제에서 의사 결정 트리의 구성이 정당화된다는 결론을 내릴 수 있습니다. 그러나 스토리지에 축적된 많은 양의 데이터를 분석할 때 상대적인 복잡성에도 불구하고 규칙 유도 방법을 사용하는 것이 좋습니다.

방정식 유도 방법

방정식 유도 방법은 데이터에 숨겨진 패턴을 수학적 표현의 형태로 표현하려고 합니다. 따라서 숫자 유형의 속성으로만 작업할 수 있는 반면 다른 속성은 숫자 값으로 인위적으로 인코딩해야 합니다. 이것은 실제로 이러한 방법의 사용을 제한하는 몇 가지 문제로 이어집니다. 그러나 그들은 많은 응용 분야에서 널리 사용됩니다.

통계

고전적인 통계 분석 방법은 예측 문제를 해결하기 위해 IAD 도구에서 가장 자주 사용됩니다.

  1. 시계열의 추세를 보여줍니다. 평균 수준의 추세는 그래프 또는 분석 함수의 형태로 나타낼 수 있으며, 그 값을 중심으로 연구 중인 프로세스 수준의 실제 값이 다양합니다. 중간 수준의 경향은 종종 프로세스의 결정론적 구성 요소라고 하며 해당 동적 계열은 방정식으로 표현됩니다. , 여기서 는 시간 t에서 계열의 수준이고 는 계열의 결정적 구성 요소이고 는 랜덤 구성 요소입니다. 결정론적 구성 요소는 일반적으로 선형, 포물선, 쌍곡선, 지수와 같은 상당히 간단한 분석 기능으로 표현되며, 이 함수의 매개변수는 과거 데이터에 더 근접하도록 과거 데이터에 따라 선택됩니다.
  2. 고조파 분석. 많은 경우에 추세 결정을 사용하여 일련의 역학을 평활화하면 잔차에서 자기 상관이 관찰되기 때문에 만족스러운 결과를 얻지 못합니다. 잔차의 자기상관에 대한 이유는 일련의 역학에서 종종 발견되는 선택된 추세와 관련하여 눈에 띄는 주기적 변동일 수 있습니다. 그러한 경우, 고조파 분석, 즉 동적 계열에서 주기 성분을 분리해야 합니다. 동적 계열에서 추세와 주기 구성 요소를 분리한 결과를 기반으로 추세 및 변동의 매개 변수가 예측에 대해 유지된다는 가정 하에 외삽 원리에 따라 프로세스의 통계적 예측을 수행할 수 있습니다. 기간 [, P. 304].
  3. 상관 관계 및 회귀 분석. 기능적 (엄밀하게 결정된) 관계와 달리 변수 사이의 통계적 (확률적으로 결정된) 관계는 변수 중 하나의 값이 변경되면 두 번째가 특정 제한 내에서 특정 확률로 모든 값을 취할 수 있을 때 발생합니다 , 그러나 그 평균값이나 기타 통계적 특성은 일정한 법칙에 따라 변한다[, S. 191-192]. 한 변수의 다른 값이 다른 변수의 다른 평균 값에 해당하는 통계적 관계의 특별한 경우는 상관 관계입니다. 상관 관계의 본질에 따라 그 연구는 두 가지 목표를 가지고 있습니다.
    1) 종속 변수의 평균 값과 독립 변수의 값 사이의 관계를 표현하는 방정식의 매개 변수 측정 (유효 지표의 평균 값의 값에 대한 의존성 요인 지표);
    2) 그들 사이의 표지판 연결의 견고성 측정 [, S. 195-196].
    상관-회귀 분석 방법은 잘 연구되고[, 19, 29] 실제로 널리 사용됩니다. 그러나 다음과 같은 몇 가지 제한 사항이 있습니다.
    1) 충분한 정확성과 신뢰성을 보장하기 위해 관측 횟수는 요인 수보다 수십 배 또는 수백 배 커야 하며, 따라서 큰 수의 법칙이 완전한 효력을 발휘하여 정규 편차의 무작위 편차를 효과적으로 상호 제거할 수 있습니다. 기호 관계의 본질;
    2) 평균의 관점에서 규칙성을 안정적으로 표현하려면 상관 매개변수가 왜곡되지 않도록 모집단의 고품질 동질성이 필요합니다. 또한 때로는 상관 분석의 조건으로 유효 및 요인 특성에 의한 모집단 분포를 확률 분포의 정규 법칙에 종속시킬 필요성을 제시합니다 (이 조건은 최소 제곱 방법의 사용과 관련이 있습니다. 상관 매개 변수를 계산할 때 - 정규 분포를 통해서만 최대 가능성의 원칙을 충족하는 매개 변수의 추정치를 제공합니다), 실제로는 이 전제를 대략적으로 충족하더라도 최소 제곱 방법이 좋은 결과를 제공합니다 [, 14페이지];
    3) 상관-회귀 분석의 방법은 효과적인 특성 생성에서 요인 특성의 역할을 설명할 수 없습니다[, p. 198].
    4) 상관 지표는 유효 및 요인 특성의 변동 측면에서만 해석되어야 합니다. 작업이 시간에 따라 개체의 특성 변화 간의 관계를 측정하는 것이라면 상관 관계 회귀 분석 방법에는 상당한 변화가 필요합니다(동역학 계열의 상관 관계에 대한 연구가 필요함) [; S. 307-313].
    분석 결과로 얻은 상관 회귀 모델(CRM)은 일반적으로 상당히 잘 해석되며 예측 모델링에 사용할 수 있습니다. 그러나 앞서 언급했듯이 통계 분야에 대한 깊은 지식 없이는 이러한 유형의 분석을 적용하는 것이 불가능합니다. 분석가의 이론 교육은 여기서 특히 중요한 역할을 하므로 데이터 처리 도구 중 하나로 상관 회귀 분석 방법을 제공하는 기존 IAD 도구는 거의 없습니다.
  4. 일련의 역학 관계. 인과관계를 시간적으로 연구하는 문제는 매우 어렵고, 완전한 솔루션그러한 연구의 모든 문제는 아직 개발되지 않았습니다[, P. 307]. 주요 어려움은 충분히 오랜 기간 동안 추세가 있는 경우 대부분의 편차 제곱합이 추세와 관련되어 있다는 것입니다. 동시에 두 징후가 수준의 변화 방향이 같은 경향이 있다면 이것은 인과 관계를 전혀 의미하지 않습니다. 따라서 실제 상관 관계 지표를 얻으려면 추세의 왜곡된 영향을 추상화하여 추세와의 편차를 계산하고 변동의 상관 관계를 측정해야 합니다(이 전체 작업은 이 접근 방식에 대한 자세한 고려 사항에 전념합니다). 그러나 변동 사이의 관계의 견고성에 대한 결론을 전체 역학 관계의 관계로 이전하는 것이 항상 허용되는 것은 아닙니다([, P. 312]에 제공된 예에 따르면, 여름에 내린 강수량의 변동과 수확량의 변동 사이에 차이가 있지만 생산량과 비료의 양의 관계는 변동의 상관 관계로만 축소될 수 없습니다).

신경망

인공의 신경망정보 처리 수단으로서 생물학적 신경망의 잘 알려진 기능 원리와 유사하게 모델링되었습니다. 그들의 구조는 다음과 같은 가정을 기반으로 합니다[, P. 3]:

  • 정보 처리는 다양한 간단한 요소 - 뉴런에서 수행됩니다.
  • 뉴런 사이의 신호는 출력에서 ​​입력으로의 연결을 통해 전송됩니다.
  • 각 링크는 그것을 통해 전송된 신호가 곱해지는 가중치로 특징지어집니다.
  • 각 뉴런은 활성화 함수(보통 비선형)를 가지며, 그 인수는 가중치가 부여된 입력 신호의 합으로 계산되고 결과는 출력 신호로 간주됩니다.

따라서 신경망은 연결된 노드의 모음이며, 각 노드에는 입력, 출력 및 활성화 함수(일반적으로 비선형)가 있습니다(그림 7). 그들은 알려진 훈련 세트 예제 세트에서 학습할 수 있는 능력이 있습니다. 훈련된 신경망은 분류, 클러스터링 및 예측 문제에 적용할 수 있는 "블랙 박스"(처리하기 어렵거나 해석하기 매우 어려운 예측 모델)입니다.


쌀. 7. 활성화 기능 F를 갖는 뉴런; .

신경망 훈련은 일부 뉴런의 출력을 다른 뉴런의 입력과 연결하는 가중치를 조정하는 것으로 구성됩니다. 네트워크 교육은 두 가지 기본 시나리오 중 하나에 따라 수행할 수 있습니다.

대부분의 경우 IAD 도구는 "교사와 함께" 훈련된 특수한 유형의 신경망인 다층 퍼셉트론을 사용합니다[, pp. 54-55]. 그림에서. 도 8은 3개의 입력 변수와 3개의 출력 변수(일반적으로 입력 수, 출력 수, 레이어 수 및 각 내부 레이어의 뉴런 수는 아무것). 이전 계층의 각 뉴런의 출력은 다음 계층의 각 뉴런의 입력에 연결됩니다.


쌀. 8. 오류 역전파 절차에 의해 훈련된 다층 퍼셉트론.

다층 퍼셉트론의 가중치 조정은 오류 역전파 알고리즘[, pp. 56-69]에 의해 수행됩니다. 훈련하는 동안 각 입력 벡터(입력 집합)에 대해 짝을 이루는 대상 벡터(출력 집합)가 있고 함께 훈련 쌍을 형성한다고 가정합니다(예). 훈련을 시작하기 전에 모든 가중치는 무작위로 선택된 작은 초기 값을 할당하여 훈련이 불가능한 병리학적 사례를 극복해야 합니다. 훈련 쌍의 전체 세트는 훈련 세트를 구성합니다. 네트워크 교육에는 다음 작업이 필요합니다.

  1. 훈련 세트에서 훈련 쌍을 선택하십시오.
  2. 훈련 쌍의 입력 벡터를 네트워크의 입력에 제출합니다.
  3. 네트워크 출력을 계산합니다.
  4. 네트워크 출력과 훈련 쌍의 목표 벡터 간의 차이를 계산합니다.
  5. 오류를 최소화하기 위해 네트워크 가중치를 조정합니다.
  6. 전체 세트의 오류가 허용 가능한 수준에 도달할 때까지 훈련 세트의 각 쌍에 대해 1-5단계를 반복합니다.

역전파 방법은 4단계와 5단계에서 출력 계층부터 시작하여 계층별로 학습됩니다.

"보편적 근사기"이기 때문에 퍼셉트론은 근사 함수의 형태가 제한된 가능한 집합에서 선택되는 회귀 모델과 달리 다소 복잡한 패턴을 학습할 수 있습니다. 그러나 이러한 유연성에는 단점이 있습니다. 생성된 예측 모델의 자유도 수가 훈련에 사용되는 예제 수를 초과하는 경우가 많습니다. 이는 신경망이 생성된 난수 배열에서도 "학습"할 수 있음을 의미합니다. 실제로 주어진 주식 시장 분석을 위한 테스트 문제를 해결하기 위해 신경망을 사용하는 것이 보여주듯이 과거의 모든 시장 변동을 완벽하게 설명하지만 미래에 대한 합리적인 예측을 제공하지는 않습니다. 훈련된 네트워크의 예측 정확도 향상은 신경망 훈련을 위해 훈련 세트의 일부만 사용하여 달성할 수 있으며 나머지 예제는 알려지지 않은 데이터에 대해 생성된 모델의 적절성을 확인하는 데 사용됩니다. 동시에 자유도의 수를 줄이기 위해 가능한 가장 복잡한 구성으로 네트워크를 훈련시켜야 합니다.

신경망을 IAD 도구로 사용하는 것을 제한하는 많은 다른 단점이 있습니다.

신경망 훈련의 주요 문제는 주어진 훈련 세트에서 학습할 수 있는 네트워크 구조의 합성입니다. 특정 구조의 네트워크를 학습하는 프로세스가 허용 가능한 오류 임계값에 도달하지 않고 멈추지 않거나 로컬 최소값에 떨어지지 않는다는 보장은 없습니다. 다층 네트워크는 기능을 분류하고 근사하는 데 널리 사용되지만 구조적 매개변수는 여전히 시행착오를 거쳐 결정해야 합니다. 결론에 따르면, 기존의 이론적 결과는 실제 적용에서 이러한 매개변수의 선택에 대한 약한 지침만을 제공합니다.

따라서 IAD를 위한 다소 강력하고 유연한 도구인 신경망은 주의해서 사용해야 하며 엔터프라이즈 데이터 마이닝이 필요한 모든 문제에 적합하지 않습니다.

4.3.3. 결론

이 검토에서 볼 수 있듯이 고려된 방법 중 어느 것도 데이터 웨어하우스 콘텐츠의 지적 분석을 기반으로 관리 결정을 내리는 데 지원을 제공하는 모든 작업을 다룰 수 없습니다. 그러나 시장에 나와 있는 대부분의 기존 마이닝 시스템은 하나 또는 세 가지 방법을 구현합니다(예: Pilot Software Inc.의 Pilot Discovery Server 및 Information Harvester Corp.의 Information Harvester - 의사 결정 트리만, Information Discovery Inc.의 Idis - 의사 결정 트리 및 규칙 유도, 사고 기계의 Darwin - 신경망, 의사 결정 트리 및 데이터 시각화, Silicon Graphics의 MineSet - 의사 결정 트리, 연관 규칙 유도 및 데이터 시각화) 따라서 실제 응용 프로그램에서 많은 수의 중요한 패턴을 잃지 않기 위해 일반적으로 여러 가지 도구를 사용하십시오. 또한 많은 도구는 데이터 웨어하우스와의 직접적인 작업을 허용하지 않아 초기 분석 데이터를 고정 구조의 플랫 파일 형태로 사전 준비해야 하므로 실제 사용이 복잡합니다.

5. OLAP와 IAD의 상보성

온라인 분석 처리 및 데이터 마이닝은 의사 결정 지원 프로세스의 두 부분입니다. 그러나 오늘날 대부분의 OLAP 시스템은 다차원 데이터에 대한 액세스 제공에만 중점을 두고 있으며 패턴 분야에서 작동하는 대부분의 IAD 도구는 1차원 데이터 관점을 다룹니다. 이 두 가지 유형의 분석은 밀접하게 결합되어야 합니다. 즉, OLAP 시스템은 액세스뿐만 아니라 패턴 찾기에도 중점을 두어야 합니다.


쌀. 9. 다차원 데이터 마이닝 시스템의 아키텍처.

기업 정보 및 분석 시스템을 구축하는 이상적인 목표는 폐쇄 루프 DSS를 만드는 것입니다. N. Raden이 언급한 바와 같이 "많은 기업이 ... 우수한 데이터 저장소를 생성하여 선반에 있는 사용하지 않는 정보를 이상적으로 분류하여 시장 이벤트에 신속하거나 충분히 유능한 대응을 제공하지 않습니다"[, p. 39 ]. 상황이 매일 바뀌는 특히 역동적인 영역(예: 소매 거래)에서는 기존 OLAP 및 IAD 도구를 사용하더라도 적시에 유능한 결정을 채택할 수 없습니다. 그것들은 서로 결합되어야 하고 다음을 가지고 있어야 합니다. 피드백 DSS 운영 결과가 제어 조치의 형태로 운영 시스템에 즉시 전송되도록 초기 데이터 처리 시스템에 전달합니다. 따라서 미국 최대 소매업체인 월마트는 폐쇄 루프 DSS를 개발하고 있습니다.)

관련 기사: