큰 데이터를 분석하는 방법 큰 데이터. 현대 세계에서 큰 데이터

(말 그대로 - 빅 데이터)? 우리가 먼저 옥스포드 사전으로 바꾸게하십시오.

데이터 - 컴퓨터를 작동시키고 전기 신호 형태로 저장되고 전송 될 수있는 값, 표지판 또는 기호는 자기, 광학 또는 기계 매체에 기록됩니다.

기간 빅 데이터. 데이터 세트 시간을 사용하여 기하 급수적으로 크고 성장하는 데 사용됩니다. 이러한 많은 데이터를 처리하려면 기계 학습 없이는하지 마십시오.

빅 데이터가 제공하는 이점 :

다른 출처의 데이터 수집.
실시간 분석을 통해 비즈니스 프로세스 개선.
엄청난 양의 데이터를 저장합니다.
통찰력. 큰 데이터는 구조화되고 반 구조화 된 데이터를 사용하여 숨겨진 정보에 더 지각됩니다.
큰 데이터는 위험을 줄이고 적절한 위험 분석으로 인해 스마트 솔루션을 만듭니다.

큰 데이터의 예.

뉴욕 증권 거래소 일일 생성 1 테라 바이트 과거 세션을 통해 거래하는 데이터.

소셜 미디어: 통계가베이스에서 밝혀졌습니다 facebook 데이터 일일 다운로드 500 테라 바이트 새로운 데이터는 소셜 네트워크 서버, 메시징, 게시물 아래의 메시징의 사진 다운로드 및 비디오로 인해 주로 생성됩니다.

제트 엔진 생산 10 테라 바이트 비행 중 30 분마다 데이터. 수천 개의 항공편이 매일 수행되므로 데이터의 양이 PetaBytes에 도달합니다.

분류 큰 데이터.

큰 데이터 형식 :

구조화 된 것
구조화되지 않은
세미 구조화

구조화 된 양식

저장할 수있는 데이터를 고정 형식으로 사용할 수있는 데이터를 구조화 된 형식으로 셰이프로 사용할 수 있습니다. 오랜 시간 동안 컴퓨터 과학은이 유형의 데이터 (형식가 사전에 알려진 경우)와 함께 일하는 기술자가 기술자를 개선하는 데 큰 성공을 거두었습니다. 그러나 오늘날에는 여러 Zeettabites의 범위에서 측정 된 크기에 대한 볼륨이 증가하는 것과 관련된 문제가 있습니다.

1 Zettabyte는 10 억 테라 바이트에 해당합니다

이 숫자를보고, 대기업의 진실성과 그러한 데이터의 가공 및 저장과 함께 접합성의 어려움을 쉽게 확인할 수 있습니다.

관계형 기반에 저장된 데이터는 구성되어 있으며 형식을 갖습니다. 예를 들어 회사 직원 테이블

구조화 된 형태

알 수없는 구조의 데이터는 구조화되지 않은 것으로 분류됩니다. 큰 크기 외에도이 양식은 가공 및 추출에 대한 여러 가지 어려움을 특징으로합니다. 유용한 정보...에 구조화되지 않은 데이터의 전형적인 예는 간단한 텍스트 파일, 그림 및 비디오의 조합을 포함하는 이기종 소스입니다. 오늘날 조직은 원시 또는 구조화되지 않은 데이터의 대량의 양에 액세스 할 수 있지만 이익을 얻는 방법을 모릅니다.

반 구조 양식

이 카테고리는 위에서 설명한 두 구조화 된 데이터가 일부 형식을 가지고 있지만 실제로는 관계형 기지의 테이블을 사용하여 정의되지 않습니다. 이 범주의 예는 XML 파일에 표시된 개인 데이터입니다.

Prashant Rao.남성.35 SeaMa R.여자41 Satish Mane.남성.29 서브 라토 로이.남성.26 예레미야 J.남성.35

특성 큰 데이터.

시간이있는 성장 큰 데이터 :

파란색은 관계형 기지에 저장된 구조화 된 데이터 (엔터프라이즈 데이터)를 제시했습니다. 다른 색상은 다른 소스 (IP 텔레포니, 장치 및 센서, 소셜 네트워크 및 웹 응용 프로그램)의 비정형 데이터입니다.

Gartner에 따라 큰 데이터가 볼륨, 생성 속도, 다양성 및 가변성이 다릅니다. 이러한 특성을보다 자세하게 생각해보십시오.

음량...에 그 자체로 큰 데이터라는 용어는 큰 크기와 관련이 있습니다. 가능한 복구 가능한 값을 결정할 때 데이터 크기가 가장 중요한 지표입니다. 매일 600 만 명이 예비 추정치가 2.5 Quintillion 데이터 바이트를 생성하는 디지털 미디어를 사용합니다. 따라서 볼륨은 처음으로 특성을 고려합니다.
상이 - 다음 과목. 그것은 이질적인 소스와 데이터의 특성을 나타내며, 이는 구조화되고 구조화되지 않습니다. 이전에는 스프레드 시트 및 데이터베이스가 대부분의 응용 프로그램에서 고려되는 유일한 정보 소스였습니다. 오늘날 이메일, 사진, 비디오, PDF 파일, 오디오의 형태로 데이터는 분석 응용 프로그램에서도 고려됩니다. 이러한 다양한 구조화되지 않은 데이터는 스토리지, 광업 및 분석에서 문제가 발생합니다. 27 %의 기업의 27 %는 적절한 데이터로 작동하지 않습니다.
생성 속도...에 요구 사항을 충족시키기 위해 데이터가 누적되고 처리되는 방법은 잠재력을 결정합니다. 속도는 비즈니스 프로세스, 응용 프로그램 로그, 소셜 네트워킹 사이트 및 미디어, 센서, 모바일 장치의 소스 정보의 유입 속도를 결정합니다. 데이터의 흐름은 시간이 지속적이고 연속적입니다.
가변성 처리 및 관리를 복잡하게하는 몇 가지 시점에서 데이터의 불균형을 설명합니다. 예를 들어, 대부분의 데이터는 본질적으로 구조화되지 않습니다.

빅 데이터 분석 : 큰 데이터의 이점은 무엇입니까?

상품 및 서비스의 홍보: Facebook 및 Twitter와 같은 검색 엔진 및 사이트의 데이터에 대한 액세스는 기업이 마케팅 전략을보다 정확하게 개발할 수 있습니다.

구매자를위한 서비스 개선: 전통적인 구매자의 피드백 시스템은 큰 데이터와 자연 언어의 처리가 고객의 검토를 읽고 평가하는 데 사용되는 새로운 것으로 대체됩니다.

위험 계산신제품 또는 서비스의 출시와 관련이 있습니다.

운영 효율성: 빅 데이터는 필요한 정보를 빠르게 제거하고 즉시 정확한 결과를 제공하도록 구성됩니다. 이러한 빅 데이터 기술 및 저장소의 조합은 조직이 거의 사용되지 않는 정보를 사용하여 작업을 최적화하는 데 도움이됩니다.

Volkova Julia Sergeevna, 4 년 학생, 러시아 연방 정부하에있는 금융 대학, Kaluga Branch, Kaluga [이메일 보호]

현대 세계에서 큰 데이터

주석.이 예술은 현대 사회에서 대규모 데이터 기술의 도입에 전념하고 있습니다. 대규모 데이터의 주요 특성을 조사하였고, 은행 구, 소매, 사생활 및 공공 부문과 같은 주요 애플리케이션 및 일상 생활조차도 고려됩니다. 이 연구는 대규모 데이터 기술 사용의 단점을 보여주었습니다. 대용량 데이터 사용의 규범 적 규제를 개발할 필요가 있습니다. 환영 단어 : 대형 데이터, 은행, 은행 구, 소매, 민간 부문, 공공 부문.

자금 조사의 정도로서, 정보 기술은 현대 사회의 다양한 방향이 증가하고 엄청난 양의 데이터를 제안하는 헌신적 인 작업의 적응력에 대한 요구 사항을 증가시키고있다. 구조화 된 데이터, 미디어 및 임의의 객체를 포함하여 전통적인 방법으로 처리 할 수없는 정보가 있습니다. 그리고 현재 기존 기술에 대한 첫 번째 기존 기술 분석이 기존 기술에 대처하면 두 번째와 세 번째의 분석은 거의 남아 있습니다. 연구에 따르면 비디오 감시 결과, 공중 사진, 디지털 의료 정보 및 수많은 아카이브 및 구름에 저장된 임의의 물체와 같은 미디어 언어의 볼륨이 올해의 해를 증가시킵니다. 데이터의 양은 전역 프로세스가되어 수신되었습니다. 큰 데이터의 정의. 대규모 데이터의 연구는 외국과 러시아 과학자 모두의 작품에 전념합니다 : James Manyika, Michael Chui, Topuorkov V.V., Buduzko V.I. 이 기술 연구에서 실질적인 스토리지는 McKinsey & Company, Cnews Analytics, SAP, Oracle, IBM, Microsoft, Teradata 및 기타와 같은 주요 세계 기업이 이루어집니다. 데이터의 Oni-by-making 프로세싱 및 분석 및 대용량 데이터를 기반으로 장비에 대한 프로그램을 만듭니다. McKinsey Institute Report : "큰 데이터는 데이터 세트이며, 그 크기는 일반 데이터베이스의 전형적인 데이터베이스의 기능을 넘어서는 크기입니다. 캡처, 저장, 관리 및 데이터 분석을위한 소프트웨어 도구. " 본질적으로 대규모 데이터의 개념은 작업의 효율성을 높이고 새로운 제품을 만들고 경쟁력을 높이기 위해 거대한 볼륨의 정보와 다양한 소스에 끊임없이 업데이트되고 다양한 조성을 끊임없이 업데이트하고 위치합니다. 컨설팅 회사 Forrester는 "실용성의 극단적 인 제한에 따라 데이터의 의미를 제거하는 빅 데이터 메소드 및 기술"을 제공합니다. 오늘날 가장 큰 데이터 섹터는 다음 표지판을 특징으로합니다 : 볼륨 볼륨, 누적 된 데이터베이스는 많은 양의 정보입니다. .clocity-speed,이 기능은 데이터 축적 속도가 증가하는 비율 (정보의 90 %가 수집되었는지) .Variety-Diversity, I.E.e. 구조화되지 않은 분산 정보로 구성된 동시 가공 가능성. 마케터들 중 전문가들은 "V"를 추가하는 것을 좋아했습니다. KTOTO는 신뢰성 (Veracity)에 대해 더 많이 말합니다. 다른 사람들은 대규모 데이터 기술이 분명히 비즈니스 (가치)에 도움이되어야합니다. 2020 년까지 행성에 대한 축적 된 양의 정보가 2 년마다 이중화 될 것으로 예상됩니다. 데이터의 풍부한 데이터는 분석 및 예측을 위해 사용하려는 욕구를 제기합니다. 거대한 볼륨에는 관련 기술이 필요합니다. 오늘날 회사는 제출하기 어려운 볼륨에서 엄청난 양의 데이터를 처리해야합니다. 이는 전통적인 데이터베이스가 그러한 작업에 대처할 수 없기 때문에 대규모 데이터 기술을 구현할 필요가 있습니다. 대용량 데이터 및 기존 데이터베이스의 비교 특성이 체질됩니다. 이 표의 형성의 기초는 Buduzko V. I.와 모스크바 교환의 연구였습니다. 표 1 대용량 데이터 및 전통적인 데이터의 비교 특성

생산성의 전통적인 데이터베이스

하나 이상의 주제 영역은 일반 데이터 기술을 광범위하게 사용함으로써 사용됩니다. 위험 주문을 분석하기 전에 고객 환경 설정을 식별하는 것에서. 따라서 전통적인 데이터베이스의 범위는 하나 이상의 범위를 다루고 있으며 이러한 영역이 구조화 된 데이터에 의해 포함되어야합니다. 대용량 데이터는 복잡한 구조로 엄청난 배열로 응용 프로그램의 범위가 광범위합니다. 그림 1에 제시된 Cnews 분석 연구 결과에 따르면 러시아 시장은 큰 데이터로서의 현상을 제공합니다. 기업의 성숙도를 높이는 것으로 나타났습니다. 많은 기업들이 가공 된 데이터의 양으로 인해 많은 데이터의 기술로 이전되고 이미 44 % 이상의 약 100 테라 바이트가 발생하며 13 %의 데이터 볼륨은 500 테라 바이트를 나타냅니다.

그림 1. 회사에서 처리 된 정보의 볼륨

이러한 볼륨은 기존 데이터베이스에서 처리 할 수 \u200b\u200b없으므로 회사는 엄청난 양을 처리하는 것과 같이 큰 데이터로 전환 할 수 있습니다뿐만 아니라 경쟁력이 증가하여 제품에 대한 구매자의 충성도를 높이고 새로운 것들을 끌어 당깁니다. 그러한 솔루션의 가장 적극적인 고객은 은행, 통신 및 소매점이며, 비율은 그림 2. 사용 또는 운송 산업 및 에너지에서 대규모 데이터를 사용할 준비가되어 있거나 업계의 대규모 데이터를 사용할 준비가되어 있습니다. 대용량 데이터를 사용하는 첫 번째 예제는 공공 부문에 등장했습니다.

그림 2. 큰 데이터의 사용의 부문 별 구조

서구 정부의 경우, 디지털 경제는 대규모 20 대의 GDP 국가의 3 %에서 21 %입니다. 러시아의 귀가는 아직 큰 데이터로 작업하는 데 중요한 결과를 얻지 못했습니다. 오늘날 러시아에서는 그러한 기술은 상업 기업에 주로 관심이 있습니다 : 무역 네트워크, 은행, 통신 회사. 러시아 지역 사회의 리셉션, 디지털 경제 VRF는 불과 1 조입니다. 장애. -ocline 1.5 %가 분리됩니다. 그럼에도 불구하고 URF는 디지털 경제의 성장을위한 엄청난 잠재력이 있습니다. 큰 데이터 분야의 존재에 대한 작은 기간에도 불구하고 실제 사례를 기반으로 이러한 기술의 효과적인 사용을 추정합니다. 오늘날 은행은 평균적으로 3.8 잎발 데이터를 사용하여 특정 작업을 달성하기 위해 대규모 데이터 기술을 사용합니다. • 데이터 카드를 사용하여 신용 카드;  데이터 데이터 퍼팅;  44 % 16 % 13 % 7 % 20 % BankeKteleCometlgossegorgergiebie 고객의 데이터 컬렉션 데이터;  고객 저장 데이터. 은행은 대규모 데이터 기술을 즐기기 시작한 후 새로운 고객을 유치하기 시작했으며, 신규 고객과 오래된 고객과 오래된 고객과 상호 작용하고 충성도를 유지하는 것이 낫습니다. 2015 년에는 누적 자산에 대한 가장 큰 러시아 은행의 30 대에서 Cnews Analytics 조사를 통해 어떤 대규모 데이터와 어떤 목적을 가진지의 기술을 알아보십시오. 2014 년의 설문 조사에 비해 일반 데이터 기술의 사용에 대해보고 된 TOP30의 은행 수가 증가했지만,이 변화는 상위 30 개 구성의 변화로 인해 발생합니다. 그림 3은 Kiryanovaya A에 대한 똑같이 설문 조사 인 2014 년에 비해 설문 조사 2015의 비교를 비교합니다.

무화과. 3. 대형 데이터 Top30 러시아 은행을 사용합니다

IBS 추정에 따르면, 긍정적으로 대답 한 은행의 80 %, 데이터 저장 및 처리를위한 빅 데이터 어플라이언스 소프트웨어 장비를 구현하십시오. 이러한 솔루션은 대개 분석 또는 트랜잭션 저장소로 작동하며, 대규모 데이터 볼륨으로 작업 할 때 좋은 성능 인 주요 이점이 있습니다. 그러나 러시아 은행의 대규모 데이터를 사용하는 관행은 해지는 단계에 있습니다. 러시아에서의 느린 적응 이유는 고객의 구멍에 새로운 기술에 표시됩니다. 그들은 큰 데이터 기술이 문제를 해결하는 데 도움이 될 것이라는 확신을 느끼지 못합니다. 이는 미국 시장의 우려 사항이 무엇인지, 은행은 이미 2750 억 MP3 항목과 비교할 수있는 1 개의 시험 데이터를 이미 축적했습니다. 정보가 제공되는 소스 수는 광범위하게, 클래식을 강조 표시 할 수 있습니다 :  은행 사무실 고객의 고객; • 고객 고객 고객 고객; • 고객 소셜 네트워킹;  신용 카드 운영 운영. 구매자의 행동 분석 , 거래실의 디자인 경로, 상품, 조달 계획, 궁극적으로 판매를 올바르게 폐기하고 판매를 증가시킵니다. 빅 데이터 시스템에서 판매 메커니즘 자체는 대용량 데이터를 기반으로합니다. 사용자는 이전 구매 및 개인 선호도, 예를 들어 소셜 네트워크에서 수집 된 정보를 기반으로 한 제품을 제공합니다. 두 경우 모두 비용을 분석하고 고객 충성도를 높이고 고객의 충성도를 높이고 대규모 청중을 다루는 데 도움이됩니다. 회사의 무역 잠재력 개발로서 전통적인 데이터베이스는 시스템이 성장할 수없는 비즈니스 요구 사항을 충족시키는 것입니다. 적절한 관리 회계를 제공하십시오. 대용량 데이터로 전환하는 새로운 기술을 사용하면 운송 관리를 최적화하고 데이터의 관련성 및 관리 결정의 결과 처리 효율성을 달성하고 관리 보고서를 신속하게 양식 할 수 있습니다. 누적 된 데이터의 총량은 100 개 이상의 ExButte이며, Walmart 만 대용량 데이터 처리 2.5 시간당 데이터의 페타 바이트의 데이터가 2.5입니다. 대규모 데이터 기술을 사용하는 경우 대규모 데이터를 이행 한 후 Hadoop 통계뿐만 아니라 Hadoop 통계가 60 % 증가하면서 분석 성과가 120 알고리즘 치료로 증가하고 이익은 710 %로 증가하고 있습니다. 고려한 경우 러시아 소매로 정보 처리의 방전이 매우 다르기 때문에 데이터가 기세를 얻기 시작합니다. 예를 들어, 중국보다 18 배 낮고 온라인 버튼에서 생성 된 데이터의 전체 순환은 하나의 Amazon Store보다 4.5 배입니다. 동시에, 러시아의 온라인 상점 수는 40 만 명 미만의 대형 데이터를 사용하는 동안 유럽의 수는 550,000 이상입니다. 러시아 소매 시장은 여전히 \u200b\u200b개발되고 완전히 형성되지 않는 것으로 특징 듭니다. 우리의 일상 생활에 관해서는 대용량 데이터의 기술이 여기에 우리가 매일 약 1 백만 개의 작곡을 생각하기조차하지 않았으며, 이는 1.5 ~ 2 개의 페타 바이트, Shazam, 음악 서비스, 전세계 및이를 기반으로합니다. 그런 다음 뮤지컬 제작자는 아티스트의 인기를 예측합니다. 큰 데이터는 MasterCard 및 VISA와 같은 신용 카드 정보를 처리하는 데에도 사용됩니다. 따라서 3200 만명의 거래 기업의 1.9 억 카드의 도움을 받아 올해의 65 억 거래는 무역 추세를 예측하기 위해 MasterCard를 처리합니다. 매일 사람들은 19 테라 바이트의 데이터에서 Twitter 및 Facebook과 같은 전 세계의 소셜 네트워크에 글을 씁니다. 사진을 업로드하고 처리하고, 쓰기, 메시지 보내기 등을 처리합니다. 이 인프라는 광산 및 로켓의 트롤리 버스에서 대규모 데이터 기술을 사용합니다. 따라서 매일 런던 메트로에서는 대규모 데이터 기술을 기반으로 실시 된 분석 결과로 개찰구가 약 2,000 만 개의 패스를 기록하며, 10 가지 모든 종류의 진원지가 확인되었으며, 이는 추가 개발과 함께 고려됩니다. 지하철의 의심의 여지없이 모든 종류의 상호 작용으로 인해 발생하는 데이터의 다양성 및 양은 예측을 구축하고 명확히하는 강력한 비즈니스 기반으로 패턴, 효율성 평가 등을 식별합니다. 그러나 총에도 유용 할 필요가있는 Assupports가 있습니다. 대용량 데이터를 사용하는 명시적이고 잠재적 이점에도 불구하고 주로 많은 양의 정보와 관련된 여러 가지 액세스 방법과 관련된 단점이 있습니다. 그리고 자원 제공이 충분하지 않은 경우. 조직의 정보 보안 기능. 일반 데이터 사용과 관련된 문제는 그림 4에 표시됩니다.

무화과. 4. 큰 데이터 사용 문제

이러한 모든 문제들은 제 3 자와 함께 일할 때, 그들 자신이 내부의 자원을 사용하여 공개 할 수없는 내부의 공개 문제를 일으키는 문제를 일으키는 문제를 일으킨다는 사실로 이어진다는 사실로 이어집니다. 제 의견에 따르면, 대용량 데이터를 기반으로 기술의 완전한 도입 경로에 대한 가장 중요한 단계는 입법 적 측면 여야합니다. 이제 특정 유형의 개인 데이터의 수집, 사용, 저장을 제한하는 법률이 있지만 전체 데이터를 제한하지 않으므로 특별한 법안이 존재해야합니다. 급속하게 변화하고 새로운 법을 적합히하기 위해서는 관련 규제 법적 행위의 초기 재고를 충족해야 하며이 목록을 업데이트하기 위해 정기적으로 정기적으로 수행해야합니다. 그러나 위의 나열된 결함에도 불구하고 서부 대표의 경험은 큰 데이터를 보여줍니다. 기술은 현대 비즈니스 운동을 성공적으로 해결하고 사람들의 삶과 직접적으로 관련된 경쟁력과 목표를 증가시키는 것으로 돕습니다. 러시아 기업들은 이미 매년 정보의 양이 거의 2 개 증가하기 때문에 제조 구 및 공공에서 대규모 데이터 기술을 소개하는 방법에 있습니다. 시간이 지남에 따라 많은 데이터의 영향을 받아 우리 삶의 많은 영역이 변경됩니다.

Sources1.budzkov에 링크. I. 높은 접근성 시스템 및 2013 년 국가 경제에서의 큰 데이터. P. 1619.2. Corotkova T. "EMC Data Lake 2.0 - 대규모 데이터의 분석가와 디지털 경제"http : // bigdata의 전환 .cnews.ru / 뉴스 / 라인 / 20151203_EMC_DATA_LAKE_20_POMOZHET_PEREJTI_K_ANALITIKE.3.KYRIANOVA A. "러시아 은행의 주류가되지 않았습니다."http://www.cnews.ru/news/ptop/bolshie_dannye_ne_stali_mejnstrimom 4.CNews "에 대한 정보가 없습니다. 러시아에 왔습니다. "http : //bigdata.cnews.ru/articleshi/infografika_bolshie_dannye_prishli_v_rossiyu.5.cnews"infographics : 소매점은 어떻게 큰 데이터를 사용합니다 "http://bigdata.cnews.ru/articles/infografika_kak_roznitsa_ispolzuet 특별한 법률이 없습니다. 큰 데이터 데이터와 관련된 세계에서는 이러한 회사의 소스 데이터 소스를 보존하기 위해 위장되어야합니다.이 회사의 소스 데이터 소스는 모든 데이터 보안 요구 사항이 큰 날짜 구현에 의해 모니터링되고 지원 될 수 있음을 확신해야합니다. 이전에 기밀 정보 관리를 만들거나 탐지할지 여부. 데이터 보안을위한 데이터 보안 요구 사항을 유지 관리합니다. 은행»http://bigdata.cnews.ru/articles/infografika_chto_mogut_bolshie_dannye.8. Moskovskaya Exchange "Analytical SummaryBigData"http : // habrahabr. RU / 회사 / Moex / Blog / 256747 / 9. 큰 데이터 (BigData). http://www.tadviser.ru/index.php/statimateschet_data_(big_data) .10.bigdata-persial xxivek http://bit.samag.ru/archive/article/1463.11.mckinsey 글로벌 연구소 "BigData : 다음 국경 혁신을 위해 Compettionand 생산성»(2011 년 6 월).

BIG 데이터는 대규모 데이터 세트로부터 정보를 수집하고 간소화하고 처리하는 데 필요한 비 전통적인 전략 및 기술을 지정하는 광범위한 용어입니다. 컴퓨팅 전력을 초과하는 데이터 또는 컴퓨터를 저장할 수있는 능력을 초과하는 문제는 새로운 것이 아닙니다. 최근 몇 년 동안 이러한 유형의 계산의 규모와 값이 크게 확장되었습니다.

이 기사에서는 대용량 데이터를 탐색 할 수있는 기본 개념을 찾을 수 있습니다. 현재이 지역에서 사용되는 일부 프로세스 및 기술 중 일부는 현재로 간주됩니다.

큰 데이터는 무엇입니까?

프로젝트, 공급 업체, 종사자 및 비즈니스 전문가가 완전히 다르게 사용하기 때문에 "빅 데이터"의 정확한 정의는 공식화하기가 어렵습니다. 이것을 염두에두고 큰 데이터는 다음과 같이 정의 할 수 있습니다.

대형 데이터 세트.
대용량 데이터 세트를 처리하는 데 사용되는 컴퓨팅 전략 및 기술의 범주.

이 컨텍스트에서 "빅 데이터 세트"는 기존 도구 또는 한 컴퓨터에서 처리되거나 저장할 수없는 데이터 세트를 의미합니다. 즉, 대규모 데이터 세트의 전체 스케일이 끊임없이 변화하고 사건과 크게 변할 수 있음을 의미합니다.

대형 데이터 시스템

대용량 데이터 작업에 대한 기본 요구 사항은 다른 데이터 세트와 동일합니다. 그러나 과정의 각 단계에서 발견되는 질량 저울, 처리 속도 및 데이터 특성은 자금 개발에서 심각한 새로운 문제입니다. 대부분의 대규모 데이터 시스템의 목표는 일반적인 방법을 사용할 때는 불가능할 수있는 많은 양의 이질적인 데이터를 이해하고 의사 소통하는 것입니다.

2001 년에는 Gartner의 Doug Lane (Doug Laney)는 다른 유형의 데이터의 처리 프로세스에서 대용량 데이터의 처리를 구별하는 몇 가지 특성을 설명하기 위해 "3 v 큰 데이터"를 제시했습니다.

음량.
속도 (축적 및 데이터 처리 속도).
다양성 (가공중인 데이터의 다양한 유형).

데이터 볼륨

처리중인 정보의 탁월한 규모는 대규모 데이터 시스템을 식별하는 데 도움이됩니다. 이러한 데이터 세트는 처리 및 저장의 각 단계에서 더 큰 관심을 필요로하는 전통적인 세트 이상일 수 있습니다.

요구 사항이 한 컴퓨터의 기능을 초과하기 때문에 컴퓨터 그룹에서 자원의 연결, 배포 및 조정이 종종 발생합니다. 이 영역에서는 작업을 더 작은 부분으로 끊을 수있는 클러스터 제어 및 알고리즘이 점점 더 증가하고 있습니다.

누적 및 처리 속도

다른 데이터 시스템의 대용량 데이터를 크게 구분하는 두 번째 특성은 정보가 시스템 위로 이동되는 속도입니다. 데이터는 종종 여러 소스에서 시스템에 입력되며 시스템의 현재 상태를 업데이트하는 데 실시간으로 처리되어야합니다.

즉석 피드백에 초점을 맞춘 것은 많은 종사자가 패킷 지향적 인 접근 방식을 포기하고 스트리밍 실시간 시스템을 선호합니다. 데이터는 끊임없이 새로운 정보의 유입을 유지하고 초기 단계에서 가장 관련성이있는 초기 단계에서 귀중한 데이터를 얻으려면 끊임없이 추가, 처리 및 분석됩니다. 이를 위해서는 데이터 컨베이어의 고장을 방지하기 위해 접근 가능한 구성 요소가있는 신뢰할 수있는 시스템이 필요합니다.

다양한 유형의 처리 된 데이터

큰 데이터에서 다양한 가공 된 소스와 상대 품질과 관련된 많은 독특한 문제가 있습니다.

데이터는 소셜 네트워킹 채널 및 기타 외부 API, 물리적 장치의 센서 및 다른 소스에서부터의 응용 프로그램 및 서버와 같은 내부 시스템에서 내부 시스템에서 나올 수 있습니다. 대규모 데이터 시스템의 목적은 모든 정보를 단일 시스템으로 결합하여 원점에 관계없이 잠재적으로 유용한 데이터를 처리하는 것입니다.

캐리어의 형식과 유형은 크게 다를 수 있습니다. 미디어 파일 (이미지, 비디오 및 오디오)은 텍스트 파일, 구조화 된 로그 등과 결합됩니다. 데이터가 이미 레이블이 지정된 컨베이어에 속하지 만 대규모 데이터 시스템이 일반적으로 수락되고 시도로 저장되었습니다. 초기 상태를 저장하십시오. 이상적으로는 처리 중에 원시 데이터의 모든 변환 또는 변경이 메모리에서 발생합니다.

다른 특징들

시간이 지남에 따라 전문가와 조직은 초기 "3 V"를 확장했지만 이러한 혁신은 큰 데이터의 특성이 아닌 문제를 설명하는 경향이 있습니다.

성실 : 다양한 소스 및 처리 복잡성은 데이터의 품질을 평가하는 데 문제가 발생할 수 있습니다 (결과적으로 획득 한 분석 품질).
가변성 : 데이터를 변경하면 넓은 품질의 변경으로 이어집니다. 식별, 처리 또는 필터링을 위해 저품질 데이터는 데이터의 품질을 향상시킬 수있는 추가 자원이 필요할 수 있습니다.
값 (값 값) : 큰 데이터의 최종 작업은 값입니다. 때로는 시스템 및 프로세스가 매우 복잡해 지므로 데이터를 사용하고 실제 값을 추출하기가 어렵습니다.

큰 데이터의 라이프 사이클

그래서, 큰 데이터는 실제로 어떻게 처리됩니까? 구현에 몇 가지 다른 접근 방식이 있지만 전략 및 소프트웨어에는 일반적인 기능이 있습니다.

데이터를 시스템으로 만드는 것
저장소에 데이터 저장
데이터 계산 및 분석
시각화 결과

이러한 네 가지 범주의 워크 플로를 자세히 고려하기 전에 많은 데이터를 처리하기위한 많은 도구가 사용하는 중요한 전략 인 클러스터 계산에 대해 이야기 해 봅시다. 컴퓨팅 클러스터 설정은 수명주기의 각 단계에서 사용되는 기술의 기초입니다.

클러스터 계산

대규모 데이터의 품질로 인해 개별 컴퓨터는 데이터 처리에 적합하지 않습니다. 이를 위해 클러스터는 대용량 데이터의 저장 및 계산 요구 사항에 대처할 수 있으므로 클러스터가 더 적합합니다.

대규모 데이터 클러스터링을위한 소프트웨어는 많은 작은 자동차의 자원을 결합하여 여러 가지 장점을 제공합니다.

리소스 결합 : 대용량 데이터 세트를 처리하기 위해 많은 양의 프로세서 및 메모리 자원이 필요할뿐만 아니라 사용 가능한 저장 공간이 많이 필요합니다.
고 가용성 : 클러스터는 다양한 수준의 내결함성 및 가용성을 제공하므로 하드웨어 또는 소프트웨어 오류가 데이터 액세스와 처리에 영향을 미치지 않습니다. 이것은 실시간 분석에 특히 중요합니다.
확장 성 : 클러스터는 급속한 수평 배율 (클러스터에 새 컴퓨터 추가)을 지원합니다.

클러스터에서 작업하려면 클러스터 관리, 리소스 할당 조정 및 개별 노드와의 계획 작업을 관리하는 데 필요한 자금이 필요합니다. 클러스터 및 자원 할당의 회원 자격은 Hadoop 얀 (또 다른 자원 협상 자) 또는 아파치 메소를 \u200b\u200b사용하여 처리 할 수 \u200b\u200b있습니다.

컴퓨팅 클러스터는 종종 다른 소프트웨어가 데이터 처리를 상호 작용하는 기반으로 작용합니다. 컴퓨팅 클러스터에 관련된 기계는 대개 분산 스토리지 시스템의 관리와 관련이 있습니다.

데이터 획득

수신 데이터는 시스템에 치료되지 않은 데이터를 추가하는 프로세스입니다. 이 작업의 복잡성은 데이터 소스의 형식 및 품질과 처리 요구 사항을 충족하는 데이터의 형식 및 품질에 크게 의존합니다.

특수 도구를 사용하여 큰 데이터를 시스템에 추가 할 수 있습니다. Apache SQOOP과 같은 기술은 관계형 데이터베이스에서 기존 데이터를 만들어 큰 데이터 시스템에 추가 할 수 있습니다. Apache Flume 및 Apache Chukwa - 집계 및 로그 및 서버 가져 오기를위한 프로젝트를 사용할 수도 있습니다. Brokers Apache Kafka와 같은 메시지는 서로 다른 데이터 생성기와 대규모 데이터 시스템 간의 인터페이스로 사용할 수 있습니다. Gobblin 유형 프레임 워크는 컨베이어 끝에있는 모든 도구의 출력을 결합하고 최적화 할 수 있습니다.

데이터 수신 중에 분석은 일반적으로 분석, 정렬 및 표시됩니다. 이 프로세스는 때로는 추출, 변환 및로드를 의미하는 ETL (추출, 변환,로드)이라고도합니다. 이 용어는 일반적으로 오래된 데이터 저장 프로세스를 의미하지만 때로는 대규모 데이터 시스템에 적용됩니다. 일반적인 작업 중에는 컴플라이언스를 위해 데이터를 포맷, 분류 및 레이블링, 필터링 또는 필터링하거나 필터링하거나 확인하는 데 필요한 데이터 변경이 있습니다.

이상적으로, 수신 된 데이터는 최소한의 형식입니다.

정보 저장소

수신 후 데이터는 저장소를 제어하는 \u200b\u200b구성 요소로 이동합니다.

일반적으로 분산 파일 시스템은 치료되지 않은 데이터를 저장하는 데 사용됩니다. Apache Hadoop의 HDFS와 같은 솔루션을 사용하면 많은 양의 데이터를 클러스터의 몇 가지 노드에 기록 할 수 있습니다. 이 시스템은 계산 리소스 액세스를 데이터에 액세스 할 수 있으며 메모리 조작 및 프로세스 컴포넌트 오류를 \u200b\u200b위해 클러스터 RAM에 데이터를 다운로드 할 수 있습니다. HDFS 대신 Ceph와 GlusterFs를 포함하여 다른 분산 파일 시스템을 사용할 수 있습니다.

또한 데이터는 더 구조화 된 액세스를 위해 다른 분산 시스템으로 가져올 수도 있습니다. 분산 된 데이터베이스, 특히 NoSQL 데이터베이스는이 역할에 적합합니다. 비소성 데이터를 처리 할 수 \u200b\u200b있습니다. 다양한 유형의 분산 데이터베이스가 있으며 선택 항목은 데이터를 구성하고 제출하는 방법에 따라 다릅니다.

데이터 계산 및 분석

데이터를 사용할 수있게되면 시스템이 처리를 시작할 수 있습니다. 계산 수준은 정보의 유형에 따라 요구 사항과 접근법이 크게 다를 수 있기 때문에 계산 수준이 시스템의 가장 자유로운 부분 일 것입니다. 데이터는 종종 하나의 도구를 사용하거나 다양한 유형의 데이터 처리를 위해 일련의 도구를 사용하여 처리됩니다.

배치 처리는 대용량 데이터 세트의 계산 방법 중 하나입니다. 이 프로세스에는 데이터가 작은 부품에 데이터 분석, 별도의 컴퓨터의 각 부분의 처리를 스케줄링하여 중간 결과를 기반으로 데이터를 해당하고 최종 결과를 계산하고 수집합니다. 이 전략은 Apache Hadoop에서 MapReduce를 사용합니다. 일괄 처리는 매우 많은 컴퓨팅이 필요한 매우 큰 데이터 세트로 작업 할 때 가장 유용합니다.

다른 작업 부하에는 실시간 처리가 필요합니다. 동시에, 정보를 즉시 처리하고 준비해야하며, 시스템은 새로운 정보가 수신되면시기 적절하게 응답해야합니다. 실시간 처리를 구현하는 방법 중 하나는 개별 요소로 구성된 데이터의 지속적인 흐름의 처리입니다. 실시간 프로세서의 또 다른 일반적인 특성은 클러스터 메모리에서 계산 된 데이터가 있으므로 디스크에 쓸 필요가 없습니다.

Apache Storm, Apache Flink 및 Apache Spack은 실시간 처리를 구현하는 다양한 방법을 제공합니다. 이러한 유연한 기술을 사용하면 각 개인적인 문제에 가장 적합한 방법을 선택할 수 있습니다. 일반적으로 실시간 처리는 시스템에 변경되거나 빠르게 추가되는 작은 데이터 조각을 분석하는 데 가장 적합합니다.

이러한 모든 프로그램은 프레임 워크입니다. 그러나 큰 데이터 시스템에서 데이터를 계산하거나 분석하는 다른 많은 방법이 있습니다. 이러한 도구는 종종 위의 프레임 워크에 연결되어 있으며 기본 레벨과 상호 작용하기 위해 추가 인터페이스를 제공합니다. 예를 들어 Apache Hive는 Hadoop 용 데이터웨어 하우스 인터페이스를 제공하고 Apache Pig는 쿼리 인터페이스를 제공하며 Apache Drill, Apache Impala, Apache Spark SQL 및 Presto가 제공됩니다. Apache SystemMML, Apache Mahout 및 Apache Spark의 Mllib는 기계 학습에 적용됩니다. 데이터 생태계에서 널리 지원되는 직접적인 분석 프로그래밍의 경우 R 및 파이썬을 사용하십시오.

시각화 결과

종종 얻은 값보다 시간이 지남에 따라 시간이 지남에 따라 데이터의 트렌드 또는 변화를 인식합니다. 데이터 시각화는 트렌드를 식별하고 많은 수의 데이터 포인트를 구성하는 가장 유용한 방법 중 하나입니다.

실시간 처리는 응용 프로그램 메트릭 및 서버를 시각화하는 데 사용됩니다. 데이터는 종종 변경되고 지표의 큰 샘플은 일반적으로 시스템이나 조직의 상태에 중요한 영향을 미칩니다. Prometheus 유형 프로젝트는 데이터 스트림 및 시계열을 처리 하고이 정보를 시각화하는 데 사용할 수 있습니다.

인기있는 데이터 시각화 방법 중 하나는 이전에 ELK 스택이라고도했던 탄성 스택입니다. Logstash는 데이터를 수집하는 데 사용되며 데이터 인덱싱을 위해 ElasticSearch를 사용하며 Kibana는 시각화를위한 것입니다. 탄성 스택은 대용량 데이터로 작동하거나 계산 결과를 시각화하거나 치료되지 않은 메트릭과 상호 작용할 수 있습니다. 비슷한 스택은 아파치 Solr을 시각화를 위해 바나나라는 포크 키바나를 인덱싱하기 위해 결합하여 얻을 수 있습니다. 이러한 스택을 실크라고합니다.

데이터 영역의 대화 형 데이터를위한 또 다른 시각화 기술은 문서입니다. 이러한 프로젝트를 사용하면 데이터 공유 및 제출에 편리한 형식으로 대화식 학습 및 시각화를 수행 할 수 있습니다. 이러한 유형의 인터페이스의 널리 사용되는 예제는 Jupyter 노트북 및 Apache Zeppelin입니다.

큰 데이터의 용어집

BIG 데이터는 볼륨, 도착 속도 및 다양성으로 인해 기존 컴퓨터 또는 도구로 올바르게 처리 할 수없는 데이터 세트를 지정하는 광고 용어입니다. 이 용어는 일반적으로 그러한 데이터와 함께 작동하는 기술 및 전략에도 적용됩니다.
배치 처리는 큰 세트의 데이터 처리를 포함하는 계산 전략입니다. 일반적 으로이 방법은 필수 데이터로 작업하는 데 이상적입니다.
클러스터 컴퓨팅은 여러 시스템의 리소스를 결합하고 공통 기능을 관리하여 작업을 수행하는 방법입니다. 이를 위해서는 개별 노드 간의 연결을 처리하는 클러스터 관리 수준이 필요합니다.
호수 데이터 - 상대적으로 원시 상태에서 수집 된 데이터의 큰 저장소입니다. 이 용어는 종종 비정형적이고 자주 변경되는 큰 데이터를 지정하는 데 사용됩니다.
데이터 마이닝은 대규모 데이터 세트에서 다른 패턴 검색 관행을 지정하는 광고 용어입니다. 이것은 많은 데이터를보다 이해 가능하고 연결된 정보 세트로 구성하려는 시도입니다.
데이터웨어 하우스는 분석 및보고를 위해 크고 정렬 된 스토리지입니다. 호수와 달리 스토리지는 다른 소스와 통합 된 형식이 지정되고 잘 정렬 된 데이터로 구성됩니다. 데이터웨어 하우스는 종종 큰 데이터와 관련하여 언급되지만 종종 종래의 데이터 처리 시스템의 구성 요소입니다.
ETL (추출, 변환 및로드) - 추출, 변환 및 데이터로드. 이것은 미처리 된 데이터를 얻고 준비하는 프로세스입니다. 데이터웨어 하우스와 관련이 있지만이 프로세스의 특성은 대규모 데이터 시스템의 컨베이어에서도 검출됩니다.
Hadoop은 대용량 데이터를위한 오픈 소스 Apache 프로젝트입니다. HDFS 및 클러스터 플래너라는 분산 파일 시스템으로 구성되어 있으며 원사라는 리소스로 구성됩니다. 패킷 처리 기능은 MapReduce 계산 메커니즘에 의해 제공됩니다. MapReduce와 함께 현대 Hadoop 배포에서는 다른 컴퓨팅 및 분석 시스템을 시작할 수 있습니다.
메모리의 계산은 클러스터 메모리로 작업 세트의 완전한 이동을 포함하는 전략입니다. 중간 계산은 디스크에 기록되지 않으며 대신 메모리에 저장됩니다. 이것은 시스템이 I / O와 관련된 시스템에 비해 속도가 큰 이점을 제공합니다.
기계 교육은 전송 된 데이터를 기준으로 배울 수있는 시스템 설계 시스템의 연구 및 실천입니다. 일반적으로 이것은 예측 및 통계 알고리즘의 구현을 의미합니다.
지도 줄이기 (Hadoop에서 MapReduce와 혼동하지 않아도) 컴퓨팅 클러스터를 계획하는 알고리즘입니다. 이 프로세스에는 노드 간의 작업을 분리하고 중간 결과를 수신하고 각 세트에 대해 단일 값의 후속 출력을 수신합니다.
NoSQL은 전통적인 관계형 모델 외부에서 개발 된 데이터베이스를 나타내는 광고 용어입니다. NoSQL 데이터베이스는 유연성 및 분산 아키텍처로 인해 큰 데이터에 적합합니다.
스트리밍은 시스템을 통과 할 때 개별 데이터 요소를 계산하는 방법입니다. 이를 통해 데이터를 실시간으로 분석 할 수 있으며 고속 메트릭을 사용하여 긴급 작업을 처리하는 데 적합합니다.

태그 :

연구 및 동향에 따르면

빅 데이터, IT 및 마케팅 프레스의 언어로 비유가 될 때 몇 년 동안 "큰 데이터"가 있습니다. 그리고 그것은 분명합니다. 디지털 기술은 현대인의 삶을 침투했습니다. "모든 것이 기록됩니다." 인생의 가장 다른면에 대한 데이터의 양은 성장하고 있으며 동시에 정보를 저장할 수있는 가능성이 증가하고 있습니다.

글로벌 기술 저장 기술

출처 : Hilbert 및 Lopez, 'Science, 2011 Global'Store, Communication 및 Compute Information, Communication 및 Compute Information의 기술 능력.

대부분의 전문가들은 데이터 증가가 가속도가 객관적인 현실이라는 데 동의합니다. 소셜 네트워크, 모바일 장치, 측정 장치의 데이터, 비즈니스 정보 - 거대한 정보를 생성 할 수있는 몇 가지 유형의 소스. 연구에 따르면 IDC.디지털 우주. 2012 년에 발표 된 다음 8 년 동안 세계의 데이터 양은 행성의 거주자 당 5,200GB에 해당하는 40 Zb (Zettabytes)에 도달 할 것입니다.

미국에서 수집 된 디지털 정보의 성장

출처 : IDC.

정보의 중요한 부분은 사람이 아니라 로봇이 센서 및 지능형 장치와 같은 다른 데이터 네트워크와 함께 서로 상호 작용하는 로봇을 생성합니다. 이러한 성장률에 따라, 연구자들의 예측에 따르면, 세계의 자료의 양은 매년 두 배로 될 것입니다. 새로운 데이터 센터의 확장 및 생성으로 세계의 가상 서버 수가 10 번 증가 할 것입니다. 이와 관련 하여이 데이터의 효율적인 사용 및 수익 창출이 필요합니다. 비즈니스에서 큰 데이터를 사용하는 것은 상당한 투자가 필요합니다. 그러면 상황을 명확하게 이해할 필요가 있습니다. 그리고 그녀는 본질적으로 간단합니다. 비즈니스 효율성을 향상시키는 비용을 줄이거나 판매 증가 할 수 있습니다.

무엇이 큰 데이터가 필요합니까?

빅 데이터 패러다임은 세 가지 주요 유형의 작업을 정의합니다.

일반 관계형 데이터베이스가 효율적으로 사용하지 않는 수백 테라 바이트 또는 페타 바이트의 데이터 볼륨의 저장 및 관리.
텍스트, 이미지, 비디오 및 기타 데이터 유형으로 구성된 구조화되지 않은 정보 조직.
비정형 정보, 분석 보고서 생성 및 예후 모델의 도입과 함께 일하는 방법에 대한 문제를 일으키는 큰 데이터 분석.

Big Data Project Market은 비즈니스 인텔리전스 시장 (BA)과 교차하여 전문가들에 따르면 세계에서 전문가에 따르면 약 100 억 달러로 이루어졌습니다. 여기에는 네트워크 기술, 서버, 소프트웨어 및 기술 서비스의 구성 요소가 포함됩니다.

또한 빅 데이터 기술의 사용은 회사의 활동을 자동화하도록 설계된 소득 보증 계층 (RA)의 결정과 관련이 있습니다. 현대 시스템 수익 보증에는 불일치 탐지 도구 및 심층적 인 데이터 분석이 포함되어 있으므로 적시에 손실을 탐지하거나 재무 결과가 감소 할 수있는 정보의 왜곡이 가능합니다. 이 배경에 대해 러시아 회사는 국내 시장에서 큰 데이터 기술의 수요를 확인하는 것을 확인하고 러시아에서의 큰 데이터 개발을 자극하는 요소는 데이터의 성장을 자극하고 경영 결정을 가속화하고 품질을 향상시키는 것입니다.

큰 데이터로 작업하는 것은 무엇입니까?

오늘날 큰 데이터 클래스의 분석적 솔루션을 사용하여 해결할 수있는 객관적으로 일반 업계 작업이있는 사실에도 불구하고 축적 된 디지털 데이터의 0.5 % 만 분석됩니다. IT 시장 개발은 이미 큰 데이터의 축적 및 처리와 관련된 기대를 추정 할 수있는 결과를 가지고 있습니다.

높은 비용 외에도 큰 데이터 - 프로젝트의 도입을 억제하는 주요 요인 중 하나는 고려됩니다. 처리 된 데이터를 선택하는 문제: 즉, 검색 및 분석 및 고려되지 않은 데이터의 정의가 무엇인지 확인해야합니다.

많은 비즈니스 담당자들은 빅 데이터 프로젝트의 구현의 어려움이 전문가의 부족과 관련이 있음을 주목합니다. 마케터 및 분석가들. 깊고 술어 분석에 종사하는 직원의 품질에서 빅 데이터에 대한 투자 수익률은 직접적으로 의존합니다. 이미 기존의 기존 데이터의 엄청난 잠재력은 구식 비즈니스 프로세스 또는 내부 규정으로 인해 마케팅 담당자가 효과적으로 사용될 수 없습니다. 따라서 큰 데이터 프로젝트는 구현뿐만 아니라 결과 평가에서도 복잡한 것으로 인식됩니다. 수집 된 데이터의 값입니다. 데이터와의 근무 특이성에는 마케팅 담당자 및 분석가가 기술로부터 주목을 전환하고 특정 비즈니스 작업을 해결하기 위해 보고서를 작성해야합니다.

데이터 스트림의 큰 볼륨과 고속으로 인해 수집 프로세스는 실시간으로 ETL 절차를 포함합니다. 참고 :etl. - OT.영어추출물., 변환, 하중. - 문자 그대로 "추출, 변환, 로딩") - 관리의 주요 프로세스 중 하나 외부 소스에서 데이터를 추출하는 데이터웨어 하우스 : 변형 및 요구를 충족시키는 청소 ETL은 하나의 응용 프로그램에서 다른 응용 프로그램으로 데이터를 전송하는 프로세스뿐만 아니라 분석을위한 데이터 준비 도구로 간주되어야합니다.

그리고 외부 소스에서 오는 데이터의 안전성을 보장하기 위해 질문은 수집 된 정보의 양에 해당하는 솔루션을 가져야합니다. 큰 데이터 분석 방법이 데이터의 성장 이후에만 개발되고 있기 때문에 분석 플랫폼의 속성은 새로운 방법 및 데이터 집계 방법을 사용하는 중요한 역할을합니다. 예를 들어 온라인 상점 사이트의 클릭 역사가있는 잠재적 인 구매자 또는 거대한 데이터웨어 하우스의 데이터는 다양한 작업을 해결하기 위해 흥미로운 일 수 있습니다.

어려움은 멈추지 않습니다

큰 데이터가 도입 된 모든 어려움에도 불구 하고이 사업은이 방향에 대한 투자를 증가시킬 것입니다. Gartner 데이터에서 다음과 같이, 2013 년 세계에서 가장 큰 회사의 64 %가 이미 투자했거나 비즈니스를 위해 큰 데이터 영역의 기술 배치에 투자 할 계획이며, 2012 년에는 58 %가있었습니다. Gartner의 연구에 따르면, 대형 데이터 산업에 대한 투자 지도자는 미디어 회사, 통신, 금융 부문 및 서비스 회사입니다. 큰 데이터의 구현의 성공적인 결과는 무선 주파수 식별 도구, 물류 및 보충 시스템 (영어로부터)을 사용하여 얻은 데이터의 사용 측면에서 많은 주요 소매 업체가 이미 달성되었습니다. 채움. - 누적, 보충 - R & T는 물론 충성도 프로그램에서. 성공적인 소매 경험은 비즈니스 개발에 관한 자원에 대한 분석을 위해 큰 데이터를 수익을 올리는 새로운 효율적인 방법을 찾기 위해 시장의 다른 부문을 자극합니다. 이 덕분에, 전문가들에 따르면 2020 년까지의 투자, 스토리지는 2 ~ $ 0.2에서 각 기가 바이트의 데이터가 감소하지만 큰 데이터의 기술적 특성을 연구하고 분석하는 것은 40만큼 증가합니다. %.

빅 데이터 영역의 다양한 투자 프로젝트에서 제시된 비용은 다릅니다. 비용 기사는 다음과 같이 선택된 제품 유형에 따라 다릅니다. 정의 된 솔루션...에 전문가들에 따르면 투자 프로젝트의 비용의 가장 큰 부분은 수집, 데이터 구조화, 청소 및 관리와 관련된 제품을 설명합니다.

그것이 어떻게 끝났는지

소프트웨어 및 하드웨어의 많은 조합이있어 소셜 미디어 및 모바일 응용 프로그램에서부터의 지적 분석 및 시각화로 다양한 비즈니스 분야를위한 효과적인 빅 데이터 솔루션을 제공 할 수 있습니다. 큰 데이터의 중요한 이점은 널리 사용되는 데이터베이스와 함께 새로운 도구의 호환성이며, 멀티 채널 판매 및 고객 지원 조직과 같은 크로스 징계 프로젝트를 사용하는 경우 특히 중요합니다.

빅 데이터 시퀀스는 데이터 수집, 보고서 및 대시 보드 (대시 보드)를 사용하여 수신 된 정보를 구조화하고 통찰력 및 컨텍스트를 만드는 권장 사항을 공식화합니다. 빅 데이터로 작업하는 것은 높은 데이터 수집 비용이 있으므로 사전 알려지지 않은 처리 결과, 주요 작업은 데이터가 필요할 때가 많지 않은 경우에는 분명한 이해입니다. 이 경우 데이터 수집은 특정 정보 작업을 해결하기 위해 독점적으로 필요한 프로세스로 변합니다.

예를 들어, 통신 제공자는 지속적으로 보충되는 지리적 위치를 포함하여 엄청난 양의 데이터를 집계합니다. 이 정보는 대상 및 현지 광고뿐만 아니라 소매 업체 및 은행뿐만 아니라 대상 및 지역 광고를 보여주기 위해 사용할 수있는 광고 대행사에 상업적 관심을 표명 할 수 있습니다. 이러한 데이터는 사람들의 강력한 목표 흐름의 존재에 대한 데이터를 기반으로 특정 위치에서 거래 지점의 개방을 해결하는 데 중요한 역할을 할 수 있습니다. 런던의 야외 방패에서 광고 효율성을 측정하는 예제가 있습니다. 이제 이러한 광고의 적용 범위는 광고 구조물 근처의 지나가는 특별 장치를 가진 사람들을 배치함으로써 만 측정 할 수 있습니다. 광고 효율의 이러한 유형의 측정과 비교하여, 모바일 운영자 훨씬 더 많은 기회 - 그는 가입자의 위치를 \u200b\u200b정확히 알고 있으며, 그는 인구 통계 학적 특성, 성별, 연령, 결혼 상태 등을 알고 있습니다.

이러한 데이터를 기반으로, 미래에 광고 방패가 지나가는 특정 사람의 선호도를 사용하여 광고 메시지의 내용을 변경하는 전망이 열립니다. 데이터가 사람이 지나가는 것을 보여 주면 많은 사람들이 많이 여행 할 수 있습니다. 그러면 그는 리조트의 광고를 보여줄 수 있습니다. 축구 경기의 주최자는 경기에 올 때만 팬 수를 평가할 수 있습니다. 그러나 운영자에게 요청할 기회가 있으면 셀룰러 통신 방문자가 일치하는 한 시간, 일 또는 월에있는 정보가있는 정보는 다음과 같은 경기를 수용 할 수있는 장소를 계획 할 수있는 기회를 제공합니다.

또 다른 예는 모두가 큰 데이터를 사용하여 사기를 방지 할 수 있습니다. 클라이언트가 카드의 손실을 선언하고 도움으로 구매할 때 은행은 거래가 발생하는 구매 영역의 클라이언트의 전화의 위치를 \u200b\u200b실시간으로보고, 은행은의 신청서에 대한 정보를 확인할 수 있습니다 고객은 그것을 속이려고하지 않았습니다. 반대의 상황에서 클라이언트가 상점에서 구매할 때, 은행은 거래가 진행되는 카드와 고객의 전화가 한 곳에 있음을 본다, 은행은 그 소유자가 카드를 즐기는 것을 결론 지을 수 있습니다. 큰 데이터의 장점 덕분에 경계가 확장되어 전통적인 데이터웨어 하우스를 실행합니다.

큰 데이터 결정의 구현을 성공적으로 결정하기 위해 회사는 투자 사례를 계산해야하며 많은 알려지지 않은 구성 요소로 인해 큰 어려움을 겪게됩니다. 그러한 경우의 분석의 역설은 과거에 기초하여 미래를 예측하고 종종 결석하는 데이터를 예측합니다. 이 경우 중요한 요소는 초기 작업의 명확한 계획입니다.

첫째, 하나의 특정 비즈니스 작업을 정의하고 큰 데이터 기술을 해결하기 위해이 작업은 선택한 개념의 충성도를 결정하는 막대가됩니다. 이 작업에 정확하게 관련 데이터를 수집하는 데 집중할 필요가 있으며 개념 테스트 중에 다양한 도구, 프로세스 및 관리 방법을 사용하여 미래에 더 많은 정보에 입각 한 의사 결정을 할 수 있습니다.
둘째, 기술 및 데이터 분석 경험이없는 회사는 큰 데이터 프로젝트를 성공적으로 구현할 수 있습니다. 필요한 지식은 항상 이전의 분석 경험에서 흐른다. 그것은 데이터와의 작업의 질에 영향을주는 주요 요인이다. 중요한 역할은 데이터 사용 문화에 의해 재생됩니다. 자주이 정보의 분석은 비즈니스에 대한 가혹한 진리를 열고,이 진리를 가져 와서 데이터로 작업하는 개발 된 방법이 필요합니다.
셋째, 큰 데이터 기술의 가치는 통찰력을 제공하는 것입니다. 좋은 분석가들은 시장에서 적자를 유지합니다. 그들은 상업적 데이터에 대한 깊은 이해를 이해하고 적용하는 방법을 아는 전문가에게 통화하는 것이 관습적입니다. 데이터 분석은 비즈니스 목표를 달성하고 큰 데이터의 가치를 이해하는 수단이며, 해당 동작 모델 및 작업에 대한 이해가 필요합니다. 이 경우 큰 데이터는 소비자에 대한 많은 유용한 정보를 제공합니다. 이는 비즈니스를위한 유용한 솔루션을 만들 수 있습니다.

러시아 빅 데이터 시장이 단지 형성되기 시작한 사실에도 불구 하고이 분야의 개별 프로젝트는 이미 상당히 성공적으로 구현되었습니다. 그 중 일부는 FTS 및 Tinkoff 신용 시스템 은행의 프로젝트, 다른 것과 같은 데이터 수집 영역에서 성공적으로 데이터 분석과 그 결과의 실제 적용과 같은 것입니다. 이것은 Synmera 프로젝트입니다.

Tinkoff 신용 시스템 은행은 대규모 병렬 컴퓨팅을위한 도구 인 EMC2 GreenPlum 플랫폼을 구현할 프로젝트를 구현했습니다. 지난 몇 년 동안 은행은 신용 카드 사용자 수의 높은 성장률로 인한 실제 데이터의 누적 된 정보 및 실시간 데이터 분석에 대한 요구 사항을 증가 시켰습니다. 은행은 특히 구조화되지 않은 데이터를 처리하고 다른 출처에서 얻은 기업 정보를 사용하여 큰 데이터 기술의 사용을 확대 할 계획을 발표했습니다.

현재 러시아의 연방 세금 서비스에서 연방 데이터 창고의 분석 층이 있습니다. 그것은 단 하나를 기반으로합니다 정보 공간 통계 및 과정에 대한 세금 데이터에 대한 기술 액세스 분석 처리...에 프로젝트를 구현하는 동안, 현지 IFX의 1,200 개 이상의 소스로 분석 정보의 중앙 집중식으로 작업이 수행됩니다.

실시간으로 큰 데이터 분석의 또 다른 흥미로운 예제는 Simplate 플랫폼을 개발 한 Synqera의 러시아 시작입니다. 이 솔루션은 대규모 데이터 어레이의 처리를 기반으로하며, 프로그램은 구매자에 대한 정보, 구매의 역사, 나이, 성별 및 심지어 기분을 분석합니다. 화장품 저장소 네트워크의 현금 책상에서 터치 스크린은 구매자의 감정을 인식하는 센서와 함께 설치되었습니다. 이 프로그램은 사람의 분위기를 결정하고, 정보를 분석하고, 매일의 시간을 결정하고 상점의 할인 기반을 스캔하여 프로모션 및 특별 제안에 대한 목표 메시지를 보냅니다. 이 솔루션은 충성도를 구매하고 소매 업체의 판매를 증가시킵니다.

우리가 외국 성공 사례에 대해 이야기하면 제품 판매를 위해 실시간 데이터를 사용하여 Dunkin`donuts에서 큰 데이터 기술을 사용하는 경험을 제공합니다. 상점에서 디지털 디스플레이는 상품의 시간 및 가용성 및 가용성에 따라 매분 매분 대체하는 문장을 표시합니다. 현금 수표 에서이 회사는 구매자로부터 가장 큰 반응을받은 제안을받는 데이터를받습니다. 이 데이터 처리 방법은 이익 및 매출 물품을 재고로 증가시킬 수 있습니다.

Big Data Projects를 도입 한 경험이 밝혀지면이 영역은 현대 비즈니스 작업을 성공적으로 해결하기 위해 설계되었습니다. 동시에 큰 데이터로 작업 할 때 상업적 목적을 달성하는 중요한 요소는 소비자 요청을 탐지하는 분석과 큰 데이터 영역의 혁신적인 기술의 사용을 포함하는 올바른 전략의 선택입니다.

글로벌 조사에 따르면 매년 2012 년부터 비교적 및 어도비 (Aconultancy)와 어도비 (Adobe)가 인터넷에서 사람들의 행동을 특징 짓는 "빅 데이터"가 많이 있습니다. 그들은 오프라인 비즈니스 프로세스를 최적화하고 모바일 장치의 소유자가 정보를 검색하거나 단순히 "마케팅을 더 잘 만들기"하는 방법을 이해하는 데 도움이됩니다. 보다 효율적으로. 또한, 우리가 보여주는 다이어그램에서 다음과 같이 올해의 마지막 기능이 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 점차 점점 더 많아지고 있습니다.

고객 관계 측면에서 인터넷 마케터의 주요 운영 영역

자원: 비교적 및 어도비, 출판 - emarketer.com.

응답자의 국적은 중요하지 않습니다. 2013 년 KPMG가 실시한 설문 조사로서 "낙관론자"의 비율, 즉. 비즈니스 전략을 개발하는 데 큰 데이터를 사용하는 사람들은 56 %, 그 지역의 변동은 소규모이며, 북미 국가의 63 %에서 EMEA에서 50 %까지의 63 %입니다.

세계의 다른 지역에서 큰 데이터를 사용합니다

자원: KPMG, 출판 - emarketer.com.

한편, 그러한 "패션 트렌드"와 같은 마케터의 비율은 유명한 Anecdot와 유사합니다.

나에게 말해봐, 너 토마토를 좋아하니?
- 나는 먹는 걸 좋아, 그래서 - 아니오.

"사랑"이라는 마케터가 "사랑"이라는 단어의 마케터가 사실, 사실, 소셜 네트워크에서의 심장 attes에 대해 쓰는 것처럼 "모든 것이 어렵습니다"라는 사실에도 불구하고 있습니다.

유럽 \u200b\u200b마케터가 2014 년 1 월에 서클 연구가 실시한 조사에 따르면 5 명 중 4 명 중 4 명은 대규모 데이터를 사용하지 않습니다 (물론 "사랑"이라는 사실에도 불구하고). 원인은 다릅니다. 회의론자가 약간 17 %, 정확하게 그들의 반대로, 즉. 자신있게 대답하는 사람들 : "예" 나머지는 진동하고 의심하고, "늪"입니다. 그들은 "아니, 곧"아니라 "또는"나머지가 시작될 때까지 기다릴 때까지 유리한 구실 아래에서 직접적인 반응을 남깁니다.

대형 데이터 마케터, 유럽, 2014 년 1 월 사용

자원:dNX, 게시 -emarketer.com.

그들을 혼란스럽게하는 것은 무엇입니까? 태양 사소한. 일부 (정확히 절반)는 단순히이 데이터를 믿지 않습니다. "데이터"및 "사용자"세트의 상관 관계에서 다른 사람들 (또한 많은 -55 %)이 어렵습니다. 누군가는 단순히 (정치적으로 수정하는 것으로 표현) intracorporate disorder : 데이터는 마케팅 부서와 IT 구조 사이에서 일치하지 않습니다. 다른 소프트웨어는 일의 유입에 대처하지 않습니다. 기타. 총 주식이 100 %를 크게 초과했기 때문에 "다수의 장벽"의 상황이 종종 발견되었음을 분명합니다.

마케팅에서 큰 데이터를 사용하는 장벽

자원:dNX, 게시 -emarketer.com.

따라서 "빅 데이터"가 아직도 이점을 가져야하는 큰 잠재력이있는 동안이를 나타내는 것이 필요합니다. 그건 그렇고, 이것은 우리가 이미 전시 된 설문 조사 데이터에 의해 입증 된 것처럼 큰 데이터가 "패션 트렌드"할로를 잃어 버렸을 수 있습니다.

디지털 마케팅 2013-2014에서 가장 중요한 추세

자원: 비교적 및 어도비

교체를 위해, 그들은 다른 킹 - 콘텐츠 마케팅을 나오고 있습니다. 얼마나 오래?

큰 데이터는 근본적으로 새로운 현상의 일종이라고 말하는 것은 불가능합니다. 대용량 데이터 소스는 수년 동안 존재 해 왔습니다. 고객은 데이터베이스, 신용 스토리, 라이프 스타일을 구매합니다. 수년 동안 과학자들은 이러한 데이터를 사용하여 회사가 위험을 평가하고 미래의 고객 요구를 예측하는 데 도움이됩니다. 그러나 오늘날 상황은 두 가지 측면에서 변경되었습니다.

다양한 데이터 세트를 분석하고 결합하는 더 복잡한 도구와 방법이 있습니다.

이러한 분석 도구는 데이터를 수집하고 측정하는 거의 모든 방법의 디지털 기술로 전환으로 인한 새로운 데이터 소스의 전체 눈사태로 보완됩니다.

동시에 사용 가능한 정보의 범위와 구조화 된 연구 매체에서 성장한 연구자들을 무서워합니다. 소비자 감정은 사이트 및 모든 종류의 소셜 미디어의 다양한 종류에 의해 기록됩니다. 광고를 시청하는 사실은 텔레비전 콘솔뿐만 아니라 디지털 태그와 모바일 장치TV로 만지고 있습니다.

행동 데이터 (예 : 통화 수, 습관 및 구매 구매)는 이제 실시간으로 제공됩니다. 따라서 연구에 의해 얻는 데 사용 된 것의 대부분은 오늘날 큰 데이터 소스를 사용하여 배울 수 있습니다. 모든 연구 프로세스에 관계없이 이러한 모든 정보 자산은 지속적으로 생성됩니다. 이러한 변경 사항은 대규모 데이터가 고전적인 시장 조사를 대체 할 수 있는지 여부를 알려줍니다.

데이터에 관한 것이 아니며 질문과 답변에 관한 것입니다.

고전적인 연구에 대한 장례식을 주문하기 전에 특정 데이터 자산의 존재가 아니라 다른 데이터 자산이 아니라는 것을 상기시켜야합니다. 정확히 무엇? 질문에 답변 할 수있는 우리의 능력, 그게 뭔지. 새로운 데이터의 새로운 세계는 새로운 정보 자산에 기초하여 얻은 결과가 더 많은 문제의 출현으로 이어지고 전통적인 연구가 이러한 문제에 가장 잘 답하는 것이 가장 좋습니다. 따라서 가장 큰 데이터가 증가함에 따라 "작은 데이터"(작은 데이터)의 존재와 필요성에 대한 평행 성장을 볼 수 있습니다. 이는 대용량 데이터의 세계에서 답변을 제공 할 수 있습니다.

상황을 고려하십시오 : 대형 광고주는 실시간으로 상점 및 판매량의 교통량을 일정하게 모니터링합니다. 기존 연구 기술 (판매 시점에서 구매 및 행동에 대한 동기 부여에 대한 연구 패널을 인터뷰) 구매자의 특정 부분을 더 잘 목표로하는 데 도움이됩니다. 이러한 기술을 확장 할 수 있습니다. 이들은 큰 데이터가 수동 관찰 수단이되는 지점까지 다양한 범위의 대형 데이터 자산을 포함 할 수 있으며 연구가 필요한 변경이나 이벤트에 대한 영구 Unkonese 연구 방법으로 연구합니다. 이는 많은 데이터가 과도한 루틴으로부터 연구를 해제 할 수있는 방법입니다. 주 연구는 더 이상 일어나는 일에 집중하지 않아야합니다 (이것은 큰 데이터를 만들 것입니다). 대신, 주요 연구는 우리가 왜 우리가 추세로부터의 특정 추세 또는 편차를 보는 \u200b\u200b이유를 설명하는 데 집중할 수 있습니다. 연구원은 데이터를받는 것에 대해 적게 생각할 수 있으며, 분석하고 사용하는 방법에 대해 더 많이 생각할 수 있습니다.

동시에 큰 데이터가 우리의 가장 큰 문제 중 하나를 해결할 수 있음을 알 수 있습니다. 왜냐하면 지나치게 긴 연구의 문제. 연구 자체에 대한 연구는 지나치게 부풀어 오른 연구 도구가 데이터의 품질에 부정적인 영향을 미치는 것을 보여주었습니다. 오랫동안 많은 전문가 가이 문제의 존재를 오랫동안 인식했지만, 그들은 정답되어 있습니다. "라는 문구 로이 문제가 있습니다."그러나 나는 최상위 관리를 위해이 정보가 필요합니다 "라고 오랫동안 설문 조사가 계속되었습니다.

수동 관찰에 의해 정량적 지표를 얻을 수있는 큰 데이터의 세계 에서이 질문은 논쟁의 여지가 있습니다. 다시 말하지만 이러한 모든 소비 연구를 기억합시다. 대용량 데이터가 수동 관찰을 사용하여 소비에 대한 통찰력을 제공한다면, 설문 조사 형태의 주요 연구는 더 이상 이러한 종류의 정보를 수집 할 필요가 없으며, 우리는 최종적으로 좋은 소망에 의해 짧은 조사의 비전을 강화할 수있을 것입니다. 그러나 무언가 진짜.

큰 데이터가 도움이 필요합니다

마지막으로, "BIG"는 큰 데이터의 특성 중 하나 일뿐입니다. 특성 "큰"은 크기와 스케일 스케일을 의미합니다. 물론 이것은 우리가 이전에 일하는 것의 모든 것부터 우리의 모든 것 이상으로이기 때문에 이것은 주요 특징입니다. 그러나 이러한 새로운 데이터 스트림의 다른 특성은 또한 중요합니다. 종종 형식이없고, 구조화되지 않은 (또는 가장 잘 구성된 부분적으로) 불확실성이 가득합니다. 데이터 관리의 개발 영역 인 메트로 - "엔티티 분석"(엔티티 분석)은 큰 데이터의 잡음 극복 문제점을 해결하기 위해 고안되었습니다. 그녀의 임무는 이러한 데이터 세트를 분석하고 동일한 사람을 지칭하는 관찰이 얼마나 많은 관찰을 지칭하는지, 그 중 어느 것이 사용하기에 적합한 것인지를 알아 보는 것입니다.

더 크거나 작은 데이터 엉덩이로 작업 할 때 노이즈 또는 잘못된 데이터를 제거하기 위해이 유형의 데이터 클리닝이 필요하지만 이는 충분하지 않습니다. 또한 이전의 경험, 분석 및 카테고리에 대한 지식을 기반으로 큰 데이터 자산 주위에 컨텍스트를 만들어야합니다. 실제로 많은 분석가들은보다 효과적인 솔루션을 만들 수 있으므로 경쟁 우위의 원천으로 큰 데이터에서 내재 된 불확실성을 관리 할 수있는 능력을 나타냅니다.

그리고 현재 주요 연구는 큰 데이터 덕분에 일상적으로 면제되지만 대용량 데이터의 틀 내에서 콘텐츠 및 분석 생성에 기여합니다.

이것에 대한 생생한 예는 소셜 미디어에서 브랜드 자본의 새로운 근본적으로 다른 틀을 신청할 수 있습니다. (우리는 개발 된에서 개발 된 것에 대해 이야기하고 있습니다밀 워드 갈색. 브랜드의 가치 측정에 대한 새로운 접근 방식그들의 의미있게. 다른. 뼈대. - "유의 한 차이의 패러다임"-아르 자형. & 티. 짐마자 이 모델은 표준 기반으로 구현 된 특정 시장의 동작에 대해 확인되며 다른 마케팅 방향으로 적용하기 쉽습니다. 정보 시스템 의사 결정을 지원합니다. 즉, 설문 조사 방법을 기반으로하는 우리의 브랜드 자본 모델 (그뿐만 아니라)은 큰 데이터의 구조화되지 않은, 불일치적이고 무기한 특성을 극복하는 데 필요한 모든 특성이 있습니다.

소셜 미디어가 제공하는 소비자 정서에 대한 데이터를 고려하십시오. 원시 형태로 소비자 기분의 봉우리와 데칼은 오프라인으로 획득 한 브랜드 및 행동 자본 매개 변수와 최소한 상관 관계가 있습니다. 너무 많은 소음입니다. 그러나 우리는이 소음을 줄일 수 있으며, 소비자 의미 모델, 브랜드의 차별화, 역학 및 원시 소비자 감정 데이터와의 구별 기능은 이러한 차원에서 소셜 미디어 데이터를 처리하고 집계하는 방법입니다.

데이터가 프레임 워크 모델에 따라 구성된 후에, 추세는 일반적으로 브랜드 자본 및 비헤이비어의 매개 변수와 일치합니다. 본질적으로 소셜 미디어 데이터는 스스로를 위해 말할 수 없습니다. 이 목적을 위해이를 사용하려면 브랜드 주위에 우리의 경험과 모델이 내장되어 있습니다. 소셜 미디어가 소비자가 브랜드를 묘사하는 데 사용되는 언어로 표현 된 고유 한 정보를 제공 할 때, 우리는 귀하의 연구를 훨씬 더 효율적으로 만들기 위해 연구를 만들 때이 언어를 사용해야합니다.

해방 된 연구의 이점

이것은 큰 데이터가 연구에 의해 면제되는 것으로 대체되지 않는다는 사실을 우리에게 반환합니다. 연구원은 새로운 사례에 대해 새로운 연구를 만들어야 할 필요성으로부터 출시 될 것입니다. 끊임없이 성장하는 주요 데이터 자산은 다른 연구에 사용될 수 있으며, 이는 이후의 주요 연구가 주제에서 깊이 깊어져 사용 가능한 공간을 작성할 수 있습니다. 연구원은 지나치게 부풀어 오른 설문 조사에 의존 할 필요가있는 것에서 출시 될 것입니다. 대신 간단한 폴링을 사용하고 가장 중요한 매개 변수에 초점을 맞추어 데이터의 품질을 향상시킬 수 있습니다.

이 해방 덕분에 연구자들은 대규모 데이터 자산의 정확성과 의미를 추가하기 위해 그들의 소비 원칙과 아이디어를 사용할 수있게하여 조사 방법에 의한 연구를 위해 새로운 분야의 출현으로 이어질 것입니다. 이 사이클은 다양한 전략적 문제에 대한 더 깊은 이해를 가져야하며, 궁극적으로 브랜드 및 통신과 관련된 솔루션의 품질을 알리고 향상시키는 것이 항상 우리의 주요 목표가되어야한다는 사실을 향해 이동합니다.

한 번에, 나는 독일어 그리펙 (Sberbank의 머리)의 "빅 데이터"라는 용어를 들었습니다. 그들은 이제는 각 고객과 함께 일할 시간을 절감하는 데 도움이되므로 소개에 적극적으로 일하고 있습니다.

두 번째로 나는 클라이언트의 온라인 상점 에서이 개념으로 운영되었는데, 우리가 일하면서 수천 명의 수만의 상품 위치를 수천 명의 상품 위치로 늘어났습니다.

제 3 시간 동안, YANDEX에서는 큰 데이터 분석가가 필요하다고 보았을 때. 그런 다음이 주제에서 알아 내기 위해 감히 감히려고했고 동시에 이것은 최고 관리자와 인터넷 공간의 마음을 흥분시키는 용어임을 알려주는 기사를 작성했습니다.

그것이 무엇인지

일반적으로 설명으로 시작하는 모든 기사, 그러한 용어는 무엇인가? 이 기사는 예외가 아닙니다.

그러나 이것은 내가 똑똑한 것을 보여주는 욕망이 아니라 주제가 진정으로 복잡하고 신중한 설명이 필요하다는 사실이 아닙니다.

예를 들어, Wikipedia에있는 큰 데이터가 무엇인지 이해하고 아무 것도 이해하지 못한 다음이 기사로 돌아가서이 기사로 돌아가서 비즈니스에 대한 정의와 적용 가능성을 이해할 수 있습니다. 그렇다면 설명으로 시작한 다음 비즈니스의 예로 시작합시다.

큰 데이터는 큰 데이터입니다. 놀랍게도 그렇습니다. 정말로 영어에서 "큰 데이터"로 번역됩니다. 그러나이 정의는 인형을 위해 할 수 있습니다.

기술 빅 데이터. - 이것은 종래의 방식으로 처리하기 어려운 새로운 정보를 얻기 위해 더 많은 수의 데이터를 처리하는 방법 / 방법입니다.

데이터는 모두 처리 (구조화 된) 및 이격 (즉, 구조화되지 않음)을 모두 처리 할 수 \u200b\u200b있습니다.

그 자체라는 용어는 비교적 최근에 나타났습니다. 2008 년, 과학 저널 에서이 접근법은 많은 양의 정보로 일하는 데 필요한 것으로 예상되었으며, 기하학적 진행이 증가합니다.

예를 들어, 인터넷에 대한 매년 정보를 저장하고, 프로세스에 저장해야하며 40 % 증가합니다. 다시 한번 : 매년 매년 40 %가 새로운 정보의 인터넷에 나타납니다.

인쇄 된 문서가 명확하고 해당 처리 방법도 명확하게 (전자식 양식으로 전송, 하나의 폴더로 봉합, 번호 매기기), 완전히 다른 "미디어"및 기타 볼륨으로 표시되는 정보로 무엇을해야할 것입니다.

인터넷 문서;
블로그 및 소셜 네트워크;
오디오 / 비디오 소스;
측정 장치.

정보와 데이터를 큰 데이터로 속성 할 수있는 특성이 있습니다. 즉, 모든 데이터가 분석에 적합 할 수있는 것은 아닙니다. 이러한 특성에서 큰 날짜의 핵심 개념이 쌓여 있습니다. 그들 모두는 3 명의 V에 적합합니다.

음량(eng. 볼륨). 데이터는 분석 할 "문서"의 물리적 볼륨의 크기로 측정됩니다.
속도(영어에서. 속도). 데이터는 개발 비용이 비용이 아니지만 끊임없이 자라기 때문에 결과를 얻으려면 빠른 가공이 필요한 이유입니다.
다양성(영어에서. 다양성). 데이터는 단일 형식이 아닐 수도 있습니다. 즉, 부분적으로 부분적으로 구조화되거나 구조화 될 수 있습니다.

그러나 주기적으로 VVV 및 네 번째 V (데이터의 진실성 / 믿음) 및 다섯 번째 V (일부 실시 예에서는 생존 가능성 - 생존력이며, 가치 가치)입니다.

어딘가에 나는 또한 큰 날짜와 관련된 데이터를 특성화하는 7V를 보았습니다. 그러나 내 의견으로는 이것이 시리즈 (P가 주기적으로 첨가되는 경우, 초기 4-x를 이해하는 것이기는 주기적으로 추가됩니다).

우리는 이미 29,000 명이 넘습니다.
시작하다

누가 그것을 필요로합니다

그것은 논리적 인 질문에 관해서, 어떻게 정보를 사용할 수 있습니까 (그 경우, 큰 날짜가 수백과 수천 테라 바이트 인 경우)?

그렇게하지 않아도됩니다. 여기에 정보가 있습니다. 그렇다면 큰 날짜는 무엇을 했습니까? 마케팅 및 비즈니스에서 큰 데이터의 사용은 무엇입니까?

일반 데이터베이스는 저장 및 처리 할 수 \u200b\u200b없습니다 (나는 현재의 대용량의 정보의 분석학, 단순히 스토리지 및 처리에 대해서도 말하지 않아도됩니다.
큰 날짜는이 주요 작업을 해결합니다. 대용량으로 정보를 성공적으로 저장하고 관리합니다.
다양한 소스 (비디오, 이미지, 오디오 및 텍스트 문서)에서 오는 구조물 정보, 하나의 단일, 이해 가능 및 응답 양식;
분석의 형성 및 구조화 및 처리 된 정보를 기반으로 정확한 예측을 만드는 것.

그것은 복잡합니다. 간단히 말하면, 많은 양의 정보를 탐구하는 경우 (귀사, 경쟁사, 업계, 업계, 귀하에 관한 정보)를 탐구하면 매우 적절한 결과를 얻을 수 있습니다.

숫자의 일부에 대한 귀하의 회사와 귀하의 비즈니스에 대한 완전한 이해;
경쟁사를 둘러 봅니다. 그리고 이것은 차례로 그로 인해 앞으로 나올 기회를 줄 것입니다.
고객에 대한 새로운 정보를 배우십시오.

큰 데이터 기술은 다음과 같은 결과를 제공하기 때문에 모든 것이 착용됩니다. 이 사건을 회사에 고정하여 판매 증가 및 비용 절감을 위해 노력하고 있습니다. 그리고 특히 그렇다면 :

고객 선호도에 대한 더 나은 지식으로 인해 판매 교차 및 추가 판매 증가;
인기있는 제품과 그들이 구입 한 이유를 찾는 것 (반대로);
제품 또는 서비스 개선;
서비스 수준 향상;
레이링 충성도 및 고객 초점;
사기 경고 (은행 부문과 관련);
초과 비용을 줄였습니다.

모든 출처에서 주어진 가장 일반적인 예제는 물론 사용자 (전화, 시계, 컴퓨터)에 대한 데이터를 수집하는 Apple입니다.

회사가 사용자에 대해 많이 알고있는 환경 시스템의 존재로 인한 것으로 인해 이후이를 이익을 위해 사용합니다.

이러한 사용의 다른 예제와 다른 기사에서 읽을 수 있습니다.

현대 예

나는 다른 프로젝트에 대해 알려줍니다. 큰 데이터 솔루션을 사용하여 미래를 빌드하는 사람이 아닙니다.

이것은 Ilon Mask와 그의 회사 Tesla입니다. 그의 주요 꿈은 자동차를 자율적으로 만드는 것입니다. 즉, 바퀴 뒤에서, 모스크바에서 블라디보스토크 (Vladivostok) 로의 자동 조종술을 켜고 ... 잠들기 때문에 차를 운전할 필요가 없기 때문에 절대적으로 차를 운전할 필요가 없기 때문입니다. ...에

환상에 보일 것입니까? 하지만! ilon은 수십 명의 위성으로 자동차를 관리하는 Google보다 훨씬 현명했습니다. 다른 방법으로 갔다.

매운 각 자동차에서는 컴퓨터가 설정되어 모든 정보를 수집합니다.
모두 - 이것은 모든 전체를 의미합니다. 운전사, 그의 운전 스타일, 도로 주변, 다른 차의 움직임. 이러한 데이터의 양은 시간당 20-30GB에 도달합니다.
다음 으로이 정보에 대한 정보 위성 통신 이 데이터를 처리하는 데 종사하는 중앙 컴퓨터로 전달됩니다.
이 컴퓨터를 처리하는 빅 데이터 데이터를 기반으로 무인 차량의 모델이 지어졌습니다.

그건 그렇고, Google 비즈니스가 꽤 심하게 가고있는 경우, 그들의 자동차가 항상 사고로가는 경우, 테스트 모델은 매우 좋은 결과를 보여주기 때문에 큰 데이터로 작업하는 사실 때문에 마스크가 훨씬 더 좋습니다.

그러나 ... 그것은 모두 경제 출신입니다. 우리 모두는 이익에 관한 것입니다. 큰 날짜를 결정할 수있는 많은 것은 소득과 돈으로 완전히 인식되지 않습니다.

Google 통계는 큰 데이터를 기반으로하는 것만으로 흥미로운 것을 보여줍니다.

의사가 지역에서 질병의 전염병의 시작을 선언하기 전에이 질병의 치료에 대한 검색 질의 수가 크게 증가합니다.

따라서 데이터와 해당 분석에 대한 올바른 연구는 예측을 형성하고 전염병의 시작을 예측할 수 있으며 (그에 따라 그 예방)은 공식 기관과 행동의 결론보다 훨씬 빠릅니다.

러시아의 신청

그러나 러시아는 언제나 조금 느려집니다. 따라서 러시아의 빅 데이터의 정의는 5 년 전 이후 (현재 보통 회사에 관한 것)가 아닙니다.

그리고이 세계에서 가장 빠르게 성장하는 시장 중 하나 (마약과 무기가 긴장하게 흡연), 매년 큰 데이터를 수집하고 분석하는 시장은 32 %만큼 작게 될 것입니다.

러시아의 빅 데이터 시장을 특성화하기 위해 나는 한 오래된 농담을 기억합니다. 큰 날짜는 18 세가 될 때까지 섹스와 같습니다. 모두가 그것에 대해 이야기하고 있으며, 많은 소음이 있고 그 주위에 실제 행동이 거의 없습니다. 모두는 이에 종사하지 않는다는 것을 인정하기 위해 부끄러워합니다. 진실은이 소음이 많지만 실제적인 행동이 거의 없습니다.

잘 알려진 Gartner Research Company는 이미 큰 날짜가 증가하는 추세 (예상, 인공 지능)와 첨단 기술을 분석하고 개발하기위한 상당한 독립적 인 도구라고 발표했습니다.

러시아의 큰 데이터가 적용되는 가장 활동적인 틈새 시장은 은행 / 보험 (SBERBANK의 머리로 기사를 시작함), 통신 구, 소매, 부동산 및 ... 공공 부문.

예를 들어, 큰 데이터 알고리즘을 사용하는 경제의 한 쌍에 대해 더 자세히 알려 드리겠습니다.

1. 은행

은행부터 시작하자, 우리와 우리의 행동에 대해 수집 한 정보를 시작합시다. 예를 들어, 저는 적극적으로 큰 데이터에 투자하는 상위 5 개 러시아 은행을 택했습니다.

Sberbank;
가즈프롬 킹;
VTB 24;
알파 은행;
팅크 오프 은행.

알파 은행의 러시아 지도자들 사이에서 만나는 것이 특히 좋습니다. 최소한 은행 인 공식 파트너가 귀하의 회사에 새로운 마케팅 도구를 소개 할 필요가 있음을 이해해야합니다.

그러나 내가 비표준의 모양과 창업자의 증서에 대해 내가 좋아하는 뱅크에 공개하려는 빅 데이터를 사용하고 성공적으로 구현하고자하는 의례.

나는 Tinkoff 은행에 대해 이야기하고 있습니다. 주요 작업은 증가하는 클라이언트 기반으로 인해 대규모 데이터를 실시간으로 분석하기위한 시스템을 개발하는 것이 었습니다.

결과 : 내부 공정의 시간이 적어도 10 배 이상 감소했으며, 일부는 100 번 이상 감소했습니다.

글쎄, 그리고 약간의 혼란. 왜 내가 왜 비표준 트릭과 Oleg Tinkov의 행동에 대해 이야기했는지 알고 있습니까? 내 의견으로는 가장 유명하고 인식 할 수있는 기업가 중 한 명으로 러시아에서 러시아의 중간 핸드의 사업장을 꺼내는 것을 도왔습니다. 확인 에서이 특이하고 흥미로운 비디오를보십시오.

2. 부동산

부동산에서는 모든 것이 훨씬 어렵습니다. 그리고 이것은 정확히이 예제를 보여주기 위해 큰 날짜를 이해하고 평소 비즈니스를 이해하고자하는 것입니다. 초기 데이터 :

많은 양의 텍스트 문서;
오픈 소스 (지구 변화에 대한 데이터 전송 개인 위성);
인터넷에 대한 통제되지 않은 정보의 엄청난 양;
소스 및 데이터의 지속적인 변경.

이를 바탕으로 우랄 마을 아래의 랜드 플롯의 가치를 준비하고 평가할 필요가 있습니다. 전문가는 일주일에 걸릴 것입니다.

실제로 소프트웨어의 도움으로 큰 데이터를 분석하는 러시아 사회 감정사 & Roseco는 여유롭게 30 분이 넘는 시간을 보낼 것입니다. 비교, 주 및 30 분. 거대한 차이.

창조 도구

물론 엄청난 양의 정보를 간단한 하드 드라이브에서 저장하고 처리 할 수 \u200b\u200b없습니다.

그러나 소프트웨어데이터는 일반적으로 지적 재산이며 저자의 개발을 할 때마다 데이터를 분석합니다. 그러나이 모든 매력을 기반으로하는 도구가 있습니다.

Hadoop & MapReduce;
NoSQL 데이터베이스;
데이터 검색 클래스 도구.

솔직히 말해, 나는 물리적, 수학적 기관에서 이러한 것들을 만나고 일하는 것을 배우는 것처럼 서로 다른 것을 분명히 설명 할 수 없을 것입니다.

내가 왜 설명 할 수 없다면 나는 그것에 대해 이야기 했는가? 모든 영화 강도에서 모든 은행에오고 전선에 연결된 모든 종류의 모든 종류의 하드웨어를 볼 수 있습니까? 큰 날짜에 같은 것. 예를 들어, 현재 시장 지도자 중 하나 인 모델이 있습니다.

도구 큰 날짜

최대 구성의 비용은 랙 당 최대 2700 만 루블입니다. 물론, 럭셔리 버전입니다. 귀하의 비즈니스에서 큰 데이터 생성을 따르도록 보장합니다.

주요 사항에 대해 간략하게

당신은 무엇을 물어볼 수 있습니다, 왜 당신, 중소기업은 큰 날짜와 함께 작동합니까?

이에는 당신에게 한 사람의 인용문에 대답 할 것입니다. "가까운 장래에 고객은 가능한 한 많은 행동, 습관을 더 잘 이해하고 가능한 한 더 잘 이해하는 회사가 수요가있을 것입니다."

그러나 눈에 진실을 가져 가자. 중소기업의 큰 날짜를 소개하기 위해 소프트웨어의 개발 및 구현을위한 큰 예산뿐만 아니라 적어도 Big Data Analyst와 Sysadmin과 같은 전문가의 내용에도 큰 예산을 소유 할 필요가 있습니다.

이제는 이제는 처리를 위해 그러한 데이터를 가져야 만합니다.

괜찮아. 중소기업의 경우 주제는 거의 적용되지 않습니다. 그러나 이것은 당신이 위에서 읽은 모든 것을 잊어야한다는 것을 의미하지는 않습니다. 귀하의 데이터가 아니라 외국 및 러시아 회사로 알려진 데이터의 분석 결과를 연구합니다.

예를 들어, 대규모 데이터 분석가를 사용하는 대상 소매 네트워크는 임신의 두 번째 트리 스테로스 (1 일부터 임신의 12 주까지)가 비 방향족 수단을 적극적으로 구매하는 것으로 나타났습니다.

이 데이터 덕분에 제한된 기간을 가진 면수 비용 수단에 대한 할인이있는 쿠폰을 보냅니다.

예를 들어 매우 작은 카페 인 경우? 예, 매우 간단합니다. 충성도 응용 프로그램을 사용하십시오. 그리고 잠시 후에 누적 된 정보 덕분에 고객에게 자신의 필요와 관련이있을뿐만 아니라 말 그대로 마우스 클릭 한 켤레를 볼 수 없으며 가장 신뢰할 수없고 가장 한계 요리를 볼 수 있습니다.

따라서 출력. 중소기업의 큰 날짜를 소개하는 것은 거의 가치가 없지만 다른 회사의 결과와 개발을 사용하는 것은 확실합니다.