알 수 없는 기록

[빅데이터 분석] 01. 빅데이터 정의 및 특징

기록하는 마케터 2017. 4. 22. 18:29
반응형

K-MOOC에서 진행하는 빅데이터의 세계, 원리와 응용수업을 요약한 글입니다.

 

1. 빅데이터 출현배경

빅데이터 시대가 도래하게 된 배경에는 첫째, 트위터나 페이스북 등 다양한 SNS의 급격한 확산으로 인한 비정형 데이터의 증가가 있습니다. 둘째, 멀티미디어 콘텐츠와 콘텐츠 사용에 대한 증가입니다. 셋째, 데이터를 트래킹, 수집할 수 있는 환경의 구축입니다. 즉 빅데이터 시대가 도래할 수 있었던 이유는 비정형 데이터의 증가와 함께 데이터를 트래킹, 수집할 수 있는 환경구축이 있었기 때문입니다.

 

2. 빅데이터 정의

빅데이터란 말 그대로 직역하면 대용량 자료라고 할 수 있습니다. 하지만 오늘날 사람들이 일컫는 빅데이터란, 다양한 형태의 데이터를 목적에 맞게 분석함으로써 해당 분야의 필요 지식을 추출하여 전략적 의사결정에 활용하거나 문제해결에 이용하는 제반 행위를 포괄적으로 일컫는 말입니다.

 

3. 전통적 데이터 분석과 빅데이터 분석의 차이

전통적 데이터 분석과 빅데이터 분석의 차이점은 첫번째, 데이터의 확장입니다.  전통적 데이터 분석은 조직 내부의 데이터 분석을 중심으로 이루어졌다면, 빅데이터 분석은 웹 상, SNS상의 외부 데이터까지 활용합니다. 예를 들어, 과거 기업들은 자사의 매출 분석만 시행했다면 요즘은 웹과 SNS상의 외부 데이터까지 분석해 자사 제품에 대한 소비자의 인식을 확인한다고 볼 수 있습니다. 두번째, 데이터의 다양화입니다. 전통적 데이터 분석은 정형 데이터 분석 중심으로 이루어졌지만, 빅데이터 분석은 사진, 동영상, 텍스트 모두 포함하여 비정형 데이터까지 활용한다는 점에서 차이가 있습니다. 세번째, 데이터의 대규모화입니다. 전통적 데이터 분석에 비해서 빅데이터 분석은 분석 대상 데이터의 규모에 큰 차이가 있습니다.

 

4. 빅데이터 주요 요소

빅데이터 주요 요소로는 첫번째, 데이터입니다. 데이터는 크게 정형데이터와 비정형 데이터로 구분할 수 있습니다. 정형데이터는 고객 명단, 거래 데이터 등 가공된 데이터로 쉽게 말하면, 엑셀로 정리할 수 있는 데이터를 뜻합니다. 비정형데이터는 가공되지 않은 데이터로 동영상이나 사진, 텍스트 등이 있습니다. 두번째 요소는, 데이터 수집, 처리, 저장 기술입니다. NoSQL, Hadoop 등의 프레임워크가 활용됩니다. 세번째, 데이터 분석 및 지식 추출 기술입니다. 회귀분석, 군집화 등 데이터를 분석하여 가치 있는 정보, 또는 지식을 도출해 내는 기술입니다.

 

5. 빅데이터의 주요 특징, 5V

빅데이터 주요 특징은 5V로 설명할 수 있습니다. 첫번째는 Volume, 규모입니다. 빅데이터의 데이터 크기는 수직 확장의 물리적 한계를 초과할 정도의 페타, 제타바이트 등 거대한 크기가 특징입니다. 현재도 해마다 디지절 정보량이 기하급수적으로 폭증하는 추세입니다. 두번째는 Variety, 다양성입니다. 정형 데이터 뿐만이 아니라 텍스트, 영상, 로그 기록 등 다양한 데이터를 분석 대상으로 합니다. 세번째는 Velocity, 속도입니다. 순차적 데이터 처리 수준의 속도에서 실시간 데이터 처리 및 분석이 진행될 정도의 높은 속도가 특징입니다. 넷째는 Veracity, 정확성입니다. 데이터의 품질이나 정확도가 성과에 중대한 영향을 미치는 만큼, 노이즈를 제거하고 시그널을 확보함으로써 데이터의 신뢰성을 제고하는 것이 특징입니다. 마지막으로 Value, 가치입니다. 빅데이터의 가치는 데이터의 정확성과 시간성과 관련이 있다는 것이 특징입니다.

 

6. 빅데이터 분석 과정

빅데이터 분석 과정은 첫번째, 데이터 인식 단계입니다. 분석을 전제로 가용한 데이터를 확인하는 단계입니다. 두번째, 데이터 수집 단계입니다. 조직 내외부의 여러 데이터 소스로부터, 필요로 하는 데이터를 수집하는 단계입니다. 세번째, 데이터 저장 단계입니다. 대용량의 정형, 비정형 데이터를 데이터 분석 및 활용을 위해 저장, 관리하는 단계입니다. 네번째, 빅데이터 처리, 분석 단계입니다. 통계분석을 이용하여 다양한 형태의 데이터로부터 관계, 패턴 등 알려지지 않은 정보와 지식을 찾아내는 과정입니다. 다섯째, 빅데이터 시각화 단계입니다. 데이터 분석 결과를 쉽게 이해할 수 있도록 분포 시각화, 인포그래픽 등 시각적인 수단으로 정보를 전달하는 과정입니다. 마지막 빅데이터 활용 단계입니다. 데이터 분석을 통해 추출한 정보, 지식 등을 의사결정에 반영하는 단계입니다.

반응형