데이터 분석 방법론 | 5강 빅데이터 분석 방법론 최근 답변 295개

당신은 주제를 찾고 있습니까 “데이터 분석 방법론 – 5강 빅데이터 분석 방법론“? 다음 카테고리의 웹사이트 you.halongpearl.vn 에서 귀하의 모든 질문에 답변해 드립니다: https://you.halongpearl.vn/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 데이터人싸 이(가) 작성한 기사에는 조회수 8,313회 및 좋아요 61개 개의 좋아요가 있습니다.

데이터 분석 방법론 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 5강 빅데이터 분석 방법론 – 데이터 분석 방법론 주제에 대한 세부정보를 참조하세요

5강 빅데이터 분석 방법론
I made a thumbnail for free in website \”forcre\”.
website : www.forcre.kr

데이터 분석 방법론 주제에 대한 자세한 내용은 여기를 참조하세요.

전통적 데이터분석 방법론: KDD, CRISP-DM – 투이컨설팅

KDD(Knowledge Discovery in Database) 분석 방법론은 1996년 Fayyad가 소개한 방법론으로 데이터를 통해 통계적 패턴이나 지식을 찾을 수 있도록 정리한 …

+ 여기에 표시

Source: www.2e.co.kr

Date Published: 12/30/2022

View: 1914

데이터 분석 방법론 (KDD, SEMMA, CRISP-DM)

분석 방법에는 크게 3가지로, 통계적 방법론, 데이터 마이닝 방법론, 빅데이터 방법론으로 구분할 수 있을 것 같습니다. 통계적 방법론은 전통적인 통계 …

+ 여기에 표시

Source: bigdatamaster.tistory.com

Date Published: 11/20/2021

View: 3935

2.1.2.분석 방법론 – 개발자가 데이터 분석 준전문가 되기

분석 방법론의 구성 · 단계. 단계별 산출물을 생성; 단계별 완료 보고서 · 태스크. 단계를 구성하는 단위 활동; 보고서 · 스탭. WBS의 워크 패키지에 해당; 보고서 구성요소 …

+ 여기에 표시

Source: wikidocs.net

Date Published: 4/10/2021

View: 7246

데이터 분석 방법론

데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용 될 수 있는 구조를 갖고 있습니다. 2) KDD 분석 프로세스. (1) 데이터셋 선택( …

+ 여기에 자세히 보기

Source: nujnow.tistory.com

Date Published: 12/18/2022

View: 5344

[3과목] 분석 방법론 – 『Data Bonanza』

KDD 분석 방법론. KDD(Knowledge Discovery in Databases)는 데이터 마이닝 프로세스; KDD 분석 절차 (5가지 프로스세스).

+ 여기에 자세히 보기

Source: databonanza.tistory.com

Date Published: 5/20/2021

View: 7852

대표적인 데이터 분석 방법론 30가지 – DODOMIRA

올림픽은 아니지만 데이터 분석 분야에서도 자주 쓰이는 대표 선수(?)들이 있습니다. 오늘은 대표적으로 많이 사용되는 데이터 분석 방법론 에 대해 …

+ 여기에 보기

Source: www.dodomira.com

Date Published: 7/17/2021

View: 8815

5강 빅데이터 분석 방법론 – DATA ON-AIR

… 구글 데이터 데이터가공 데이터과학자 데이터기업활용 데이터바우처 데이터베이스 데이터베이스활용 데이터분석 데이터분석가 데이터산업 데이터수집 데이터스타즈 …

+ 여기에 자세히 보기

Source: dataonair.or.kr

Date Published: 8/21/2021

View: 6077

빅데이터 분석 방법론 , ADsP #17 – 자비스가 필요해

본 포스팅은 ADsP와 ADP 공통 과정인 데이터 분석 기획의 분석 방법론을 다룹니다. 분석 방법론이 방법론 모델 설명, KDD 방법론, CRISP-DM, 빅데이터 …

+ 여기에 자세히 보기

Source: needjarvis.tistory.com

Date Published: 7/8/2021

View: 9526

주제와 관련된 이미지 데이터 분석 방법론

주제와 관련된 더 많은 사진을 참조하십시오 5강 빅데이터 분석 방법론. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

5강 빅데이터 분석 방법론
5강 빅데이터 분석 방법론

주제에 대한 기사 평가 데이터 분석 방법론

  • Author: 데이터人싸
  • Views: 조회수 8,313회
  • Likes: 좋아요 61개
  • Date Published: 2020. 7. 1.
  • Video Url link: https://www.youtube.com/watch?v=mMgBghJ5qwk

전통적 데이터분석 방법론: KDD, CRISP-DM

정보의 홍수라는 말로 표현하기에 무색할 만큼 대용량의 데이터가 축적되고 있다. 이전에 활용되었던 정형데이터의 양이 어마어마하게 증가했음은 물론, 비정형데이터를 활용할 수 있는 방법 또한 다양해졌다. 대용량 데이터베이스와 빅데이터를 통해 새로운 인사이트를 도출하고자 하는 시도가 증가하면서 어떻게 효율적으로 분석해야 하는지에 대한 방법론이 중요해지고 있다. KDD와 CRISP-DM 방법론을 소개한다.

분석을 시작하기 위해 필요한 분석 기획

분석이란 데이터의 중요한 패턴을 발견하고 해석한 결과를 전달하는 과정이다. 축적되어있는 데이터로부터 성공적인 분석이 이루어지려면 적절한 분석 기획이 먼저 수립되어야 한다. 즉, 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 인사이트 등의 결과를 도출할 수 있도록 적절하게 관리할 수 있는 방안을 사전에 계획하는 것이다.

분석 대상과 방법

분석은 분석의 대상(WHAT)과 분석의 방법(HOW)에 따라 4가지 유형으로 나눌 수 있다. 한 가지 주제의 분석이라 할지라도 4가지 유형을 넘나들며 분석을 수행하고 결과를 도출하는 과정을 반복할 수 있다.

[그림1] 분석의 4가지 유형

분석 기획은 다음 세가지를 고려해서 수행한다.

가용데이터에 대한 고려(Available Data)

분석을 위한 데이터 확보가 우선이며, 데이터의 유형에 따라 적용 가능한 솔루션과 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다.

적절한 활용방안과 활용사례(Proper Business Use Case)

분석을 적용하여 성과를 낼 수 있는 대상 업무가 있어야 한다. 동 업종 또는 동 업무의 분석 적용 사례를 참조할 수 있다. 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요하다

장애요소들에 대한 사전계획 수립 (Low Barrier of Execution)

1회성 분석에 그치지 않고 조직 역량으로 내재화되기 위해서는 지속적인 교육 및 활용방안 등의 변화 관리가 고려되어야 한다.

KDD 분석 방법론과 CRISP-DM 방법론

기업들은 매번 분석을 시도할 때마다 처음부터 다시 분석 기획을 하는 것은 어렵기도 하거니와 효율적이지 못하다. 그러므로 적절한 분석 절차가 조직 내에 정착하기 위해서는 체계화한 절차와 방법이 정리된 분석 방법론이 필요하다. 방법론은 절차와 방법, 도구, 기법, 템플릿과 산출물로 구성되어 있으며 활용하기 쉽도록 구성되어야 한다.

KDD 분석 방법론

KDD(Knowledge Discovery in Database) 분석 방법론은 1996년 Fayyad가 소개한 방법론으로 데이터를 통해 통계적 패턴이나 지식을 찾을 수 있도록 정리한 데이터마이닝 프로세스이다. 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화에서 응용 될 수 있는 구조를 갖고 있다. KDD 분석 방법론은 데이터셋 선택, 데이터 전처리, 데이터 변환, 데이터마이닝, 결과 평가로 이루어져 있다.

[그림2] KDD 분석 절차

가. Selection (데이터 선택)

데이터베이스나 Raw data에서 분석에 필요한 데이터를 선택하는 단계로, 분석을 하려는 산업 도메인에 대한 이해와 해당 과제의 목표 설정이 필수적이다.

나. Preprocessing (데이터 전처리)

선택된 데이터셋에 포함 되어 있을 수 있는 노이즈와 이상값, 결측값들을 식별하고 필요하다면 삭제 및 변환 등의 전처리를 통해 데이터셋을 정제하는 단계이다.

이 단계에서 추가로 데이터가 필요할 경우, 데이터셋 선택 절차를 반복한다.

다. Transformation (데이터 변환)

정제된 데이터를 분석 목적에 따라 데이터의 Feature를 생성, 선택하고 데이터의 차원을 축소하며 데이터마이닝을 진행할 수 있도록 변환하는 단계이다.

이 단계에서 데이터마이닝에 필요한 학습데이터셋과 실험데이터셋으로 분리한다.

라. Data Mining (데이터마이닝)

학습데이터셋을 이용하여 분석 목적에 맞게 데이터마이닝 알고리즘을 선택하여 데이터마이닝을 실행하는 단계이다.

필요에 따라 데이터전처리 및 데이터 변환 절차를 반복할 수 있다.

마. Interpretation/Evaluation (데이터마이닝 결과 평가)

데이터마이닝을 수행한 결과에 대해 해석과 평가를 진행한다. 결과가 충족되지 않았을 경우 데이터 선택 절차와 데이터마이닝 절차를 반복 수행한다.

CRISP-DM 분석 방법론

CRISP-DM(Cross Industry Standard Process for Data Mining) 방법론은 전 세계에서 가장 많이 사용되는 데이터마이닝 표준 방법론으로 단계, 일반 과제, 세부과제, 프로세스 실행 등의 4가지 레벨로 구성된 계층적 프로세스 모델이기도 하다.

CRISP-DM의 절차는 6단계로 구성되어 있는데 각 단계들은 순차적으로 진행되는 것이 아니라, 필요에 따라 단계 간의 반복 수행을 통해 분석의 품질을 향상시킨다.

[그림3] CRISP-DM 분석 절차

가. Business Understanding (업무 이해)

업무 이해 단계에선 분석을 수행하고자하는 과제의 목적과 요구사항을 이해하고, 도메인 지식을 활용하여 초기 프로젝트 계획을 수립하는 단계이다. 이 단계에선 업무 목적 파악, 상황파악, 데이터마이닝의 목표 설정, 프로젝트 계획 수립 등의 세부 업무가 포함된다.

나. Data Understanding (데이터 이해)

해당 단계에선 분석을 위한 데이터를 수집하고 이해하는 단계이다. 이 단계에선 초기 데이터 수집, 데이터 기술 분석, EDA, 데이터 품질 확인 등이 있다.

다. Data Preparation (데이터 준비)

수집한 모든 데이터에서 분석에 용이한 데이터만을 추출하여 편성하는 단계이다. 이 단계에선 데이터셋의 선택과 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅의 업무가 있다.

라. Modeling (모델링)

다양한 알고리즘을 선택하여 모델링 과정을 수행하고 파라미터를 최적해 나가는 단계이다. 학습데이터셋 통해 모델링을 수행하며, 실험데이터셋으로 평가한다. 이 단계에서의 수행 업무로는 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성과 평가가 있다.

마. Evaluation (평가)

수행한 모델링 결과가 과제 목적에 적절한지 평가하는 단계로 평가된 모델링 평가가 분석 결과로 적용되는지 판단한다. 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가 등의 수행 업무가 포함된다.

바. Deployment (전개)

완성된 모델을 실제 현업에 적용하기 위해 필요한 이행계획을 수립하는 단계이다. 이행계획에는 모델 적용에 필요한 모니터링은 물론 유지보수 계획 또한 포함된다. 전개 계획 수립 및 모니터링/유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 등의 수행 업무가 포함된다.

데이터 경제가 진화될수록 데이터 분석의 가치는 커진다. 전통적으로 적용해왔던 분석 방법론은 지금에도 여전히 유효하다. KDD 방법론은 5가지, CRISP-DM 방법론은 6가지 프로세스로 이루어져 있다. 모두 이론적인 프로세스보다 구체적이면서 실무 적용 측면을 강조하고 있다. 각 단계 간에는 피드백을 통한 반복으로 분석 품질을 높이고 있다. 분석 기법과 알고리즘이 새롭게 소개되고 있는 현재에도 위 두가지 방법론은 기본으로서 이해하고 있어야 한다.

저작권자 © 투이컨설팅 무단전재 및 재배포 금지

데이터 분석 방법론 (KDD, SEMMA, CRISP-DM)

반응형

데이터 분석 방법론 (KDD, SEMMA, CRISP-DM)

데이터 분석 방법론

막상 데이터 분석을 하려고 하면 막막할 때가 많습니다…이럴때 미리 잘 정리된 절차와 방법을 따라서 하나씩 진행한다면 쉽게 접근할 수 있겠지요! 바로~~~, 이러한 방법을 정리해 봅니다. ^^

​먼저 분석 방법론이란 무엇일까요? 방법론은 쉽게 말하면 앞에서도 잠깐 얘기한 절차와 방법입니다. 즉 어떤 일을 하기위한 체계적인 절차와 그 처리 방법을 정리한 것이라고 하겠습니다. 그럼 데이터 분석 방법에는 어떤 것들이 있을까요? 분석 방법에는 크게 3가지로, 통계적 방법론, 데이터 마이닝 방법론, 빅데이터 방법론으로 구분할 수 있을 것 같습니다. 통계적 방법론은 전통적인 통계 분석을 위한 방법론을 말합니다. 주로 학술 연구를 중심으로 사용되지요. 그리고 통계적 기법/이론을 발굴/적용하는데 중심이 되어있기 때문에 비즈니스 목적과 요구사항을 파악하고 처리하는데 미흡합니다. 반면 데이터 마이닝 방법론은 비즈니스 활용을 목적으로 만들어진 데이터 분석 방법론입니다. 즉, 분석을 통한 비즈니스 활용을 위한 절차와 방법이 정리되어 있습니다. 때문에 산업 현장에서 많이 쓰입니다. 빅데이터 방법론은 빅데이터의 적용 확대에 따라 비정형 데이터의 활용, 분산/분석 기술의 변화와 이에 따른 필요한 분석방법의 (귀납법중심으로의) 변화에 따른 새로운 분석 방법론입니다.

오늘은 그중에서 데이터 마이닝 방법론에 대해서 이야기해 보겠습니다.

제정법(제가 정리한 방법)에 따르면 데이터 분석을 위해 필요한 단계/절차, 활동내용, 산출물을 정리한 것으로 방법론에 따라 분석을 쭉~ 진행해 나가면 자연 스럽게 분석이 이루어지게 되는 것을 말합니다. 따라서 잘만 따라서 진행해 나간다면 (1)초보자도 쉽게 따라할 수 있으며, (2)분석지식이 부족한 사람도 분석 과정을 이해하기 쉽고, (3)중간에 깜빡하고 지나가는 작업을 방지할 수 있어서 일정한 수준 이상의 데이터 분석 품질을 유지 할 수 있습니다. 물론, 각 방법론의 의미와 방법을 잘 이해하고 잘 따라가야 겠지요. ^^

KDD, CRISP-DM, SEMMA

KDD 는

K nowledge D iscovery in D atabase의 약자이며 기술과 데이터베이스를 중심으로한 Insight 발굴을 위한 절차와 단계를 정리한 것입니다. 때문에 DBMS를 운영하는 조직에서는 쉽고 유용하게 사용될 수 있습니다. (이를 위해 BI(Business Intelligence)라는 용어로 불리어 지기도 합니다. 서로 다른 점을 보면 BI는 개념적인 측면의 용어이고 KDD는 방법론의 이름이라는 것이 다릅니다.) 때문에 KDD는 데이터베이스에서의 Data를 통해 Insight를 얻기 위한 표준화된 처리 절차와 방법에 대한 정의라고 생각하시면 됩니다.

크게 5단계의 과정, Selection: 추출(Target Data 생성), Pre-processing: 전처리(Preprocessed Data), Transformation: 변환(Transformed Data), Data Mining(Patterns), Interpretation Evaluation: 해석/평가(Knowledge)을 거치게 됩니다.

[Google image 검색결과중]

SEMMA는

S ampling E xploration M odification M odeling A ssessment의 약자입니다. Statistics 관점의 방법론으로 분석 솔루션 업체인 SAS사 주도로 만들어진 방법론 입니다. 총 5단계로 구성되며, 샘플링, 데이터 탐색/전처리 등 통계 중심의 방법론 입니다. 이름중에 Sampling이 들어있는 것만봐도 아시겠죠! 그래서, 이것도 역시 비즈니스 상에서 필요한 목적과 요구사항 도출/정리/처리하는데 적합하지 않은 방법 입니다.

​​[Google image 검색결과중]

CRISP-DM 는

CR oss- I ndustry S tandard P rocess for D ata M ining의 약자 입니다.1996년 유럽연합EU의 프로젝트로 시작했습니다. CRISP-DM은 SPSS, Teradata, NCR 등 많은 업체들이 참여했습니다. 현재는 공식적인 활동은 중단한 상태이고 IBM의 SPSS Modeler 가이드로 업계애서 많이 사용중 입니다. 단계는 총 6단계로, 비즈니스 이해, 데이터 이해, 데이터 준비, 모델링, 모델 평가, 고객전달 입니다. 비즈니스 현장에서 많이 쓰이는 방법론이니까 자세히 알아보겠습니다.

각 단계 별로 아래와 같은 목적 및 주요 Task가 있습니다.

비즈니스 이해

​Determine Business Objects

Assess Situation

Determine Data Mining Goals

Produce Project Plan​

​데이터 이해

​Collect Initial Data

Describe Data

Explore Data

Verify Data Quality​

데이터 준비

​Select Data

Clean Data

Construct Data

Integrated Data

Format Data

모델링

​Select Modeling Technique

Generate Test Design

Build Model

Assess Model​

모델 평가

​Evaluate Results

Review Process

Determine Next Steps​

고객전달 ​

​Plan Deployment

Plan Monitoring and Maintenance

Produce Final Report

Review Project

[Google image 검색결과중]

이렇게 방법론을 보고 따라서 하려해도 실제로 업무에 적용하는 것은 쉬운 일이 아닙니다. 논리적인 연계와 흐름이 쉽지 않아서 이해하고 목적에 맞게 분석을 수행해 내기가 쉽지 않기 때문이죠.

다음 포스팅에서는 구체적인 사례를 들어가면서 얘기해 보도록 하겠습니다.

https://bigdatamaster.tistory.com/66

감사합니다.

그리고 이러한 기술 활용을 통한 고객 프로파일링 내용과

택스트 분석을 통한 고객분석/고객 성향분석에 대한 정보는 아래를 확인해보세요.

https://bigdatamaster.tistory.com/m/6

https://bigdatamaster.tistory.com/m/96

반응형

2.1.2.분석 방법론

데이터 분석이 효과적으로 기업 내에 정착하기 위해서 이를 체계화한 절차와 방법이 정리된 분석 방법론을 수립해야 함

구성요소 절차 방법 도구와 기법 템플릿과 산출물

데이터 기반의 의사 결정

경험과 감보다 데이터 기반의 의사 결정

합리적인 의사결정을 막는 장애요소

프레이밍 효과(Framing Effect) 문제의 표현 방식에 따라 동일한 사건에 대한 개의의 판단이 달라지는 것

편향된 생각(Bias)

고정 관념(StereoType)

분석 방법론 적용 모델

폭포수 모델 단계를 순차적으로 진행하는 방법

프로토타입 모델 일부분을 먼저 개발하여 제공하고 그 결과를 통해 개선작업

나선형 모델 반복을 통해 점증적으로 개발하는 방법

분석 방법론의 구성

단계 단계별 산출물을 생성 단계별 완료 보고서

태스크 단계를 구성하는 단위 활동 보고서

스탭 WBS의 워크 패키지에 해당 보고서 구성요소

KDD 분석 방법론

1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스이다.

절차

데이터셋 선택 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수

데이터 전처리 분석 대상용 데이터 셋에 포함되어 있는 잡음, 이상치, 결측치를 식별하고 필요시 제거

데이터 변환 데이터의 차원을 축소하여 효율적으로 마이닝을 할 수 있도록 변경

데이터 마이닝 목적에 맞는 데이터마이닝 기법을 선택

결과 평가

CRISP-DM 분석 방법론

주요 5개의 업체들이 주도한 계층적 프로세스 모델이다.

4레벨 구조 최상위 레벨은 여러 개의 단계로 구성 각 단계는 일반화 태스크를 포함 페이즈 일반화 태스크 세분화 태스크 프로세스 실행

CRISP-DM의 프로세스 6단계로 구성 단계간 피드백을 통해 완성도를 높임

절차

업무 이해

데이터 이해

데이터 준비

모델링

평가

전개

빅데이터 분석 방법론

단계, 태스크, 스텝의 3계층으로 이루어지고, 5단계의 절차를 가짐

절차

데이터 분석 방법론

728×90

반응형

데이터 분석을 효과적으로 활용하기 위해서 체계화된 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적입니다.

방법론은 절차(Procedures), 방법(Methods), 도구&기법(Tools & Techniques), 탬플릿&산출물(Templates & Outputs)로 구성되어 있습니다.

목차

1. KDD 분석 방법론

1) 개요

KDD(Knowledge Discovery in Database)는 1996 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계쩍인 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스입니다.

데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용 될 수 있는 구조를 갖고 있습니다.

2) KDD 분석 프로세스

(1) 데이터셋 선택(Selection)

데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계입니다.

데이터마이닝에 필요한 목표 데이터(Target data)를 구성하여 분석에 활용합니다.

(2) 데이터 전처리(Preprocessing)

추출된 분석 대상 데이터 셋에 포함되어 있는 잡음(Noise)과 이상치(Outlier), 결측치(Missing value)를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터 셋을 정제하는 단계입니다.

데이터 전처리 단계에서 추가로 요구되는 데이터셋이 필요한 경우 데이터 선택 프로세스를 추가 진행합니다.

(3) 데이터 변환(Transformation)

데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터 마이닝을 할 수 있도록 데이터에 변경하는 단계입니다.

데이터마이닝 프로세스를 진행하기 위해 학습용 데이터(Training data)와 검증용 데이터(Test data)로 데이터를 분리하는 단계입니다.

(4) 데이터 마이닝(Data mining)

학습용 데이터를 이용하여 분석목적에 맞는 데이터마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계입니다.

필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과를 도출합니다.

(5) 데이터 마이닝 평가(Interpretation / Evaluation)

데이터 마이닝 결과에 대한 해석과 평가, 분석 목적과의 일치를 확인합니다.

데이터 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련의 단계입니다.

필요에 따라 데이터 선택 프로세스에서 데이터 마이닝 프로세스를 반복 수행합니다.

2. CRISP-DM 분석 방법론

1) 개요

CRISP-DM(Cross Industry Standard Process for Data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 주요한 5의 업체(Maimler – Chryster, SPSS, NCR, Teradata, OHRA)가 주도했습니다. CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성됩니다.

2) CRISP-DM의 4레벨 구조

최상위 레벨은 여러 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic TAsks)를 포함합니다. 일반화 태스크는 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 이는 다시 구체적인 수행 레벨인 세분화 태스크(Specialized Tasks)로 구성됩니다.

마지막 레벨인 프로세스 실행(Process Instances)은 데이터마이닝을 위한 구체적인 실행을 포함합니다.

3) CRISP-DM의 프로세스

CRISP-DM의 프로세스는 6단계로 구성되어 있으며, 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있습니다.

(1) 업무 이해(Business Understanding)

비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계입니다. 초기 프로젝트 계획을 수립하는 단계로 업무 목적을 파악하고, 데이터 마이닝의 목적과 프로젝트 계획을 수립합니다.

(2) 데이터 이해(Data Understanding)

분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계입니다. 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계로 초기 데이터를 수집하고 데이터 기술 분석, 데이터 탐색이 이 단계에 포함됩니다.

(3) 모델링(Modeling)

다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화하는 단계입니다. 모델링 과정에서 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있습니다. 모델링 결과를 테스트용 데이터셋으로 평가하여 모델의 과적합(Over-fitting)문제를 확인, 모델링 기법 선택, 모델 테스트 계획 설계, 모델가 이 단계에 포함됩니다.

(4) 평가(Evaluation)

모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터마이닝 결과를 최종적으로 수용할 것인지 판단하는 단계입니다. 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가가 이 단계에 포함됩니다.

(5) 전개(Deployment)

모델링과 평가 단계를 통하여 완성된 모델을 실무에 적용하기 위한 계획을 수립하는 단계입니다. 모니터링과 모델의 유지보수 계획 마련. 입력되는 데이터의 품질 편차, 전개 계획 수립, 모니터링/유지보수 계획 수립, 프로젝트 종료 보고, 프로젝트 리뷰가 이 단계에 포함됩니다.

3. KDD와 CRISP-DM

KDD: 데이터셋 선택(Data Selection) – 데이터 전처리(Preprocessing) – 데이터 변환(Transformation) – 데이터 마이닝(Data Mining) – 결과 평가(Interpretation / Evaluation) – 활용

CRISP-DM: 업무 이해(Business Understanding) – 데이터 이해(Data Understanding) – 데이터 준비(Data Preparation) – 모델링(Modeling) – 평가(Evaluation) – 전개(Deployment)

4. 빅데이터 분석 방법론

1) 빅데이터 분석의 계층적 프로세스

(1) 단계(Phase)

프로세스 그룹(Process Group)을 통해 완성된 단계별 산출물이 생성됩니다. 각 단계는 기준선(Baseline)으로 설정되어 관리되어야 하며, 버전관리(Configuration Management) 등을 통하여 통제가 이루어져야 합니다.

(2) 태스크(Task)

각 단계는 여러개의 태스크(Task)로 구성됩니다. 각 태스크는 단계를 구성하는 단위 활동이며, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있습니다.

(3) 스탭(Step)

처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)입니다.

2) 빅데이터 분석 방법론 5단계

분석기획(Planning) – 데이터 준비(Preparing) – 데이터 분석(Analyzing) – 시스템 구현(Developing) – 평가 및 전개(DEploying)

(1) 분석 기획(Planning)

문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립하는 단계입니다.

(2) 데이터 준비(Preparing)

요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계입니다.

(3) 데이터 분석(Analyzing)

원천 데이터를 분석용 데이터셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계입니다.

분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계를 반복 진행합니다.

(4) 시스템 구현(Developing)

분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 프로토타입 시스템을 구현합니다.

(5) 평가 및 전개(Deploying)

데이터 분석 및 시스템 구현 단계를 수행한 후 프로젝트의 성과를 평가하고 정리하거나 모델을 발전 계획을 수립하여 차기 분석 기획으로 전달하고 프로젝트를 종료하는 단계입니다.

대표적인 데이터 분석 방법론 30가지

올림픽은 아니지만 데이터 분석 분야에서도 자주 쓰이는 대표 선수(?)들이 있습니다. 오늘은 대표적으로 많이 사용되는 데이터 분석 방법론 에 대해 공유해 드리려고 합니다.

저도 실무에 많이 사용하는 다양한 기법들이기 때문에 실무자, 혹은 업계에 조인하기 위해 공부하는 분들께 실용적인 포스팅이 되지 않을까 생각해 봅니다.

(보다 자세히 공부하실 분들을 위해 명칭은 모두 영문으로 표기했습니다.)

1. Linear Regression

종속변수(Dependent variable) Y와 한 개 이상의 설명변수(Independent Variable) X(들)과의 선형 상관 관계를 모델링하는 회귀분석 기법이며 종속 변수가 수치형 변수일 때 사용합니다.

가장 기본적인 방법론이고 종속변수와 설명변수간의 관계를 함수로 설명하기 때문에 이들 간의 관계를 확인하기에 용이하지만, 종속변수와 설명변수들 간에 선형 관계만을 가정하기 때문에 정확성을 높이는 데는 한계가 존재합니다.

종속변수와 설명변수 간의 관계를 함수로 설명하려는 측면은 동일하나 종속변수가 범주형 변수일때 사용합니다. 분류 및 예측에 주로 사용되는 모델입니다. 너무 유명한 회귀분석이라 더이상의 설명은 생략합니다.

3. Ridge Regression

회귀분석의 설명변수의 개수가 증가할 경우 설명변수들 사이의 강한 상관관계로 인한 다중공선성이 존재하거나, 모델 자체가 지나치게 복잡해지는 문제가 발생합니다. 이럴 때 회귀계수 축소를 통해 보다 적은 변수를 사용해 모델을 간결하면서도 Robust하게 만들어 주는 리지 회귀분석을 사용할 수 있습니다. 리지 회귀분석은 Overfitting을 방지하면서 예측 정확도를 높이고 모델 해석력을 올려주는 장점이 있습니다.

4. Lasso Regression

변수 선택과 표준화 기능이 있는 회귀분석 방법입니다. Ridge Regression과 유사한 개념이지만, 영향력이 적은 회귀계수 값을 쉽게 0으로 만드는 변수 선택 기능이 있어 보다 Ridge Regression의 예측 정확도를 취하면서도 변수 선택에 있어서의 해석력을 확보한 분석 방법입니다.

5. Jackknife Regression

전통적인 회귀분석의 단점을 해결하기 위해 최근에 등장한 분석 방법입니다. 결과 변수가 서로 연관되어 있거나, 정규 분포가 아닐 때도 (예: Mode가 여러개 있다거나) 비교적 결과 예측력이 좋은 편입니다. 회귀분석의 기본 가정 (다중 공선성, 분포 등)이 위배되었을 때에도 사용할 수 있습니다.

(주의: Bradley Efron의 Jackknife resampling과는 다른 개념입니다.)

대표적인 지도 학습 (Supervised Learning) 방법론이며, 수치형/범주형 종속 변수에 대한 예측/분류를 위해 사용합니다. White box식 모델이기 때문에 결과를 보다 직관적으로 이해할 수 있다는 점, 계산 방법이 간단하다는 장점이 있지만 과적합화 등으로 인해 다른 모델에 비해 정확도가 낮은 편입니다.

7. Random Forest

이름에서 짐작할 수 있듯이 다수의 의사결정나무(Decision Tree)를 만든 후 최빈값을 기준으로 예측/분류하는 알고리즘입니다. Bagging/Bootstrap Aggregating 방법을 사용해 의사결정나무 노드 생성의 Bias를 줄이므로 의사결정나무의 과적합화 문제를 해결할 수 있는 대안으로 사용할 수 있습니다.

비지도 학습의 대표적인 분석 방법으로 주어진 데이터를 유사한 K개의 군집으로 묶는 알고리즘입니다. 군집을 나누는 방법에 따라 여러 종류로 구분됩니다. 데이터에 대한 이해 단계인 (EDA, exploratory data analysis)단계에서 부터 고객 세그멘테이션, 이미지 분할 등에 광범위하게 적용 가능합니다.

단, K값을 사전에 지정해 주어야 한다는 점, 이상치에 민감하게 반응하는 점 및 구형이 아닌 군집을 찾는데는 적절하지 않다는 단점이 있습니다.

9. Cross-Validation

예측/분류 모델의 과적합화 (Overfitting)를 방지하고, 보다 일반적인 Population에 적용 가능한지 여부를 확인하기 위해 사용되는 Sampling 방법의 한 유형입니다. 데이터를 여러 개의 구간으로 쪼개어 샘플링을 하며, 쪼개는 방법/샘플링 하는 방법에 따라 여러 종류로 구분됩니다. (k-fold , 2-fold, leave-p-out 등)

확보된 데이터(관측치)가 충분하지 않아 일반적으로 사용하는 Split (데이터의 70%는 train에, 30%는 test에) 방법을 적용하기 힘든 경우에 특히 유용합니다.

10. Artificial neural network

생물체의 신경망(중추 신경계, 뇌 등)의 뉴런이 시냅스를 통해 결합되는 것 처럼, 여러개의 함수의 집합과 각 집합에 대한 가중치를 조정하여 분류/예측하는 알고리즘입니다. 인공신경망 분석의 가장 큰 특징은 학습이 가능하다는 점입니다. 인공 신경망에서의 학습 기본 원리는 새로운 관측치가 발견될 경우 Cost function을 최소화 하는 함수를 찾아나가는 식으로 작동합니다.

신경망의 복잡도에 따라 결과를 얻기까지 걸리는 속도가 증가한다는 단점이 있지만, 변수 종류에 구애받지 않고, 비선형 조합이 가능하기 때문에 예측력이 우수하다는 점 (알파고도 인공신경망 기반의 알고리즘을 채택했습니다.) 때문에 주목받고 있습니다.

11. Ensemble Learning

같은 데이터 셋으로 여러개의 예측/분류 알고리즘을 만들고, 그 결과를 종합해서 보다 나은 결과값을 얻고자 하는 방법입니다. 주로 연산 속도가 빠른 알고리즘의 종합에 사용됩니다. (예: Decision Tree- Random Forest)

Netflix Prize에서 수상한 팀도 이 방법을 사용했다고 하죠? 여러 개의 알고리즘을 참고하는 만큼 정확도가 높아지지만, 연산 속도가 느린 단점이 있습니다. 실제로 Netflix에서도 1위 팀의 알고리즘이 추천 정확도는 더 높았지만 속도 문제로 알고리즘을 채택하지 않았다고 하죠.

특성들 사이의 독립을 가정한 베이즈 정리를 적용한 분류 알고리즘입니다. 예를 들어 복면 가수가 아이돌일 확률 (능숙한 댄스, 적절한 노래 실력, 몸매/비율 등)이 각각 연관이 없다고 가정하고 각각의 특성이 복면 가수가 아이돌일 확률에 독립적으로 기여하는 것으로 봅니다.

나이브 베이즈는 전통적인 확률론에 기반한 알고리즘은 아니지만, 다른 진보된 분류 알고리즘과 비교했을 때도 매우 예측력이 높은 것으로 알려져 있습니다. 주로 문서의 텍스트를 확인하여 어떤 문서가 어떤 카테고리(스팸/비스팸)에 속하는지, 어떤 뉘앙스(지지/비판/중립 등)를 가지고 있는지 등을 판단하는 문제에 가장 자주 등장하는 알고리즘 입니다.

사용자의 선호도 및 아이템의 특성 등을 사용해서 사용자가 선호할 아이템을 예측하는 추천 시스템에 주로 사용되는 방법입니다. 사용자, 아이템 중 어떤 것에 기반하느냐에 따라 여러 종류로 나뉩니다.

기반 사용자/아이템에 따라 매트릭스를 만들고 이에 따라 사용자의 선호를 추측하는 방법이기 때문에 사용자나 아이템이 늘어날 수록 계산이 복잡해지고, 속도도 느려지는 단점이 있습니다.

14. Principal Component Analysis (PCA)

데이터가 복잡해 질 수록 노이즈 및 계산 비용도 증가합니다. 주성분 분석 방법은 변수가 많은 고차원의 데이터를 정보 손실을 최소화 하면서 저차원의 데이터, 즉 변수 숫자가 작은 데이터로 압축시키는 방법입니다.

Regression이나 Decision Tree에서 설명 변수들 간 다중공선성 문제나, 군집 분석의 속도 개선 등 데이터 전처리에 주로 활용됩니다. 다만 주의해야 할 점은 분산을 기준으로 계산하기 때문에 변수의 단위에 영향을 받는 다는 점 (Z-score나 평준화 필요)과 데이터가 PCA의 주요 가정 (선형성, 직교성, 분산 차)를 만족하는 지 체크해야 한다는 점 정도가 있겠네요.

15. Support Vector Machine

두개의 주어진 Class 간 가장 가까운 거리를 가지는 Support Vector사이의 초평면을 찾아, 새로운 데이터에 Class를 부여하는 분류 방법입니다. 아래 그림을 보시면 이해가 쉽겠네요.

주어진 데이터를 이진 분류해 내는 데에 있어 다른 알고리즘 보다 정확도가 뛰어나지만, 데이터셋의 크기나 복잡도에 따라 연산 속도가 느려진다는 단점이 있습니다. 주로 텍스트 분석(스팸/비스팸, 긍/부정 등), 손글씨 등의 이미지 인식 등에 주로 사용됩니다.

데이터 분석에 대해 공부하고 싶은데 어디부터 시작해야 할 지 모르거나, 어느 정도 공부 했지만 어떤 부분을 더 공부해야 할지 막혔던 분들은 본 포스팅의 데이터 분석 방법론 리스트를 보시면서 스터디 해 보시는 것도 도움이 되리라 생각합니다.

나머지 15개의 방법론은 다음 포스팅에서 소개 드리겠습니다.

빅데이터 분석 방법론 , ADsP #17

본 포스팅은 ADsP와 ADP 공통 과정인 데이터 분석 기획의 분석 방법론을 다룹니다. 분석 방법론이 방법론 모델 설명, KDD 방법론, CRISP-DM, 빅데이터 방법론 등 내용이 방대하기에 각각의 내용을 독립된 토픽으로 작성하였습니다.

빅테이터 분석 방법론

빅데이터를 분석하기 위한 방법론은 계층적 프로세스 모델(Stepwised Process Model)로 3계층 구성

Phase (단계) : 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선(Baseline)으로 설정 관리하며, 버전관리(Configuration Management) 등을 통한 통제

: 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선(Baseline)으로 설정 관리하며, 버전관리(Configuration Management) 등을 통한 통제 Task (태스크) : 단계를 구성하는 단위활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음

: 단계를 구성하는 단위활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음 Step (스텝) : WBS(Work Breakdown Structure)의 워크패키지(Work Package)에 해당되고 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)

WBS의 예시 현업에서 많이 사용하는 테이블 구조의 WBS 빅데이터 분석 방법론 참조 모델

분석 기획(Planning)

비즈니스 이해 및 범위 설정

– 프로젝트 진행을 위해 비즈니스에 대한 충분한 이해와 도메인 문제점 파악

– 업무 매뉴얼 및 업무 전문가 도움 필요, 구조화된 명세서 작성

1) 비즈니스 이해

– 내부 업무 매뉴얼과 관련자료, 외부의 관련 비즈니스 자료 조사, 향후 프로젝트 진행을 위한 방향 설정

– 입력 : 업무 매뉴얼, 전문가의 지식, 빅데이터 분석 대상 도메인에 대한 관련 자료

– 처리 및 도구 : 자료 수집 및 비즈니스 이해

– 출력 : 비즈니스 이해 및 도메인 문제점

2) 프로세스 범위 설정

– 비즈니스에 대한 이해와 프로젝트 목적에 부함하는 범위(Scope)을 명확하게 설정, 이해 관계자(Stakeholders)의 이해를 일치 시키기 위해 구조화 된 프로젝트 범위 정의서(Statement Of Work, SOW)를 작성

– 입력 : 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점

– 처리 및 도구 : 자료 수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차

– 출력 : 프로젝트 범위 정의서(SOW)

프로젝트 정의 및 계획 수립

– 모델의 운영 이미지를 설계하고 모델 평가 기준을 설정, 프로젝트의 정의를 명확하게 함

– WBS를 만들고 데이터 확보계획, 빅데이터 분석 방법, 일정계획, 예산계획, 품질계획, 인력구성계획, 의사소통계획 등을 포함하는 프로젝트 수행 계획을 작성

1) 데이터 분석 프로젝트 정의

– 프로젝트의 목표 및 KPI, 목표 수준 등을 구체화하여 상세 프로젝트 정의서를 작성하고 프로젝트의 목표를 명확화하기 위해 모델 운영 이미지 및 평가 기준 설정

– 입력 : 프로젝트 범위 정의서, 빅데이터 분석 프로젝트 지시서

– 처리 및 도구 : 프로젝트 목표 구체화, 모델 운영 이미지 설계

– 출력 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준

2) 프로젝트 수행 계획 수립

– 프로젝트의 목적 및 배경, 기대효과, 수행방법, 일정 및 추진조직, 프로젝트 관리 방안 작성

– WBS는 프로젝트 산출물 위주로 작성되어 프로젝트 범위 명확화

– 입력 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준

– 처리 및 도구 : 프로젝트 수행 계획 작성, WBS 작성 도구, 일정 계획 수립 도구

– 출력 : 프로젝트 수행 계획서, WBS

프로젝트 위험계획 수립

– 발생 가능한 모든 위험(Risk)를 발굴하여 사전에 대응 방안을 수립함으로써 프로젝트 진행의 완전성을 높임

1) 데이터 분석 위험 식별

– 프로젝트 산출물과 정리자료(Lesson Learned)를 참조하고 전문가의 판단 활용

– 식별된 위험은 위험의 영향도와 빈도, 발생가능성 등을 평가하여 위험의 우선 순위 설정

– 입력 : 프로젝트 정의서, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료

– 처리 및 도구 : 위험 식별 절차, 위험영향도 및 발생가능성 분석, 위험 우선순위 판단

– 출력 : 식별된 위험 목록

2) 위험 대응 계획 수립

– 식별된 위험은 상세한 정량적/정성적 분석을 통하여 위험 대응방안 수립

– 대응은 회피(Avoid), 전이(Transfer), 완화(Mitigate). 수용(Accept)로 구분하여 작성

– 입력 : 식별된 위험 목록, 프로젝트 정의서, 프로젝트 수행 계획서

– 처리 및 도구 : 위험 정량적/정성적 분석

– 출력 : 위험관리 계획서

데이터 준비(Preparing)

필요 데이터 정의

– 정형/비정형/반정형 등의 모든 내/외부 데이터 포함하고 데이터 속성, 오너, 담당자 등을 포함하는 데이터 정의 서 작성

– 구체적인 데이터 획득방안을 상세하게 수립하여 프로젝트 지연 방지

1) 데이터 정의

– 내/외부 원천 데이터 소스(Raw Data Source)로 부터 분석에 필요한 데이터 정의

– 입력 : 프로젝트 수행 계획서, 시스템 설계서, ERD(Entity Relationship Diagram), 메타 데이터 정의서, 문서 자료

– 처리 및 도구 : 내/외부 데이터 정의, 정형/비정형/반정형 데이터 정의

– 출력 : 데이터 정의서

2) 데이터 획득방안 수립

– 부서간 업무협조와 개인정보보호 및 정보보안과 관련한 문제점을 사전 점검, 외부 데이터 획득은 인터페이스 및 법적인 문제점 고려

– 입력 : 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료, 데이터 구입

– 처리 및 도구 : 데이터 획득 방안 수립

– 출력 : 데이터 획득 계획서

데이터 스토어 설계

– 획득 방안이 수립되면 전사 차원의 데이터 스토어(Data Store) 설계

1) 정형 데이터 스토어 설계

– 일반적으로 RDMS(관계형 데이터베이스)를 사용하고, 데이터 스토어의 논리적, 물리적 설계를 구분하여 설계

– 입력 : 데이터 정의서, 데이터 획득 계획서

– 처리 및 도구 : 데이터베이스 논리설계, 데이터베이스 물리설계, 데이터 매핑(Data Mapping)

– 출력 : 정형 데이터 스토어 설계서, 데이터 매핑 정의서

2) 비정형 데이터 스토어 설계

– 하둡(Hadoop), NoSQL 등을 이용한 논리적, 물리적 데이터 스토어 설계

– 입력 : 데이터 정의서, 데이터 획득 계획서

– 처리 및 도구 : 비정형/반정형 데이터 논리 및 물리 설계

– 출력 : 비정형 데이터 스토어 설계서, 데이터 매핑 정의서

데이터 수집 및 정합성 점검

– 데이터 스토어에 크롤링(Crawling), 실시간 처리(Real Time), 배치 처리(Batch) 등으로 데이터 수집

– 데이터베이스간 연동, API를 이용한 개발, ETL(Extract Transform Load) 도구의 활용 등 수집 프로세스 진행

1) 데이터 수집 및 저장

– ETL, API, Script 프로그램 등을 이용하여 데이터 수집하고 데이터 스토어에 저장

– 입력 : 데이터 정의서, 데이터 획득 계획서, 데이터 스토어 설계서

– 처리 및 도구 : 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트

– 출력 : 수집된 분석용 데이터

2) 데이터 정합성 검증

– 데이터 스토어에 데이터 정합성을 확보하고 품질개선이 필요한 부분의 보완 작업 수행

– 입력 : 수집된 분석용 데이터

– 처리 및 도구 : 데이터 품질 확인, 데이터 정합성 점검 리스트

– 출력 : 데이터 정합성 점검 보고서

데이터 분석(Analyzing)

분석용 데이터 준비

– 프로젝트 목표와 도메인을 이해하고 비즈니스 룰(Business Rule)을 확인

– 데이터 스토어에서 분석용 데이터 셋을 ETL 도구 등을 이용하여 추출하고 구조화된 데이터 형태로 편성

1) 비즈니스 룰 확인

– 프로젝트의 목표를 정확하게 인식, 이해를 바탕으로 세부적인 비즈니스 룰 파악 및 데이터 범위 확인

– 입력 : 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어

– 처리 및 도구 : 프로젝트 목표 확인, 비즈니스 룰 확인

– 출력 : 비즈니스 룰, 분석에 필요한 데이터 범위

2) 분석용 데이터셋 준비

– 분석을 위해 추출된 데이터는 DB나 구조화된 형태로 구성하고 필요시 분석을 위한 작업 공간과 전사 차원의 데이터 스토어로 분리할 수 있음

– 입력 : 데이터 정의서, 데이터 스토어

– 처리 및 도구 : 데이터 선정, 데이터 변환, ETL 도구

– 출력 : 분석용 데이터셋

텍스트 분석

– 웹페이지/로그/텍스트 자료 등을 이용하여 어휘/구문 분석(Word Analysis), 감성 분석(Sentimental Analysis), 토픽 분석(Topic Analysis), 오피니언 분석(Opinion Analysis), 소셜 네트워크 분석(Social Network Analysis) 등을 실시하여 적절한 모델 구축

1) 텍스트 데이터 확인 및 추출

– 비정형 데이터를 데이터 스토어에서 확인하고 필요한 데이터 추출

– 입력 : 비정형 데이터 스토어

– 처리 및 도구 : 분석용 텍스트 데이터 확인, 텍스트 데이터 추출

– 출력 : 분석용 텍스트 데이터

2) 텍스트 데이터 분석

– 텍스트 데이터를 분석 도구로 적재하여 다양한 기법으로 분석하고 모델 구축, 용어 사전(유의어, 불용어 등)을 확보하고 도메인에 맞도록 작성, 구축된 모델은 텍스트 시각화 도구를 이용하여 모델의 의미 전달 명확화

– 입력 : 분석용 텍스트 데이터, 용어사전(유의어, 불용어 등)

– 처리 및 도구 : 분류체계 설계, 형태소 분석, 키워드 도출, 토픽 분석, 감성 분석, 오피니언 분석, 네트워크 분석

– 출력 : 텍스트 분석 보고서

탐색적 분석

– 분석용 데이터셋에 대한 정합성 검토, 데이터 요약, 데이터 특성 파악 및 모델링에 필요한 데이터 편성

– EDA(Exploratory Data Analaysis)는 다양한 데이터 시각화를 활용하여 가독성을 높이고 형상 및 분포 등 파악

1) 탐색적 데이터 분석

– 기초 통계량(평균, 분산, 표준편차, 최대값, 최소값 등)을 산출하고 분포와 변수간의 관계 등 데이터 자체의 특성 및 통계적 특성을 이해하고 모델링을 위한 기초 자료 활용

– 입력 : 분석용 데이터셋

– 처리 및 도구 : EDA 도구, 통계 분석, 변수간 연관성 분석, 데이터 분포 확인

– 출력 : 데이터 탐색 보고서

2) 데이터 시각화

– 탐색적 분석을 위한 도구로 활용, 모델의 시스템화를 위한 시각화를 목적으로 할 경우 시각화 기획, 시각화 설계, 시각화 구현 등의 별도 프로세스를 따라 진행

– 입력 : 분석용 데이터셋

– 처리 및 도구 : 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론

– 출력 : 데이터 시각화 보고서

모델링

– 가설 설정을 통해 통계 모델을 만들거나 기계학습(지도학습, 비지도학습 등)을 이용하여 모델을 만드는 과정

– 훈련용(Training)과 테스트용(Testing)으로 분할하여 과적합(Over-Fitting) 방지하고 모델의 일반화에 이용

1) 데이터 분할

– Training과 Testing 용으로 분할, 교차검증(Cross Validation) 수행가거나 앙상블(Essemble) 기법을 적용할 경우 데이터 분할 또는 검증 횟수, 생성모델 갯수 등을 설정하여 분할 기법 응용

– 입력 : 분석용 데이터셋

– 처리 및 도구 : 데이터 분할 패키지

– 출력 : 훈련용 데이터, 테스트용 데이터

2) 데이터 모델링

– 분류(Classification), 예측(Prediction), 군집(Clustering) 등의 모델을 만들어 가동중인 운영 시스템에 적용

– 입력 : 분석용 데이터셋

– 처리 및 도구 : 통계 모델링 기법, 기계학습, 모델 테스트

– 출력 : 모델링 결과 보고서

3) 모델 적용 및 운영 방안

– 운영에 적용하기 위해선 상세한 알고리즘 설명서 작성 필요, 필요시 의사코드(Pseudocode) 수준의 상세한 작성 필요

– 입력 : 모델링 결과 보고서

– 처리 및 도구 : 모니터링 방안 수립, 알고리즘 설명서 작성

– 출력 : 알고리즘 설명서, 모니터링 방안

모델 평가 및 검증

– 프로젝트 정의서의 평가 기준에 따라 모델의 완성도 평가, 검증은 분석용 데이터셋이 아닌 별도의 데이터셋으로 검증

– 목표에 미달하는 경우 모델링 태스크를 반복하는 등 모델 튜닝 작업을 수행

1) 모델 평가

– 모델 평가를 위해 모델 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나 필요시 모델 검증을 위한 별도의 데이터를 활용

– 입력 : 모델링 결과 보고서, 평가용 데이터

– 처리 및 도구 : 모델 평가, 모델 품질관리, 모델 개선작업

– 출력 : 모델 평가 보고서

2) 모델 검증

– 운영 데이터를 확보한 검증용 데이터를 이용해 모델 검증 작업을 실시하고 모델링 검증 보고서 작성

– 입력 : 모델링 결과 보고서, 모델 평가 보고서, 검증용 데이터

– 처리 및 도구 : 모델 검증

– 출력 : 모델 검증 보고서

시스템 구현(Developing)

설계 및 구현

– 모델링 태스크에서 작성된 알고리즘 설명서와 데이터 시각화 보고서를 이용하여 시스템 및 데이터 아키텍쳐 설계, 사용자 인터페이스 설계를 진행

– 설계서를 바탕으로 BI(Business Intelligence) 패키지를 활용하거나 새롭게 프로그램을 코딩하여 구축

1) 시스템 분석 및 설계

– 가동중인 시스템을 분석하고 알고리즘 설명서에 근거하여 응용시스템 구축 설계 프로세스를 진행

– 입력 : 알고리즘 설명서, 운영중인 시스템 설계서

– 처리 및 도구 : 정보시스템 개발방법론

– 출력 : 시스템 분석 및 설계서

2) 시스템 구현

– 시스템 분석 및 설계서를 따라 BI 패키지를 활용하거나 새롭게 시스템 구축

– 입력 : 시스템 분석 및 설계서, 알고리즘 설명서

– 처리 및 도구 : 시스템 통합개발도구(IDE), 프로그램 언어, 패키지

– 출력 : 구현 시스템

시스템 테스트 및 운영

– 시스템에 구현된 모델은 테스트를 통해 가동중인 시스템에 적용하고 효율적인 운영을 위한 프로세스 진행

1) 시스템 테스트

– 구축된 시스템의 검증(Verification & Validation)을 위해 단위테스트, 통합테스트, 시스템 테스트등 실시

– 입력 : 구현 시스템, 시스템 테스트 계획서

– 처리 및 도구 : 품질관리 활동

– 출력 : 시스템 테스트 결과보고서

2) 시스템 운영 계획

– 시스템 운영자, 사용자를 대상으로 필요한 교육을 실시하고 시스템 운영계획 수립

– 입력 : 시스템 분석 및 설계서, 구현 시스템

– 처리 및 도구 : 운영계획 수립, 운영자 및 사용자 교육

– 출력 : 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서

평가 및 전개(Deploying)

모델 발전 계획 수립

– 모델의 생명 주기(Life Cycle)를 설정, 주기적인 평가 실시하여 유지보수하거나 재구축 방안 마련

– 모델의 특성을 고려하여 모델 업데이터를 자동화하는 방안 수립 적용할 수 있음

1) 모델 발전 계획

– 발전계획을 상세하게 수립하여 모델의 계속성 확보

– 입력 : 구현 시스템, 프로젝트 산출물

– 처리 및 도구 : 모델 발전 계획 수립

– 출력 : 모델 발전 계획서

프로젝트 평가 및 보고

– 기획 단계에서 설정된 기준에 따라 프로젝트의 성과를 정량적, 정성적 평가하고 프로젝트 진행과정에서 지식, 프로세스, 출력자료를 지식자산화하고 프로젝트 최종 보고서를 작성한 후 의사소통계획에 따라 프로젝트 종료

1) 프로젝트 성과 평가

– 프로젝트의 정량적 성과와 정성적 성과로 나눠 성과 평가서 작성

– 입력 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서

– 처리 및 도구 : 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가

– 출력 : 프로젝트 성과 평가서

2) 프로젝트 종료

– 진행과정의 모든 산출물 및 프로세스를 지식자산화하고 최종 보고서를 작성하여 의사소통 절차에 따라 보고하고 프로젝트 종료

– 입력 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 평가서

– 처리 및 도구 : 프로젝트 지식자산화 작업, 프로젝트 종료

– 출력 : 프로젝트 최종 보고서

연관자료

키워드에 대한 정보 데이터 분석 방법론

다음은 Bing에서 데이터 분석 방법론 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 5강 빅데이터 분석 방법론

  • 동영상
  • 공유
  • 카메라폰
  • 동영상폰
  • 무료
  • 올리기

5강 #빅데이터 #분석 #방법론


YouTube에서 데이터 분석 방법론 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 5강 빅데이터 분석 방법론 | 데이터 분석 방법론, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

See also  영문 공문 양식 | 영문 이력서 작성시 반드시! 꼭! 지켜야 하는 수칙 4가지 인기 답변 업데이트

Leave a Comment