Uploaded by 용갈2

2023년도 빅데이터이해 중간고사 정리본

advertisement
<빅데이터 이해 중간고사 정리본>
q
빅데이터의 정의
✔ 정의
- 수치로 명확하게 표현되는 기존의 정형화된 자료 및 비정형화된 이미지, 동영상, 문자, 언어 등을 포함하는 거대하
고, 다양하며, 실시간의 특징을 갖는 자료
✔ 정형 데이터 & 비정형 데이터
- 정형 데이터는 일정한 규칙을 갖고 체계적으로 정리된 데이터를 의미
(엑셀 테이블, 관계형 데이터베이스(RDBMS) 테이블 등)
- 비정형 데이터는 스마트 기기 등을 통해서 형성되는 데이터
(페이스북, 트위터, 카카오톡 등으로 상호 교류되는 정보, 특정 구조를 갖고 있지 않은 사진들, 소셜 미디어에 올라온 글들)
✔ 빅데이터의 특징(가트너의 3V)
Volume
- 기술적인 발전과 디지털 기술의 일상화가 진행되면서 해마다 디지털 정보량이 기하급수적으로 폭증
(규모의 증가)
Variety
- 로그 기록, 소셜, 위치, 소비 현실 데이터 종류 증가
(다양성의 증가)
- 텍스트 이외의 멀티미디어 등의 비정형화된 데이터 유형의 다양화
- 사물 정보, 스트리밍 정보 등 실시간성 정보 증가
Velocity
- 실시간성으로 인한 데이터 생성, 이동 속도의 증가
(속도의 증가)
- 대규모 데이터 처리 및 가치 있는 현재 정보 활용을 위해 데이터를 처리 및 분석 속도가 중요
-> 3V를 어떻게 정의하고 처리하느냐에 따라 새로운 부가가치를 창출
q 빅데이터의 분석단계
✔ 식스 시그마
- 기업에서 전략적으로 완벽에 가까운 제품이나 서비스를 개발하고 제공하려는 목적이며,
순서는 정의->측정->분석->개선->관리 순이다.
✔ 분석의 6단계
Ÿ
문제가 무엇인지?
Ÿ
왜 이 문제를 해결해야 하는지?
Ÿ
Ÿ
문제를 해결해 무엇을 달성할지?
문제와 직접적, 간접적으로 관련된 지식을 조사
관련
Ÿ
문제를 명확하게 발견
연구조사
Ÿ
문제 인식
모형화
(변수 선정)
자료수집
(변수 측정)
자료 분석
결과 제시
문제와 관련된 주요 요소, 변수 파악(모형화
단계 필수)
Ÿ
Ÿ
문제와 유사한 연구를 찾아, 연구 결과를 그대로 적용할 수 있는지 검토를 하며, 같은 연구방법을 쓸 수 있는지 검토
문제 혹은 연구대상을 의도적으로 단순화한 것
Ÿ
문제와 본질적으로 관련된 변수만 추려서 재구성
Ÿ
Ÿ
문제의 특성을 대표하는 결정적 요소만 출력
다른 사람이 이미 수집, 정리한 자료(2차 자료)를 이용(통계청, 연구소 등 여러 원천에서 수집)
Ÿ
2차 자료로 선정한 변수의 측정치를 구할 수 없을 때에는 조사자가 관찰, 설문조사, 실험을 통해 직접 자료를 수집
Ÿ
Ÿ
문제의 성격과 측정해야 하는 변수의 특징에 따라 방법을 선택
나열된 숫자에서 변수 간 규칙적 패턴(변수 간 관련성) 파악
Ÿ
Ÿ
문제의 성격이나 복잡성에 따라 다양한 기법 사용
결과가 의미하는 바를 해석
Ÿ
의사결정자에게 구체적으로 조언
Ÿ
주요 분석 결과를 간단명료하게 요약하여 제시
- 1 -
q 빅데이터의 의의
- 빅데이터 이슈화되는 이유는 크케 3가지 요인으로 볼 수 있다.
- 첫째, 스마트폰을 비롯한 모바일 스마트 기기 보급의 활성화이다. 모바일 스마트 기기에 탑재된 센서, 소프트웨어,
카메라 등을 통해 비정형 데이터를 수집할 수 있게 된 것이 데이터 증가의 원인이 된다.
- 둘째, 클라우드 서비스이다. 클라우드 서비스를 통해서, 개인과 조직의 데이터가 한 곳으로 축적되고, 저장된 데이
터를 분석하며 활용하고자 하는 요구가 증가하고 있다. (상호 작용 데이터의 증가)
- 셋째, ICT 패러다임의 변화이다.
q 데이터 과학자(데이터 사이언티스트)의 4가지 기본 역량
Ÿ
실험 진행, 데이터분석, 다양한 모델 적용 시 배경 지식에 대한 이해
Ÿ
문제의 가장 적합한 모델 선정
Ÿ
모델의 작동 방식과 알고리즘 이해
Ÿ
방대한 양의 데이터를 빠르고 효율적으로 다루고 모델링 진행
Ÿ
파이썬, R 등의 프로그래밍 언어를 사용
Ÿ
분산 처리와 컴퓨터공학적 지식
Ÿ
끊임없이 탐구, 새로운 인사이트를 도출할 수 있는 사고력 겸비
Ÿ
새로운 모델과 기술 등장에 따른 학습 능력 필요
시각화 자료
Ÿ
분석 결과에 스토리를 더해 고객에게 효과적으로 전달하고 설득하는 능력
활용 능력
Ÿ
다양한 팀과 자주 협업, 교류를 위한 의사소통 능력
풍부한 수학적,
통계학적 지식
프로그래밍 능력
호기심
-> 데이터 사이언티스트가 빅데이터 분야가 성장 및 빅데이터의 중요성이 강조되면서 데이터 사이언티스트와 데이
터엔지니어로 세분화됨.
-> 데이터 사이언티스트의 역할은 데이터 모델링 목적을 이해, 데이터 모델링의 결과 도출, 가용 데이터의 능동적
활용을 통해 최종 목표를 달성하기 위한 분석 방향 설정, 운영, 프로젝트 완수이다.
-> 데이터 엔지니어가 구축한 파이프라인의 데이터 레이크, 데이터 웨어하우스에서 분석한 데이터, 조직 밖에서 데이터,
온라인상의 데이터를 수집하고, 수집된 데이터를 필터링, 정제, 전처리를 시행한다.
-> 탐색적 데이터 분석(EDA 시행)함으로써 데이터를 다각도로 관찰하고, 도출할 수 있는 인사이트를 고민한다. 또한,
부족한 부분이 있으면 이를 보완한다.
-> 보다 깊이 있는 분석 기법 적용하여 미래의 문제를 예방한다.
새로운 알고리즘을 습득할 수 있는 이론적인 이해도 및 분석하고자 하는 업종 전반에 대한 지식, 가치 창출, 인사이트
발굴 능력이 필요하다.
- 2 -
q 데이터 엔지니어
- 데이터 엔지니어는 데이터 자체와 데이터를 둘러싼 시스템을 책임지는 사람
- 데이터 관리, 수집, 보관 / 데이터 처리 시스템 개발 / 구조 설계, 유지보수
- 최종 데이터 사용자의 요구사항을 분석하는 것에서 시작한다. 여기에서 최종 데이터 사용자는 데이터를 활용한 서비스를
운영, 관리하는 부서 또는 회사의 고객으로 본다. 최종 데이터 사용자가 ‘A라는 목표를 달성하기 위해 B에 관한 데이터가
필요하다’라고 한다면 데이터 엔지니어는 최종 데이터 사용자와 함께 필요한 기능과 요건을 구체적으로 정리한다.
- 데이터 엔지니어의 가장 큰 업무는 데이터 파이프라인을 구축해 운영, 유지보수를 하는 것이다. 데이터 파이프라인은 물의
순환과 같이 데이터라 흐르는 과정을 말한다.
- 다양한 형태와 경로에서 생성된 데이터를 한 곳에 가공없이 그대로 저장하는 곳을 데이터 레이크라 한다.
(데이터 대용량을 위한 데이터 저장소)
- 데이터 가져오기: 대용량 데이터 저장소 내의 데이터를 활용할 수 있는 형태로 저장되는 과정
- 데이터 가져오기 과정을 통해 저장되는 곳이 “데이터 웨어하우스”이다.
- 데이터 웨어하우슨 여러 데이터를 공통된 형식으로 변환해 저장하며 이러한 과정을 “ETL 파이프라인”이라 한다.
(추출->가공->적재 순서대로 진행)
- 데이터 마트는 데이터 웨어하우스의 하위 부분이다, 데이터 마트는 데이터를 실제로 사용하는 부서의 레벨이나 관련
주제 위주로 접근할 수 있도록 가공한 시스템이다.
-> 데이터 엔지니어의 주요 업무는 데이터 플랫폼을 구축(ETL 파이프라인 설계/구성)하며 이후 어플리케이션의 유기적
작동을 구성하며 이후 유지보수 및 관리를 한다. 또한, ETL 파이프라인 플랫폼에서 제공하지 않는 기능을 개발한다.
q 빅데이터 비즈니스 모델의 이해
- 비즈니스 모델이란 기업으로 하여금 수익을 유지하게 하는 일련의 활동, 즉 “수익 모델”로 정의한다.
- 기업이 가진 비즈니스 모델이 휼륭하다면 이 기업은 이로 말미암아 경쟁우위를 가지게 되어 많은 수익을 얻을 수 있게
될 것이다.
✔ (성공적인 모델 개발을 위한 고려사항 1)
Ÿ
고객에게 어떠한 가치를 제공하는가?
Ÿ
가치를 제공하기 위한 전략은 무엇인가?
Ÿ
어떤 고객에게 가치를 제공하는가?
Ÿ
어떻게 가치를 제공하는가?
Ÿ
가치의 가격은 어떻게 책정하는가?
Ÿ
가치 제공으로부터 얻은 이익을 어떻게 유지하는가?
Ÿ
누구에게 비용을 청구하는가?
-> 이러한 질문에 충실한 답변을 할 수 있는 비즈니스 모델이야말로 기업의 이익창출에 기여할 수 있을 것이다.
- 어떠한 비즈니스 모델을 개발하여 사업을 전개할 것이라는 의사결정은 사업 전략과 마케팅 전략과 같은 전통적
경영 의사 결정과 마찬가지로 사업 성패에 결정적인 영향을 미친다.
- 예를 들어, 전자상거래 비즈니스 모델을 개발하기 위하여 시스템에 어떤 내용이 들어가고, 어떤 구조와 절차를
구비해야 하는지, 화면 설계는 어떻게 해야 하는지 등을 결정하는 과정에서 비즈니스 모델이 명확하게 구상되어
있다면 경제적, 시간적 낭비를 막을 수 있다.
- 3 -
✔ (성공적인 모델 개발을 위한 고려사항 2)
Ÿ
우리 제품과 서비스를 어떤 고객에게 제공할 것인가에 대한 조사
Ÿ
분석된 고객 집단을 대상으로 어떤 제품과 서비스를 제공할 것인가에 대한 검토
Ÿ
기존의 방문판매 형태에서 인터넷 등의 판매 채널 활용 등에 대한 거래 형태
Ÿ
현재 고객에 대한 서비스를 어떤 방식으로 변화시켜 고객에서 서비스 차별화를 도모
Ÿ
지금까지 정의한 네 가지 요소를 어떤 정보통신기술로 실현할 것인가 검토
✔ (빅데이터 산업 구조)
Ÿ
인프라 부분
서비스 부분
빅데이터를 구성하기 위한 데이터의 수집, 저장, 분석, 관리 등의 기능을 담당하는 컴퓨터, 단
말, 네트워크, 서버, 스토리지 등의 하드웨어 장비
Ÿ
기존 ICT분야와 중복, 기존 하드웨어보다 성능이 우수한 고용량, 고속의 장비들로 대체 중
Ÿ
관리, 분석 툴 등의 소프트웨어(새로운 수익 구조 창출을 위해 개발하여 공급)
Ÿ
교육, 컨설팅, 솔루션(분석, 저장, 관리, 검색, 통합 등), 데이터 및 정보 제공, 데이터 처리 등
<2.2. 빅데이터 산업 구조>
✔ (빅데이터 비즈니스 모델)
- 빅데이터의 산업 분야별로 서비스 분야가 가장 큰 규모로 빅데이터 서비스 비즈니스 모델을 의미한다.
- 서비스 비즈니스 모델은 빅데이터를 수집, 저장하여 이를 필요한 서비스 요건에 맞추어 분석하고 분석된 데이터
를 이용하여 필요한 서비스를 제공하는 것이다.
- 빅데이터 기반 서비스 비즈니스 모델은 데이터의 활용 시나리오 측면에서 다음과 같이 볼 수 있다.
이상 현상 감지
시나리오
패턴에 근거한 가까운
Ÿ
업무에서 발생한 이벤트 기록을 수집/분석하여 정상 상태, 비정상 상태의 패턴을 파악
Ÿ
새로운 현상이 발생한 경우 이상 여부를 판단할 수 있어 부정행위 검출, 시스템 사고
예방, 마케팅 전략 수립 등의 다양한 분야에 활용할 수 있다.
Ÿ
대한 조치를 신속하게 실시할 수 있다.
미래 예측
현 상황 분석
Ÿ
빅데이터를 이용하여 지금까지 살펴보지 못했던 사업 측명의 분석이 가능해저 자사의
현황을 보다 명확하게 이해할 수 있다.
시나리오
고객 맞춤 시나리오
빅데이터를 통해 수 분 또는 수 시간 후를 예측하는 시스템을 실현함으로써 현상에
Ÿ
데이터를 이용하여 인사이트를 도출한 다음 (사업적)가치를 창출한다.
✔ (빅데이터 기획)
- 4 -
✔ (빅데이터 분석의 제약 조건)
- 기업의 데이터 분석이 성과로 이어지기 위해 넘어야 하는 제약 조건
Ÿ
분석 대상의 발굴 및 구체화
Ÿ
데이터 기반 의사 결정 문화의 정착
Ÿ
다양한 데이터 원천의 활용
Ÿ
데이터 확보 역량
Ÿ
분석 운영 관리 체계의 정규화
Ÿ
Ÿ
Ÿ
미래 예측 정확도 제고
의미 있는 패턴의 발견
디자인된 차세대 기술
✔ (빅데이터 활용의 가치)
Ÿ
Ÿ
Ÿ
비용의 절감
의사결정의 고도화
고객 성향의 신속한 파악
✔ (빅데이터의 사회/경제적 가치)
- 빅데이터는 정치/사회/경제/문화/과학기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공할 수 있는
가능성을 제시. 빅데이터 기술의 발전은 다변화된 현대 사회를 정확하게 예측하여 효율적으로 작동하는 데에 기여
- 개인화된 현대 사회 구성원마다 맞춤형 정보를 제공/관리/분석 등을 하며 과거에는 불가능했던 기술을 실현 가능
하게 한다. 빅데이터의 도입과 활용은 산업 경쟁력 제고, 생산성 향상, 혁신을 위한 새로운 가치를 창출할 것이다.
- 멕킨지는 빅데이터의 사회/경제적 가치를 다섯 가지로 제시한다.
Ÿ
산업의 투명성 증대
Ÿ
소비자 니즈 발견, 트랜드 예측, 성과 향상을 위한 실험
Ÿ
소비자 맞춤형 비즈니스를 위한 고객 세분화
Ÿ
자동 알고리즘을 통한 의사 결정 지원과 대행
Ÿ
비즈니스 모델, 상품, 서비스 혁신
Ÿ
✔ (빅데이터의 사회/경제적 의미)
천연 자원
새로운 재난
산업적 도구
Ÿ
데이터에 내포된 가치와 가능성에 대해 주목
Ÿ
사회적으로 현안과 위험을 해결할 수 있는 잠재력에 기대
Ÿ
이를 새로운 경제적 가치의 원천으로 활용 가능
Ÿ
정보의 범람으로 기회를 파악하기가 모호해지고 규정 준수가 어려움
Ÿ
현 상태를 유지하는데 ICT예산이 사용되어 혁신을 위한 새로운 동력에 투자가 어려워짐
Ÿ
데이터 처리의 잦은 응답 요구가 기업의 생산성 저하로 이어질 우려가 시사됨
Ÿ
데이터 효율적 관리와 분석을 통해 기업의 경쟁 우위 확보 가능
Ÿ
데이터를 신속하게 처리해 실시간 의사결정 지원이 가능
Ÿ
데이터 분석 역량이 기업 경쟁력을 좌우
✔ (빅데이터의 사회/경제적 의미)
- 데이터의 활용 방식, 가치 창출 방식, 분석 기술의 발전으로 가치를 측정하며, 이는 측정 방식에 따라 가치가 다름.
q 빅데이터 역할 및 활용 조건
✔ (빅데이터의 역할)
- 빅데이터는 미래 사회에서 새로운 기회를 창출하고 위험을 해결하는 엔진의 역할을 수행할 것으로 기대된다.
- 사회가 빠르게 발전하고, 위험 요인과 복잡성이 증가할수록 시스템을 통해 환경변화를 신속하게 감지할 필요성이 증가
한다. 따라서, 빅데이터 분석을 통해 미래의 통찰력, 대응력, 경제력, 창조력을 향상시키며 국가의 지속적 발전을 성취
할 수 있는 전략 수립이 필요하다.
- 5 -
- 미래 사회의 특성으로 불확실성, 리스크, 스마트, 융합 등을 들 수 있다.
통찰력
Ÿ
경쟁력
분석과 미래 전망
불확실성
Ÿ
사회 현상, 현실 세계의 데이터를 기반으로 한 패턴
비스 등 가능
스마트
Ÿ
여러 가지 가능성에 대한 시나리오 시뮬레이션
Ÿ
다각적인 상황이 고려된 통찰력을 제시
Ÿ
다수의 시나리오로 상황 변화에 유연하게 대처
대규모 데이터 분석을 통한 상황 인지, 인공지능 서
Ÿ
개인화, 지능화 서비스 제공 확대
Ÿ
소셜(니즈)분석, 평가, 신용, 평판 분석을 통해 최적
의 선택 지원
Ÿ
트렌트 변화 분석을 통한 제품 경쟁력 확보
대응력
Ÿ
창조력
환경, 소셜, 모니터링 정보의 패턴 분석을 통한 위
험 징후, 이상 신호 포착
리스크
Ÿ
Ÿ
Ÿ
타분야와 결합을 통한 새로운 가치창출(의료 정보,
자동차 정보 등) 인과 관계, 상관관계가 복잡한 컨
융합
이슈를 사전에 인지/분석하고, 빠른 의사 결정과 실
버전스 분야의 데이터 분석으로 안정성 향상 및 시
시간 대응 지원
행착오 최소화
기업과 국가 경영의 투명성 제고 및 낭비 요소 절감
Ÿ
방대한 데이터 활용을 통한 새로운 융합 시장 창출
✔ (성공적인 빅데이터 활용 조건)
Ÿ
양적으로 우수한 데이터만 확보하고 있다고 해서 빅데이터를 조직 내에서 효율적으로 적용하기
어렵다. 이를 해결하기 위해 우선적으로 목표를 분명히 설정하여야 한다.
리더십
Ÿ
빅데이터를 활용한 성공이 무엇인지를 명확히 정의하고, 이를 강력하게 추진할 수 있는 리더십이
필요하다. 리더의 역량에 따라 조직 내 빅데이터 추진 동력을 확보하였는지 여부가 결정
Ÿ
역량 관리
빅데이터 시대에는 구조적인 데이터가 드물기 때문에 빅데이터를 활용하기 위해 전통적인 통
계 분석에 앞서 데이터를 정제하고 조직화하는 처리 과정이 필요하다.
Ÿ
데이터 사이언티스트가 역량을 발휘하여야 하며, 시스템 개발자 등 디지털 전문가는 비즈니
스 언어로 빅데이터 분석 결과를 풀어낼 수 있는 역량도 갖춰야 한다.
기술 도입
Ÿ
빅데이터 관련 시스템을 도입할 때 시스템의 최적화 기술이 가장 중요하다.
Ÿ
조직 내/외부 데이터를 통합하고 가시화한 후, 비즈니스 언어로 풀어낼 수 있는 기술 및 인
력의 확보가 성공의 관건이 된다.
의사결정
Ÿ
효율적인 조직의 특정 중 하나를 정보를 기반으로 의사결정을 한다는 것
Ÿ
데이터가 폭발적으로 늘어나는 빅데이터 시대에는 문제를 해결하는 데 적합한 데이터를 이해
하는 사람과 그 데이터를 활용하여 문제를 해결하는 데 적용하는 사람, 빅데이터 분석을 통
해 도출된 통찰력을 실행에 옮기는 사람 등 세 집단이 모두 중요하다.
Ÿ
기업 문화
빅데이터 시대에는 데이터를 통합/분석하는 과정에서 잘못된 패턴을 찾아내거나 인과관계를
도출하는데 실수를 범할 수도 있다. 따라서, 시스템적인 환경만을 구축할 것이 아니라 빅데이
터를 활용할 수 있는 조직문화가 조성되어야 한다.
✔ (빅데이터 수용 4단계)
단계
정의
활동
교육
탐색
사전 동향을 주시하며 관련
기업 요구와 도전 과제에 기
지식 수집에 중점을 두는
반을 두고 전략과 로드맵을
단계
개발하는 단계
Ÿ
개념 정의 이해
Ÿ
관련 시장 조사
시험
가치와 요구 사항을 검증하
기 위해 선도적으로 빅데이
터 파일럿 프로젝트를 수행
하는 단계
Ÿ
데이터 점검
Ÿ
빅데이터 시각화
Ÿ
의사결정 전략 수립
- 6 -
Ÿ
전략 및 로드맵 검증
Ÿ
가치 및 유효성 검증
실행
2개 이상의 빅데이터 선도 사
업 수행 및 고차원 분석방법
을 지속적으로 적용하는 단계
Ÿ
인텔리젼스 및 통찰력
Ÿ
실제 적용의 효율성 및
피드백
✔ (빅데이터 추진 3요소)
Ÿ
미래에는 빅데이터를 핵심 전략으로 인식하고, 필요한 정보를 뽑아낼 수 있도록 자원을 키워나가는
것이 중요한 성공 전략이다. 빅데이터를 관리하고 처리하는 측면과 함께, 활용할 수 있는 외부 빅
자원
데이터 자원을 발견하고 확보하는 전략이 필요하다.
(빅데이터)
기술
Ÿ
데이터의 품질은 데이터 활용 결과에 중대한 영향을 주기 때문에 데이터 관리 체계 및 데이터의
Ÿ
신뢰성 확보가 매우 중요하다.
빅데이터는 데이터 자체뿐만 아니라 관련 도구나 플랫폼, 분석 기법까지 포괄하는 용어로 확장하여
ICT패러다임의 변화를 견인하고 있다.
(빅데이터
플랫폼)
Ÿ
기업의 의사결정에 유용한 정보를 추출한 비즈니스 인텔리전스(BI)는 분석 기능이 강화된 비즈니스
Ÿ
애널리스트(BA)로 진화중이다.
분석 도구와 기술이 뛰어나도 실제 성과를 내는 것은 이를 활용하여 적용하는 사람의 역량에 의해
좌우된다. 데이터 처리와 분석 능력을 갖춘 인재는 ICT분야뿐만 아니라 대부분의 기업과 조직에서
인력
필수적으로 확보해야 할 핵심 인력이다. 조직 차원에서 인재를 확보하기 위해서는 내부 역량 강화
(빅데이터
및 외부 협력이 중요하다.
사이언스)
Ÿ
데이터 사이언티스트는 기본적으로 수학과 공학 능력을 갖추어야 한다. 다문화적 이해 및 비판적
시각과 커뮤니케이션 능력, 스토리텔링 등 시각화 능력이 필요하다.
q 비즈니스 프로세스 이해
✔ (비즈니스 프로세스의 이해)
- 프로세스란 조직이 한 개 이상의 입력을 통해서 가치 있는 산출물로 전환하는 활동을 말한다.
- 커다란 프로세스(process)는 한 개 이상의 부 프로세스를 가진다. 그리고 이 부 프로세스(sbu-process)는 여러
개의 활동들을 가지며, 이러한 활동 더 작고 간단한 직무(task)로 나누어진다.
- 특정한 목적을 가진 여러 개의 프로세스 집합을 일상적으로 시스템이라고 부른다.
- 공급업체로부터 가져온 원재료를 투입하여 변환 과정을 거친 후에 제품이나 서비스의 형태로 고객에게 제공하는
일련의 비즈니스 활동 중에서 프로세스는 원재료의 변환 과정을 책임진다.
✔ (비즈니스 프로세스의 구성요소)
Ÿ
한가지 형태의 자원과 다른 형태의 자원과 정보로 변환
Ÿ
여러 대안 중 하나의 행동을 고르는 것
Ÿ
예 혹은 아니오로 답할 수 있는 질문이어야 한다
역할
Ÿ
활동을 수행하는데 요구되는 자격이나 직무
자원
Ÿ
역할이 지정된 사람, 시설, 컴퓨터 프로그램
저장소
Ÿ
비즈니스 기록들의 모음, 정보 저장공간
활동
의사결정
✔ (가치사슬의 정의)
- 기업이 공급하는 제품이 보유하는 ‘가치’란 그 제품이 구매자의 욕구를 만족시켜 준 것에 대해 구매자가 기꺼이
지급하고자 하는 대가이다. 기업이 가치를 창출하기 위해 수행하는 활동들의 전략적 중요성과 연계성을 고려하여
핵심 역량을 파악하기 위한 분석의 틀이 되는 것이 가치사슬 모형이다.
- 7 -
q 애널리스트
✔ (애널리스트 정의)
- 애널리스트란 많고, 다양하며, 실시간으로 유입되는 데이터를 분석해서 더 나은 결정을 내리게 하는 것을 의미.
- 비즈니스 애널리틱스는 비즈니스 이슈에 대해 기업 내/외부 데이터를 기반으로 통계적/수학적인 분석을 이용하여
의사결정하는 것을 의미
- 전략적/전술적/운영적 비즈니스 의사결정 문제를 데이터 분석 역량인 통계적/수학적, 데이터 프로그래밍, 전문적
지식을 통해 해결하려는 분석 틀, 즉 강력한 해결책이다.
✔ (비즈니스 애널리틱스 분석 기법의 발전단계_애널리틱스의 필요성)
- 초기 사후 판단 단계는 담당 부서별 데이터 취합을 주기적으로 리포팅하는 단계이다.
- 통찰의 단계는 통계 기반 지표 간 연관 관계 분석 및 전사적 지표 관리의 단계이다.
- 예측/행동 단계는 고급 분석 기법을 이용한 예측 및 직접적 의사결정 단계이다.
✔ (데이터 마이닝과 BA의 차이점)
- 데이터마이닝이란 기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형
또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.
- 반면, 애널리틱스는 고급 분석 범주에 있는 미래 예측 기능과 통계 분석, 확률 분석 등을 포함해 최적의 데이터
기반 의사결정을 가능케 하는 것이 차이점으로 들 수 있다.
- 과거 분석 방법인 데이터마이닝의 경우는 일회성 분석에 그치고 자산화되지 못한다는 것이 있고 또한 포괄성이
없어 의사결정의 일부 참고자료에 그치고 있으며, 대상 주체에 따라 해석이 달라지는 단점이 있다.
- 반면, 애널리틱스의 경우는 의사결정 문제를 먼저 정의하고 이후 데이터 수집/결합/분석이 이루어진다.
✔ (BI와 BA의 차이점)
- 8 -
✔ (비즈니스 애널리틱스 프로세스)
Ÿ
비즈니스 이해관계 파악 및 방향 설정
Ÿ
기업 내/외 환경 분석이 필요한 단계
Ÿ
기록되어 저장된 데이터를 탐색
Ÿ
기록된 데이터에서 불필요한 부분을 제거, 분리, 분류, 추출하는 기술 필요
Ÿ
의사결정에 잘못된 정보가 입력되지 않도록 불필요한 부분 제거 및 분리 중요
Ÿ
비즈니스 분석을 위해 고급 분석 기술 필요
Ÿ
데이터의 가치를 창출해 내는 작업 실시
사전 예측
Ÿ
어떤 일이 일어나게 될지 사전에 예측
예측기반 최적화
Ÿ
예측 모델을 기반으로 최적의 솔루션 창출
의사결정의 성과측정
Ÿ
최종적인 의사결정을 하며 의사결정에 따른 성과를 측정
시스템 업데이트
Ÿ
보완과 피드백 수행
비즈니스 니즈 규정
데이터 탐사
데이터 분석
q 마케팅 애널리틱스
✔ (마케팅 애널리틱스의 필요성)
- 마케팅 실적을 적절히 평가하고, 고객들의 구매 습관 및 시장 트렌트와 니즈에 대한 통찰
- 증거 기반의 마케팅 의사결정
- 고객에게 차별화된 가치 제공
- 최적의 의사결정 정보를 제공
-> 시장조사를 할 때 트랜드를 읽어낼 수 있고 중장기 전략을 수립할 때 현재 동향과 고객의 감성, 제품 선호도
변화 및 앞으로의 흐름을 알아낼 수 있다. 프로모션을 펼칠 때 소비자가 누구인지, 무엇을 구매했는지, 프로모션에
어떻게 반응했는지 등을 파악해 목표 고객을 설정할 수 있다.(갱신되는 정보들과 결합하여 실시간 프로모션도 가능)
✔ (고객 정보 관리)
업무상 데이터
신체 데이터
보안 데이터
개인 상세 데이터
Ÿ
웹사이트나 이메일 리스트, 소셜 미디어 가입 시에 필요한 소비자들이 통상 공유하는 기초 데이터
Ÿ
생일, 주소, 이메일 주소 등
Ÿ
키와 몸무게, 허리둘레 등
Ÿ
소득, 휴대폰 번호, 신용 카드번호 등
Ÿ
다만, 이러한 정보는 확보하기 어려움
Ÿ
종교, 정치성향, 신조, 성적기호 등
Ÿ
다만, 이러한 정보는 확보하기 어려움
✔ (OECD 개인정보 보호 8원칙)
Ÿ
Ÿ
Ÿ
Ÿ
수집 제한의 원칙
정보 정확성의 원칙
목적의 명확화 원칙
이용제한의 원칙
Ÿ
Ÿ
Ÿ
Ÿ
안정성 확보의 원칙
공개의 원칙
개인 참가의 원칙
책임의 원칙
q 생산 운영 애널리틱스
þ 제조업에서 산출되는 데이터는 방대하며, 생산 효율성 측정을 위해 다양한 데이터가 필요하다.
þ 제조업의 경우 생산 효율성을 효과적으로 측정하기 위해서는 제조 영업 데이터, 고객 데이터 등을 바탕으로 제조 요
청 일과 다양한 시장 데이터가 필요하고 이를 바탕으로 제조 전반에 운영되는 MES, ERP상의 운영 결제 정보, 그리고
물류 흐름을 파악하는 SCM 데이터가 함께 복합적으로 분석되야 한다. (-> 생산 효율성 파악)
- 9 -
ERP
Ÿ
기간 업무 프로세스들을 통합적으로 연계 관리
Ÿ
정보 공유를 통해 빠른 의사 결정을 도와주는 기업
통합 정보시스템
Ÿ
MES
생산 현장의 정보를 실시간으로 수집하여 집계/분석/모니터링
및 생산공정을 제어함
Ÿ
합리적인 생산 지시, 실행 및 통제 활동과 품질 혁신
활동을 지원하는 정보시스템
Ÿ
SCM
설비, 부품, 완제품의 흐름을 관리하는 전체 프로세스와
관련하여 자제조달, 제조, 판매, 분배 및 고객과 관련
있는 모든 활동을 통합적으로 관리하여 전체 최적화
- 과거에는 데이터의 양이 적고, 저장 및 분석할 역량이 부족하여 데이터를 활용하지 못하였다.
- 현재에는 센서 기술과 빅데이터 애널리틱스 기술의 발달로 데이터 분석이 가능하며, 이를 활용하여 생산성 향상됨.
✔ (설비보전관리 유형)
- 사후 보전, 예방 보전, 예지 보전
q 생산 운영 애널리틱스
✔ (인적자원의 관리 과정)
✔ (인적자원 데이터 및 애널리틱스)
- 인적자원 데이터는 인적자원에 대한 계획 수립, 인력 수급 조절, 인력의 활동, 인력의 능력 개발에 필요한 데
이터를 의미한다.
- 인적자원 애널리틱스는 인적자원을 효과적으로 관리하는데 필요한 인적 정보를 체계적으로 입수, 가공, 활용
하는 과정을 의미한다.
✔ (인적자원 관리업무와 데이터)
- 10 -
✔ (인적자원계획 수립)
q 회계 정보와 회계 애널리틱스
- 과거에는 회계 데이터의 수집, 저장, 처리 및 분석을 수작업으로 처리하였으나, 현재에서는 ERP시스템 내 회계
정보 시스템을 통해 회계 데이터를 관리한다.
- 회계 정보 시스템은 회계 자료를 수집, 기록, 정리하여 회계 정보 이용자에게 제공한다.
✔ (ERP의 회계 분석 기능)
재무회계 모듈
세무회계 모듈
총 계정원장, 매출채권, 매입채무, 기타 보조부 등에 포함된 데리터를 자동으로 저장/관리하고
외부 보고 목적의 재무제표를 산출하는 기능을 수행
재무회계 모듈에서 입력된 각종 데이터를 토대로 부가가치세, 소득세, 법인세 등 세무 업무와
관련된 데이터 처리/분석을 실시하고 산출된 정보를 해당 신고서 및 제출자료에 작성
고정자산 데이터를 처리/분석하는 모듈
고정자산 모듈
고정 자산 데이터를 처리, 분석하고 감각상각비의 계산 및 투자안의 계획과 실행을 위하
여 자산 계정에 반영
관리회계 모듈
자금관리 모듈
손익분석과 원가분석의 기능을 제공하는데, 비용 분석, 손익부서 분석, 전체 손익 분석, 제조
원가 분석, 실제 원가 분석 등이 있음.
현금흐름의 유출입과 자금 잔액 등을 관리하는 유동성 관리 기능을 제공
✔ (전통적 회계 절차와 시스템을 통한 데이터 처리/분석 비교)
q 재무 정보와 재무 애널리틱스
✔ (재무 정보)
- 재무 정보는 재무 애널리틱스를 위한 기초 자료이며, 주로 회계 데이터를 토대로 발생하기 때문에 회계 보고서
별로 재무 정보를 분류해 볼 수 있다. 회계 보고서의 종류로는 재무상태표, 손익계산서, 현금흐름표 등 있음
재무상태표
손익계산서
현금흐름표
총자산 증가율, 유형자산 증가율, 자기자본비율, 부채비율, 유동비율, 고정비율 등
총자산 경상이익률, 총자산 영업이익률, 총자산 순이익률, 자기자본 경상이익률, 차입금 평균
이자율, 총자산 회전율, 유형자산 증가율, 경영자산 회전율 등
현금보상비율, 영업현금흐름/차입금, 금융비용보상비율, 영업현금흐름/투자현금흐름 등
- 11 -
✔ (재무 애널리틱스)
- 재무 정보를 토대로 이루어지는 재무 애널리틱스는 기업의 경영 분석 및 현금흐름 분석, 여신자의 기업 신용
분석 등을 통한 의사결정을 위해 실시된다. 의사결정의 목적에 따라 유형별 재무비율을 분석한 재무 정보가
의사결정자에게 제공되고, 의사결정자는 재무 정보를 근거로 이익 계획, 수익 계획 등의 재무 계획과 예산
편성 등의 재무 통제 활동을 추진하게 된다.
✔ (유형별 재무 정보)
- 안정성: 유동비율, 당좌비율, 부채비율, 차입금의존도, 이자 보상비율
- 활동성: 재고자산 회전율, 매출채권 회전율, 총지산 회전율, 자기자본 회전율
- 수익성: 자기자본 순이익률, 매출액 영업이익률, 매출액 경상이익률
- 성장성: 매출액 증가율, 총자산 증가율
q 빅데이터 분석 기획의 의해
✔ (빅데이터 분석 기획)
- 비즈니스 목표 달성 최적화를 위해 의사결정과 실행 과정에 필요한 정보와 인사이트를 과학적 분석을 통해
제공하기 위한 과제를 기획하는 것
- 기업 관점에서의 빅데이터 분석은 경쟁 업체와 차별화된 경쟁력을 확보해서 우리 기업이 치열한 시장에서
승리할 수 있도록 하는 새로운 과학이라고 부른다.
- 빅데이터 분석 기획이 필요한 이유는 데이터 분석 성과의 제약 조건을 이해하고 제약 조건 극복이 가능한
계획을 수립하면 데이터 분석의 목적이 달성되기 때문이다.
- 일반적인 기획에서는 의사 결정을 위한 분석 기회를 발굴하고 이후 ‘질문 먼저’방식으로 질문 구체화한다. 이후
에 필요한 분석 방법과 데이터를 정의한다. ‘질문 먼저’방식이란 업무에 필요한 질문이 무엇인지를 찾기 위해 분
석질문을 먼저 정의하고, 이를 분석하기 위해 필요한 데이터가 무엇인지 정의하는 방식이다.
✔ (빅데이터 분석 기획의 범위)
þ 분석 거버넌스:
데이터 분석에 근거한 의사결정을 기업의 문화로
정착시키고 데이터 분석 업무를 지속적으로 지원
하는 관리 체계
þ 데이터 거버넌스:
데이터의 소유권 및 수명, 보안성 등을 관리하는 체계
✔ (빅데이터 분석 기획 추진 단계)
- 12 -
Ÿ
빅데이터 분석을 통해 고객 서비스 및 의사결정 효율성과 효과성 증진을 위한 기회 식별이나,
경영 목표 달성을 위해 해결해야 할 문제를 식별하는 단계
Ÿ
환경 악화로 온난화 등 기후 변화 심각 현상을 들 수 있다.
문제 발굴
및 정의
식별된 문제의 예는, 고객 이탈 현상 심화, 공장 기계의 잦은 정지로 납기 지연 및 손실 초래,
Ÿ
식별된 문제들 중 조사 연구를 통해 시급해 해결할 문제를 사용자 관점에서 정의한다.
Ÿ
문제의 정의 및 해결 요구사항 분석은 분석 결과의 최종 사용자 관점에서 이루어져야 함.
문제가 정의되면 그 문제를 해결하기 위해 여러 가지 시각에서 가설을 설정해보는 절차도 요구
Ÿ
가설이란 어떤 사실을 설명하거나 어떤 이론 체계를 검증하기 위하여 설정한 가정
Ÿ
사용자 관점에서의 문제 정의(가설 설정)가 이루어진 다음, 이 문제 해결에 필요한 개념적
대안이 설계되어야 할 것이다. 이는 도출된 여러 가설 중 분석을 위해 필요한 가설을 추려
개념적 대안
설계
내는 과정을 통해 이루어진다.
Ÿ
여러 가설에 대한 검정은 과제 분석 단계의 본격적인 데이터 분석을 위한 사전적인 대안 설계
작업이라 할 수 있다. 이때에는 식별된 가설을 검정하는데 필요한 샘플 데이터를 수집함.
Ÿ
샘플 데이터 분석을 하여 가설이 채택될 때는 데이터 가용성을 평가하며, 기각 시에는 가설
조정 및 샘플 데이터 보완을 통해 유효한 가설이 도출될 때까지 반복된다.
데이터
Ÿ
설계된 개념적 대안을 실현할 빅데이터 분석을 하기 위해서는 무엇보다도 데이터가 확보되어야 함.
Ÿ
관련 데이터 존재 여부와 데이터 확보 여부를 검토하는 데이터 가용성 평가 단계가 이루어저야 함.
Ÿ
데이터 가용성이 미비하다고 판단될 경우에는 문제 해결을 위한 개념적 설계를 조정한 다음 또
다시 데이터 가용성을 평가하여야 한다. 이러한 과정을 반복하여 가용성 있는 데이터를 확보할
가용성 평가
수 있다록 판단될 때에는 이로서 문제 해결을 위한 논리적 모델을 설계하는 단계로 나아갈 수
있음. 가용성이 확보되지 못한다면 대안은 폐기될 수 있다.
논리적 모형
설계
Ÿ
데이터 가용성이 있다고 판단되면 문제 해결을 위한 논리적 모형이 설계되어야 한다.
Ÿ
논리적 모형과 필요한 변수를 선정하거나 문제해결 대안을 수립(분석 결과의 제시를 위한
산출물과 시각화 등에 관한 방안 등을 설계함).
Ÿ
모형이란 복잡한 현상 이해 및 해법을 찾기 용이하도록 현실 문제를 중요한 특성들 간의 관계로
표현한 것.
Ÿ
논리적 모형으로 설계되고 나면, 본격적으로 빅데이터 분석 과제 추진 방안을 다양하게 검토하게 된다.
Ÿ
기존 정보시스템의 보완을 통한 분석, 엑셀 등의 간단한 도구 활용 또는 통계나 데이터마이닝 도구 등 전문적
인 도구 활용 등에 의한 분석 등 여러 대안이 도출될 수 있다.
Ÿ
앞에서 제시된 여러 대안에 대한 평가를 하여야 적정 방안을 선정하게 되는데, 이를 위해서는 다음과 같은 타
당성 분석이 수행된다.
과제 추진
경제적
방안 수립
타당성
및
기술적
타당성 평가
타당성
운영적
타당성
Ÿ
Ÿ
비용과 매출 향상, 비용 절감 등 대안의 경제적 편익을 비교하는 비용편익 분석 등
Ÿ
데이터 존재 여부, 분석 시스템 환경 여부, 데이터 분석 역량 보유 여부
Ÿ
조직의 문화, 여건 등을 감안하여 실제 운영 가능성을 평가
타당성 평가 후 타당성이 있다고 판단되는 과제의 해결 대안이 결정되면 과제를 확정하며, 없다고 판단되는 경우에는 모
형 및 변수를 수정하고 다른 해결 방안을 검토하는 과정을 거쳐야 하는데, 이는 대안이 선정될 때까지 반복될 수 있다.
Ÿ
정하며, 빅데이터 분석 기획 단계에서 최종 선정된 대안인 프로젝트를 어떻게 수행하여 소기의 목적을 달성할
과제 확정
수 있도록 하는 계획을 수립한다.
및 분석
계획 수립
여러 대안 중에서 평가 과정을 거져 가장 우월한 대안을 선택하여 이를 과제화하고, 계획 단계의 입력물로 설
Ÿ
프로젝트의 목표를 명확히 정의하고, 프로젝트 추진 시 필요한 데이터나 기술적 요구사항 등을 파악하고, 프로
젝트 수행 예산 수립, 그리고 프로젝트 관리 계획을 수립하는 과정으로 구분한다.
- 13 -
✔ (분석 과제의 발굴)
- 분석과제의 도출에 대한 전략적 접근
방법에는
수요기반 분석과제 도출 방법과
데이터주도
분석과제
도출방법으로
나누어질 수 있다.
Ÿ
다양한 조직에서는 업무 프로세스 효율화를 비롯하여 비용 절감, 생산성 향상, 의사결정 최적화 등 다
양한 비즈니스상의 이슈나 문제들에 직면해 있다.
Ÿ
이런 비즈니스상의 이슈에 대한 해결에 밀접한 근본적 원인에 대한 근거를 제시하고, 잠재적으로 도출
된 해결 방안이 실제적으로 실현될 수 있는지에 대한 가능성을 관련한 내/외부 데이터의 수집/가공/
수요기반
분석과제
도출
분석을 통하여 수행하는 일련의 접근 방법
Ÿ
비즈니스상의 이슈나 문제들은 결국 해당 부서나 조직의 핵심성과지표(KPI)의 수준을 바람직한 방향으
로 강화시키거나 또는 부정적으로 악화시키는 요인이다.
Ÿ
따라서, 데이터 종류나 분석 기법에 문제 상황을 억지로 끼워맞추는 것이 아니라 해결해야 할 이슈/문
제를 먼저 정의하고, 이에 대한 원인 진단-연관된 해결 방안 도출이라는 일련의 시나리오를 수립하는
것이 선행되어야 한다. (문재 해결 시나리오 선 정의 -> 적합 데이터 및 분석 기법 탐색 및 활용)
Ÿ
이때 활용되는 데이터 및 분석 기법은 다양한 비즈니스 상의 이슈나 문제에 대한 해결이 가능하도록
해주는 하나의 “실행 동인”으로서의 역할을 담당한다.
Ÿ
데이터
분석 알고리즘도 등장하고 있다. 또한, 이를 위한 데이터 분석 인프라도 속도, 용량 측면에서 충분한
주도
분석과제
도출
데이터의 종류 및 형태가 다양해지면서 이와 관련된 분석 기법도 고도화되고 있으며, 새로운 개념의
성능을 보유하고 있어서 다양한 실험적인 시도를 해볼 수 있다.
Ÿ
다양한 데이터 원천의 조합 및 통합적/시각화 분석을 통해 의미 있는 패턴을 파악하고, 이를 비즈니스
상에 적용/활용했을 때 기존의 업무 수행 방식에 대한 이해를 돕고, 새로운 시각에서 비즈니스 이슈/
문제에 대한 해결이 가능하도록 해주는 일련의 접근 방법
● 참고사항
최적화
솔루션
통찰
발견
- 14 -
도출한 문제를 분석하고 최적 방안 수립
도출된 문제의 분석 방법을 수립하기 위한
분석 과제 수행
도출된 문제를 분석하고 최적 방안 수립
도출된 문제의 분석 방법을 수립하기 위한
분석 과제 수행
q 빅데이터 분석의 과제 분석 단계
Ÿ
선정된 변수에 의해 구성된 분석 모형이나 과제를 해결하기 위해서는 관련 데이터를 수집하고
이를 분석하여야 하므로 데이터 수집이 분석 첫 관문이라 할 수 있다.
관련 데이터
Ÿ
데이터를 수집하는 방법은 내부의 데이터웨어하우스나 데이터베이스 내의 데이터, 조직 외부
의 데이터 소스 등을 통해 이루어질 것이다.
수집
Ÿ
어떤 데이터를 어떤 방법을 선택하여 수집할 것인가에 대한 판단은 문제의 성격과 측정해야
하는 변수의 특징에 달렸다.
Ÿ
데이터
전처리와 정제
데이터 분석과
처리나 정제가 필요하다.(자료의 중복 또는 누락, 정상 범위 외의 값을 가진 항목, 분석에 부적합한 자료)
Ÿ
Ÿ
그만큼, 데이터 전처리에 많은 시간과 노력이 투입된다.
Ÿ
측정하고 수집된 데이터 그 자체만으로는 아무것도 알 수가 없으므로 분석을 통해 그 속에 내재된 의미를
파악하는 것은 매우 중요한 일이다. 즉, 데이터 분석이란 모아놓은 데이터에서 변수들 간의 관련성을 파악
하는 것이다.
및
Ÿ
Ÿ
분석 결과의 의미를 제시하는 단계
Ÿ
데이터 분석을 통해 변수 간의 관련성이 분석되면 그 결과가 의미하는 바를 명료하게 해석하여 의사결정자에게
구체적인 조언을 하는 것이 매우 중요하다. 다만, 처리 결과물이 빅데이터 분석을 위한 새로운 모형일 경우에는
및
분석 모형 자체가 제시되고, 이의 사용법 등이 제시될 필요가 있다.
결과 제시
/모형 수립
분석과 정리를 통해 나온 처리 결과는 수용 가능한지 여부를 판단하여야 한다. 수용하지 못할 경우에는 반
복적인 분석과 정리 작업을 통해 결과의 활용성을 제고하고 모형의 정확성을 향상시켜야 한다.
수용 여부
해석(시각화)
문제 데이터에 대해서 삭제를 하거나, (평균, 중앙값, 최빈값)으로 값을 대체하거나, 회귀식 함수값을 예측
한 값으로 처리하여 데이터의 신뢰도를 향상한다.
정리
처리 결과
다양한 소스로부터 확보한 데이터는 대부분 분석하기에 부적합하거나 수정이 필요한 데이터가 포함되어 전
Ÿ
특히, 주요 분석 결과를 간단명료하게 요약하여 어떤 의사결정이 바람직하도록 적절한 방법을 통해 제시
Ÿ
결과의 제시 방법 중 다양한 차트나 그래프를 활용하여 효과적으로 주의를 끄는 방법이 권고
- 15 -
Download