2025-03-11 1 2 1 2025-03-11 3 • 밝은 면 • 현재 많은 수요-> 많은 직업군과 고연봉 • 데이터 과학자 평균 연봉 ($117,345), 일반 직업군 평균 ($44,564) • 당분간 수요가 공급을 압도할 것으로 예상 • ICBMS, DNA등의 기술 진전으로 인해 계속 성장하는 분야 • 어두운 면 • 데이터 사이언스라는 용어자체가 모호한 측면이 있음 • 데이터 사이언스의 요소기술들을 모두 섭렵하는 것은 불가능 • 다양한 분야의 전문지식들을 필요로 함. • 데이터 보안 문제/개인 정보 보호 이슈 4 2 2025-03-11 출처: https://data-flair.training/blogs/what-is-data-science/ 5 출처: https://data-flair.training/blogs/data-science-applications/ 6 3 2025-03-11 • 데이터 사이언스의 복잡함과 정체의 모호함 • 데이터 사이언스는, 분명히 정의되지 않은, 정체가 불분명한 기술적 유행어로 비판 받기도 한다 • 많은 기술과 이론(확률 모델링, 기계 학습, 통계 학습, 예측 분석, 불확실성 모델링, 데이터 마이닝, 시각화, 데이터베이스, 데이터 웨어하우징, 데이터 엔지니어링, 데이터 압축, 고성능 컴퓨팅, 컴퓨터 프로그래밍, 패턴 인식 및 학습, 신호 처리, 인공 지능 등)이 • 여러 분야(수학, 통계학, OR, 컴퓨터 과학, 정보 과학 등)에 걸쳐 있다. • 통계학과 별반 다르지 않다거나, 단지 business analytics를 대체한 용어라는 지 적을 받기도 한다. 7 • Data is never clean.(데이터는 절대 깨끗하지 않다) • You will spend most of your time cleaning and preparing data. (당신은 분석의 대부분의 시간을 전처리 단계에서 보내게 될 것이다) • 95% of tasks do not require deep learning (95% 일은 Deep Learning을 필요로 하지 않는다) • In 90% of cases generalized linear regression will do the trick. (실제 분석의 90%는 GLM으로 해결된다 ) • Big Data is just a tool (빅 데이터는 단지 도구일 뿐이다) 출처: https://www.kdnuggets.com/ 8 4 2025-03-11 • No one cares how you did it. (사용자 입장에서는 네가 어떤 방법을 사용 했는가는 중요하지 않다.) • Academia and business are two different worlds. (학계와 산업계는 서로 다른 세계이다) • Presentation is key - be a master of Power Point (프리젠테이션이 핵심이 다: PowerPoint 의 마스터가 되라) • There is no fully automated Data Science. You need to get your hands dirty (완전 자동화된 데이터 사이언스같은 것은 없다. 인간이 개입되어야 할 부분이 있다) 출처: https://www.kdnuggets.com/ 9 출처: http://content.time.com/time/covers/0,16641,20110321,00.html 10 5 2025-03-11 • 미래 데이터 경제 시대에 가장 큰 이슈는 프라이버시 침해 문제임. • 빅데이터가 개인 정보 유출이나 프라이버시 침해를 가속화 할 것이라는 우려가 커지고 있음 • 데이터 분석에 의한 프라이버시 침해 현상은 이미 상당히 널리 퍼져있음 • 마케팅 전화, 이메일 광고, 팝업 광고 등.. • 서비스 제공자들은 개인정보를 활용하여 서비스가 개선되고 있다고 주장함. • 개인의 병원 방문 이력을 조사하여 질병이 있을 것을 예측하고 해당 고객의 보험 료를 올린다면 이것이 타당한 조치일까? 프라이버시 침해일까? 출처: 김화종, 데이터 사이언스 개론, 홍릉과학출판사, 2014 11 • 개인정보와 프라이버시는 다르다. • 개인정보 • 개인의 신원을 유추할 수 있는 정보: 개인식별정보 • 이름, 전화번호, 주민번호, 주소, 생년월일, 사진, 지문, 홍채, 계좌번호, 이메일 등.. • 프라이버시 정보 • 개인의 취향, 최근 웹사이트 방문 정보, 쇼핑 정보등 자신과 관련한 행위정보 • 우리나라는 강력한 개인정보보호법을 가지고 있으나 프라이버시를 보호하기 위한 범위는 명확하지 않음 • 프라이버시 정보 노출이 보다 나은 맞춤형 서비스를 받기 위해 어쩔수없이 필요하 다라는 인식 출처: 김화종, 데이터 사이언스 개론, 홍릉과학출판사, 2014 12 6 2025-03-11 • 미국식 사고 • 프라이버시 정보는 이를 대가로 어떤 편리한 서비스를 받을 수 있는 상품가치가 있는 정보로 생각 • 유럽식 사고 • 프라이버시란 침해받으면 안 되는 것이며 거래 대상으로 보지 않음 • 미래에 프라이버시 정보는 가장 민감한 자산이 되며 이를 안전하게 관리해 주는 것이 새로운 비즈니스가 될 것임 • 이를 위해서는 프라이버시 데이터의 정확성, 안전한 관리, 유용한 이용방법등이 명 확하게 제시되어야 함. 출처: 김화종, 데이터 사이언스 개론, 홍릉과학출판사, 2014 13 • In April 2018, • Cambridge Analytica obtained data about a large number of Facebook users to use for political campaigning. • Those Facebook users did not even know that: (1) such data about them was collected and shared by Facebook to third parties; and (2) the data was used to target political ads to them. • 미국 기업 중에서는 2018년 7월 페이스북 주가가 19% 폭락한 게 최대치였다. 당 시 페이스북의 시가총액은 1190억 달러 이상 감소했었다. 영국 소재 데이터 분석 업체 케임브리지 애널리티카(CA)가 2년 전 대통령선거 당시 페이스북 이용자 수 천만명의 개인정보를 불법 수집한 사실이 드러난 게 이유였다. • 개인 정보에 대한 가치 • for Facebook, each user is worth $158. • $182/user for Google and $733/user for Amazon 출처: C. Shah, A hands-on introduction to data science, Cambridge university press, 2020 14 7 2025-03-11 • 링크드인은 개인정보 보호의 역습에서 벗어나지 못하고 있다. • 2015년 6월 링크드인은 소송에 합의하기 위해 1천 3백만 달러를 지 불하기로 했다. 이것은 사용자의 이메일 주소록으로 보낸 여러 장의 이메일 초대장 때문에 생긴 사건이었다. • 링크드인의 사례는 개인정보를 사용할 때 투명성이 요구된다는 사 실을 보여주었다. 고객들에게 어떤 정보를 수집하고 있는지, 어떻게 사용하고자 하는지를 매우 분명하게 하는 것이 중요하다 출처: 버나드 마, 빅데이터 4차 산업혁명의 언어, 학고재, 2017 15 • 데이터 사이언스는 양날의 검이다. • 데이터 사이언스는 보다 효율적인 정부, 향상된 의약품과 의료 서비스, 저렴한 보험, 더 똑똑한 도시, 범죄의 감소, 그 밖의 여러 방식으로 우리 삶을 보다 나아지게 할 수 있다. • 하지만 동시에 우리를 감시하고, 원치 않는 광고의 표적으로 삼고, 명백 하게 또는 은밀하게 우리 행동을 조절할 수도 있다. 출처: 존 켈러허, 브랜던 티어니 , 더 나은 의사결정을 위한 통찰의 도구 데이터과학, 김영사, 2019 16 8 2025-03-11 • 데이터 사이언스 알고리즘이 편견을 강화할 수도 있다. • 사회에 편견이 더 일관되면 될수록 그 사회에 대한 데이터에 이 편견의 패턴은 더 강하게 나타날 것이고, 데이터 사이언스 알고리즘은 그 편견의 패턴을 추출 해 더 많이 복제할 수 있는 것이다. 예를 들어 구글 온라인 광고 시스템에 대한 한 학술연구는 이 시스템이 프로필상 남성으로 보이는 이들에게 여성으로 보이 는 이들보다 연봉이 높은 직업에 대한 광고를 더 많이 보여준다는 사실을 밝혀 냈다. • 고객 프로필을 바탕으로 같은 제품에 대해서도 일부 고객에겐 다른 고객에 비 해 더 높은 가격을 부르는 웹사이트 내 가격 차별화다. 더 큰 문제는 이런 마케 팅 프로필이 상품처럼 취급되어 다른 회사에 종종 팔리기도 한다는 점이다. 출처: 존 켈러허, 브랜던 티어니 , 더 나은 의사결정을 위한 통찰의 도구 데이터과학, 김영사, 2019 17 • • • • • 2021년 초에는 국내 스타트업이 개발한 딥러닝 기반 챗봇(Chatbot)인 '이루다'가 한국을 떠들썩하게 했습니다. 이루다는 자유 주제 대화 시스템을 기반으로 어떤 주제로든 자유롭게 대화할 수있는 인공지능을 이루었다는 의미로 이름 지은, 스무살의 소녀로 설정된 챗봇 자연스러운 대화를 위해 실제로 수많은 사람이 나눈 카카오톡 데이터를 학습, 무려 100억 건 이상의 한국어 데이터를 활용함. 인공지능 챗봇인 이루다는 실제로 사람과 대화하는 것 같은 자연스러운 대화로 인기를 끌었지만, 개인적 대화까지 학습에 동원한 점(개인정보보호 위반->1억원 벌금), 대화 중에 장애인과 성 소수자를 혐오하는 발언을 하면서 출시 20일 만에 서비스가 중단 이루다를 학습시키기 위해 실제 연인의 문자 메시지 대화를 학습 데이터로 사용했는데, 전문가들은 이 학습 데이터에 포함돼 있던 혐오 발언이 원인이었을 것이라고 말합니다. 이루다를 만든 회사에서도 이러한 문제를 해결하기 위해 혐오 표현을 필터링해 제거했다고 했지만, 잘 되지 않은 것이죠. 이를 계기로 인공지능 서비스와 학습 데이터의 '편견'과 '편향(Bias)' 문제가 크게 대두됐고 실제 연인의 대화 내용을 학습 데이터로 사용해도 되는지에 관한 개인정보 보호 이슈도 제기됐습니다. AI 상식사전 18 9 2025-03-11 • • • • • 이루다와 비슷한 사건은 이전에도 있었습니다. 2016년, 마이크로소프트사에서 개발한 챗봇인 '테이(Tay)- 미국의 19살 소녀로 설정' 는 백인우월주의와 여성 혐오적인 발언으로 서비스 16시간 만에 중단됐습니다. 테이의 특징은 트위터 사용자들과 대화하면서 스스로 학습한다는 점 테이와 대화한 사람들이 인종과 성차별적인 발언을 학습시킨 것이 그 원인이었죠. “히틀러가 옳아, 난 유대인이 싫어”, “911테러는 조시 부시 미국 전 대통령이 일으킨 것이야” 2018년에는 아마존이 인공지능 기반 채용 시스템을 폐기한 일도 있었습니다. 이 시스템은 채용 과정에서 발생할 수 있는 불공정 요소를 배제함으로써 피채용자를 공정하고 객관적으로 평가하기 위해 도입한 것이었지만, 여성 지원자에게 불리한 점수를 부여한 것이 밝혀졌습니다. 이 문제의 원인은 인공지능의 구현 방법에 있었습니다. 기존에 채용된 직원 대다수가 남성이었고 과거 채용 데이터로 학습한 인공지능 채용 시스템이 남성을 우대하도록 학습된 것이죠. AI 상식사전 19 • 이와 비슷한 사례로 2015년에는 구글의 클라우드 서비스인 '구글 포토'가 흑인을 고릴라로 잘못 분류하는 사건도 있었습니다. 구글 포토에는 이미지를 자동으로 분류하는 기능이 있었는데, 흑인에 대한 학습 데이터 부족으로 일부 사람의 얼굴을 고릴라로 잘못 분류한 것이죠. AI 상식사전 20 10 2025-03-11 • 이 사건을 단순히 분류 오류라고 생각할 수도 있었지만 MIT 연구원인 '조이 부오람위니(Joy Buolamwini)’는 2018년, 연구를 통해 얼굴 인식 중 흑인 여성의 인식 오류율이 가장 높은 것을 밝혀냈습니다. 그녀는 MIT에서 과제를 할 때 얼굴 인식 소프트웨어가 흑인인 자신의 얼굴을 인식하지 못하고 백인 친구들의 얼굴만 잘 인식하는 것을 보고 인공지능의 편향에 대한 문제 의식을 느꼈다고 합니다. AI 상식사전 21 AI 상식사전 22 11 2025-03-11 • 페이스북의 고위 임원이었던 팀 켄들(Tim Kendall)'은 국내 언론사와의 인터뷰에서 "소셜 미디어는 사회를 분열시키는 데 있어 인류 역사상 가장 강력한 촉매제(Accelerant)가 됐으며 나와 다른 관점이나 시각, 경험을 접 하지 못하면서 우리의 비판적 사고 능력은 크게 위축되고 있다."라고 말했습니다. • 미국 대선을 앞둔 2016년, 주요 언론사인 「뉴욕 타임스」, 「워싱턴포스트」 , 「CNN」, 등에서 가장 인기 있었던 대선 관련 기사 20개의 이용 건수는 736만 건이었지만, 페이스북에서 가장 인기 있었던 가짜 뉴스(Fake News) 20개에 공유, 댓글 등으로 호응한 건수가 871만 건이었던 것을 보면 팀 켄들의 우려가 이해됩니다. AI 상식사전 23 • • • 이보다 큰 문제는 이런 가짜 뉴스가 소셜 미디어의 인공지능 추천 알고리즘을 통해 퍼진다는 것입니다. 추 천 알고리즘은 각 개인이 선호하는 맞춤형 뉴스나 콘텐츠를 우선 제공하는데, 이 경우 자신이 좋아하거나 비슷 한 생각을 가진 사람들과 제한적으로 소통하며 편향된 사고를 갖게 되는 것이죠. 이러한 현상을 '에코 체임버 효과(Echo Chamber Effect) 또는 '반향실(x숲) 효과'라고 합니다. 거대한 반향실 속에서 입맛에 맞는 뉴스, 친구, 사진 등의 데이터에만 노출되면 인공지능 알고리즘이 추천 하는 특정 성향의 콘텐츠만 소비하게 돼 자신과 의견이 다른 사람의 이야기는 듣지 않고 자신의 생각만 옳다고 생각하는 편향성이 강화되는데, 이를 '확증 편향(Confirmation Bias)'이라고 합니다. 이와 비슷한 개념으로 '필터 버블(Filter Bubble)'이라는 용어도 있습니다. 사용자에게 맞게 필터링된 정보가 사용자를 거품(버블) 속에 가둬버리는 현상을 의미합니다. AI 상식사전 24 12 2025-03-11 • 인공지능 추천 서비스와 같은 알고리즘 이용의 확대는 이념의 양극화를 심화시키고 있습니다. AI 상식사전 25 • 인공지능 추천 서비스와 같은 알고리즘 이용의 확대는 이념의 양극화를 심화시키고 있습니다. AI 상식사전 26 13 2025-03-11 • 인공지능 시스템에 잘못된 입력을 하거나 학습 데이터를 오염시켜 오작동하도록 하는 것을 '적대적 공격(Adversarial Attack)' 또는 적대적 머신러닝(Adversarial Machine Learning)'이라 하고, 이렇게 인공지능을 잘못 작동하 도록 하는 사례를 '적대적 사례(Adversarial Example)'라고 합니다. • 다음은 팬더 이미지에 사람의 눈에는 보이지 않는 '잡음(Noise)'을 섞어 입력할 경우 팬더를 '긴팔원숭이(Gib bon)'로 잘못 인식하는 사례입니다. • 여기서 '잡음'은 팬더 이미지의 픽셀 값에 미세한 숫자를 더하는 것으로, 이렇게 만들어진 팬더 이미지는 사람의 눈에는 똑같지만, 인공지능 알고리즘은 원본과 다르게 인식합니다. AI 상식사전 27 AI 상식사전 28 14 2025-03-11 AI 상식사전 29 AI 상식사전 30 15 2025-03-11 AI 상식사전 31 • 블록체인은 데이터의 위•변조를 방지하기 위한 분산 컴퓨팅 기술로, 소규모 데이터들이 체인 형태로 무수히 연결돼 형성된 '블록(Block)'에 데이터를 저장하고 이 블록을 여러 곳에 분산해 저장함으로써 누구도 임의로 수정할 수 없고 누구나 변경의 결과를 열람할 수 있습니다. 이러한 블록체인을 기반으로 비트코인(Bitcoin)과 같은 암호 화폐(Cryptocurrency)가 만들어집니다. • 디지털 지문은 디지털 증거의 동일성을 입증하기 위해 파일의 특성을 축약한 문자와 숫자의 조합으로, '해시값(Hash Value)' 이라고도 하며 범죄 수사 과정에서 '디지털 증거의 지문'으로 사용됩니다. 이 해시값에는 원문을 복원할 수 없는 '비가역적' 인 성질이 있습니다. AI 상식사전 32 16 2025-03-11 • NFT (대체 불가능한 토큰, Non-Fungible Token) • 디지털 자산의 소유권을 증명하고 보호하기 위해 사용하는 기술로, 기존의 블록체인으로 만들어진 비트코인이나 이더리움 같은 코인( 토큰)은 다른 코인과 1대1로 교환할 수 있는데, NFT는 하나하나가 대체 불가능하게 만들어지는 토큰이기 때문에 붙은 이름입니다. 그림, 음악과 같은 디지털 파일을 블록체인 네트워크에 NFT로 기록하면, 디지털 파일의 원본이 누구의 소유인지를 명확하게 그리고 영구적으로 증명할 수 있습니다. 무한히 복제할 수 있어서 가치가 없었던 디지털 자산에 소유권과 희소성을 부여하는 수단으로 이용됩니다. AI 상식사전 33 • 미국의 주문형 콘텐츠 서비스 제작 기업 출처: https://www.wfla.com/community/health/coronavirus/10-netflix-series-to-binge-while-in-self-quarantine/ 34 17 2025-03-11 • 1997년 미국 캘리포니아주 스콧츠 밸리에서 리드 해스팅스와 마크 랜돌프가 설 립 • 넷플릭스(NETFLIX)=인터넷(Net)+영화(Flicks) • 전세계 시청자들의 컨텐츠 이용 시간: 하루 평균 1억 2천 5백만 시간 (위키백과) • 1998년 세계 최초 온라인 DVD 대여 서비스 시작 • 업계 1위 블록버스터와의 경쟁에서 이김. • 영화와 TV 드라마 등 동영상 스트리밍 서비스를 제공하는 넷플릭스는 미국에서 피크타임 인터넷 트래픽의 3분의 1을 차지. 35 • 넷플릭스는 비디오 대여 및 온라인 영화 스트리밍 서비스를 제공하는 미국 회 사로 1997년에 설립됐다. 2005년에 이미 35,000편의 영화를 보유하고 있으면 서 하루에 1백만 개가 넘는 DVD를 배송하는 기록을 세웠다. • 한 편의 영화를 고르면 DVD를 우편으로 받을때까지 시간이 꽤 걸렸기때문에 넷플릭스는 고객의 영화 선택을 돕기 위해 고객들의 리뷰와 평가 등급을 이용 해 개인 맞춤형 추천 시스템을 개발하였다. • 2006년 넷플릭스는 고객이 영화에 매기는 평점(1~5점)을 예측하는 맞춤형 추 천 시스템의 기존 알고리즘인 시네매치보다 10% 이상 예측력이 향상된 분석 모델을 개발하는 팀에게 100만 달러의 상금을 수여하는 분석 경영대회를 열었 다. • 고객이 영화에 부여한 별점 데이터 1억 건을 공개하고 이 데이터를 이용해 실 제로 고객이 아직 보지 않은 영화에 부여할 별점을 예측하는 대회를 개최 36 18 2025-03-11 • 이 대회는 3년에 걸쳐 진행되었는데, 2년 연속 수상자가 없다가 3년만에 수상자가 나왔다. 넷플릭스 분석 경연대회에 출전한 참가자들 대부분은 협업필터링을 사용했다. • 협업 필터링은 고객과 아이템 간의 관계를 분석하여 고객이 선호를 예측하는 방법인데, 과 거 운영 이력과 상품에 대한 평가 점수를 이용하기 때문에 고객에 대한 프로파일 변수들이 필요하지 않아 고객이나 아이템에 대한 프로파일을 얻기 힘든 경우 활용할 수 있다. 출처: https://www.wired.com/2009/09/bellkors-pragmatic-chaos-wins-1-million-netflix-prize/ 37 • 2012년 넷플릭스는 분석 경연대회에서 100만 달러의 상금을 받은 우승팀의 알고 리즘을 현업에 적용하지 못했다는 안타까운 소식을 발표했다. 최종 우승팀의 알고 리즘은 현업에 적용하기에는 너무 복잡했던 것이다. • 여러 고급 알고리즘을 사용하여 예측력을 높이는 것도 중요하지만 실행 속도, 모 델 설명력, 모델의 간결성 등을 고려하여 적정선을 찾아 타협해야 한다. • 넷플릭스는 웹페이지의 UI 디자인 시안을 여러 개 만든 후 고객에게 선택하게 하 는 실험을 해 가장 반응이 높은 디자인을 선택하게 하여 최고 20~30% 영상을 더 보게 만들었다.: A/B test 38 19 2025-03-11 • NETFLIX 추천 시스템 • 오늘날 넷플릭스는 JPG파일로 된 콘텐츠의 스냅샷을 찍을 수 있는 루틴을 개발 하고, 안면 인식이나 색채 분석 등의 정교한 기술을 사용해 화면 속에 무슨 일 이 일어나고 있는지를 분석함으로써 이 과정을 자동화하기 시작 • 이 스냅샷은 일정한 간격으로 저장되거나 사용자가 일시 정지나 영상을 종료하 는 등의 특정한 행동을 할 때 저장될 수 있음. 예를 들어서 사용자가 잔인하거 나 성적인 장면을 볼 때 영상을 종료하는 경향이 있다는 것을 알고 있으면, 다 음에 사용자가 뭔가를 보려고 앉으면 좀 더 온건한 영상을 추천 39 40 20 2025-03-11 41 • 데이터가 모든 산업의 성장과 변화를 위한 필수 자원 • 원유를 정제해 다양한 제품을 만들듯이, 앞으로는 데이터를 활용해 다양한 서비스를 창출할 수 있음. 출처: https://www.materi.carageo.com/pengertian-data/ 출처: https://www.pinterest.co.kr/pin/602286150150465399/ 42 21 2025-03-11 • 전 세계 데이터의 약 90%가 최근 2년동안 만들어진 데이터임 • 2020년말에는 전세계 데이터 양은 40 zettabytes (ZB)에 달할 것으로 예 측함. • 2010년 초에 비해 50배 증가 • 세계인구를 80억명으로 가정하면, 1명당 5TB에 해당하는 데이터를 만 들어내는 양. 43 • 2001년 마이크로소프트의 연구자들은 충분한 데이터만 있으면 어떠한 알고리즘을 거 치든 관계없이 정확도가 높아진다는 관점의 논문을 발표함 • 2009년 구글의 피터 노빅(Peter Norvig)도 <믿을 수 없는 데이터의 효과>라는 유명한 논문에서 “많은 데이터를 가진 간단한 모델이 적은 데이터를 가진 정교한 모델보다 더 뛰어나다”라고 주장 비전공자도 이해할 수 있는 AI지식 44 22 2025-03-11 • 데이터의 이해를 위한 질문 • 데이터셋 크기는 얼마나 되나? • 주어진 데이터가 데이터셋의 전부인가 아니면 일부인가? • 이 데이터가 모집단을 잘 대표하는가? • 특이한 이상치나 잡음이 심하지는 않은가? • 원본 데이터가 아니라 임의로 가공한 데이터가 포함되어 있지는 않은가? • 데이터별 식별자가 존재하는가? • 식별자가 잘 설정되어 있는가? 혹은 중복되어 나타날 수도 있는가? 만일 그렇다 면 어떻게 해야 하는가? • (두 데이터셋을 합쳐야 하는 경우라면) 이 둘이 정말 같은 종류의 데이터셋인가? • 만일 값이 누락된 데이터 표본이 있다면 얼마나 그리고 왜 누락되었는가? 출처: 필드 케이디, 처음 배우는 데이터 과학, 한빛미디어, 2018 45 • 데이터의 이해를 위한 질문 • 데이터는 어떻게 생성됐는가? • 누가 데이터를 수집했는가? • 데이터는 어떻게 수집됐는가? • 데이터에 대표성이 있는가? • 표본 추출 과정에서 편향이 있었는가? • 이상값은 어떻게 처리했는가? • 내가 확인하지 못한 데이터는 없는가?: 챌린저호 참사에서는 실험 비행 데이터 23개중 16개(저온 및 고온에서의 O ring의 고장갯수)가 누락되었음 • 결측값은 어떻게 처리했는가? • 측정하려는 개념을 측정할 수 있는 데이터인가? 출처: 데이터로 사고하고 데이터로 리드하라 46 23 2025-03-11 • 수리통계 측면 • 연속형: 결과가 무한히 많은 변수 데이터 • 이산형: 측정 결과를 셀수 있는 데이터 • 자료 분석 측면 • 측정형 변수(metric, measurable, quantitative): 등간척도, 비율척도 • 분류형, 범주형 변수(Non-metric, categorical, classified): 명목척도, 서열(순서) 척도 47 • 관측 데이터 (Observational data) • 어떤 과정을 수동적으로 관측하는 사람이나 컴퓨터가 관찰하거나 청취한 내용을 기반으로 수 집된 데이터 • 판매, 거래 데이터 • 관측데이터만 가지고 섣불리 인과관계 결론을 도출해서는 안되며 항상 회의적인 시각으로 접 근해야 한다. • 실험 데이터 (Experimental data) • 미리 정해진 방법론을 이용해 과학적 방법에 따라 수집된 데이터 • 실험데이터는 특정한 실험 조건에 기반해 수집되며, 데이터 무결성을 유지하고 교란 효 과를 피하기 위한 검증된 절차를 거침 • 제품 실험 • A/B 테스트 출처: 데이터로 사고하고 데이터로 리드하라 48 24 2025-03-11 • 시간관점 • 시간적 순서를 가지면: 시계열 자료(time series data) • 그렇지 않고 일정 시간에 한꺼번에 조사한 자료: 횡단면 자료(Crosssection data) • 인과관계 관점 • 설명변수(처리 효과, 요인), 독립변수, X • 반응변수, 종속변수, Y 49 출처: https://wikilean.com/en/different-types-of-data/ 50 25 2025-03-11 Do it! 첫 통계 with 베이즈 51 52 26 2025-03-11 • 데이터 속성의 종류는 데이터의 분포를 이해하는 기본적인 통계나 속성 간의 관 계를 설명하는 패턴을 찾아내는 복잡한 알고리즘까지, 그 데이터를 분석하고 이 해하는 데 쓰는 방법들에 영향을 미친다. • 질적인 데이터 • 명목형(Nominal) • 서열형(Ordinal) • 양적인 데이터 • 등간형(Interval) • 비율형(Ratio) 53 • 양적인 데이터: • 숫자형(numeric) • 정수 또는 실수 등 계측 가능한 양으로 표시할 수 있는 속성 데이터 1. 등간형(구간 척도 (interval scale)): 임의의 시작점으로부터 정해진 임의의 간격으로 측 정한 값으로 표시하는 속성 데이터 • 관찰대상이 가지고 있는 속성 크기의 순서뿐 아니라 상대적인 차이도 고려 • 속성 크기의 차이는 절대적 기준이 없어 상대적인 차이로만 나타남 • 순서를 매기거나 서로 값을 빼는 작업등을 하기에는 적절하지만 다른 수학적 연산(곱 하기나 나누기등)을 하기에는 부적절함 • 더하기, 빼기는 가능하지만 곱하기, 나누기는 부적절함. • 예, 섭씨온도, 화씨온도 (0도가 있기는 하지만 열이 하나도 없다는 뜻은 아님) • 예, 리커트 5점 척도 출처: 존 켈러허, 브랜던 티어니 ,더 나은 의사결정을 위한 통찰의 도구 데이터과학, 김영사, 2019 이훈영, 연구조사방법론, 청람, 2012 54 27 2025-03-11 • Likert scale (리커트 척도) 출처: https://sebastiansauer.github.io/Likert-not-metric/ 55 2. 비율형 (비율 척도 (ratio scale)): • 등간형 데이터에 비율의 개념이 추가된 것으로 절대적 기준값(영점, 0)이 존재 하는 데이터 형 • 여기서 0의 값은 측정할 수량이 없다는 것을 의미 • 진짜 영점이 있기 때문에 비율 척도의 한 값은 다른 값의 곱(또는 비율)으로 표 시할 수 있음. • 사칙연산이 가능함. • 예, 캘빈온도, 0K는 모든 열운동이 멈춘 상태를 뜻하기 때문에 비율형 데 이터임. • 예, 키, 돈의 액수, 몸무게 등 출처: 존 켈러허, 브랜던 티어니 ,더 나은 의사결정을 위한 통찰의 도구 데이터과학, 김영사, 2019 이훈영, 연구조사방법론, 청람, 2012 56 28 2025-03-11 3. 명목형 (nominal): 범주형, 한정된 선택지 가운데서 값을 택하는 속성 • 예, 학번 • 명목형 데이터는 사칙연산(+,-,*,/)이 의미가 없음 4. 순서형 (ordinal): 서열형, 명목형과 비슷하지만 값의 순위를 매길 수 있음 • 상대적인 순위만 구분할 뿐, 순서(서열)간의 차이는 중요하지 않음 • 이런 순서 속성에서 각 값들 사이의 거리가 모두 같다고 봐선 안됨 출처: 존 켈러허, 브랜던 티어니 ,더 나은 의사결정을 위한 통찰의 도구 데이터과학, 김영사, 2019 57 • 정형 데이터(structured) • 고정된 필드에 저장된 데이터 • 관계형 데이터베이스 및 스프레드시트, CSV 형식 데이터 등 • 반정형 데이터(semi-structured) • 정형 데이터처럼 완전하게 정의되어 있지는 않지만 조금만 처리를 하면 정형화된 정보 를 추출할 수 있는 데이터 • 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마등을 포함하는 데이터 • 센서 데이터, 시간대별로 측정한 웹 사용자의 기록등 • XML이나 HTML 텍스트 등 • 비정형 데이터(unstructured) • 정해진 형식을 가지지 않은 데이터 • 고정된 필드에 저장되어 있지 않은 데이터 • 텍스트/이미지/동영상/음성 데이터 등 58 29 2025-03-11 • 정형 데이터는 표 형태로 저장이 가능하고, 모든 행들이 같은 구조 (즉, 같은 속성)를 가진 데이터이다. 예) 인구 통계 데이터 • 비정형 데이터는 데이터 세트의 각 행이 그 자체의 내부 구조를 가지고 있고, 이 구 조가 다른 행과 같지 않을 수도 있는 데이터를 말함. 예, 웹페이지들의 데이터 세트, • 각 웹페이지는 모두 구조를 가지고 있지만 각 구조는 페이지마다 다르다. • 텍스트, 소리, 이미지, 음악, 비디오, 멀티미디어 • 비정형 데이터는 자연 상태로는 분석이 어렵다. 그래서 인공지능 기술(자연어 처리나 기계학습등), 디지털 신호 처리, 컴퓨터 비전등의 기술을 이용해 비정형 데이터에서 정형 데이터를 추출하곤 한다. 출처: 존 켈러허, 브랜던 티어니 ,더 나은 의사결정을 위한 통찰의 도구 데이터과학, 김영사, 2019 59 • Multimodal data • 기존 데이터 형태: 숫자 혹은 text • 최근 • IoT, 스마트폰, 가전, 기계설비, 각종 센서 • Multimodal (different forms), multimedia (different media) • 이미지, 동영상, 소리 등.. 60 30 2025-03-11 • Raw 데이터: 어떤 사건이나 사물에서 바로 수집한 데이터 • Captured data: 데이터를 수집하기 위한 목적으로 계획된 직접 측정 또는 관찰 을 통해 모은 데이터 • Exhaust data: 주목적이 데이터 포획이 아닌 다른 공정에서 부산물로 만들어지 는 데이터를 말함. 예를 들어, 소셜미디어에 사진을 올리고, 글을 올리고, 트윗 할때 만들어지는 메타데이터(누가, 어느 시간대에, 어떤기기를, 얼마나 많이 봤 는지등) • 메타 데이터: 다른 데이터에 대한 데이터 • Derived 데이터: 다른 데이터에서 파생된 데이터 출처: 존 켈러허, 브랜던 티어니 ,더 나은 의사결정을 위한 통찰의 도구 데이터과학, 김영사, 2019 61 • 공공 데이터 (public open data): 누구나 사용할 수 있는 공개된 데이터 • cf. 기타 공개 데이터(ex. Kaggle) • 개인 데이터 • 회사 데이터 (private company data): 특정 회사가 수집하여 의사결정을 내리기 위한 목적으로 수집된 비공개 상용 데이터 • 회사 운영에 필요한 내부 ERP 데이터 • 온라인 웹사이트를 운영할 경우 웹로그 데이터 • SNS도 운영할 경우 페이스북, 유튜브, 트위터 등 SNS 데이터 • 콜센터도 운영할 경우 콜센터에서 수집되는 데이터 • 챗봇도 운영할 경우 채팅관련 텍스트 및 관련 비정형 데이터 • 고객 설문: 제품과 서비스 판매 및 고객 만족도 향상을 위한 전통적인 설문 데이터 출처: https://statkclee.github.io/data-science/ds-education.html 62 31 2025-03-11 • Small Data: 보통 노트북이나 PC에 저장해서 메모리로 불러 작업할 수 있는 데이터 • 중간 데이터: 성능 좋은 서버에 데이터를 저장하고 RDMBS 등으로 관리하여 필요한 경우 SQL로 가져오는데 적합한 데이터. • 빅데이터: 처리에 많은 비용이 수반되기 때문에 클라우드 저장소에 저장하고 클러스 터를 구축하여 임시로 데이터를 분석, 모형개발 등 작업을 마친 후에 동원된 컴퓨팅 자원을 회수하는 방식으로 처리되는 데이터 출처: https://statkclee.github.io/data-science/ds-education.html 63 • 데이터 용량의 가장 작은 단위는 0 혹은 1을 나타낼 수 있는 비트(bit)이다. • 그리고 비트 8개를 하나로 묶어 1바이트(byte)라고 하고, 1바이트가 2의 10제곱 개, 즉 1024개 모여 있으면 킬로바이트(KB)라고 한다. • 이와 같이 2의 10 제곱배씩 커지면서 메가바이트(MB), 기가바이트(GB), 테라바이 트(TB), 페타바이트(PB), 엑사바이트(EB), 제타바이트(ZB)가 된다. 64 32 2025-03-11 • CSV (Comma-Separated Values) • TSV (Tab-Separated Values) • XML (eXtensible Markup Language) • RSS (Really Simple Syndication) • JSON (JavaScript Object Notation) 65 • CSV (Comma-Separated Values) 출처: 김화종, 데이터 사이언스 개론, 홍릉과학출판사, 2014 66 33 2025-03-11 • XML (eXtensible Markup Language) 출처: 김화종, 데이터 사이언스 개론, 홍릉과학출판사, 2014 67 • RSS (Really Simple Syndication): XML 기반, 웹에서 여러 서비스들간 데이터 공유 포맷 출처: C. Shah, A hands-on introduction to data science, Cambridge university press, 2020 68 34 2025-03-11 • JSON • 자바스크립트 기반, 웹 서비스에서 데이터를 주고받을 때 널리 사용되는 포맷 (key-value 타 입) • Key-Value: R (DataFrame), Python (dictionary, Pandas의 DataFrame) 출처: 김화종, 데이터 사이언스 개론, 홍릉과학출판사, 2014 69 • JSON: 사람에 대한 기술 예 출처: https://en.wikipedia.org/wiki/JSON 70 35 2025-03-11 71 72 36 2025-03-11 73 출처: https://towardsdatascience.com/rootstrap-dikw-model-32cef9ae6dfb 74 37 2025-03-11 75 • DIKW (Data Information Knowledge Wisdom) Pyramid 출처: Cannas, Antonello & Tedeschi, Luis & Atzori, Alberto & Lunesu, Mondina. (2019). How can nutrition models increase the production efficiency of sheep and goat operations?. Animal Frontiers. 9. 33-44. 10.1093/af/vfz005. 76 38 2025-03-11 출처: https://www.pinterest.co.kr/pin/268808671491962665/ 77 • Data • 가장 단순하게 말하면 현실 세계의 어떤 것 (사람, 사물, 또는 사건)에 대한 추상물 이다. • 변수(variable), 특징(feature), 속성(attribute)등은 이런 추상물의 개별 요소를 일컫 는 말들로, 서로 섞여서 쓰인다. • 분석가가 관심을 가진 어떤 현상이나 대상에 대한 ‘관찰, 수집’한 자료로 특별한 의 미가 부여되지 않은 ‘객관적 사실’ 그 자체를 의미함 • 타 데이터와 어떤 비교를 하기 이전에, 가공하기 전의 순수한 상태를 수치나 기호 로 기록(encoded)한 것 • Information • 관찰, 수집된 데이터를 적절한 ‘가공,처리’를 통해서 데이터 자체의 특성은 물론, 타 데이터와의 공통점, 차이점등을 ‘상호 비교’할 수 있도록 한 것 78 39 2025-03-11 • Knowledge • 테이블, 그래프로 가공,처리된 정보를 관련된 업무에 활용해 문제를 해결하고 의 사결정을 하는 일련의 업무수행 체계를 지식이라고 함. • 암묵지(tacit/intangible knowledge) • 형식지(explicit/tangible knowledge) • Wisdom • 축적된 지식과 경험을 체계화하여 업무활용 수준을 높이고 창의적인 아이디어까 지 이끌어 내 타분야로 확장 적용하는 것 79 • 데이터 과학자는 데이터 품질 전문가가 되어야 한다. • 데이터의 품질은 데이터 자체의 품질과 내용상의 품질로 나눌 수 있다. • 예를 들어 데이터에 빠진 값이 너무 많거나 숫자 필드에 문자가 들어가 있다면 이건 데이터 자체의 품질 문제이다. 그리고 주소 변수에 정확한 주 소가 입력되어 있지 않다면 이건 내용상의 품질 문제이다. 출처: 김옥기, 데이터 과학 무엇을 하는가?, 이지퍼블리싱, 2018 80 40 2025-03-11 • 제조업은 데이터가 주로 기계에서 생성되는데, 이것이 어떤 논리에 맞게 생성되고, 어떤 이유로 일반 범주를 벗어나는지는 그 분야에 전문 지식이 있어야 판단이 되는 경우가 허다하다. • 데이터 전처리와 가공 작업이 데이터 품질 관리를 포함해서 데이터 과학자 가 하는 분석 작업 중 60-70%를 차지한다. • 특히 데이터 가공 작업중 많은 부분이 여러 종류의 데이터 세트를 연결하 는 데이터 통합 작업이다. 출처: 김옥기, 데이터 과학 무엇을 하는가?, 이지퍼블리싱, 2018 81 • 처리된 데이터의 퀄리티가 분석의 결과 중 90% 이상을 좌우한다. • 데이터 품질은 반드시 해당 비지니스에 대한 이해를 바탕으로 검증되어야 한다. • 정확성 • 데이터의 값이 얼마나 정확한가? • 적시성 • 데이터가 시간적으로 오래된 것이 아니라 유효한 것인지? 82 41 2025-03-11 • 제조업은 데이터가 주로 기계에서 생성되는데, 이것이 어떤 논리에 맞게 생성되고, 어떤 이유로 일반 범주를 벗어나는지는 그 분야에 전문 지식이 있어야 판단이 되는 경우가 허다하다. • 데이터 전처리와 가공 작업이 데이터 품질 관리를 포함해서 데이터 과학자 가 하는 분석 작업 중 60-70%를 차지한다. • 특히 데이터 가공 작업중 많은 부분이 여러 종류의 데이터 세트를 연결하 는 데이터 통합 작업이다. 출처: 이토 고이치로, 데이터 분석의 힘: 그 많은 숫자들은 어떻게 전략이 되는가, 인플루엔셜, 2018 83 • 데이터 자체에 문제가 있으면 아무리 뛰어난 분석 기법을 써도 신뢰성 있 는 결과를 내기 어렵다. • 다음과 같은 경우 데이터에 문제가 있는 것이다. • 데이터 측정에 문제가 있고, 수치도 바르게 기재되어 있지 않다. • 관측치에 대량의 결측치가 있다. • 데이터를 모든 세대가 아닌, 편중된 표본에서만 확보했다. 출처: 이토 고이치로, 데이터 분석의 힘: 그 많은 숫자들은 어떻게 전략이 되는가, 인플루엔셜, 2018 84 42 2025-03-11 • 데이터 거버넌스(data governance)는 정책, 보안, 프로세스, 표준, 관리 체계 등 데이터 가공, 활용 과정에 필요한 일련의 업무들을 말함. • 데이터 거버넌스는 기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루며 프라이버시, 보안성, 데 이터품질, 관리규정 준수를 강조 85 출처: https://isarq.com/index.php/2019/08/12/what-big-data/ 86 43 2025-03-11 출처: http://www.itworld.co.kr/news/78701 87 출처: https://www.kdnuggets.com/2017/02/origins-big-data.html 88 44 2025-03-11 출처: https://www.kdnuggets.com/2017/02/origins-big-data.html 89 출처: Prof Feyzi R. Bagirov, Introduction to Big Data and Data Science, presentation file 90 45 2025-03-11 출처: Prof Feyzi R. Bagirov, Introduction to Big Data and Data Science, presentation file 91 출처: 딜로이트 애널리틱스, 빅데이터 & 애널리틱스 개요 및 적용, 2013 92 46 2025-03-11 • 땅이 넓은 미국에서는 농부들이 밭에 온도 및 습도 센서를 비행기로 뿌린다. 그러면 그 센서가 온도와 습 도를 측정해서 무선인터넷으로 농부에게 보내고, 농부는 자기 방 안의 컴퓨터 스크린을 통해 실시간 정 보를 체크하면서 물이 부족한 영역을 확인할 수 있다. 과거에는 넓은 밭 전체에 물을 뿌렸다면, 이제는 물 이 부족하다고 확인된 부분만 물을 준다 (출처: 세상을 읽는 새로운 언어, 빅데이터, 조성준 저). • 트랙터에 장착한 AI 레티스봇이 밭고랑에서 상추와 비상추를 구분한 후 잡초를 제거하고 있다 (아래 사 진 참조). 출처: http://www.dt.co.kr/contents.html?article_no=2017062902109960753004 93 • 국내 스마트팜 기술 연구는 1990년대 중반 이후부터 본격화했다. 당시에는 대규모 유리 온실을 구축해 온도, 습도 등 몇 가지 생육 환경을 제어하고 자동화하는 하드웨어 중심 연 구였다. • 소프트웨어 중심의 2세대 스마트팜 기술이 등장하면서 센서를 통한 제어 범위가 재배 환경 을 작동하는 것을 넘어 작물의 생육·생리 상태까지 파악하는 수준으로 올라갔다. 이를테면 식물의 크기나 색, 형태를 감지하는 센서가 수집한 데이터로 작물의 품질과 생산성을 파악 할 수 있는 데이터 중심의 생육제어 시대로 접어든 것이다. 출처: https://biz.chosun.com/site/data/html_dir/2016/07/10/2016071000068.html 94 47 2025-03-11 • 단순히 재배지에서 수집한 온도, 습도, 생육 등 각종 데이터를 분석 하는 데 그치지 않고 온실 난방비, 필요 인력 등까지 데이터 기반으 로 계산해 주는 종합적인 연구를 진행중이다. • 우선 농가가 대규모 농장을 운영할 때 농사일을 하는 인부들이 어떤 동선으로 작업을 하는지, 빠뜨린 작업이 없는지 종합적으로 파 악하는 기술을 개발중이다. • 온실을 운영하는 데 가장 많은 비용이 드는 난방비도 예측해 농가 가 경영전략을 수립할 수 있는 데이터를 제공할 수 있도록 한다는 계획을 갖고 있다. 출처: https://biz.chosun.com/site/data/html_dir/2016/07/10/2016071000068.html 95 • 선진국이 앞서 있는 생육 데이터 분석 기술도 개발한다. • 작물 잎의 크기나 마디 길이, 줄기의 길이 등에 대한 데이터를 모은 뒤 수확량을 늘릴 수 있는 최적의 데이터를 제시하는 게 핵심이다. • 농가는 작물의 잎만 봐도 수확량을 예측할 수 있다. 만일 수확량이 시원찮다면 적절한 조치를 취할 수 있는 것이다. • 이와 함께 농수산물 시장에서 작물의 출하 시기별 유통 정보와 가격 정보를 취 합해 농가가 출하 시기를 스스로 결정할 수 있도록 하는 솔루션도 개발하고 있 다. 출처: https://biz.chosun.com/site/data/html_dir/2016/07/10/2016071000068.html 96 48 2025-03-11 97 49
0
You can add this document to your study collection(s)
Sign in Available only to authorized usersYou can add this document to your saved list
Sign in Available only to authorized users(For complaints, use another form )