Visualize Data
무엇보다도 디지털 소비는 클라우드 데이터 팀이 데이터와 상호 작용하는 매체를 이해하는 것. 다음으로, 데이터 시각화를 공유할 대상 고객이 누구인지 아는것이 중요. 하지만 디지털 매체의 경우, 청중이 데이터와 어떻게 상호작용하는지, 그리고 상호작용을 통해 무엇을 기대하는지도 고려해야 함. 클라우드 데이터 분석가로서 귀하의 대상 고객은 여러 곳에서 얻은 정보를 사용합니다. 그리고 사용자들은 정보가 최신이고 대화형기를 기대합니다. 또한 그들은 중요한 콘텐츠만 표시하기 위해 데이터를 필터링하고 싶어할 것입니다.
디지털 사용자는 직관적이고 사용하기 쉬우며, 지침이나 설명이 거의 없거나 전혀 없는 사용자 경험을 기대합니다.
인터넷을 통해 데이터를 다룰 떄 효과적인 데이터 거버넌스와 보안 정책을 활요하는 것이 중요.
[데이터 유형]
-
Categorical data (Qualitative data) 범주형 데이터는 질적 데이터라고 하며, 품질이나 특성을 “주관적"으로 설명하는 측정값. (“주관적"이라는 말은 정량적으로 측정이 어렵고, 개인이나 상황에 따라 구분 방식이 달라질 수 있다는 의미로 사용돼요.)
-
Numerical data(Quantitative data) 수치적 데이터 (양적 데이터) 숫자, 양, 범위와 같이 구체적이고 객관적인 측정값. 정량화할 수 있는 데이터이며, 나이, 시럼 점수, 가격처럼 셀 수 있고, 정렬할 수 있고, 측정할 수 있는것을 설명함.
데이터 시각화와 관련해 데이터가 범주형인지 숫자형인지 이해하는 것은 의사 결정과 디자인 프로세스에 영향을 미침. (예) 범주형 데이터는 막대형, 세로형, 원형 차트로 표시하여 데이터간의 관계를 보여줄 수 있음. 하지만 이 방법은 선현 차트, 히스토그램, 산점도, 상자 그림, 검품 차트에 가장 적합한 수치형 데이터에는 적합하지 않음. 이러한 시각화는 시간 경과에 따른 변화, 값, 분포 및 요약을 표시하는데 효과적.
[Five ways to visualize data]
-
Single value
-
Comparison: 비교
-
Composition: 구성. 구성 차트는 개별 부분을 전체와 비교하며, 일반적으로 100%에 해당합니다. 데이터를 “전체 vs 부분"의 관점으로 해석할 때 사용돼요. 각 요소가 전체에 대해 얼마나 기여하고 있는지를 보여줍니다. 비율, 점유율, 기여도 등에 초점을 맞출 때 유용합니다.
원형 차트 (Pie chart) 전체를 100%로 보고, 부분을 비율로 나눠 표현 도넛 차트 (Donut chart) 원형 차트와 비슷하지만 가운데가 비어 있어 약간 더 읽기 쉬움 스택형 막대그래프 (Stacked bar chart) 각 막대를 전체로 보고 그 안의 부분들을 색으로 나눠 표현 100% 스택형 그래프 각 막대를 100%로 통일해서 각 요소의 비율만 비교 트리맵 (Treemap) 전체를 직사각형으로 보고 부분들을 면적으로 표현 (복잡한 구조 표현에 강함)
원형 차트는 4개 이하 항목일 때만 사용하는 게 좋아요. 많아지면 해석이 어려워져요. 정확한 비교보다는 비율 감을 줄 때 적합. 단위가 너무 작은 항목은 생략하거나 그룹화해서 표현하는 게 좋습니다.
-
Distribution: 분포. 서로 다른 데이터 포인트 간의 데이터가 어떻게 연관되는지를 보여주는 데 유용. 두 변수가 서로 관련이 있으면 상관관계가 있으며, 따라서 어떤 면에서 함께 변화하는 경향이 있음. 이러한 차트는 매우 자세하며, 다양한 변수의 평균, 평균값, 중앙값, 최소값, 최대값의 차이를 표시하는데 유용.
-
Relationship: 관계 “A가 증가하면 B도 증가하는가?”, “어떤 변수들끼리 패턴이 있는가?” 같은 관계를 시각적으로 확인합니다. 산점도와 거품형 차트로 표현.
Visualization techniques for different data types
[Businesss intelligence dashboards]
-
Strategic: 전략적 매우 높은 수준의 시각화. 임원은 조직 전력과 핵심 성과 지표(KPI)에 초점을 맞춘 전략적 대시보드를 선호. 이러한 유형의 대시보드는 일반적으로 회사의 재무 실적과 매출 추세를 표시.
-
Operational: 운영적 자세하며 일반적으로 주니어 수준의 의사결정권자와 그들의 팀에 유용. 더 짧은 기간, 운영 프로세스, 성과 모니터링에 관심. 판매 활동, 마케팅 성과, 고객 지원 상태와 같은 비지니스 지표가 표시.
-
Analytical: 분석적 과거 분석을 위해 대량의 데이터를 통합하여 추세를 파악하고, 비교하고, 예측을 만들고, 미래 목표를 설정하는데 유용. 전자상거래, 판매 또는 웹사이트 분석 업무를 담당하는 중간 관리자나 데이터 분석가가 사용
-
Tactical: 전술적 매우 세부적이며 일반적으로 소셜 미디어 광고나 영업 관리자가 KPI를 분석하는데 사용. 전략적 대시보드를 사용하여 이니셔티브 initiatives 와 성과를 추적 가능 (Tactical dashboard에서 initiatives는 특정 목표를 달성하기 위해 실행되는 구체적인 실행 계획, 전략적 활동 또는 프로젝트를 의미합니다.)
이러한 유형의 대시보드는 동일한 데이터 소스를 사용할 수 있음. 데이터 분석가는 특정 사용자의 요구 사항에 따라 대시보드를 사용하여 다양한 방식으로 정보를 표시할 수 있음. 사용자 그룹이 묻는 질문에 ㄸ따라 두 가지 이상의 대시보드 유형을 사용해야 하는 경우가 있을 수 있으며, 이는 시간이 지남에 따라 바뀔수 있음.
[SMART 질문]
- Specific: 구체적
- Measurable: 측정가능
- Action-oriented: 행동지향
- Relevant: 관련성있음
- Time-bound: 시간제한이 있는지 여부.
[Data modeling] 데이터 모델링은 보고를 위해 데이터를 설계, 구조화, 결합 및 변환하는 프로세스.
- 필터링 지정된 기준을 충족하는 데이터만 표시하고 나머지는 숨기는 프로세스. 데이터를 필터링하면 결과가 특정 데이터 하위 집합에 집중되도록 제한됨. 필터링을 통해 특정 기준에 맞는 데이터를 포함하거나, 맞지 않는 데이터를 제외할 수 있음.
- 블랜딩 Data blending 여러 데이터 소스의 데이터를 결합하여 단일 보고서 시각화를 만드는 프로세스. 이를 통해 데이터 세트가 크게 풍성해지고 유연성이 향상됨. 이 기능은 유용하지만 여러 소스를 사용하기 때문에 혼합된 데이터는 여러 보고서에서 재사용할 수 없다는 점에 유의해야 함.
- Aggregation [max, min, sum, count…] 시각화 내에서 데이터가 표시되는 방식을 변경하며 필요에 따라 수정할 수 있음.
[Data report] 데이터 분석에서 사용되는 “리포트"는 일반적으로 사용되는 것과 상이할 수 있음 뉴스 기사나 과학 간행물과 유사한 테스트 기반 보고서와 달리, 데이터 보고서는 비지니스 결정을 내리는 데 필요한 자세한 비지니스 인텔리전스 데이터를 시각화한 것. 데이터 보고서는 비지니스 요구 사항이나 목표에 대한 조치를 취하는 데 중점을 두고 데이터 통찰력을 시각적으로 제시. 데이터 보고서는 연구 결과를 제시하는 조사 보고서이든, 프로젝트 상태 업데이트를 담은 진행 보고서이든, 사업 성과를 강조하는 재무 보고서이든, 정보 제공과 교육의 역할을 수행.
[Report vs. Dashboard]
- 보고서와 대시보드는 모두 데이터를 시각화하고 활성화하는 방법. 같은 도구로 만들수 있고 비슷해 보일 수도 있음.
- 두 방법 모두 다양한 소스를 활용해 데이터 통찰력을 제시할 수 있음.
- 이를 통해 사용자는 데이터에 더 쉽게 접근할 수 있게 되며, 이를 통해 데이터를 활용해 의사 결정을 내리고, 동료와 협업하고, 중요한 통찰력을 공유할 수 있음.
- 보고서는 정리되고 정적인 표현임. 즉, 대시보드와 달리 보고서를 생성한 후에는 데이터가 변경되지 않음.
- 보고서는 특정 시점의 스냅샷이라고 생각할 수 있음. 보고서의 효과에는 만료일이 있음. 이는 거의 실시간으로 업데이트되는 대시보드와 다른 점임.
- 데이터 보고서가 대시보드보다 더 자세한 정보를 담고 있다는 점. 따라서 대시보드는 단일 화면 보기에 맞출 수 있지만, 보고서는 여러 페이지를 스크롤해야 할 수도 있음.
- 길이와 세부 정보가 결합되면 사용자가 보고서를 검토하고 보고서에 포함된 내용을 완전히 이해하는 데 더 오랜 시간이 걸릴 수 있음.
- 이는 추가 맥락 없이 한눈에 이해되도록 만들어진 대시보드와는 큰 대조를 이룸.
- 보고서는 사용가 협업하고 특정 비지니스 질문에 답할 수 있는 유용한 도구이며, 특히 더 자세한 정보가 필요한 일회성 질문에 유용함.
- 대시보드는 반복적이고 지속적으로 최신 데이터 통찰력을 얻는 데 가장 적합.
[enterprise-grade visualization tools]
-
performance optimization 대량의 데이터에 효율적으로 액세스하고 해석할 수 있는 고급 기능을 갖추고 있어 이러한 성능 표준을 충족할 수 있음.
-
metadata management 사용자가 작업하는 데이터를 발견하고, 데이터와 상호 작용하고, 데이터에 대해 학습하는데 도움을 줌. 데이터 세트 이름. 데이터 자산의 설명. 사용자 권한. 데이터 자산에 대한 변경 사항 기록.
-
data cataloging 조직의 데이터 자산에 대한 중앙화된 인벤토리. 데이터 카탈로그는 이러한 자산에 대한 메타데이터를 수집함. 여기는 데이터의 출처, 품질, 저장 위치와 같은 정보가 포함됨. 데이터 분석가는 데이터 카탈로그를 사용하여 데이터 자산을 추적하고 관리할 수 있음. 누가 데이터에 접근할 수 있는지, 얼마나 자주 데이터가 사용되는지, 조직의 데이터 정책에 따라 데이터가 사용되는지 여부가 나열되어 있음.
-
organization-wide metric definitions 조직 전체 지표. 엔터프라이즈급 시각화 솔루션이 팀의 협업과 효율적인 작업을 돕는 또 다른 방법. 전체 팀에서 정의되고 공유되는 지표. 일반적으로 수익이나 사용자 만족도와 같은 핵심 성과 지표(KPI)를 정의하는데 사용. 조직 전체에 적용되는 지표가 정의되면 조직 전체가 동일한 지표에 접근할 수 있으며, 이를 통해 조직 내 모든 구성원이 동일한 데이터 언어를 사용하고 동일한 지표를 사용하여 영향을 즉정할 수 있음.
-
self-service analytics 사용자가 데이터를 사용하여 보다 효과적으로 작업하고 협업할 수 있도록 지원한느 셀프 서비스 분석 기능 기술 사용자와 비기술 사용자 모두 데이터에 액세스하고, 임시 데이터 분석을 수행하고, 보고서를 생성할 수 있도록 하는 비지니스 인텔리전스 접근방식. 기존의 가이드 분석에서는 사용자가 데이터 분석가에게 보고서를 작성해 달라고 의존했음. 하지만 셀프 서비스 분석을 사용하면 조직 전반의 팀원이 데이터와 직접 상호 작용하고 자신만의 보고서도 만들수 있음.
-
data governance. 회사의 자산을 공식적으로 관리하는 프로세스.
[Modeling language]
- Abstraction: 가장 본질적인 부분에 초점을 맞춰 복잡한 개념과 아이디러를 이해하는 데 사용되는 개념.
- Modularity: 모듈성. 시스템을 쉽게 분리하고 재사용할 수 있는 작은 부분으로 분해하는 개념.
- Efficiency: 효율성. 데이터 모델을 재사용할 수 있는 기능을 통해 새로운 시스템을 개발할 때 시간관 노력을 줄일수 있음.(엥? 모듈성과 다른?)
[LookML이란?] LookML은 Google의 데이터 시각화 도구인 Looker에서 사용하는 모델링 언어입니다. 일종의 데이터 모델링용 코드로, SQL을 간편하게 정의하고 재사용 가능한 방식으로 만들 수 있게 해줍니다.
Looker는 현재 Google Cloud Platform(GCP)의 제품입니다. 따라서 LookML을 사용해 Looker에서 GCP의 BigQuery 데이터를 불러와 모델링하고, 시각화할 수 있습니다. GCP 환경에서 LookML은 BigQuery 데이터를 정의하고 가공해, Looker 대시보드에 연결하는 다리 역할을 합니다.
view: users {
sql_table_name: my_project.my_dataset.users ;
dimension: id {
primary_key: yes
type: number
sql: ${TABLE}.id ;;
}
dimension: country {
type: string
sql: ${TABLE}.country ;;
}
measure: total_users {
type: count
}
}