Course 3
[The data journey]
- Collection
- Processing: 데이터를 사용 가능한 형식으로 변환. 문제를 식별하기 위해 데이터를 검토+탐색+정리+구성 및 표준화.
- Storage: 비지니스 요구에 따라 로컬 또는 클라우드에 데이터를 저장.
- Analyze: 사용자에게 필요한 통찰력을 발견하기 위해 추세와 패턴을 식별
- Activate: 활성화. 관계자에게 시각화를 제시하고 데이터에서 얻은 통찰력을 홣용하여 의사결정과 조치를 취하는 최종 결과.
데이터의 여정은 선형적이지 않다는 것이 중요.
- Iterative
- Repeated
- Tailored
- Transformation
[The data pipeline]
- Extraction
- Transformation
- Loading
[And]
- Data transformation plan
- Transformation strategies
[Data collection steps]
- Identify specific questions
- Data discovery 데이터발견. 측정하고 이해 하려는 사항과 선택한 데이터 소스가 어떻게 관련이 있는지 알아봐야 수집해야 할 데이터를 식별 가능.
- Data gathering 데이터 수집. 여러 위치에서 데이터를 찾아야 할 가능성이 있다는 점. 데이터의 형식이 다르므로 각 데이터 소스를 어떻게 활용할지 찾고, 데이터를 얼마나 자주 업데이트해야 할지 평가해야 함. 데이터의 위치를 식별하면 이를 단일의 사용 가능한 스테이징 영역으로 수집 가능.
- Data staging 데이터 준비. 하나의 사용 가능한 준비 영역으로 통합할 방법을 찾아야 함.
[Data transformation] 원시 데이터를 사용 가능한 형식으로 변환하는 과정. 기본적으로, 일관되지 않은 데이터 형식을 분석 및 시각화 개발에 사용할 수 있는 일관된 형식으로 변경하여 데이터에 오류가 없고 사용할 수 있는 형식인지 확인. 때로 데이터 처리라는 용어가 데이터 변환을 지칭하는 데 사용되기도 하지만 이 둘은 동일하지 않음. 데이터 처리란 여러 가지를 포괄하는 큰 용어. 여기에는 데이터 수집, 정리, 변환, 분석, 시각화가 포함될 수 있음. 데이터 변환은 보다 구체적인 유형의 데이터 처리. 이는 데이터를 한 형식에서 다른 형식으로, 또는 한 구조에서 뱐환하는 과정. 데이터 변환의 목표는 모든 사람이 접근하여 사용할 수 있는 데이터를 데이터팀에 제공하는 것. 여기에는 오류 수정, 데이터에 새로운 정보 추가, 불필요한 데이터 세부 정보 감소와 같은 문제를 해결하는 것이 포함.
[Six basic data transformation types]
- Data smoothing 데이터 평활화
- Attribution construction 귀속 구성
- Data generalization 데이터 일반화
- Data aggregation 데이터 집계
- Data discretization 데이터 이산화
- Data normalization 데이터 정규화
[기술통계 descriptive statistics]
- 범위(Range)
- 평균(Mean)
- 중앙값(Median)
- 최빈값(Mode)
범위 범위는 데이터 세트의 최대값과 최소값 사이의 차이를 측정하는 통계입니다. 데이터 세트의 범위는 최소값을 최대값에서 빼서 계산합니다. 데이터 분석가는 범위를 계산하여 데이터 세트의 값이 얼마나 분산되어 있는지 측정하는 데 도움을 줄 수 있습니다. 예를 들어, 고객 서비스 데이터를 탐색하는 데이터 분석가는 고객 서비스 상담원이 고객과 보내는 시간의 범위를 찾고자 할 수 있습니다. 분석가는 범위를 사용하여 고객 서비스 통화 길이의 변동성을 측정하는 데 도움을 줄 수 있습니다. 평균 평균은 데이터 세트에서 중심 경향이나 평균값을 측정하는 통계입니다. 데이터 분석가는 데이터 세트의 모든 값의 합을 구한 다음 데이터 포인트의 총 개수로 나누어 평균을 계산합니다. 데이터 세트의 값이 범위 전체에 고르게 분포되어 있거나 이상치가 없을 때 평균은 중심 경향의 신뢰할 수 있는 측정값입니다. 예를 들어, 여러 해에 걸쳐 다양한 제품 카테고리가 얼마나 잘 팔렸는지 탐색하는 데이터 분석가는 각 카테고리의 평균 수익을 찾을 수 있습니다. 이렇게 하면 어떤 제품이 지속적으로 가장 많은 수익을 내는지 빠르게 식별할 수 있습니다. 중앙값 데이터 세트의 중심 경향의 또 다른 측정값은 중앙값입니다. 중앙값은 데이터 세트 내의 중간 값으로, 값을 가장 작은 것부터 가장 큰 것까지 정렬하여 중간 값을 찾음으로써 결정됩니다. 이 값은 그것보다 크고 작은 값의 수가 동일합니다. 데이터 세트에 짝수 개의 값이 있는 경우, 중간에 있는 두 값을 더한 다음 2로 나누어 중앙값을 결정합니다. 데이터 세트에 대부분의 다른 데이터보다 훨씬 높거나 낮은 이상치가 포함된 경우 중앙값이 데이터 범위의 영향을 덜 받기 때문에 유용합니다. 예를 들어, 판매 데이터를 탐색하는 데이터 분석가는 상점에서 판매된 품목의 가격에 대한 중심 경향을 결정하고자 할 수 있습니다. 분석가는 평균 가격을 찾을 수 있지만, 가격이 매우 높거나 낮은 몇 가지 품목이 판매된 경우 평균값이 왜곡될 수 있습니다. 대신, 분석가는 상점에서 판매된 품목의 중앙값 가격을 찾아 이상치의 영향을 피할 수 있습니다. 최빈값 평균과 중앙값과 유사하게, 최빈값 또한 데이터 세트의 중심 경향을 측정합니다. 최빈값은 단순히 데이터 세트에서 가장 빈번하게 발생하거나 가장 흔한 값입니다. 데이터 분석가는 미래 결과를 예측하는 데 도움이 되기 위해 최빈값을 사용할 수 있습니다. 예를 들어, 고객 피드백을 탐색하는 데이터 분석가는 고객 만족도 등급의 최빈값을 결정하여 조직이 받는 가장 빈번한 만족도 점수를 식별하고자 할 수 있습니다.
[Choosing as transformation method]
- Size of the dataset
- Time required to process the data
- Tool availability 도구 가용성 여부
[Module 2]
- Data pipelines
- Extract stage
- Transform stage
- The load stage
[Data pipeline] 다양한 데이터를 저장 및 분석을 위해 최종 목적지로 전송하는 일련의 프로세스. 데이터 파이프라인은 조직이 시간과 리소스를 절약하고, 데이터 정확도를 높익고, 데이터에서 더 많은 가치를 얻는 데 도움이 됨.
- extract 추출. 데이터 파이프라인에서 하나 이상의 소스에서 데이터를 검색하는 단계. 다양한 소스에서 원시 데이터를 수집하여 임시준비 영역으로 옮김.
- transform 변환. 데이터를 가져와 정리하고 데이터 파이프라인에서 표준 형식으로 바꾸는 단계. 데이터팀은 데이터를 변환, 저장하고 분석에 사용하기 전에 데이터를 확인하여 중복된 항목이나 명백한 오류가 있는지 확인.
- load 로드. 대상 데이터베이스, 데이터 저장소, 데이터 웨어하우스 또는 데이터 레이크에 데이터를 삽입하는 단계.
[ELT]
- 시간절약
- 확장성 제공
- 유연성 증가
[Data ingestion] 다양한 소스에서 데이터를 수집하여 스테이징 영역으로 이동하는 프로세스. 데이터 분석가에게는 추가 처리 및 분석을 위해 데이터를 준비하는 데이터 파이프라인의 중요한 첫 단계. 데이터가 시간에 민감한지 여부가 중요한 결정 사항임.
[Time sensitive data] 시간 제한이 있는 데이터는 특정 기간 내에 조치해야 하는 데이터로, 그렇지 않으면 가치가 상실됨.
배치: 컴퓨팅 파워와 저장 공간이 덜 필요함으로 일괄 처리 수집이 더 경제적임. 스트리밍: 신속하게 처리하고 초치해야 하는 데이터에 적합.
[Data mapping] 한 데이터 소스의 필드를 다른 데이터 소스에 일치시키는 프로세스. 데이터 매핑은 스키마와 같은 엔티티를 사용하여 식별 가능. 데이터 매핑도 데이터 파이프라인의 중요한 부분. 데이터 분석가는 데이터를 수집한 후, 데이터를 매핑하여 쉽게 이해하고 분석할 수 있음. 이를 통해 데이터의 일관성과 표준화가 보장됨.
[Profilling and cleaning data]
- Data profiling 품질 문제를 식별하기 위해 데이터를 탐색하는 프로세스. 데이터의 구조, 형식, 값, 관계에 대한 정보를 수집. 누락된 값, 중복된 레코드, 부정확한 데이터, 일관되지 않은 데이터 형식 데이터 프로파일링을 통해 품질 문제가 확인되면 데이터 정리를 시작할 수 있음.
- Data cleaning 데이터 품질 문제를 해렬하거나 제거하는 프로세스. 이를 통해 데이터의 정확성, 일관성, 완전성이 보장됨.
[데이터 조작]
- standardization 표준화: 데이터 세트의 모든 데이터가 공통 형식을 갖도록 하는 프로세스. 일관성과 신뢰성이 높아짐으로 처리 및 분석이 더 쉬워짐.
- enrichment 강화(보강) 데이터에 추가 정보를 추가하는 프로세스. 새로운 데이터 필드를 추가하거나, 다른 데이터 소스와 결합.
- conversion 변환. 호환성, 가독성을 개선하거나 데이터의 보안을 강화하기 위해 데이터 형식을 변경하는 프로세스. 다른 시스템이나 애플리케이션과 호환되게 하거나, 저장 공간을 절약하거나, 이해하고 사용하기 쉽게 만들기 위함. 데이터가 방대하고 복잡하기 때문에, 데이터 저장소로 이동하기 전에 압축 하는 등.(CSV > parquet)
Enjoy Reading This Article?
Here are some more articles you might like to read next: