[Data lifecycle]

Introduction to the data management

  • 회사가 사용자에 대한 데이터를수 수집한다고 가정.
  • 모든 사용자가 전체 데이터에 접근 할 수 있다면 재앙이 됨. –> Data Management
  • Data Management는 수집, 저자으 활용에 대한 명확한 계획을 수립하고 전달하는 과정

  • 각 단계에 대한 처리과정을 모든 직원이 이해할수 있도록 계획수립. == 데이터 거버넌스라고도 부름. 1) 원할한 협업이 보장. 문서화된 절차에 따라 데이터에 엑세스 할 수 있음으로. 데이터는 거버넌스 및 규정 준수 요구사항 내에서 유지. 2) 데이터 보안 프로그램 지원. 데이터 침해나 데이터 손실을 방지하기 위한 매개변수를 설정하는데 도움. 3) 명확한 절차를 갖추어 확장성을 높이는데 도움.

  • 고려 핵심 측면. 1) 액세스(접근성): 데이터 관리 계획은 각 사용자의 액세스 수준을 포함하여 데이터에 액세스하는 모든 사람의 역할을 정의합니다. 여기에는 접근할 수 있는 데이터 유형도 포함될수 있음. 심지어 특정 행이나 열만큼 세부적일 수도 있음. 2) 데이터 유형(개인식별정보, PII(personally identifiable information) 등) 3) 저장소 (BigQuery 프로젝트, Google Drive 폴더, 중단에 따른 백업계획 ) 4) 보관소 : 데이터를 보관하거나 삭제하는 절차 고려. 비지니스 가이드 라인과 외부규정 준수. 보관규칙의 예외상황 통지. (예, 소송 데이터는 이러한 절차에서 면제 될 수 있음.)

    데이터소 관리의 각 요소는 정보를 보호하고 사용자의 개인 정보를 보장하는데 중요.

  • 데이터 관리계획과 조직 비지니스 목표를 명확하게 정의 필요. 이것은 나머지 계획에 영향을 줌. 목표는 어떤 유형의 데이터를 수집할지 정의하고, 어떤 팀이 데이터에 접근할 수 있는지를 정의하는 데 도움. 그들은 데이터를 얼마나 오랫동안 저장해야 하는지, 그리고 어떻게 사용할 것인지를 결정. 그리고 그들은 모든 관련 데이터 관리 정보를 효과적으로 공유하기 위한 전체 팀의 목표의 우선순위를 정하는데 도움.

  • 계획을 세우는데 따라야 할 정책. 1) retention policy 조직 전체 또는 각 개별 프로젝트에 대해 보존 정책을 만들수 있음. (보관 및 삭제) 이러한 요구사항은 규정 규정준수, 법적 요구 사항 및 일반 데이터 보호 규정 (GDPR, General Data Protection Regulation) 지침에 따라 결정. 2) data-collection policy 데이터를 수집하는 방법과 그 과정에서 사용할 수 있는 리소스에 대한 규칙을 작성한 개요. 3) archival policy 분석 프로젝트가 완료된 후 데이터를 어디에 어떻게 저장하는지. 4) deletion policy 데이터가 언제, 어떻게 영구적으로 파괴되는지에 대한 개요.

  • 기업은 관리 할 데이터가 생기기 훨씬 전부터 계획을 명확하게 직원들에게 전달. 사업체는 모든 사용자에게 계획과 구체적인 권한. 절차에 대해 교육.

[safety and privacy in the cloud]

  • PII와 시타 개인보정보 보호 표준에는 법적 의미가 있음.

  • Data Privacy 데이터 거래가 발생할 때마다 데이터 주체의 정보를 보존하는 것. 데이터를 수집하는 모든 조직은 사용자의 신뢰를 얻는 것이 데이터 작업의 필수라는 것을 알고 있음. 데이터를 투명하고 공정하게 사용해야. PII: 이메일, 우편주소, 전화번호, 정확한 위치, 생년월일. Full name PHI (protected health information) 개인 건강데이터는 보호된 건강정보. 환자인구통계, 정신적 또는 신체적 건강 진단이나 치료, 건강 관리와 관련된 지불기록과 같이 개인을 식별 할 수 있는 건강 데이터.

    GDPR General Data Protection Regulations 유럽의 기관과 기관의 개인정보 보호법. 이 법은 개인 데이터를 수집, 사용 및 저장하는 방법을 규제. 또한 책임을 강화하기 위한 보고 요구 사항과 준수하지 않을 경우 벌금을 부과하는 내용도 포함.

전략 ID접근관리: 회사 직원에게 특별히 정의된 프로그램 및 데이터 세트에 대한 액세스 권한을 부여하는 프로세스. 업무 수행에 필요한 최소한의 데이터에만 액세스 할 수 있도록. NTK(“need to know.”) 단순한 호기심이나 타당하지 않은 사업적 이유로 데이터에 접근하는 것은 금지. 내부 데이터 관리자 지정 조직내 빈번한 감사 == 추가적인 보안 조치. Audit 안전하고 적절한 액세스를 보장하고 데이터 문제를 식별하여 해결하기 위해 사용자가 데이터에 액세스 하는 방식을 공식적으로 조사하는 것.

소프트웨어, 계정 및 데이터 세트에 액세스 하기 위한 보안키를 사용하는 것. 사용자의 신원을 확인하기 위해 믈리적 디지탈 서명키 또는 키를 사용하는 인증.

암호화 또는 입증된 방법(proven method): 단지 정보를 인코딩하는 과정. 개별 컴퓨터에서는 데이터가 암호화될 수 있고, 컴퓨터에서 작업할 때는 암호화되지 않을 수도 있음. 혹은 한 컴퓨터에서 다른 컴퓨터로 공유되거나 전송될 때 암호화될 수 있음.


[데이터 수명관리]

  • 계획, 수집, 관리, 분석, 보관, 파기라는 일련의 단계
  • 계획: 분석을 시작하기 전. 일반적으로 특정한 사업 관련 질문에 답하거나 목표를 달성하는 것이 포함. 모든 프로젝트 결과가 이 핵심 지점에 집중되는 것이 중요. Business question: 전형적인 비지니스 질문은 “우리 제품에 대한 사용자 참여를 어떻게 높일 수 있을까?” 입니다. Objective: 목표는 “우리는 포장 디자인에 재활용 소재만 사용하여 플라스틱 사용량을 50% 줄이겠습니다.”가 될수있음. Data types: 어떤 유형의 데이터를 수집할지 Data management processes: 어떤 데이터 관리 프로세스를 따라야 할지, Woh is responsible for each stage: 각 단계를 누가 담당할지 Outcomes: 이상적인 프로젝트 결과 How to measure success: 성공을 측정하는 방법
  • 수집 Capture: Data is collected 공개적인 데이터세트(외부 리소스), 조직 내부에서 생성된 데이터. Gaps are identified 조직의 현재 데이터 수집에서 격차가 확인되고 Iteration occurs 반복을 통해 개선됨. 예를 들어 얼마나 많은 사용자가 자신의 앱을 다운로드 했는지 알고 싶은 경우. 데이터분석가가 계정을 만든 사용자 수에 대한 데이터만 수집하고 앱 다운로드 수에 대한 데이터는 항상 수집하지 않는다음 점을 지적. 분석가는 엔지니어링 팀과 협력하여 이것을 기록하는 것이 가능한지 알아내야 함.
  • 처리 Process captured Data: 소스에서 직접 얻은 원시데이터는 일반적으로 분석에 사용할 수 있는 형식이 아니기 때문. Clean Transform Compress: 보관목적 Encrypt: 보안목적
  • 관리: Data maintenance 적절한 데이터 유지 관리를 보장하는 것 Safe and secure data storage 안전하고 보안된 데이터 저장 Ongoing process 관리단계는 프로젝트 전체에 걸쳐 지속적인 프로세스임.
  • 분석 Analyze Answer the business question 분석가가 데이터를 사용하여 비지니스 질문에 답하거나 Meet the business objective 계획 중에 생성된 비지니스 목표를 달성하는데 도움을 주는 경우. 이 시점에서 팀 구성원은 수집된 데이터를 검토하여 추세를 파악하고, 시각화를 만들고, 데이터 통찰력을 바탕으로 비지니스 권장사항을 제안합니다.
  • 보관 Archive Store data for later use 데이터 엔지니어가 필요할 경우 나중에 사용하기 위해 데이터를 저장할 수 있습니다.
  • 파기 Destroy When data is no longer useful Ensure that sensitive data cannot be stolen 민감한 데이터가 도난당하지 않도록 하고 Support privacy protection guidelines 개인정보 보호 지침을 지원하며 Meet other compliance requirements and regulations 기타 규정과 규정을 충족하는 데 중요한 단계

협업 Some members of a data team Data architects 데이터 관리계획 설계 Data engineers 데이터 인프라 구축 Data scientists 데이터를 활용해 대이터를 이해하기 위한 모델을 만듬

다른 사람들과 데이터 통찰력을 공유할 수 있는 기능은 데이터 분석의 필수적인 부분. 결국, 비지니스 문제에 대한 놀라운 통찰력은 정보가 공유될 때에만 가치가 있음. 클라우드 데이터 분석가는 분석 결과를 공유하고 의사결정권자에게 요약을 제공하기 위해 다양한 보고서를 작성. Plan > Capture > Manage > Analyze > Archive > Destroy 데이터 수명주기와 데이터 분석 프로세스가 두 가지 별개의 개념임.

  • 데이터 수명주기: 데이터 자체가 존재하는 동안 어떻게 움직이고 변경되는지 의미
  • 데이터 분석 프로세스: 데이터 분석가가 데이터와 상호작용하는 방식과 관련

실제

  • Plan Review the business questions and objectives Determine what fields need to appear on the report + 데이터를 얼마나 과거로 거슬러 울라가야 하는지.
  • Capture Implement the plan 데이터분석가는 자신이 만든 계획을 구현하고 Assess the metrics 수집해야 할 지표를 평가 Confirm the data is available 데이터를 사용할 수 있는지 확인한 후 Gather the data 데이터를 수집
  • Manage How to store data Prioritize security PII를 포험하거나 제외하여 단순화. 접근 사용자 관리 등 Perform quality checks 품질검사를 통한 필수 값이 null이거나 누락된 것이 없는지 확인 기타 여러 테이블의 조인 조건 등을 확인.
  • Analyze Solve problems and support business goals 결론을 도출하고 예측을 하고 정보에 입각한 의사 결정을 내리기 위해 데이터를 수집, 변환, 정리하여 이를 수행함. Share reports 분석가의 통찰력에 대한 보고서를 공유하는 것. Create visualizations 다른 사람들이 통찰력을 이해하도록 돕기 위해 시각화 자료를 만듬.
  • Archive Datermine what needs to be saved 다른 사람과 공유하거나 다른 보고서와 비교하기 위해
  • Destroy Datermine you don’t need the data anymore

A cloud data analytics professional working with project data has so far determined the best method to store the data and prioritize security. They took steps to omit instances of PII and perform additional quality checks. According to the data lifecycle, what is the next action the cloud analytics professional should take? Manage the data Analyze the data Archive the data (X) Capture the data The next step is to analyze the data. The data is ready to be used to solve problems and support business goals. Tasks related to the capture stage include implementing the plan, assessing the metrics, confirming the data is available, and gathering the data.


[팀]

  • 데이터 분석가: 분석과학과 스토리텔링 기술을 융합함.(?, 표현이.. 아니면 번역이) 비지니스 데이터 가져오기, 조작, 계산, 보고 등의 분석 워크플로우를 수행 보고시에는 결과를 시각화하여 이해관계자에게 전달하는데, 여기에는 데이터 공유를 위한 프레젠테이션과 대시보드를 만드는 작업이 포함됩니다. 데이터 분석가는 통계 분석도 수행합니다. 데이터 주기에서: Analyzing and reviewing database, Python이나 SQL과같은 스크립팅 언어를 사용하여 데이터 쿼리, Tableau나 Looker와 같은 Creating visualizations, Presenting findings 데이터 분석가는 데이터 아키텍트나 엔지니어의 지시게 따라 데이터 관리 및 공유에도 역할. 데이터 엔지니어와 협력하여 데이터를 정리하고 계획 단계에서 생성된 비지니스 질문에 답하는데 집중.

  • 데이터 엔지니어: 데이터를 분석에 유용한 형식으로 변환하고, 데이터에 안정적인 인프라를 제공하는 전문가. 애플리케이션에서 데이터를 저장하고 검색하는 데 사용되는 데이터베이스를 설계, 생성, 관리, 마이그레이션하고 문제를 해결. 티이 데이터를 수집, 저장, 분석하는 데 사용하는 구조를 개발하는 것과 관련. 데이터 파이프라인을 구축: 다양한 소스에서 수집한 데이터를 저장 및 분석을 위해 목적지로 전송하는 일련의 프로세스 엔지니어는 파이프라인이 건설된 후에도 파이프라인을 테스트하고 유지관리 엔지니어는 회사의 액세스 정책에 따라 허용되는 대로 팀의 다른 모든 구성원이 데이터에 액세스할 수 있도록 하는 업무

  • 데이터 사이언티스트: 데이터를 분석하고, 통계 분석을 수행하며, 일반적으로 머신 러닝 모델을 구축하고 훈련시킴. 데이터 조사, 비지니스 문제 식별, 여러 출처에서 데이터 수집 및 정리, 답변 찾기 등의 업무를 담당하는 사람.

  • 데이터 사이언티스트 vs. 데이터 엔지니어 코딩 및 스크립팅 기술을 사용하여 데이터를 정리하고 요약. 차이점은 엔지니어가 일반적으로 처음부터 끝까지 데이터 파이프라인을 구축하는 반면, 과학자는 파이프라인에서 수집한 데이터를 사용하여 결론을 도출 함. 과학자는 데이터 분석 워크플로우를 만듬. 과학자는 분석가 및 엔지니어와 함께 다양한 소스에서 데이터를 가져와 정리하고, 데이터를 사용하여 계산을 수행. 과학자는 데이터의 비지니스 적용을 이해하고 통계, 머신러닝, 모델링에 중점.

  • 데이터 아키텍트: 분석가, 과학자, 엔지니어와 협력하여 데이터베이스 인프라를 설계 팀이 솔루션의 전반적인 데이터 수명 주기를 계획하도록 도움. 데이터 또는 솔루션 아키텍처 다이어그램을 작성하고 엔지니어에게 전달해 데이터베이스를 구축.

[자동화]

  • Data management Ingest data on a set schedule Automatically cap the amount of data ingested Be more efficient with a set amount of resources

  • Automation 소프트웨어, 스크립팅 또는 머신 러닝을 사용하여 인간의 작업없이 데이터 분석 프로세스를 수행하는 것 (예) 한 달에 두 번씩 급여을 지급하는 직원이 200명이 넘는 회사. 누군가 모든 직원의 근무 시간을 검증. 그러면 다른 사람이 각 급여의 금액을 계산. 그리고 세 번째 사람이 수표를 쓰고 서명. 하지만. 근무시간의 검증과 임금 계산은 모두 컴퓨터 프로그램을 통해 자동으로 이루어짐. 어떤 경우에는 자동화된 프로세스를 통해 급여가 자동으로 각 직원의 은행 계좌로 이체. 자동화는 시간과 자원을 절약하고 사람들이 제때 급여를 받을 수 있도록 보장.

  • Benefits of automation Reduce mistakes Checks for errors or incomplete data Ensure uniformity and accuracy 규정 준수가 중요한 상황에서는 자동화를 통해 규정 준수에 중요한 균일성과 정확성이 보장 Scales up workloads: 정보를 잃지 않고 한 번에 더 많은 데이터를 수집하거나 처리하여 작업 부하를 확장 Allows for efficiency and process improvement 효율성과 프로세스 개선: 인적, 기술적 자원을 보존하고 Cost control 비용을 통제하는 데 도움.

[보존정책] 데이터를 언제, 어떻게 저장하거나 삭제하는지를 다루는 데이터 관리의 핵심.

  • Data retention: 데이터를 수집, 저장, 관리하는 것.

  • Retention policy considerations 보관정책 Internal needs 내부 요구사항 Industry regulations 업계규정 Laws 특정 사업에 적용되는 법률

  • 정책의 범위와 정보를 저장하는 이유를 명확하게 저의해야 함. 내부 및 외부에서 누구의 데이터를 수집할 수 있는지도 정의. 해당 조직이 따르는 모든 법률과 규정이 나열 될 수 있음.

  • Data retension process Schedule for saving and deleting data Rules for keeping data safe Processes for destroying data Guidelines for data breaches 데이터 침해에 대한 지침.

  • Other guidelines (보존정책에 포함될수있는 다른 가이드라인) Format of the data Whether the organization archives or destroy data 보관 혹은 파기. Who has authority to delete data 삭제데 대한 권한이 있는 사람.

  • 미국 상장기업 Sarbanes-Oxley Act(법): 기업이 소비자의 금융데이터를 보호하는 내부통제 시스템을 유지하도록 요구. PCI DSS Payment Card Industry Data Security Standard 신용카드를 받는 업체. 조직이 안전한 네트워크를 구축하고, 카드 소지자 데이터를 보호하고, 강력한 접근 제어 조치를 구현하도록 요구 HIPAA Health Insurance and Portability and Accountablity Act 건강보험 및 양도성 및 책임법. 미국내 특정 의료기관. 개인의 식별 가능한 건강 정보를 보호하기 위한 요구사항 제정. GDPR General Data Protection Regulations 유럽의 기관과 기관의 개인정보 보호법. 개인 데이터 수집 이유가 투명해야 하며, 기업은 명시된 수집 목적에 따라서만 데이터를 사용할 수 있다.

  • 구글 클라우드에서 버킷 잠금기능: 각 스토리지 버킷에 대한 데이터 보존 정책을 만들고 보관 시간 설정 버킷 락: 사용자에게 데이터 요청 및 응답에 대한 명확한 그림을 제공하는 자세한 감사로그에 대한 액세스 제공. 이를 통해 기업은 데이터에 액세스하는 시기와 관련된 정책을 준수. 객체 수명관리: 데이터 전문가가 데이터 보존 정책을 관리할 수 있는 자동화된 방법. 클라우드에서 “객체”는 클라우드 객체 스토리지 서비스에 저장된 데이터를 의미. 클라우드 서비스 제공자는 관련 메타데이터와 함께 대량으로 데이터를 저장. 이 관리 프로세스를 통해 데이터 전문가는 객체 스토리지에 대한 매개변수를 생성하고, 객체를 삭제하거나, 다른 버킷으로 이동할 수 있음. 미리 정의된 매개변수를 사용하여 자동화를 통해 기업은 중요한 정보를 쉽게 추적 할 수 있음.

[버전컨트롤]

  • Versioning: 데이터를 참조하는 고유한 방법을 만드는 과정. 식별번호, 질의, 날짜 및 시간 식별을 통해 이루어질수있음. 주요 목표는 파일이나 데이터세트에 생성된 날짜와 시간을 라벨로 표시하는 것. 동일 데이터의 버전이 여러 개 있어도 항상 날짜와 시간을 참조하여 최신 버전으로 작업하고 있는지 확인할 수 있음. 동일한 파일에 액세스하고 버전을 만들 수 있는 팀에 속해있는 경우 매우 중요. 버전관리 프로세스에는 새 이름으로 데이터 세트를 저장하거나 새 파일 경로에 데이터를 저장하는 작업도 포함. 파일을 저장하는 방법과 위치에 대한 명확한 지침을 통해 모든 팀원과 함께 현재 버전을 추적할 수 있음.

  • Benefits of versioning Support quality control Revert to previous version Support compliance concerns: 규정준수문제 해결.(어떤 규정일까? 버전==이력을 관리해야 한다는?) Find where edits are incorrects

  • Hold : 데이터 세트에 적용되는 정책으로, 데이터 세트 삭제를 방지하거나 특정 계정에 대한 삭제 기능을 방지. 때로는 데이터 세트가 조직 전체에 보류되어 아무도 삭제할 수 없는 경우가 발생.

  • Benefits of holds Prevent accidental deletion Preserve data indenfinitely 무기한 보존 Determine and define each user’s responsibility for dataset

  • Why use versioning and hold policies Mitigate security concerns about sensitive information Manage storage costs 보관비용 관리

궁극적으로 버전관리와 보관관리는 협업, 정확성을 높이고 더 나은 비지니스 성과를 달성하는데 도움이 됨.


[Data analysys in the cloud]

  • Cloud data analytics: 클라우드 기반 서비스와 솔루션을 사용하여 방대한 양의 데이터를 분석하고 의미 있는 통찰력을 추출하는 프로세스 데이터 전문가가 클라우드에서 호스팅되는 데이터를 분석하고 서비스와 시스템을 사용할 수 있도록함. 각 데이터 세트에 대한 인프라와 보안을 설정하지 않고도 여러 소스의 방대한 데이터에 액세스 할 수 있음. 물리적 서버에 온프레미스 데이터가 있는 조직의 경우에도 클라우드 데이터 분석을 사용하면 데이터 분석의 상당 부분이 클라우드에 호스팅됨. 여기에는 데이터 자체와 이를 조작하고 분석하는데 사용되는 시스템이 포함됨.

  • Advantages of working with data in the cloud Quick and easy access to real-time data from different source Analyzing large datasets is simplified(컴퓨팅 파워가 로컬머신에 의존하지 않기 때문) Aggregate and analyze data(클라우드에서 바로 데이터를 집계하고 분석 가능) 클라우드 데이터 분석은 웹사이트 데이터, 판매 데이터, 재무 데이터, 성과 데이터 역할에 큰 영향을 미치고 있음.

  • Sentiment analysis Monitor the feelings of customers. employees. and competitors on socal media(감정분석 프로젝트) 클라우드 분석을 사용하면 모든 주요 소셜 미디어 플랫폼에서 데이터를 가져와 피드백에서 주제에 대한 요약을 작성할 수 있음.
  • Customer segmentation Group customers by their behaviors. needs. and preferences. 고객과 협력할 때 클라우드 분석을 사용하여 고객 세분화를 통해 고객의 행동, 필요, 선호도에 따라 고객을 그룹화할 수 있음.

클라우드 데이터베이스와 도구를 사용하면 대량의 데이터를 자동으로 수집하고 시스템을 훈련하여 테마와 요약을 생성할 수 있음. 이러한 작업의 대부분은 클라우드 기반 데이터 파이프라인을 통해 가능. 이 파이프라인을 통해 정보는 데이터 생성에서 보관으로 원활하게 이동.

[Cloud data analytics tools] 데이터 수명 주기의 각 단계에 따라 다르다. 각 단계마다 선택의 폭이 넓다.

  • BigQuery 서버리스 데이터 웨어하우스 Work across many cloud platforms SQL을 사용 플랫폼 내에 머신러닝과 인공지는 도구가 통합 Built-in business intelligence
    데이터베이스를 관리하지 않고도 테라바이트, 그 상의 무제한에 가까운 데이터를 처리할 수 있음.

  • Looker Organizes business data Builds workflows and applications Visualization and reporting(하지만 기본적으로 데이터 시각화 및 보고 도구임) 데이터 분석가는 Looker를 사용하여 CSV, JSON, Excel등 다양한 파일 형식을 단일 애플리케이션으로 통합할 수 있음. 다양한 대시보드에 데이터를 게시하는 데 사용할 수도 있음.

  • Dataproc : Apache Hadoop, Spark : DB Fully managed Run Apache Hadoop. Apache Spark. and Apache Flink Modernize data lakes(데이터 레이크 현대화) Perform ETL functions

  • Dataflow : Apache Beam : Beam SDK : 개발환경? Stream and batch process data Serverless application 데이터 전문가는 Dataflow를 사용하여 데이터 처리 파이프라인을 개발할 수 있음. 데이터를 읽고 쓰는.

  • Cloud Data Fusion: Apache CDAP(Cask Data Application Platform) : ETL + GUI Fully managed Integrate multiple datasets 여러 크기의 데이터 세트를 통합할 수 있는 완전관리형 서비스 클라우드 데이터 분석가는 코드 대신 그래픽 사용자 인터페이스를 사용하여 데이터 파이프라인을 관리할 수 있음.

  • Dataplex : 거버넌스 플랫폼. 중앙 관리. 모니터링. 보안정책. 데이터 카탈로그. 메터데이터 관리. IAM(Identity and Access Management)과 통합. 여러 데이터소스를 통합된 데이터레이크로 관리 Working with multiple data source Central hub Work across data lakes. data warehouses. and data marts 데이터 분석가는 BigQuery를 사용하여 Dataplex에 액세스할 수 있음. 이를 통해 다양한 데이타베이스와 플랫폼 데이터에 단일 인터페이스로 액세스할 수 있음.

  • BigLake Google BigLake는 데이터 웨어하우스(BigQuery)와 데이터 레이크(Cloud Storage, AWS S3, Azure Blob)를 통합 관리할 수 있는 데이터 레이크하우스(Lakehouse) 솔루션입니다. 즉, 데이터 웨어하우스(BigQuery)의 성능과 데이터 레이크(Cloud Storage)의 확장성을 결합한 서비스로, 다양한 클라우드 및 온프레미스 데이터 저장소를 통합된 보안 및 거버넌스 정책 아래에서 분석할 수 있습니다. Unify data warehouses and lakes BigQuery and open source frameworks Access control and multi-cloud storage

[Data access management for secure data] 보안은 데이터가 어디에 저장되고 누가 접근할 수 있는가에 대한 것.

  • Data access management 암호보호, 사용자 권한, 암호화 등의 기능을 구현하여 데이터와 관련 프로세스를 보호하는 프로세스. 클라우드의 맥락에서는 개별 사용자 역할이나 사용자 그룹을 만드는 것이 포함. 각 역할이나 그룹에 대한 액세스 권한은 관리자가 미리 정의. 이러한 액세스 권한을 할당하는 행위를 ID액세스관리 또는 IAM이라고 함.

  • IAM Identity Access Management 특정 개인 열할이나 그룹에 특정 리소스에 대한 액세스 권한을 할당하는 프로세스

    핵심 리소스에는 클라우드에 호스팅된 소프트웨어, 데이터 세트, 데이터베이스 또는 전체 데이터 웨어하우스가 포함될 수 있음. 액세스 수준은 사용자의 역할에 따라 결정됨.

  • Identity access management Principal: 주체: The account or accounts that can access a resource. 유니크한 식별자가 있는것이 특징 Role: 역할: The collection of permissions that an account has access to Policy: 정책: The collection of roles that are attached to a principal. 주체에게 부여된 역할의 집단.

  • Types of access Universal access: access that everyone needs: 모든 사람에게 필요한 접근성. 이는 전체 프로젝트에 대한 보편적인 접근이거나 특정 프로젝트에 대한 보편적인 접근일 수 있음. Access by roles: access for each role assigned to a project. 역할별 액세스. 프로젝트에 할당된 각 개별 역할에 대한 액세스. 역할별 프로필을 만들면 각 역할이 수행하는 작업에 필요한 액세스 권한을 결정하는데 도움이 됨. Access by environment: access determined by where the user logs in: 환경에 따른 접근. 원격 사용자는 현장에 있는 사람과 다른 액세스 권한을 가질수 있음. 할당된 권한에 따라 데이터에 액세스 할 수 있도록 함.

  • Best practices in data management Audit data access and monitor user task Put additional permissions on remote access Verify and stop unusual activities 비정상적인 활동을 확인하고 중단 Add two-factor authentication 주기적인 확인이 필요. 권한을 줄이거나 늘리는 갱신이 필요. 이 과정에서 사용자 액세스를 문서화하는 것이 중요. 이를 통해 누가 액세스할 수 있는지, 왜 액세스할 수 있는지에 대한 기록을 확보. 이는 감사가 원활하게 진행되는 데 도움이 되며 규정준수 문서화에도 중요. 작업 완료에 대한 방해 요소가 액세스 문제로 인해 발생하지 않도록 팀 플레이북에서 이 정보를 공유하는 것을 고려. 효율적인 액세스 정책이 있으면 고용주가 데이터를 안전하게 유지하는데 도움이 됨.

[Business data request] 비지니스 데이터요청은 데이터로 답할 수 있는 모든 비지니스 질문임. 요청에 이미 존재하는 데이터가 포함되어 있는지, 아니면 새로운 데이터가 포함되어 있는지 여부. 주로 티케팅 시스템을 통해 이 요청을 받게 됨. 티케팅은 요청을 기록하고 이를 적절한 팀원에게 할당하는 도구임.

  • Elements of a data request 조직 내부 혹은 외부로 부터 오는 요청 외부 요청은 정부나 규제기관, 공급업체, 사용자 또는 고객으로 부터. Answers to a data-related question Data report. extract. or dashboard Information or structure specifics 요청에는 일반적으로 정보나 구조에 대한 구체적인 내용이 포함됨. (예) 이해관계자들은 실험 기간 동안 참가자들이 설문조사를 작성하는 데 얼마나 많은 시간을 소요하는지 알고자함.

  • Working on a data request: 작업시 명심 할 사항 Overarching goal: 가장 중요한 목표. 또한 이것을 넘어서 이해관계자에게 데이터가 필요한 이유를 이해하려고 노력하는 것도 중요. 이렇게 질문해 볼 수 있음. 소요시간과 응답의 질을 연관시킬 필요가 있습니까? What’s being measured: 무엇이 측정되는지 결정 What data is needed and how much Outliers 데이터를 검토해서 데이터에 오류나 이상치가 있는지 확인. Trends 새그먼트 내에서 식별할 추세를 검색. Summary report 데이터를 수집하고 모든 정보에 대한 요약 보고서를 작성.

[Ensuring accurate data]

  • Data cleaning phase Correct or eliminate inaccurare or repeat records: 데이터 세트에서 부정확하거나 반복되는 레코드를 수정하거나 제거 Define specific segments: 특정 세그먼트를 정의 Break down the dataset 그런 다음 데이터 세트를 더 작은 섹션으로 분할
  • Data validation and integration phase Check for outliers: 데이터 세트에 이상치나 편차가 있는지 확인 핋요. 실수로 주문 수량을 많이 입력했다던지. Integrate multiple data sources Check summary statistics: 요약통계도 필요하면 분석에 사용. 평균값, 중간값, 최소값, 최대값 및 기타 다양한 관련 통계와 계산을 계산하는 대시보드나 스프레드시트 Compare to previous work: 이전 유사한 작업 리포트와 비교. 결과가 크게 다르다면 데이터세트와 프로세스를 다시 확인 필요.

[Cloud data storage and management tools]

  • 시나리오: 광고팀으로 부터 사업데이터 요청. 게임 플레이중에 얼마나 많은 사용자가 광고를 클릭하는지, 그리고 그 중 몇 퍼센트가 광고를 클릭하는지 알고자 함. 광고팀은 조사 결과를 바탕으로 게임 플레이 중에 광고를 계속 표시할지, 아니면 앱에 대한 요금을 더 부과할지 결정함. 게임 앱은 다양한 플랫폼에서 호스팅되며 사용자는 광고를 줄이고 싶을 경우 구독을 구매할 수 있음. 그럼으로 여러 데이터 소스로부터 데이터를 수집해야 함.

  • Google cloud storage Host all data 컴파일된 모든 데이터를 호스팅함. 컴파일된? Upload data from remote servers

  • Dataflow Create a data pipline Use stream or batch processing

  • Cloud Data Fusion Create data integrations Run high-volume data pipelines Continuously integrate user data

  • BigQuery Write SQL queries to join data Clean the data

  • Dataproc Use open source data analytics tools at a large scale Apply programming languages and algorithms to data 컴퓨팅 리소스를 동적으로 할당가능함으로 리소스를 추측하거나 과소/과대 평가할 필요가 없습니다. Apache Hadoop과 연동

    Uses its open-source tools on virtual machines Scale ip and down as needs Install a Hadoop cluster in 90 seconds

  • How Dataproc works Disaggregates storage and cimpute services 스토리지와 컴퓨팅 서비스를 분리함으로 필요에 따라 두 서비스를 모두 생성하고 종료할 수 있음. 즉, 저장할 데이터가 생기면 저장 공간이 그대로 유지됨. Compute services will terminate 하지만 데이터를 적극적으로 처리하지 않으면 컴퓨팅 서비스가 종료됨.

  • Dataproc workflow Store external application logs in cloud storage Processed by Dataproc 데이터는 Dataproc에 의해 처리되어 Write it to Google Cloud Storage or BigQuery. Google Cloud Storage난 BigQuery에 다시 쓸 수 있음. Send the data to a data science nootbook for analysis Data scientists who can build and train AI models 저장은 처리와 분리되어 있음으로 조직에서는 작업을 그룹화하여 비용을 절감할 수 있음. 따라서 모든 데이터 분석 요구 사항을 충족한는 데 정확히 적절한 양의 모모리와 저장 공간을 사용하게 됨.

  • Pre-build templates: 기존 구조의 데이터를 Google Cloud Service로 옮기는 데 도움이 되는 사전 구축된 템플릿이 있음. Snowflake to GCS Redshift to GCS S3 to BigQuery Kafka to BigQuery

  • Benefits of Dataproc Easier to manage Hadoop Integrate organization-wide security Enable data users throgh integration 통합을 통한 데이터 사용자를 활성화하여 다양한 사용자에게 다양한 권한을 부여할 수 있음.

    이를 통해 데이터팀은 최적의 제품을 조달하고 판매할 수 있는 가시성이 향상됨, 가장 좋은 점은 공급업체가 더욱 원활하고 일관되게 귀중한 추천을 받을 수 있고, 이를 통해 각 공급업체는 그 어느 때보다 사용자 수요의 물결에 대응할 수 있음. 실시간 피디백과 실행 가능한 통찰력을 바탕으로 공급업체는 제품 설명을 세부적으로 조정하여 사용자에게 완전히 새로운 차원에서 공감을 얻을 수 있음.

[Process management]

  • Typical data analyst workflow Using a data request central system: 비지니스 데이터 요청과 관련 팀 대화를 저장하고 관리하기 위한 데이터 요청 중앙 시스템을 갖추어야 함. 이 시스템은 관련 문서를 제공하고 협업을 가능하게 하며, 과거 기록을 보존함. 문서화는 모든 요청에 대한 세부 정보와 대화를 한 곳에 보존하는 프로세스로, 데이터 분석가가 정보를 찾거나 요청할 떄 정보를 쉽게 찾을 수 있도록 해줌. Collaboration 협업은 데이터 분석팀 구성원이 중앙 시스템을 방문하여 데이터 요청, 쿼리 및 데이터 전달 방법을 검토할 때 이뤄짐. Historical records 과거 기록은 과거에 저장되어 필요할 때 접근하거나 검색할 수 있는 데이터나 정보. Checking in code Check-in 코드 체크인은 다른 사람이 접근하여 검토할 수 있도록 메인 저장소에 코드를 업로드하는 것. Check-in benefits More effective collaboration 더 효과적인 협업. 팀의 다른 분석가는 프로덕션에 코드를 사용하기 전에 잠재적인 실수나 오류를 포착하기 위해 코드를 검토 Centralized repository Improve code quality 일관성보장. 스타일 가이드 체크. 적절한 구문과 적절한 주석을 사용하여 코드의 가독성을 높여 코드 품질 개선 Track code easily Easier way to revert code Revision history

    Keeping as internal record 작업에 대한 내부 기록 유지

[Strategies for handling data request]

  • Data request elements Type: Group request 유형 범주를 설정하여 요청을 그룹화. 비슷환 문제에 대한 요청이나 응답하는 사람별로 요청을 그룹화할 수도 있음. 요청을 그룹화하면 서로 다른 사람들이 서로 다른 문제를 지적하더라도 문제의 모든 측면을 다룰 수 있음. Issue priority: Determine the priority Issue status: Provide real-time status update

  • 나중에 많은 정보를 주고받는 일을 피하기위해 가능한 한 많은 세부 정보를 미리수집 What? When? Who? Where? Why? 2 Hows?

  • Data requests Reports Data clarifications Reference data Data extracts

  • Intake questions What: 모든 태양열 에너지 이니셔티브를 계산해야 할까요? 아니면 특정 유형만 계산해야 할까요? When: 데이터는 얼마나 이전으로 거슬러 올라가야 합니까? Who: 모든 커뮤니티를 데이터 세트에 포함할 것인가, 아니면 일부만 포함할 것인가? Where: 데이터를 특정 지역이나 우편번호에 따라 계층화해야 할까? 계층화한다는 것은 그룹으로 나누는 것을 의미. Why: 이해관계자가 이 요청을 가지고 귀하에게 오는 비지니스 맥락을 이해하는 것이 중요. 맥락을 고려하면 데이터 수집 과정에서 묻지 못한 추가 질문을 찾아내는 데도 도움이 됨. How #1: How often should the data be refreshed? 일회성 아니면 지속적으로? How #2: How does the stakeholder want the data delivered? 스프레드시트와 같은 가벼운 정적 보고서나 더 강력한 동적 대시보드

  • Parent-child relationship 하나의 티켓을 여러 개의 하위 티켓으로 나누어 동시에 작업할 수 있으며, 때로는 여러 팀원이 동시에 작업가능.

  • Status fields Assigned Start work In progress Fixed Verify Reopen

[Data documentation] 데이터 문서화: 데이터 세트에 포함된 데이터의 내용, 데이터를 수집한 방법, 데이터를 구성하는 방법에 대한 서면 안내

  • Data documantation may include Purpose 수집목적 Procedure 따른 절차 Date and time data was collected Structure of the dataset Note about data validation and quality assurance

  • Data documantation README files Data dictionary Codebook Lab notebook 실험노트 Spreadsheet

  • Team’s data playbook How to request data access How to grant data access to others Where your team stores table in BigQuery How to carry out common tasks 일반적인 작업을 수행하는 방법에 대한 정보.

You are a data engineer at a healthcare company. You want to build a data pipeline to process and analyze patient data from multiple sources. Which of the following Google Cloud Platform services is best suited for this task?

(X)Dataproc Looker BigQuery Cloud Data Fusion Review the video about the Google Cloud data and analytics portfolio.

Read Count