gcp web_analytics sample schema

GCP의 Web Analytics 샘플 데이터셋은 BigQuery에서 제공되는 Google Analytics 360 샘플 데이터로, 다음 테이블에 존재합니다:

bigquery-public-data.google_analytics_sample.ga_sessions_*

이 데이터는 Google Analytics의 방문 세션(ga_sessions)을 기준으로 구성되어 있으며, **중첩된 구조 (RECORD)**와 **반복 필드 (REPEATED)**를 포함합니다.

🧩 샘플 스키마 요약 (상위 수준)

✅ 기본 필드

필드명	타입	설명
`fullVisitorId`	STRING	고유 방문자 ID
`visitId`	INTEGER	세션 ID
`visitNumber`	INTEGER	방문 순서 (ex: 첫 방문 = 1)
`visitStartTime`	INTEGER	UNIX timestamp
`date`	STRING	YYYYMMDD 형식 날짜

✅ RECORD 필드 (중첩 구조)

`trafficSource` (RECORD)

필드명	타입
source	STRING
medium	STRING
campaign	STRING
keyword	STRING
adContent	STRING

`device` (RECORD)

필드명	타입
browser	STRING
operatingSystem	STRING
isMobile	BOOLEAN
deviceCategory	STRING

`geoNetwork` (RECORD)

필드명	타입
continent	STRING
country	STRING
city	STRING

`totals` (RECORD)

필드명	타입
visits	INTEGER
hits	INTEGER
pageviews	INTEGER
bounces	INTEGER
transactions	INTEGER
transactionRevenue	INTEGER

✅ `hits` 필드 (REPEATED RECORD)

1개의 세션 내 여러 행동(페이지뷰, 이벤트 등)이 기록됩니다.

항목	`ML.FEATURE_CROSS()`	`CONCAT()`
목적	머신러닝 특화: 교차 피처 생성	일반적인 문자열 연결
자동 최적화	내부적으로 범주형 피처로 자동 처리	단순한 문자열, 모델에선 수치형 취급될 수도
입력 타입 제한	STRING 또는 BYTES만 허용	다양한 타입 지원 (숫자, 날짜 등 가능)
모델 의도 표현	“이건 feature crossing이다"라고 명시적 표현	단순 연결 → 모델이 교차 피처인지 모름
해시 처리 지원	내부적으로 가능 (옵션 없음, 향후 지원 가능)	없음

문제점	설명
🎲 우연한 발견	수많은 분석 중 일부는 단순히 우연히 유의하게 나올 수 있음
📈 잘못된 인사이트	실제로는 관련이 없는 변수 사이에 잘못된 관계가 발견됨
💥 재현 불가	다른 데이터셋에서는 다시 같은 결과가 안 나옴
📉 모델 과적합 위험	학습 데이터에만 맞춘 결과 → 일반화 성능 저하

목적	설명
차원 축소	feature 수가 많으면 계산이 느리고 과적합(overfitting) 위험 → 줄여서 효율적으로 만듦
노이즈 제거	덜 중요한 축을 제거하면서 데이터의 핵심 구조를 보존
시각화	고차원(>3D) 데이터를 2D/3D로 투영해서 쉽게 볼 수 있게 함
속도 향상	학습이나 추론 시 feature 수 줄여서 처리 속도 빠르게

이유	설명
비선형성 표현	숫자값 자체보다 “어느 구간에 속했는지"가 더 중요한 경우 많음 (예: 나이, 가격 등)
모델 복잡도 감소	작은 숫자 차이를 신경 쓰지 않고 구간 단위로 학습
해석 용이성 증가	모델 결과를 사람이 이해하기 쉬워짐 (“나이 30~39세 그룹”)
Outlier(이상치) 영향 감소	너무 큰 숫자에 덜 민감하게 만듦

원래 값 (연속형 숫자)	Bucket 처리 결과
22	20–30 구간 (bucket 2)
27	20–30 구간 (bucket 2)
35	30–40 구간 (bucket 3)
47	40–50 구간 (bucket 4)
82	80–90 구간 (bucket 8)

요소	의미
`YYYY`	연도 (Year)
`MM`	월 (Month)
`DD`	일 (Day)
`T`	날짜와 시간 구분자 (고정)
`HH`	시 (Hour, 24시간제)
`MM`	분 (Minute)
`SS`	초 (Second)
`Z`	UTC 기준 시간 (Z는 “Zulu Time” = UTC)
`±hh:mm`	UTC로부터의 오프셋 (Time zone 차이)

타입	예시	설명
UTC 기준	`2025-04-29T08:30:00Z`	2025년 4월 29일 08:30 (UTC)
한국시간 (KST, UTC+9)	`2025-04-29T17:30:00+09:00`	같은 시각, 한국 기준
다른 타임존	`2025-04-29T02:30:00-06:00`	UTC-6 지역 기준

항목	설명
Schema 기반	파일 안에 데이터 구조(Schema)를 함께 저장
바이너리 형식	사람 눈에는 안 보이는 이진 데이터로 저장 → 빠르고 작음
Self-describing	파일 안에 Schema가 들어있어서 따로 설명서 없이 읽을 수 있음
빠른 읽기/쓰기	고속 직렬화/역직렬화 (serialization/deserialization) 가능
언어 독립성	Java, Python, C++, Go 등 다양한 언어에서 읽고 쓸 수 있음

🧩 샘플 스키마 요약 (상위 수준)

✅ 기본 필드

✅ RECORD 필드 (중첩 구조)

trafficSource (RECORD)

device (RECORD)

geoNetwork (RECORD)

totals (RECORD)

✅ hits 필드 (REPEATED RECORD)

✅ 의미

✅ 용도

✅ 예제

✅ 공통점

❗ 차이점 요약

🧠 실전 팁

✅ 예제 비교

📌 Data Dredging이란?

🎯 왜 문제가 될까?

🧪 예시

🎯 PCA란?

🚀 PCA를 쓰는 이유

📚 쉽게 예시

🎯 “Bucketized Feature"란?

🚀 왜 bucket 처리를 할까?

📚 쉽게 예시

✨ GCP 용어로 구체적으로 말하면

🎯 RFC 3339 형식이란?

📚 기본 포맷

🎯 예시

📦 주의할 점

🎯 Avro 파일 형식이란?

📦 Avro의 주요 특징

🎯 Avro 파일 구조 (간단)

🎯 Schema 예시 (JSON 형식)

통상적인 ETL도구 모습이다.

데이터 소스가 아주 많은데..

추가하기 전에 미리보기가 가능하다.

데이터셋을 추가하면 기본 흐름을 잡아준다마는.

레시피로 들어가면 보여지는 저 준비 이미지가

데이터가 로딩된 모습

컬럼 상세

컬럼내 데이터 필터를 위한 선택

Course 2

🔹 Systems of Record(SOR)란?

`trafficSource` (RECORD)

`device` (RECORD)

`geoNetwork` (RECORD)

`totals` (RECORD)

✅ `hits` 필드 (REPEATED RECORD)