BigQueryML에서 TRANSFORM

BigQueryML에서 TRANSFORM은 모델 학습 전에 데이터 전처리를 선언적으로 지정할 수 있는 기능입니다. 이를 통해 훈련/예측 시 일관된 전처리 파이프라인을 적용할 수 있으며, 특히 파이프라인 재사용이나 자동 특성 엔지니어링에 유용합니다.

✅ 기본 개념

BigQueryML의 TRANSFORM 구문은 CREATE MODEL 문에서 사용되며, 주로 다음과 같이 구성됩니다:

CREATE MODEL project.dataset.model_name
TRANSFORM (
  -- 변환 정의
)
OPTIONS (...) AS
SELECT ...

🔧 예제: 범주형 인코딩 + 스케일링

CREATE OR REPLACE MODEL my_dataset.my_model
TRANSFORM (
  one_hot_encoded_country AS
    one_hot_encode(country),
  
  scaled_age AS
    standard_scaler(age)
)
OPTIONS (
  model_type = 'logistic_reg',
  input_label_cols = ['label']
) AS
SELECT
  country,
  age,
  label
FROM
  my_dataset.training_data;

one_hot_encode(country) : 범주형 변수 인코딩
standard_scaler(age) : 평균 0, 표준편차 1로 정규화
TRANSFORM 블록에서 정의된 컬럼은 아래 SELECT의 컬럼을 전처리하여 학습에 사용됨

🧠 지원되는 주요 변환 함수

함수	설명
`one_hot_encode(col)`	범주형 변수 → 원-핫 인코딩
`log(col)`	로그 변환
`normalize(col)`	0~1 정규화
`standard_scaler(col)`	표준화 (Z-score)
`bucketize(col, boundaries)`	수치형 변수 → 구간화
`clip(col, min, max)`	값 제한
`cast(col AS TYPE)`	형변환

📌 참고 사항

TRANSFORM은 모델 정의 내부에서만 사용 가능합니다. SELECT 쿼리에서는 사용 불가합니다.
TRANSFORM 블록의 출력 컬럼명은 모델이 학습에 사용하는 특성명입니다.
SELECT 절에서는 원본 컬럼을 제공해야 합니다. (전처리는 TRANSFORM 안에서 수행됨)

🔍 예제: 날짜 파싱 및 로그 변환

CREATE OR REPLACE MODEL my_dataset.sales_model
TRANSFORM (
  log_price AS log(price),
  day_of_week AS EXTRACT(DAYOFWEEK FROM DATE(timestamp))
)
OPTIONS (
  model_type = 'linear_reg',
  input_label_cols = ['sales']
) AS
SELECT
  price,
  timestamp,
  sales
FROM
  my_dataset.sales_data;

필요하다면 TRANSFORM 없이도 SQL로 사전 전처리를 해서 CREATE MODEL에 넘길 수 있지만, TRANSFORM을 쓰면 학습-예측 간 일관성이 보장됩니다.

개념	설명
Layer Freezing	기존 모델의 대부분 레이어는 “고정(freeze)“하고, 일부 레이어만 “학습(adapt)“하게 함.
Adapter Layers	기존 모델 사이사이에 “얇은” 적응 레이어를 끼워서 학습량을 줄이는 방법.
LoRA (Low-Rank Adaptation)	기존 큰 가중치 행렬을 작은 행렬로 근사해서 적응시키는 방법.
Routing	입력에 따라 다른 레이어를 동적으로 선택하는 방법. (예: Mixture of Experts)

용어	의미
context drift	대화 문맥이 점차 흐트러지거나 변질되는 현상
attention drift	모델이 초반 초점에서 점차 다른 주제나 스타일로 주의가 흐트러지는 현상
generation degradation	긴 응답/대화 세션에서 점차 품질이 저하되는 일반적인 현상

과일
사과
바나나
포도

과일	One-hot Encoding
사과	[1, 0, 0]
바나나	[0, 1, 0]
포도	[0, 0, 1]

✅ 기본 개념

🔧 예제: 범주형 인코딩 + 스케일링

🧠 지원되는 주요 변환 함수

📌 참고 사항

🔍 예제: 날짜 파싱 및 로그 변환

✅ 1. 예측 정확도가 높다

✅ 2. 큰 오차가 적다

✅ 3. 모델이 과적합(Overfitting)되지 않았을 수 있다

❗주의할 점

🎯 Overfitting(오버핏)이란?

🚀 쉽게 예를 들면

🎯 One-hot Encoding이란?

예시

왜 필요한가요?

PyTorch / TensorFlow 코드 예시

Adaptive Layers란?

어디에 사용되나요?

Adaptive Layers의 주요 개념

예시 1: Transfer Learning에서의 Adaptive Layers

예시 2: Adapter Layers (구체적)

구체적으로 설명하면:

왜 이런 현상이 생기나?

예시

정리

RMSE란?

왜 쓰나요?

수식 (조금 수학적으로 보면)

🧠 1. **멀티모달(Multimodal)**의 “모달”

예:

🪟 2. **모달 윈도우(Modal Window)**의 “모달”

“모달 윈도우"란?

✅ 현재까지 공개된 수준에서는 “정식으로 완성된 모델"은 드뭅니다.

🔍 왜 어려운가?

1. 데이터 수집 및 전처리

(1) 데이터 수집

(2) 데이터 전처리

2. 특성(Feature) 엔지니어링

1. 하이퍼파라미터 vs 파라미터

2. 주요 하이퍼파라미터

1) 학습 관련 하이퍼파라미터

Image Sample

컨셉

requirements.txt

export 변수명

📌 자동화 편향의 주요 특징

🚨 자동화 편향의 예시

✅ 자동화 편향을 줄이는 방법

손실함수

Machine learning vs. Deep learning

Transfer model은 Deep learning model인가?

🧠 1. 멀티모달(Multimodal)의 “모달”

🪟 2. 모달 윈도우(Modal Window)의 “모달”