[라이프사이클]

  • Data: Data ingestion > Data analytics > Data engineering > to AI
  • AI: Model training > Model testing > Model deployment > to Data

[구분]

  • Predictive AI: 예측 AI
  • Generative AI: 생성형 AI

[Supervised vs. Unsupervised]

  • Supervised: Labeled data Classification: 사진에 나온 것이 고양이인지 개인지 구분. 로지스틱 회귀같은 것으로 해결 Regression: 숫자형 변수를 예측하는 회귀. 과거 판매를 바탕으로 제품 매출을 예측. 선형회귀 같은 것으로 해결.
  • Unsupervised: Unlabeled data Clustering. 비슷한 특성을 같는 데이터 포인트를 그룹화. 고객인구통계를 사용해 고객 세분화를 결정. k-평균 클러스터링 같은 것으로 해결. Association: 연결로 기본관계를 식별. 식료품 매장의 경우 두 제품의 상관관계를 파악하여 시너지 효과를 위해 서롭 가깝게 배치. 사용자는 연결 규칙 학습 기술, Apriori와 같은 알고리즘을 사용하여 연결문제 해결. Dimensionality reduction: 차원축소. 데이터 세트의 차원 또는 특성의 개수를 줄여 모델의 효율성을 향상. (예)연령, 교통 규정 위반 이력, 자동차 유형과 같은 고객 특성을 결합하여 보험 견적을 생성하는 것. 주요 구성요소 분석(principal component analysis) 같은 방식으로 해결.

위 분류를 기준으로 BigQuery에서 제공하는 모델을 선택하고, 데이터를 입력해서 바로 학습시킬수 있음. (예)구매예측.

  • 먼저 로지스틱 회귀, 선형 회귀와 같은 간단한 옵션으로 시작하고 그 결과를 벤치마크로 사용하여 학습과 배포에 더 많은 시간과 컴퓨팅 리소스가 소요되는 DNN, 즉 심층신경망과 같은 더욱 복잡한 모델과 비교하는 것이 좋음.

[BigQuery to Model]

  1. Extract, transform, and load data into BigQuery BigQuery에 데이터를 로드하는데 사용할 커넥터가 있는지 확인필요. SQL 조인을 사용하면 기존 데이터 웨어하우스에 다른 데이터 소스를 결합할 수 있음.

  2. Select and preprocess features. 특성을 선택하고 사전처리. SQL을 사용해 학습 데이터세트를 생성가능. BigQueryML은 범주형 변수의 원-핫 인코딩과 같은 전처리를 알아서 해줌.

  3. Create the module inside BigQuery CREATE MODEL ecommerce.classification

    OPTIONS( model_type=’logistic_reg’, input_label_cols=[‘will_buy_on_return_visit’] ) AS

  4. Evaluate the performance of the trained model SELECT roc_auc, accuracy, precision, recall FROM ML.EVALUATE(MODEL ecommerce.classification)

평가 데이터 세트를 기준으로 학습된 모델의 성능을 평가함. 정확성, 정밀도, 재현율 등 모델이 액세스할 평가 측정 항목을 지정하는 단계.

  1. Use the model to make predictions SELECT * FROM ML.PREDICT(MODEL ecommerce.classification) 모델 성능에 만족한다면 예측을 위해 방금 학습시킨 모델에 ML.PREDICT명령어를 호출하여 예측과 예측에 대한 모델의 신뢰도를 반환. 결과에서는 라벨 필드의 이름에 predicted가 추가됨.

[BigQuery ML]

  • Classification Logistic regression DNN classifier(Tensor Flow) XGBoost AutoML tables Wide and deep NNs
  • Regression Linear regression DNN regressor(Tensor Flow) XGBoost AutoML tables Wide and deep NNs
  • Other models k-means clustering Time series forecasting(ARIMA+) Recommdendation: matrix factorization Anomaly detection
  • ML Ops: ML 실험버전을 프로덕션으로 전환하고, ML모델의 배포, 모니터링, 관리를 도움. Importing TensorFlow models for batch prediction Exporting models from BigQuery ML for online prediction Hyperparameter tuning using Vertex AI Vizertodrkr

[AI development options]

  • Pre-trained API: 학습용 데이터가 없는 경우.
  • Vertex AI
  • AutoML
  • Custom training

[Pre-trained API]

  • 음성, 텍스트, 언어 API: Natural Language API. 선행 학습된 대규모 언어 모델을 사용해 텍스트에서 인사이트를 도출하고 문장에서 항목과 감정을 인식합니다.(항목, 감정, 문법, 카테고리라는 네 가지 분석 유형)
  • 이미지와 동영상 API의 경우 Vision API는 정적 이미지에서 콘텐츠를 인식하고 Video Intelligence API는 동영상에서 모션과 동작을 인식합니다.
  • 문서와 데이터의 경우 Document API는 텍스트 추출과 양식 파서와 같은 문서 처리 작업을 수행합니다. 대출, 계약, 조달, 신분 확인 문서 등의 특수한 사용 사례에서도 활용 가능.
  • 대화형 AI API의 경우 Dialogflow API는 대화형 인터페이스를 빌드함.

[Vertex AI]

  • 프로덕션과 사용 편의성 문제에 대한 Google의 솔루션이 Vertex AI임.
  • Vertex AI는 머신러닝 생태계와 워크플로의 모든 구성요소를 하나로 모든 통합 플랫폼임.
    1. Vertex AI가 데이터를 준비하고 시간 경과에 따라 대규모로 모델을 생성, 배포, 관리하는 엔드 투 엔드 ML 파이프라인을 제공한다는 것을 의미. 1.1. 데이터 준비단계. Cloud Storage. BugQuery. local machine.. 1.2. 특성 준비단계. 사용자가 특성. 즉, 모델에 입력할 처리된 데이터를 만든 다음 Feature Store를 사용하여 다른 사용자와 공유할 수 있음. 1.3. 학습과 하이퍼파리마터 조정. 사용자가 준비된 데이터를 바탕으로 여러 모델을 실험해 보고 하이퍼파라미터를 조정. 1.4. 배포와 모델 모니터링. 사용자는 자동으로 모니터링하고 지속적인 개선을 실행하여 모델을 프로덕션으로 전환하기 위한 파이프라인을 설정할 수 있음.
    2. 예측AI와 생성형AI를 모두 아우르는 통합 플랫폼. 2.1. 예측AI는 판매 예측과 분류를 가능하게 함. 2.2. 생성형AI는 멀티모달 콘텐츠를 만들 수 있게 해줌.
  • 노코드 솔루션인 AutoML이나 커스텀 학습으로 머신러닝 모델을 빌드할 수 있음. AutoML은 쉽게 탑색할 수 있는 UI를 제공. 이를 통해 데이터과학자는 ML솔루션의 코딩과 배포 방법보다 해결해야 하는 비지니스 문제에 집중. 커스텀학습은 데이터 과학자와 ML 엔지니어가 개발 환경과 프로세슬르 더 효과적으로 제어할 수 있으며, Vertex AI Workbench, Colab과 같은 도구를 사용하여 ML프로젝트를 직접 생성할 수 있음.

  • 4S Seamless 원활함 Scalable Sustainable 지속가능성 Speedy

[AutoML]

[Custom training]

Read Count