Data Dredging

2025-04-29 13:19:02 +0900

2025 · data · data

좋은 질문입니다.
“Data Dredging”(데이터 채굴, 또는 p-hacking)은 통계와 데이터 과학에서 아주 위험한 오류이자 비윤리적인 실수 중 하나입니다.

📌 Data Dredging이란?

Data Dredging이란,
의미 있는 결과를 찾기 위해 데이터를 반복적으로 분석해서 우연히 나온 통계적 유의성을 발견하는 행위입니다.

즉,

원래 가설도 없이
데이터 안에서 아무 의미나 찾아보려다
우연히 나오는 “그럴듯한” 결과에 의미를 부여하는 것.

🎯 왜 문제가 될까?

문제점	설명
🎲 우연한 발견	수많은 분석 중 일부는 단순히 우연히 유의하게 나올 수 있음
📈 잘못된 인사이트	실제로는 관련이 없는 변수 사이에 잘못된 관계가 발견됨
💥 재현 불가	다른 데이터셋에서는 다시 같은 결과가 안 나옴
📉 모델 과적합 위험	학습 데이터에만 맞춘 결과 → 일반화 성능 저하

🧪 예시

예를 들어:

100개의 변수에 대해 각각 통계 검정을 한다면,
유의수준이 0.05일 때, 이론적으로 5개는 그냥 우연히도 p < 0.05가 나올 수 있습니다.
이걸 보고 “의미 있는 관계 발견!” 이라고 결론 내면 → 완전한 데이터 덫(p-hacking)

🛡️ 방지 방법

방법	설명
사전에 가설 설정	분석 전에 어떤 관계를 검증할지 미리 정의
Multiple Testing 보정	Bonferroni, FDR 등 유의수준을 보정
Hold-out set 사용	탐색과 검증을 분리해서 사용
재현성 강조	결과가 다른 데이터셋에서도 반복되는지 확인

🤔 Data Dredging vs Exploratory Data Analysis (EDA)

EDA는 탐색이고,
Data Dredging은 통계적으로 “그럴듯한 거짓”을 찾아내는 것입니다.

EDA는 조심스럽게 패턴을 찾는 과정이고,
Data Dredging은 확증편향을 갖고 우연한 결과를 진실처럼 포장하는 것입니다.

✨ 한 문장 요약

Data Dredging은 원래 가설 없이 데이터를 마구 뒤져서, 우연히 나온 통계적으로 유의한 결과를 과신하는 오류다.

📚 추가로 궁금할 수 있는 것

p-value의 남용
reproducibility (재현 가능성) 문제
data snooping과의 차이

필요하시면 “Data Dredging을 막기 위한 실무 전략”도 정리해 드릴게요!

혹시 실제 p-hacking 예시 (Python 실습 코드 or 그래프)도 보고 싶으신가요?

Read Count

Enjoy Reading This Article?

Here are some more articles you might like to read next:

CREATE_MODEL 진행상태 확인

ML.FEATURE_CROSS

Principal Component Analysis (PCA)

Bucketized Feature + Crossed Feature