본문 바로가기

ANOVA

(2)
과학적 방법과 실험 설계 과학 이론을 정립하는 과정/방법은 크게 반복되는 관찰을 일반화해서 이론을 만드는 귀납법과 사고실험으로 구축된 이론을 가설검증과 재현실험을 통해서 확인하는 연역법이 있다. 그래서 지난 글에서 과학 또는 과학적 방법은 재현성과 반복성에 있다고 적었다. 오늘은 실험에 대해서 좀더 자세히 적으려 한다. 가설검증에서 자주 등장하는 개념이 '통계적 유의성 significant'이다. 이는 관측된 데이터가 어떤 분포를 따른다고 가정했을 때 두 분포가 통계적으로 같지 않음을 확인한다. 흔히 정규분포 (가우시안분포, N)를 따른다고 가정하고 자주 들었던 p-value라는 게 등장한다. 최근 들어 p-value에 대한 회의론이 많기는 하지만 여전히 과학적 방법 또는 통계적 유의성을 판별하는데 p-value는 (강력한) 필..
테스트 및 평가 자동화 지난 글 '데이터 문제 접근하기'에서 마지막 단계인 테스트가 중요하다고 적었습니다. 테스트와 관련해서 팀내에 공유했던 글이 있어서, 블로그/일반에 맞게 조금 수정해서 올립니다.=== 최근 구글의 데이터 사이언스에서 개설한 Unofficial Google Data Science 블로그에 가장 최근에 올라온 Experiment Design and Modeling for Long-term Studies in Ads의 주요 논문과 이 논문에 엮인 참조논문들을 보면서 (모든 논문을 제대로 읽은 것은 아님^^) (온라인) 테스트를 이해하는 도움글이 필요할 것같아서 간단히 글을 남깁니다. Focus on the Long-Term: It's better for Users and BusinessOverlapping Ex..