본문 바로가기

DM ML AD

Regularization: 복잡도를 다스리는 법

개인적으로 전문용어가 어색하게 한글화되는 것을 별로 좋아하지 않는데, regularization도 그런 경우에 속합니다. 적당한 한글 용어를 찾기가 어렵습니다. 인터넷에 검색해보면 '규제화'라고 번역한 경우를 봤는데 페널티로 모델 복잡도를 제어하는 방식에는 유효하지만 다른 방식에는 조금 어색한 표현입니다. '일반화'는 그냥 generalization를 번역한 것 같지만 또 한편으론 학습오류와 테스트오류를 합친 generalization error를 줄인다는 의미처럼 보여서 나름 합당한 면이 있습니다. '정규화'라고 번역한 경우도 있는데 개발자들이 많이 사용하는 regular expression을 정규식이라고 부르니 정규화도 타당한 번역이지만 데이터를 정규 분포를 따르도록 만드는 normalization, 특히 N(0, 1) 분포로 만드는 standardization을 뜻하는 것 같은 느낌이 강합니다. 적당한 한글 용어가 뭔지는 모르겠지만 이번 글에서는 regularization을 다루려고 합니다.

Occam's Razor (오캄의 면도날)라는 유명한 관용구가 있습니다. 일반인들에게는 조디 포스터가 출연한 <콘택트>라는 영화에 언급되면서 유명해진 용어입니다 (물론 일반인들은 인식하지 못하고 놓쳤을 가능성이 높겠지만...). 어떤 현상을 설명하는 두개이상의 주장이 있다면 간단한 쪽을 선택하라, 즉 복잡한 것을 잘라내라는 의미입니다. 다른 많은 분야에서 유용한 원칙이듯이 기계학습에서도 매우 중요한 원칙입니다. 예를 들어, y = ax + b정도의 몇 개의 변수와 간단한 선형식으로 표현이 가능하다면 굳이 더 많은 변수와 다항식이나 log, exp 등의 복잡한 항을 추가하지 않는 것이 바람직합니다. 그렇지만 적은 변수와 간단한 수식으로 표현이 불가능하다면 더 많은 변수와 다양한 표현력을 가진 항을 추가해서 모델의 설명도를 높여야 합니다. 하지만 충분한 설명도를 가지는 모델을 더 이상의 개선없이 복잡하게 만드는 것은 지양해야 합니다.

이런 상황에서 보통 등장하는 이슈가 'bias vs variance', 'training error vs test error', 또는 'underfitting vs overfitting' 논쟁입니다. 세가지가 모두 다른 것을 나타내지만 또 결국 하나로 귀결합니다. 모델이 얼마나 심플하면서 설명력이 있는가의 이슈입니다. 보통 편차bias가 낮은 모델은 학습오류가 낮고 overfitting됐을 가능성이 높고, 역으로 분산variance가 낮은 모델은 학습오류는 다소 높더라도 테스트오류가 낮고 덜 overfitting된 경우입니다. Underfitting인 경우에는 학습오류과 테스트오류가 비슷하겠지만 둘다 일정 수준 이상으로 높을 가능성이 많고 특별한 경우가 아니면 평균과 분산 모두 높을 가능성이 있습니다. 어쨌든 기계학습에서 편차와 분산, 학습과 테스트 오류, 피팅(학습)의 정도를 따지는 것은 너무 복잡하지 않으면서 설명도가 좋은 (낮은 평균과 분산, 작은 학습 및 테스트 오류) 모델을 찾겠다는 의지(?)입니다. 비슷한 성능을 보이는 모델이라면 구조가 간단한 것이 일반적으로 generalization error가 더 적을 가능성이 큽니다. 그리고 그런 모델을 찾는 것이 오캄의 면도날이자 기계학습자들의 목표입니다.

이렇게 모델의 설명도를 유지하면서 모델의 복잡도를 줄이는 것이 regularization이라고 보면 됩니다. 아래에는 일반적인 복잡도를 다스리는 regularization 방식에 대해서 간단히 설명하려 합니다.

1. Early stopping
모델이 복잡해지기 전에 막겠다는 것입니다. 즉, 모델을 만드는 초기 단계부터 계속 검증하면서 모델이 급격하게 복잡해지는 것을 막는 것입니다. 기계학습에서 보통 전체 데이터를 학습데이터 training data와 테스트데이터 test data로 나눠서, 학습데이터로 모델을 학습시키고 테스트 데이터로 학습된 모델을 평가합니다. 하지만 early stopping에서는 전체 데이터를 학습데이터, 검증데이터 validation data, 테스트데이터로 나눕니다. 학습데이터로 모델을 학습시킨 후에 검증데이터로 모델이 너무 복잡한지를 계속 체크하면서 검증데이터의 분산을 낮게 유지시킵니다. 그렇게 학습 및 검증된 모델을 최종적으로 테스트데이터로 모델의 예측력을 평가합니다. 하지만 이 방법의 문제라면 학습, 검증, 평가 데이터로 3등분(보통 7:2:1정도)해야 하기 때문에 데이터량이 조금더 많아야 합니다. 데이터량이 많아서 3등분하더라도 어떻게 나뉘느냐에 따라서 최종 모델의 예측력에 편차가 생길 수 있습니다. 어쨌든 모델을 만드는 초기부터 다양한 반례를 들어가면서 모델이 한쪽으로 치우치지 않도록 만드는 방법입니다.

2. Noisy input
Early stopping에서는 데이터를 3등분할만큼 충분해야 한다는 조건이 있습니다. 하지만 정답이 있는 데이터는 늘 부족합니다. 기계학습 발전 방향의 한축은 부족한 데이터를 극복하는 거였습니다. Bootstrap으로 랜덤 샘플링으로 cross-validation하는 것도 방법이지만, 가용한 데이터에 일부러 노이즈를 줘서 다양한 데이터로 뻥튀기하는 방법도 있습니다. 정답(Y)가 있는 데이터(X)에 약간의 노이즈를 붙여서 X'를 만들었을 때, 노이즈가 크지 않다면 X'의 답은 여전히 Y입니다. 이미지 데이터가 인풋이라면 이미지의 전체 중에서 일부만 crop한다거나 상하좌우로 뒤틀리게 만든다거나 역전 및 회전시킬 수도 있고, 이미지 전체에 랜덤 노이지를 추가할 수 있습니다. 이미지 데이터가 조금 손상됐지만 여전히 그 이미지가 가리키는 객체에는 변함이 없습니다. 이렇게 다양하고 풍성한 noisy 학습데이터(인풋스페이스)로 학습을 시키면 더 전체 데이터로 학습시키는 것과 비슷한 효과를 주게 됩니다. 신생아를 해롭지 않은 세균에 노출시켜서 면역력을 키우는 것과 같은 원리입니다. 하지만 오답 또는 오분류되는 샘플이 뻥튀기됐다면...
 
3. drop-out
복잡한 모델에서 일부 파라메터를 의도적으로 제거하는 방법도 있습니다. 변수가 100개인데, 학습할 때마다 일부 변수의 학습데이터에 null값을 준다거나 일부 모델 파라메터를 0으로 강제하는 방식입니다. 즉, 특정 변수나 일부 파라메터가 없더라도 모델 전체의 설명력은 떨어지지 않도록 학습시키는 것입니다. 인공망에서 일부 은닉층의 몇몇 노드를 불용화해서 다른 남은 노드들만으로도 괜찮은 결과를 만들어내도록 의도적으로 모델을 불구로 만드는 것입니다. (좋은 비유는 아니지만) 100명이 해야할 일을 일부러 평소에 가끔 90명에게 주고 훈련시켜서 갑작스레 몇 명의 결원이 발생해도 시스템은 정상적으로 작동하게 만드는 것과 비슷합니다. 단점이라면 여러 drop-out 조건에서 모델을 학습시켜야 하므로 학습에 소요되는 회수/시간이 늘어난다는 점입니다. 적당히 작은 모델이면 큰 문제가 아니지만 수백 수천대의 컴퓨터를 이용해서 며칠동안 학습시켜야하는 크고 복잡한 모델이라면 모델링 비용이 만만치가 않을 것입니다.

4. 복잡도 패널티
가장 많이 사용하는 방법으로 복잡도에 페널티를 주는 것입니다. 즉, 모델이 복잡해질수록 페널티가 커져서 목적식 loss function이 다시 커지도록 만드는 것입니다. 학습 효과가 페널티 때문에 다시 커지지 않는 범위까지 학습을 시키는 것입니다. 기계학습을 공부하면 L1 regularization과 L2 regularization이라는 용어가 종종 등장하는데, 이것이 모델 복잡도에 대한 페널티를 부여하는 것입니다. 회귀분석 regression에서 L1은 계수의 절대값의 합을 페널티로 제공하는 Lasso regression이고 L2는 계수의 제곱의 합을 페널티로 부여하는 ridge regression이 있습니다. 이런 shrinkage 방식으로 모델을 단순하게 만듭니다. 새로운 변수나 파라메터가 추가될수록 페널티가 커지기 때문에 무제한 늘리지 않는 선에서 모델 복잡도를 결정하게 됩니다. 참고로, 보통의 경우 미분가능 등의 이유로 제곱항을 많이 사용하지만, regression에서 절대값을 사용한 lasso는 때론 feature selection이라는 부가 효과도 있습니다. 

5. Pruning 및 feature selection
이걸 regularization이라고 부르는 것이 맞을지는 살짝 고민되지만, 불필요한 복잡한 가지나 변수 등을 쳐냄으로써 모델의 복잡도를 관리하는 것이니 포함합니다. Pruning은 보통 decision tree에서 많이 사용하는 방식입니다. 즉, decision tree를 100% 분류하도록 leaf node까지 모두 만들면 tree가 매우 커고 복잡해집니다. 그래서 오분류가 별로 크지 않는 선에서 중간 node로 합쳐서 아래쪽의 가지들을 쳐내는 방식입니다. 다른 모델에서도 feature selection 방식을 통해서 불필요한 또는 덜 중요한 변수들을 제거해서 모델을 만듦으로써 모델의 설명도를 어느정도 유지하면서 심플하게 만드는 것입니다.

6. Ensemble 
이건 regularization 방식은 아니지만, 복잡도를 다루는 한 방식이기 때문에 함께 적습니다. 위에서는 모두 복잡도를 줄이는 방식을 설명했는데, 앙상블은 오히려 복잡도를 더 증가시키는 방식입니다. 복잡도를 증가시켜서 복잡도를 낮춘다는 좀 아이러니한 방식입니다. 앙상블은 여러 모델을 만들어 합쳐서 하나의 큰 모델을 만드는 방식입니다. 배깅 bagging이나 부스팅 boosting도 큰 틀에서 앙상블이라 볼 수 있습니다. 앙상블은 개별 모델은 복잡해서 특수한 케이스에 대해서 틀릴 수도 있지만 여러/많은 모델들이 합의해서 결론을 짓기 때문에 틀릴 가능성을 낮추는 것입니다. 개인은 틀려도 집단은 틀리지 않는 일종의 집단지성입니다. 실제 decision tree를 배깅한 random forrest가 classification에서 state-of-the-art가 된 것은 우연이 아닙니다. 그리고 요즘 가장 핫한 deep learning도 매우 많은 선형/비선형 regression을 스태킹 및 앙상블한 것입니다. 모델의 복잡도를 잡는다는 것은 예상치 못한 실패를 막겠다는 것인데, 일부가 실패하더라도 더 많은 나머지가 실패하지 않으리라는 믿음이 앙상블을 만듭니다. 개별 모델의 복잡도는 잡는 것이 아니라 많은 모델을 이용함으로써 개별 모델의 복잡도를 무시하는 것입니다. 하지만, 앙상블의 개별 모델 및 전체 모델도 위에서 설명한 다양한 방식으로 regularization합니다. Deep learning에서도 모델의 강건성 robustness를 높이기 위해서 drop-out하면서 학습시키거나 의도적으로 노이즈를 준 adversarial sample을 이용해서 학습시키는 등의 regularization에 대한 여러 연구가 있습니다.

또 다른 방법들이 더 있겠죠...

Regularization이 모델을 깔금하게 만들면서 일반 오류 (학습오류 + 테스트오류)를 줄이는 좋은 방법입니다. 하지만 이것도 data-poor 시대의 유물이기도 합니다. 최적화 문제에서 가능한 모든 공간을 빠른 시간 내에 탐색할 수 있다면 -- 현실적으로 불가능하지만 -- 복잡한 최적화 알고리즘이 필요없습니다. 학습데이터가 표본 샘플이 아니라 전체 population이라면 오버피팅되는 것에 문제가 없습니다. 어차피 테스트할 샘플도 이미 학습데이터에 포함됐을 것입니다. 앞서 일부러 노이즈 데이터를 만들어내서 모델의 강건성을 높인다고 했듯이 전체 스페이스를 커버할 수 있는 데이터가 있다면 regularization이 필요없습니다. 데이터 디멘즌과 사이즈가 다르면 경험적 직관과 달라질 수 있습니다. 그럼에도 generalization error를 최소화하도록 모델을 regularize하는 것이 여전히 필요합니다.

Regularization를 뜻하는 가장 좋은 한글 용어가 뭔지는 여전히 모르겠으나 현재 문제가 변수 한두개로 해결되는 선형 문제가 아니라면 이 부분에 대해서 미리 공부해두는 것이 좋습니다. 

===

반응형