인공지능을 제대로 이해하려거든 물리학을 다시 공부하라.
이전 글에서 우리가 살고 있는 물리 세계와 마찬가지로 컴퓨터 프로그램/소프트웨어도 실제는 확률에 기반한 것이 아닐까?라는 의문을 제기했다. 한 보 더 나아가서 인공지능을 제대로 이해하고 연구하기 위해서는 물리학을 제대로 또는 다시 공부해야 한다는 주장을 펼치려 한다. 고등학교 물리 교과서에 나오는 영희가 500m 상공에서 1kg의 쇠구슬을 떨어뜨려 지면에 닿을 때 순간 속도와 운동 에너지를 구하라는 식의 문제를 풀기 위해 모든 법칙이나 수식을 다시 외우라는 얘기는 당연히 아니다. 지난 주일동안 줄곧 최소한 이공계 학문의 가장 기초는 물리학이고 그러니 물리학의 다양한 개념을 제대로 이해한다면 다른 분야, 특히 이 시리즈의 주제인 데이터 분석이나 인공지능 개발에도 도움이 될 거다라는 생각에서 벗어나지 못했다. 수학이 물리보다 더 기초 학문으로 볼 여지도 있으나 물리 (세상)을 설명/표현하기 위해서 수학이 만들어졌다는 논리가 더 맞을 듯하다. 긴 설명은 생략하고, (수학 —>) 물리 —> 화학 —> 생명/생물 —> 지구/지질 —> 천체 순으로 물질 또는 대상이 커지기 때문에 모든 과학의 기초 물리인 게 맞고, 공학으로 넓혀도 재료, 기계, 전기/전자, 화공 등은 모두 물리 또는 그 파생 학문의 파생이다. 컴퓨터공학 CSE도 폰 노이만으로 대표되는 물리학자에 의해서 만들어졌다는 건 이론의 여지가 없다. 요는 물리를 잘 알면 세상의 다른 것들을 이해하는데 많은 도움이 된다는 거다.
인공지능 AI 또는 기계학습 ML로 관점을 좁혀 보자. 이전 글에서도 밝혔듯이 광고 선택 알고리즘을 고민하다 보면 곳곳에서 — 완전히 일치하지는 않더라도 — 물리 (양자역학)의 향기를 곳곳에서 느끼게 된다. 하나의 광고 슬롯에 하나의 광고 소재만 노출되는 것은 양자역학의 배타원리와 닮았다. 하나의 광고 소재가 노출돼야지 사용자들이 그걸 클릭할지 말지가 결정되는 것은 마치 관측에 의해서 파동성을 상실한 입자의 모습이 연상된다. 슈뢰딩거의 고양이의 생사는 관측, 즉 노출 없이 확인할 수가 없다. 양자역학에서 가장 유명한 불확정성의 원리는 모델의 예측 정확도와 계산 시간의 관계를 잘 설명한다. 입자의 위치를 정확히 측정하면 그 속도가 불확실해지고 역으로 속도를 측정하면 위치가 모호해진다. 어려운 문제에서 인공지능 모델은 얼마나 더 정확히 질 수 있을까? 언어모델 LLM에서는 Chinchilla Scaling Law로 설명되듯 더 정확한 LLM은 더 큰 LLM이다. 어떤 상품을 추천했을 때 사용자가 그걸 구입할 확률을 정확히 계산할 수 있을까? 노이즈가 크게 없다는 가정 하에 가능한 모든 피쳐를 수집해서 모델을 만들면 매우 높은 정확도를 얻을 수 있다. 그런데 더 많은 피쳐를 사용할수록 모델이 더 커져서 그걸 계산하는 시간이 더 많이 필요하다. 그런데 time-out이 있는 실시간 서비스에서 무한의 여유가 없다. 서비스의 즉시성을 보장하기 위해서는 모델이 간단하고 작아야 한다. 그러면 예측 정확도가 낮아진다. 이게 인공지능/기계학습 모델의 예측/시간 불확정성이다. 더 많은 예시를 끊임없이 들 수 있다.
20여 년 전 대학원 시절이 생각난다. 당시에도 신경망 ANN을 다룬 책들이 많았다. 무턱대로 이걸 이해하려고 여러 번 시도했지만 그냥 현상적인 것만 익혔을 뿐 더 내밀한 비밀을 밝히지 못했다. 당시 책에서 제한된 볼츠만 머신 RBM이란 걸 봤는데 그림을 봐도, 수식을 봐도, 설명을 읽어도 ‘이게 뭔가?’라며 전혀 감도 잡지 못했다. 그런데 먼 훗날 이걸 뜨거운 입자에서 차가운 입자로 열이 전달되는 원리/모습/과정을 생각하니 책에 나온 RBM 구조와 수식이 왜 이렇게 나왔는지 비로소 이해하게 됐다. 물론 그걸 내 지식의 틀 안에 체계화했다는 의미는 아니다. 최근 LLM 때문에 언어모델 LM의 기원을 찾아가다 보니 Claude Shannon의 1948년도 논문 (A Mathematical Theory of Communication)에 이르렀다. 7쪽을 보고 적잖게 놀랐다. 클로드 새넌의 정보이론 Information Theory의 원류가 어디라고 생각하는가? 분류 Classification 문제를 다루면서 맨날 Cross-Entropy를 입에 달고 사는데 이게 어느 날 하늘에서 뚝 떨어진 개념이 아니다. 인공지능에 사용되는 소소한 많은 알고리즘들이 물리 세계를 모사하거나 설명하기 위해서 고안된 물리 개념을 다시 모사해서 만들어진 게 전혀 놀랍지도 않고 결코 우연도 아니다.
서두에 비약적으로 세상 모든 학문의 원류는 물리다라는 과장된 뉘앙스를 띄었지만, 최소한 인공지능을 좀 더 제대로 알고 싶은 분이라면 지금이 고등학교 물리 교과서를 다시 펼쳐 볼 좋은 타이밍이다. 그냥 누군가가 만들어놓은 소프트웨어 패키지나 라이브러리를 가져와서 현상적인 문제만 해결하려는 게 아니라 인공지능을 제대로 공부/연구하고 발전시키려는 이라면 물리를 다시 공부해 보는 것을 진지하게 고민해봐야 한다고 믿는다.