With AI, 새로운 게임의 시작.
역사는 지난 일주일을 MS 연합과 구글 동맹 간의 치열한 AI 전투로 기록할 것이다.
MS 연합에 속한 OpenAI는 ChatGPT 성공에 고무된 후 연이어 텍스트와 이미지를 함께 처리하는 multimodal의 GPT-4를 기습적으로 발표했다. MS는 이미 Bing 검색에 GPT-4를 활용 중임을 밝히며 지원 사격을 했고 동시에 Office 제품군을 중심으로 AI 기반 사무 자동화 기능 (Co-pilot)을 선보였다. Code Red 중 Bard로 반격을 꽤 한 Google은 유리한 고지를 탈환하지 못 한 채 그동안 꽁꽁 숨겨뒀던 PaLM을 API로 공개함과 동시에 MS 코파일럿과 같은 기능을 자사 Workspace에 통합함으로 확전 의지를 나타냈다. 뿐만 아니라, Anthropic은 자체 LLM인 Claude를 공개함으로써 구글의 반격에 화력을 더하는 추세다. 독립군 Meta도 LLaMA를 선보이며 잠시 존재감을 과시했으나 MS-구글 간의 AI 전투로 다시 수면 아래로 가라앉았다. 그 외에도 양진영은 그동안 축적한 다양한 무기 (연구 결과/논문)들을 선보이며 화력전을 계속 잇고 있다.
인류의 역사는 소위 혁명이란 마일스톤으로 정리된다. 수 천 년 전의 농업혁명은 혁명 1.0이었고, 수 백 년 전의 산업(공업) 혁명은 혁명 2.0이었고, 수 십 년 전의 컴퓨터의 등장으로 시작된 정보혁명은 혁명 3.0이었다. 이전에 다른 글에서 인터넷과 웹은 혁명 3.1이고 모바일로의 전환은 혁명 3.2라고 정의한 적이 있다. 그리고 수년 전 딥러닝과 알파고의 출현 후 현재는 아직은 혁명 4.0에서 이르지 못한 혁명 3.3 정도가 아닐까라고 막연히 정리했다. (Industry 4.0 또는 4차 산업이란 마케팅 용어로 이미 혁명 4.0을 지나고 있다고 생각할지 모르나 현재까지는 여전히 정보혁명의 하위에 속한다.) 그리고 최근 등장하는 각종 LLM과 생성형 AI를 비롯한 초거대 AI는 최소 혁명 3.5는 넘어섰고 어쩌면 진정한 혁명 4.0에 아주 가까워지는 변곡점을 지나고 있는지도 모른다. 어쩌면 미래의 역사가들이 GPT-4와 PaLM을 혁명 4.0의 시작이었다고 기록해도 크게 틀리지 않는다.
애플 키노트를 Live로 보지 않고 그저 기사나 블로그에 정리된 제품 목록만 확인했을 때는 별로 큰 감흥을 받지 못했다. 후에 녹화된 키노트 영상을 직접 찾아보거나 제품/서비스의 의미를 자세히 설명한 글/영상을 본 후에 큰 변화가 있었다는 걸 뒤늦게 깨닫곤 했다. 지난주의 MS와 구글의 발표도 직접 확인하지 못해서 별로 정신적 충격을 받지 않았다. 그런데 시간이 흐르면서 ’ 게임의 규칙이 바뀌고 있다‘라는 생각을 문득 들었다. 그런데 좀도 곰곰이 생각해 보니 게임의 규칙이 바뀌거나 그냥 새로운 판 (Round)이 시작된 게 아니라 완전히 새로운 게임이 시작된 것이 아닐까? 란 생각이 들었다. 비록 혁명 4.0까진 아니더라도 최소한 3.5는 넘어섰다. 인터넷과 모바일의 3.1과 3.2의 시기를 보내며 우리의 일상 삶은 많은 면에서 변했다. 지금은 오히려 (회사 밖의) 일상 삶에는 큰 변화를 느끼지 못할 수도 있지만, 최소한 업무 공간에서 만큼은 근원적 변화가 시작됐다. 수 백에서 수 십 년 전의 공장 노동자들이 기계와 로봇의 등장에 받았던 충격과 위협을 지금 사무실에 앉아있는 우리가 이제 경험하는 거다.
이런 새로운 혁명이 시작됐다 손치더라도 당장 수년 안에 인간이 스카이넷의 지배 하에 들어가는 것은 아니다. 이 글은 아직은 인간이 우위를 점하는 분야가 많이 남은 몇 년 간을 어떻게 인공지능과 함께, 즉 With AI 시대를 살아갈지에 관한 글이다.
이전 글에서 AI 시대를 살아남기 위해선 질문을 할 수 있어야 하고, AI가 내뱉은 답을 평가(검증)할 수 있어야 한다고 적었다. 새로운 기술들이 쏟아져 나올수록 이 생각은 더 확고하다. AI 시대에 AI를 활용하는 것을 간단히 아래와 같이 Functional Model로 도식화했다. 정식 IDEF0 모델과는 달리 ‘verify’ 부분을 조금 수정했다.
아직 우위가 있을 동안 AI를 잘 활용하기 위해서는 철저히 도구로 활용해야 한다. 물론 임계점 singularity를 넘은 어느 시점부터는 AI에 전적으로 모든 걸 맡기는 때가 올 수도 있지만, 지금부터 그런 의존성을 가지면 위험하다. 무언가 새로운 것을 창작할 때는 철저히 AI를 도구, 즉 메커니즘으로 활용하고 인풋과 컨트롤 (prompt)을 철저히 관리하고 또 AI가 만들어낸 결과물을 면밀히 검토해야 한다.
AI가 아무리 발전하더라도 틀릴 수 있다는 점을 늘 인지하고 인정해야 한다. 물론 인간도 틀릴 수 있다는 점도 잊어서는 안 된다. AI가 이상한 결과물을 만들어내는 Hallucination 현상은 현재 AI 또는 Language model의 특성상 당연하다. 이전 글에서 LM은 계속 다음에 올 단어를 확률적 stochastic으로 계산하는 것이고, LLM은 현재와 더 많은 이전 단어들 (콘텍스트)을 고려함으로써 좀 더 정확해진 것 이상도 이하도 아니다고 설명했다. AI 오답을 좀 더 다른 관점에서 본다면 크게 1) 모델의 문제와 2) 인간의 문제로 나뉠 수 있다. 모델 문제는 사용된 모델 아키텍처가 애초에 틀렸을 수도 있고, 학습에 사용된 데이터의 문제일 수도 있다. 그 외에도 학습 과정 중 오답을 만들어내는 모델이 만들어질 가능성이 다양하다. 다음 기회에 데이터 문제는 좀 더 자세히 다루겠다. 일단 AI 모델이 크게 틀리지 않다고 가정했을 때도 여전히 이상한 답변을 내놓는 것은 결국 인간이 AI를 잘못 사용했기 때문이다. 크게 애초에 틀린 질문 (e.g., 세종대왕 맥북 던짐)을 했기 때문이거나 잘못되거나 빈약한 콘텍스트 (Constraints, Prompt)를 제공했기 때문이다. 바른 질문에도 틀린 답을 얻을 수 있는데, 하물며 틀린 질문에 바른 답을 기대하는 것은 무리다. 질문이 틀리지 않은데도 답이 기대치를 못 미친다면 좀 더 정확한 콘텍스트를 제공함으로써 원하던 품질의 답을 유도할 수 있다. 마지막으로 모델도 맞고 질문에도 오류가 없더라도 항상 결과를 두 번, 세 번 체크하는 노력을 들임으로 조금의 오류도 막을 수 있다.
사람마다 AI를 활용하는 유즈케이스나 방법이 모두 다를 거다. 바라건대 아직은 답을 알고 있는 또는 검증가능할 때만 활용했으면 한다. 예를 들어, 외국어에 완전 문외한이 아니라면 번역의 결과는 검증할 수 있다. 문장을 교정하거나 다른 표현으로 바꿀 때도 결과의 진의는 확인할 수 있다. 이럴 때는 LLM을 잘 활용할 수 있지만, 애초에 모르는 분야에서 의심 없이 AI에 의존하지는 않길 바란다. (애초 구상보다 글이 많이 짧아져서 의도가 제대로 전달되지 않았을 수도 있다. 필요한 부분은 기회를 봐서 더 보강할 예정이다.)