본문 바로가기

LLM

(6)
AI 검색의 구조적 이해 늘 그렇듯 어쩌다 AI 검색을 짧게 조사하게 됐다. 내가 관심 있는 부분은 과연 AI 검색은 시스템 구조상으로 기존 키워드 검색과 어떻게 다른지를 확인하고 싶었다. AI 검색에 관한 긴 설명과 장단점을 나열한 소개글은 많았지만 보고 싶었던 구조적 차이를 설명하는 그림과 글은 찾을 수 없었다. 없으면 직접 만드는/그리는 것이 공돌이의 숙명이기에 아는 범위 내에서 최대한 간략히 두 시스템을 비교하는 그림을 아래와 같이 그렸다. 한때 검색 분야에서 살짝 발을 담갔지만 AI 검색은 거의 문외한이기 때문에 아래의 그림과 설명이 실제와 다를 수 있음을 미리 밝힌다.ChatGPT가 나온 후로 AI가 검색을 변혁시킨다는 주장을 별로 대수롭지 않게 생각했다. 그냥 기존에 검색을 장악한 구글이 잘할 거라 생각했다. Per..
LLM 왕국에서의 2년 Two Years in LLM 언어모델 (Language Model)이란 개념이 등장한 지도 이미 반세기가 지났고 현대적 LM을 알린 Transformer 논문이 나온 지도 이미 7년이 지났지만, 오늘날의 LLM은 ChatGPT가 대중에 공개된 2022년 11월, 즉 겨우 2년 미만의 시간이 지났다. 어쩌다 보니 작년 초부터 LLM을 중심으로 AI 기술의 발전을 매달 정리해서 발표했는데, 이번에는 전체 팀원을 대상으로 지난 8, 9월의 트렌드를 소개하게 됐다. 몇 명의 새로운 멤버가 세미나에 참석할지는 모르겠으나 지난 1년 반 동안의 발표를 놓친 이들에게 8월에는 이런 서비스가 출시했고 9월에는 이런 논문이 나왔어요라고 발표하기에는 무리가 있어서 지난 2년 간의 LLM/AI 연구를 한 장에 정리했다. 요즘은 학계 연구보다는 산업계의 ..
가능성의 함정 인공지능 (AI)의 가장 큰 문제점은 무엇일까? 이전까지는 모르겠으나, ChatGPT 이후로는 Hallucination (또는 Confabulation)이라고 가장 많이 답변할 거라고 추측한다. 특히 검색과 연계하면서 거짓말하는 AI는 상상하기 어렵다. 검색이 아니더라도 내 편하고자 이용하는 AI인데 내가 원하는 답변과 전혀 다른 엉뚱한 결과만 내놓는다면 실망할 게 뻔하다. 하지만 AI를 어떤 용도로 사용하느냐에 따라서 Hallucination이 별로 문제가 되지 않기도 한다. 초소 LLM에 한정해서 개인적으로 내린 결론은 AI는 확인 (Confirmation)과 확장 (Expansion)에 사용하고, 그 외의 분야에 적용할 때는 주의를 기울여야 한다고 본다. 확인은 내가 이미 알고 있는 것에 관한 것이..
요즘 AI (LLM) ** 본문에 포함된 일부 용어는 학계/산업계의 일반 용례와 달리 편의를 위해 임의로 명명했으니 주의하기 바람. 4월부터 Arxiv 등에 올라오는 웬만한 언어모델 (LM, Language Model) 관련 논문은 following 하고 있다. 허깅페이스 (https://huggingface.co/papers)와 https://paperswithcode.com/에 새로 올라오는 논문들을 우선 확인하고, 때론 arxiv에 직접 접속해서 AI 관련 논문을 빠르게 확인한다. 우선 제목을 보고 논문의 주제를 대략 파악하지만, 제목만으로 이해하기 어려운 경우에는 초록 abstract을 읽거나 본문의 architecture나 overview 그림을 확인한다. 필요한 경우 실험 세팅과 결과도 확인하지만, 대부분 자신들의..
With AI, 새로운 게임의 시작. 역사는 지난 일주일을 MS 연합과 구글 동맹 간의 치열한 AI 전투로 기록할 것이다.MS 연합에 속한 OpenAI는 ChatGPT 성공에 고무된 후 연이어 텍스트와 이미지를 함께 처리하는 multimodal의 GPT-4를 기습적으로 발표했다. MS는 이미 Bing 검색에 GPT-4를 활용 중임을 밝히며 지원 사격을 했고 동시에 Office 제품군을 중심으로 AI 기반 사무 자동화 기능 (Co-pilot)을 선보였다. Code Red 중 Bard로 반격을 꽤 한 Google은 유리한 고지를 탈환하지 못 한 채 그동안 꽁꽁 숨겨뒀던 PaLM을 API로 공개함과 동시에 MS 코파일럿과 같은 기능을 자사 Workspace에 통합함으로 확전 의지를 나타냈다. 뿐만 아니라, Anthropic은 자체 LLM인 Cla..
LLM은 왜/어떻게 작동하는가? 제목을 더 자극적으로 ‘ChatGPT는 왜 동작하는가?”로 할 수도 있지만 어차피 ChatGPT도 한 때고 새로운 LM이 나와서 이번이 진짜 AGI다라고 또 주장할 테니 중립적으로 LM은 어떻게 동작하고 왜 LLM이 작동하는가라고 정했다. 이 글은 기술적으로 LM이나 GPT/LaMDA 등을 다루지 않고, 단지 일반 독자의 이해를 돕기 위한 글이다. 개념적으로 설명한 것이니 기술적으로 완전히 틀렸을 수도 있다. Wikipedia는 Language Model (LM, 언어모델)을 ‘a probability distribution over sequences of words’라고 정의한다. 이를 좀 쉽게 설명하면 어떤 단어 (또는 문장)이 주어지면 바로 다음에 올 단어(의 확률)를 예측하는 거다. ‘I am a..