본문 바로가기

Gos&Op

제4의 컨텍스트 '나' The Context of ME

 나름 검색일을 하면서 검색에서 가장 중요한 것은 사용자들이 찾고자 하는 키워드와 그런 사용자의 니즈와 의도에 맞는 정보/컨텐츠/문서다. 그런데, 이 블로그에서는 그런 컨텐츠의 중요성보다는 그런 정보를 둘러싸고 있는 컨텍스트/문맥의 중요성을 더 자주 언급하고 있다. 컨텐츠는 너무 명확하기 때문에 굳이 재차 강조할 필요가 없는 것도 하나의 이유지만, 그것보다는 요즘은 진짜 컨텐츠보다는 컨텍스트가 더 중요하다고 느끼기 때문이기도 하다. 앞으로도 여전히 컨텍스트가 컨텐츠의 부가정보 역할만을 할지도 모르겠지만, 컨텍스트에 대한 더 심도깊은 연구가 없다면 범람하는 수많은 컨텐츠들은 소위 모래 위에 세운 성이 될 것이다. 컨텍스트를 얘개하면서 늘 삼간 (三間), 즉 시간, 공간, 인간이 마치 모든 컨텍스트의 전부인 것처럼 얘기했다. 실제 요즘의 많은 서비스들이 이들 삼간의 범위에서 벗어나는 경우를 못 본 것도 있고, 더 이상의 컨텍스트를 찾기도 어려웠다. 그런데, 이런 3가지 간(間)자 컨텍스트보다 더 중요한 컨텍스트 정보가 있다는 것을 너무 늦게 깨달았다. 제목에서는 제 4의 컨텍스트라고 적었지만, 실제는 제 0의 컨텍스트가 더 적합한 표현인 것같다. 그래도, 편의상 시간 공간 인간을 제 1, 2, 3 컨텍스트라고 칭했기에 네번째 발견된 컨텍스트란 의미에서 제 4의 컨텍스트라고 표현했다.

 컨텍스트 정보가 컨텐츠만큼의 중요도를 가지기 시작한 것은 궁극적으로 개인화 Personalization 때문이다. 내가 지금 숨쉬고 있는 이 시간, 내가 누리고 있는 이 공간, 그리고 나와 관계를 맺고 있는 인간 (순화시켜서 '친구/지인'이라고 해야하겠지만, 그냥 편의상 인간이라 하자.)이라는 주변정보가 나를 설명해주고 있다. 나..라는 존재는 언제 어디서 누구와에 의해서 정의되는 것같다. 그런데, 그런 주변 정보에 집중을 하다보니 '나'라는 그 본질에 대한 인식을 놓쳐버린 것같다. 지금 이 시간이 나를 투영하지 못하고, 내가 살고 있는 곳이 내 정체성을 보여주지 못하고, 나와 관계를 맺는 그들이 나를 설명해주지 못한다. 단지 조금 도와줄뿐이다. 결국 나를 정의하기 위해서는 바로 '나'를 제대로 살펴봐야 한다. 그런데, '나'를 관찰한다는 것이 어떨 의미일까? '나'를 어떻게 컨텍스트 정보로 활용할 것인가? 참 어려울 수도 있지만, 여러 쉬운 방법들도 분명 있다. 바로 '역사'가 나의 나됨을 설명해준다.

 History... 아니, Mystory라고 부르는 것이 더 적합하겠다. 내가 이제껏 어떤 일을 했는지, 즉 나의 관심사가 뭔지를 명시화할 수 있다면 바로 '나'라는 컨텍스트 정보를 얻을 수 있다. 그런데, 인터넷 시대에 나에 대한 많은 히스토리를 모을 수 있다. 바로, 내가 인터넷 검색창에 입력한 수많은 키워드들이 내가 어떤 정보에 관심을 가졌고, 반응을 했는지 알려준다. 그리고, 검색한 결과에서 내가 클릭해서 읽은 많은 문서들이 내가 어떤 정보에 관심이 있는지 말해준다. 그리고, 내가 트위터나 블로그 등에서 적었던 많은 글들이 내가 어떤 것에 관심이 있는지 말해준다. 내가 지금 적고 있는 이 글을 통해서도 나는 컨텐츠나 컨텍스트 등과 같은 것에 관심이 있다는 것을 말해주고 있다. 우리가 행한 인터넷/온라인에서의 모든 행위들이 나를 투영해주고 있다. 물론, 여기에 기존의 시간, 공간, 인간의 정보가 더 결합되면 더더욱 나에 대해서 완전한 아바타를 만들어줄지도 모르겠다. (참고. 이젠 컨텍스트 Context에 집중하자. 컨텐츠 Content는 항상 컨텍스트 안에서 정의된다.)

 벌써 사용화되어서 사용되고 있는지는 모르겠지만, 몇몇 검색과 관련된 논문에서 나의 과거 검색 히스토리를 이용해서 검색의 개인화를 이루려던 시도가 있었다. 평소에 내가 자주 찾거나 반응했던 정보의 카테고리에 맞는 검색결과를 먼저 노출시켜주는 것이다. 예를들면, 'java'라는 키워드에 대해서 컴퓨터 프로그래밍 언어를 떠오를 수도 있고, 자바커피가 생각날 수도 있고, 아니면 인도네시아 자바섬이 연상될 수도 있다. 그런데, 내가 다음이라는 인터넷 회사에 다니고 있고 평소에 프로그래밍에 대한 키워드를 자주 사용했다는 것을 알고 있다면, (똑똑한) 검색엔진이라면 내가 'java'라는 키워드를 입력했을 때 나에게 먼저 프로그래밍과 관련된 결과들을 보여줄 것이다. 이것이 일종의 검색히스토리를 이용한 검색개인화의 한가지 방법이다. 물론, 맹점은 내가 갑자기 커피에 관심이 생겼다거나 인도네시아로 여행을 가고 싶어서 java를 입력했는데도, 여전히 프로그래밍관련 정보/문서들만 보여줄 수도 있다는 심각한 결점을 가지고 있다. 그렇기 때문에 단순히 검색히스토리뿐만 아니라, 시공인의 다른 컨텍스트 정보와 통합을 이룰 필요가 있다. 예를들어, 평일 업무시간이 아닌 점심/저녁시간에 java를 검색을 한다거나 주말 또는 바캉스 시즌을 앞둔 시점에 java를 검색하는 경우, 또는 인도네시아 현지에서 java를 검색하는 경우 등에 대해서는 프로그래밍보다는 커피나 자바섬에 대한 정보에 우선순위를 두는 등의 더 진화된 개인화검색엔진도 상상해볼 수가 있다.

 또 다른 것으로 사람들이 트위터나 블로그에 올린 많은 글들에서 핵심되는 키워드들을 추려낼 수가 있다. 텍스트마이닝에서 보통 사용하는 TF/IDF (Term Frequency / Inverse Document Frequency)라는 Vector Space Model을 활용하면 쉽게 개인마다 관심이 있는 또는 전문성이 있는 키워드를 발라낼 수가 있다. 이렇게 저자/개인마다 관심키워드를 추출해서 매핑시켜준다면, 향후에 특정 주제/키워드에 관심/전문성이 있는 이들을 쉽게 찾아줄 수가 있다. 또는 특정 키워드에 대해서 무수한 문서들을 마구잡이로 보여줄 것이 아니라, 입력된 키워드에 전문성을 가진 저자가 작성한 글들을 먼저 보여주는 방법을 취할 수도 있다. (참고. 소셜검색 (1)소셜검색 (2)소셜검색 (3)) 지금 다음검색의 소셜웹검색에서 개인ID로 검색을 한 경우 보여주는 관심키워드가 이와 유사한 방식으로 보여주고 있다. (자세한 알고리즘을 모두 말할 수는 없지만, 실제는 제가 말하려는 전문성이나 관심에 대한 명확한 예제는 아니다. 왜냐하면, 전문성/관심보다는 실시간성에 대해서 너무 큰 가중치가 들어간 키워드들이기 때문에, 실제 개인의 관심/전문성을 말하기에는 문제가 있다.) 그런데, 이런 실시간 관심키워드를 더 오랜 시간을 두고 수집을 하거나 아니면 그/그녀가 작성한 다른 모든 문서들을 수집/분석을 한다면 분명 그/그녀의 관심/전문성이 반영된 키워드세트를 쉽게 모을 수가 있다. 실제, 실서비스화는 못 시켰지만, 나름 토이문제로 나 자신에 대해서 내가 작성한 모든 블로그글/트윗을 분석해서 키워드를 뽑은 결과, 트위터, 애플, 제주도, 아이패드, 다음검색 등과 같이 제가 평소에 자주 사용하고 관심을 가졌던 분야에 대한 키워드세트를 만들 수가 있었다.

 좀 더 무섭게 들어간다면... 내가 이제껏 쇼핑몰에서 구경했던 모든 상품 및 구매했던 상품들에 대한 히스토리를 통해서 나의 관심사를 파악해서 내가 관심을 가질 법한 상품에 대한 광고를 계속 보여줄 수도 있다. 많은 회사들이 이걸 하고 싶어 한다. 그러나, 개인정보/프라이버시라는 법적인 허용범위를 벗어난 서비스에 대한 부담 때문에 제대로 하지 못하는 경우가 대부분이다. 그리고, 최근에 이슈가 된 스마트폰들이 개인정보 - 나이, 성별, 위치, 개인식별ID 등을 사용자동의없이 수집하는 것에 대한 문제제기도 되고 있다. (참고, WSJ 기사) 세상의 많은 회사들이 나보다 나를 더 잘 알고 싶어서 난리다. 개인적으로 개인정보/프라이버시는 개인에 관한 정보보다는 그런 정보에 대한 관리권 Control의 주체로 프라이버시 문제가 새롭게 정의되어야 한다고 생각하고 있지만, '나'에 대한 정보는 중요하면서도 매우 위험하다. 글의 논점이 '프라이버시'로 조금 옮겨갔지만, 어쨌던 그만큼 '나'라는 컨텍스트 정보가 중요하다는 반증이다. 

 다음에서 소셜검색 (지금의 실시간검색, 소셜웹검색, 그리고 마이소셜검색이 아닌)을 한다고 했을 때, 처음에는 이런 '나'에 대한 정보 (즉, 관심/전문 키워드)를 활용하고, 나의 관게정보를 활용한 서비스를 내놓기를 기대했지만, 아직은 여러 여건상 단편적인 소셜검색서비스들만 내놓은 것같다. 다음단계는 분명한 것같지만, 여전히 갈길이 먼 것같다. (참고로 저는 소셜웹검색에서 '관심유저' 데이터만 뽑아줬을 뿐, 다음의 소셜검색 전략에 대해서 일체 들은 바가 없다.) 이건 내부적으로 논의되었는지 아닌지 나는 잘 모르겠다. 내부적으로 논의되었더라도 내게는 알려주지 않은 것이니 본 포스팅의 모든 것은 내 머리속에서 자유연상으로 나온 결과다. 내부기밀에 대한 발설이 아니니 지레짐작으로 앞서나가지는 말기 바란다. 현재까지도 나름 그런 규칙을 정해서 지킬려고 노력했지만, 앞으로도 본 블로그에 올라오는 모든 포스팅들은 내가 다니는 회사 '다음'의 입장과는 전혀무관한 것임을 밝힌다. 그냥 다음이라는 회사에서 검색/데이터마이닝을 하는 어떤 사람의 생각일 뿐이다. 

반응형