본문 바로가기

Tech Story

페이스북 소셜그래프에서 연결 다양성을 통한 연인 관계 판별/예측

지난 주에 외신의 관심을 받은 논문이 arxiv.org에 올라왔습니다. 페이스북의 데이터사이언스팀과 코넬대학이 공동으로 수행해서 제출한 'Romantic Partnerships and the Dispersion of Social Ties: A Network Analysis of Relationship Status on Facebook'이라는 제목의 논문입니다. 제목과 같이 페이스북의 소셜그래프를 분석해서 많은 친구들 중에서 연인 또는 부부 관계인 연결을 테스트 데이터 상에서는 60%의 정확도로 판별이 가능하다는 논문입니다. 논문/연구에 사용된 몇 가지 가정들이 옳으냐 그러냐에 따라서 결과를 달리 해석할 수 있지만, 일단 그 가정들이 일반성을 띈다고 가정하겠습니다.

두 사람이 친구일 개연성은 그들이 공유하는 mutual friends의 수로 (합리적) 추론이 가능한데, 그들이 연인/부부 관계임을 그 숫자만으로 판별하기 어렵다고 합니다. (참고로, 공동친구의 수는 embeddedness라는 measure로 측정됩니다.) Embeddedness로 연인관계를 예측하면 정확도가 2~30%정도에 지나지 않는다고 합니다. 그런데 두 사람이 공유하는 친구의 다양성 -- dispersion이라는 measure를 만듬 -- 을 확인하면 그들이 연인관계인지 단순 친구인지를 판별할 정확도가 60%정도까지 된다고 합니다. 이미 연인/부부 관계인 사람들을 대상으로 판단력을 평가했기 때문에 60%정도의 정확도를 얻었지, 이 측정치를 가지고 미래의 연인/부부관계로의 발전가능성을 예측한다면 이보다는 낮을 것으로 예상됩니다.

사람들이 소셜네트워크에 대해서 작은 오해를 하고 있습니다. 자신의 소셜그래프를 단순히 자신을 허브로 둔 하나의 묶음 (불가사리와 같은 형태를 가진)으로 생각한다는 점입니다. 즉, 자신을 중심으로 모든 사람들이 연결된 방사형을 생각합니다. 그런데 실제 소셜그래프를 자신을 포함한 여러 clique 또는 그룹 -- 구글+에서 circle로 표현하는 -- 으로 구성되어있습니다. 그리고 개별 클릭은 almost fully connected network를 형성합니다. 즉, 학교친구 (초/중/고/대학생 친구들) 그룹, 회사 (현재 직장, 이전 직장들) 그룹, 동호회나 교회와 같은 각종 모임들의 그룹들이 생깁니다. 이런 다양한 그룹들의 특징은 '내'가 포함되어있다는 점이고, 개별 그룹에 속하는 멤버들은 대부분 서로 알고 있는 형태를 가지게 됩니다.

이런 소셜그래프의 모습을 생각해본다면 위의 연구결과가 쉽게 이해가 됩니다. 즉, 다양한 그룹에 공통적으로 겹친다면 그만큼 다양한 장소와 시간에서 서로 만날 기회가 많다는 것이 되고, 그렇게 자주 만나면서 서로에 대해서 더 잘 알아가고 결국에는 연인 관계로 발전할 수가 있습니다. 그런데, 학교동창생과 같이 특정 그룹에서만 일면식이 있는데 연인관계로 발전한 경우에도 시간이 지나면서 자연스레 다양한 그룹들을 공유하게 됩니다. 연애의 기간이 길어지면서 상대방의 친구들이나 동료들과 자주 접촉을 하게 되고, 그러면서 상대의 그룹/클릭들에 자연스레 연결이 만들어지는 것은 당연합니다. 그렇기에 단순히 연결의 수가 아닌, 연결의 다양성을 통해서 연인/부부관계를 대략 판별이 가능합니다. 역으로 embeddedness만으로 연인관계를 예측할 수 없었던 이유는 큰 clique에 속하는 두 사람은 자연스레 큰 embeddedness를 가지게 됩니다. 이는 그저 큰 그룹 내의 두 멤버의 관계를 나타낼 뿐, 이를 가지고 두 사람의 사적 친밀도를 보여줄 수 없습니다. 어쩌면, 큰 그룹의 속했기 때문에 (인터랙션을 고려하지 않는다면) 오히려 친밀도가 떨어질지도 모릅니다.

연인/부부관계로 발전한 후에는 연결의 다양성이 확보가 됩니다. 그러나 단순히 몇 번의 접촉을 통해서 연인으로 발전한 경우라면 아직 연결의 다양성이 만들어지기 전이라서 단순히 현재 연결의 다양성만으로 특정인의 연인이 누구다 또는 누가 될 것이다라고 판단하면 큰 오류를 발생시킬 수 있습니다. 그렇기에 소셜그래프에서의 연결 다양성은 현재 상태의 판단에는 나름 성과를 보이나, 미래 예측의 지표로는 정확도가 많이 떨어질 듯합니다. (상관관계와 인과관계의 차이)

이 논문을 읽으면서 그러면 개별 연결의 질을 어떻게 정할 수 있을까?에 대한 고민이 생깁니다. 앞서 제시되었던 embeddedness와 같이 연결의 수가 연결의 질과 동조하겠지만, 실제 연결에서는 그것 이상의 다른 변수/조건이 있을 듯합니다. 그리고 논문에서 사용된 dispersion 지표도 연인/부부관계를 판단하는 방편으로 연결의 질을 계량화해줄 수 있지만, 다른 형태의 연결의 질을 나타내지는 않습니다. 연결의 질에 대한 일반화가 가능할까요?

페이스북 페이지: https://www.facebook.com/unexperienced

반응형