[단독] 삼성이 투자한 싸이월드…사용자 3200만명 등 '세계최대·유일의 한국인DB'

  • 송고 2017.08.23 16:24
  • 수정 2017.08.23 17:09
  • 김남희 기자 (nina@ebn.co.kr)
  • url
    복사

정보통신업계 "한국인 채팅대화체 15년간 집적된 사상 최대 데이터베이스"

"삼성, 자사 AI 플랫폼 '빅스비' 생태계 확장 위한 선제 자료 확보 차원"

"데이터를 인공지능으로 분석해 타깃 계층에 최적화된 정보나 상품 제안도"

ⓒ싸이월드

ⓒ싸이월드

삼성이 2000년대 초 미니홈피 바람을 일으켰던 ‘싸이월드’에 수십억원을 투자한 것으로 확인되면서 싸이월드의 자산 가치가 재조명 받고 있다.

정보통신(IT)업계에서는 싸이월드의 경우 한국인의 채팅대화체가 약 15년간 집적된 사상 최대의 데이터베이스(DB)로 판단하고 있다. 여기에 담긴 수십억개의 말뭉치(자연어 처리를 위한 언어 표본)는 챗봇과 같은 언어 인공지능의 기초 자료로 쓰여질 전망이다.

특히 한국인들이 사용한 언어와 이미지 및 음악·영화와 같은 정성적 데이터는 정량 통계보다 확보하기 힘들고 많은 시간과 비용이 소요된다. 때문에 싸이월드는 한국인 특성을 상세히 연구할 수 있는 보고(寶庫)로 부상할 것으로 보인다. 전성기 시절 싸이월드 회원 수는 3200만명에 달했고 지금도 사진 140억장이 모아진 것으로 알려진다.

23일 IT업계 및 기업투자업계에 따르면 삼성전자의 투자전문자회사 삼성벤처투자가 최근 싸이월드에 투자했다. 구체적인 투자 금액은 비공개된 상태지만 업계에서는 이번 투자 규모가 50억원에 이를 것으로 추산하고 있다. 싸이월드가 최근 수년간 정체와 위기를 겪었던 점을 고려하면 상당한 규모의 액수다.

지난해 7월 벤처 1세대이자 프리챌 창업자인 전제완 에어 사장이 싸이월드를 인수하면서 시장의 관심을 받아왔다. 이번 인수로 세간에서는 몰락한 1세대 SNS(Social Network Services)인 싸이월드의 가치에 대해 관심이 집중된다.

싸이월드는 2000년대 초·중반 미니홈피 열풍을 일으킨 대표적인 1세대 SNS다. 이른바 '싸이폐인', '싸이질'이라는 신조어를 낳기도 했다. 전성기 시절 회원 수는 3200만명에 달했고 지금도 사진 140억장이 집적됐다. 2005년 이후 스마트폰 시대에 돌입하면서 트위터, 페이스북 등에 밀리고, 사업 전략 약화 및 SK커뮤니케이션즈의 개인정보 유출 사고로 쇠락의 길을 걸었다.

이같은 싸이월드에 삼성전자가 투자를 진행한 이유는 무엇일까. 정보통신(IT)업계에선 싸이월드에 모아진 사용자 정보에 대해 주목하고 있다. 챗봇으로 대표되는 인공지능 기술 개발을 위한 최상의 데이터베이스가 마련됐다는 설명이다.

김연아 전 피겨스케이팅 선수의 싸이월드 미니홈피ⓒarchive.org

김연아 전 피겨스케이팅 선수의 싸이월드 미니홈피ⓒarchive.org


특히 싸이월드가 15년간(1999년~2014년) 최대 3200만명의 한국인이 집중적으로 참여한 SNS이라는 점을 볼 때 △한국인의 언어생활 △1촌 관계형성 패턴과 특징 △선호 미디어(사진·음악)와 취향을 연구할 수 있는 세계 최대·유일한 한국인 특화 정보로 받아들여진다.

무엇보다 '4차 산업혁명'의 꽃으로 불리는 언어관련 인공지능 사업을 위한 자료가 싸이월드에 집적돼 있다는 점은 상당히 매력적인 요소로 풀이된다. 싸이월드 사용자의 대화체는 한국어 말뭉치(corpus)인프라로 활용할 수 있다. 말뭉치는 특정 언어 사용 패턴을 말하는데 챗봇과 인공지능의 기초 자료가 된다.

인공지능업계에 따르면 1998년부터 2007년까지 10년간 국립국어원이 확보한 세종말뭉치의 규모는 약 3700만개에 달한다.

싸이월드는 3200만명이 사용했다. 사진만 140억장에 달하는 싸이월드의 말뭉치는 이보다 큰 규모일 것으로 추산된다. 업계는 국립국어원의 말뭉치보다 50배 이상 규모일 것으로 추정하고 있다.

이같은 구어·문어체 언어 데이터를 CNN, RNN과 같은 머신러닝 기법으로 처리할 경우 챗봇에 사용할 수 있는 자연어 처리(NLP) 시스템을 만들어 낼 수 있다는 게 업계의 견해다.

이를 통해 사용자의 특정 어휘와 표현, 및 미디어컨텐츠 자료를 연계·추적하면 한국 사용자 특유의 취향과 선호도 및 관련성 추론이 가능하다. 이 역시 AI와 연계한 컨텐츠로 가공할 수 있으며 연령과 계층별 등 인구학적 자료로 활용할 수 있다는 설명이다.

이를 통해 삼성은 싸이월드 자료를 추출해 개별 이용자가 어떤 정보를 검색해 어떤 콘텐트를 소비했는지부터, 어떤 컨텐츠에 대한 선호도가 높고, 심지어 어떤 인맥과 교류하는지 예측할 수 있게 된다.

아울러 이들 데이터를 인공지능으로 분석해 타깃 계층에게 최적화된 정보나 상품을 제안할 수 있다. 예컨대 자동차를 자주 검색한 남성에게는 신상 자동차 정보를, 화장품을 자주 찾아본 여성에겐 관련된 브랜드를 ‘취향 저격’하며 추천할 수 있게 된다.

이같은 면을 종합했을 때 삼성은 자사의 AI(인공지능) 플랫폼 ‘빅스비’의 생태계 확장을 위한 선제 자료를 확보하기 위한 투자로 풀이된다.

정보통신업계에서 자연어 처리(NLP) 전문가인 송현석 TEXT & TECH 공동대표는 "1999년부터 2014년까지 최대 3200만 한국인이 자발적으로 참여했던 싸이월드는 생생한 대화 데이터와 함께 취향 및 행동 패턴을 읽을 수 있다"고 말했다.

그는 "사용자 연령별, 성별, 학력, 지역 등 숫자로 정리할 수 있는 정량 데이터는 확보하기 충분하지만 사용자 언어사용 패턴과 문화예술적 취향 1촌 관계 등 정성적 데이터는 확보하기 힘들고 시간과 노력이 많이 소요되기 때문에 싸이월드는 그런 면에서 한국인에 특화된 세계 최대 및 유일한 데이터베이스라고 할 수 있다"고 설명했다.

일단 삼성전자는 싸이월드에 콘텐트솔루션 공급 관련 개발비를 1차적으로 지원할 것으로 알려졌다. 규모는 최대 오십억원대에 이를 것으로 추정된다. 일각에서는 기존 전제완 싸이월드 대표가 계속 경영을 맡으면서 삼성에 필요 데이터를 공급할 가능성을 점치고 있다.

벤처 1세대이자 프리챌 창업자인 전 대표는 89년 삼성물산에 입사하면서 삼성맨이 됐다. 지난해 전 대표가 경영했던 미국 법인 에어가 싸이월드 기존 주주 지분을 100% 인수하면서 싸이월드 대표로 올랐다.


©(주) EBN 무단전재 및 재배포 금지

전체 댓글 0

로그인 후 댓글을 작성하실 수 있습니다.
EBN 미래를 보는 경제신문