데이터의 중요성이 나날이 강조되는 시대다. AI 패권 전쟁이 일면서 글로벌 기업들은 수조원을 투자하는 데 망설이지 않고, 양질의 데이터를 확보하기 위해 사력을 다한다. 그러나 단순히 데이터만 확보한다고 해서 누구나 비즈니스적 가치를 창출하는 건 아니다. 돈은 돈대로 투자하고 정작 실효성은 챙기지 못해 계륵 신세로 전락하는 경우가 허다하다.
구글의 웨이브라는 서비스가 대표적. 웨이브는 다양한 기능을 하나로 통합한 온라인 협업 편집 툴이다. 온갖 기능을 사용할 수 있다는 점에선 놀랍지만, 오히려 너무 많은 기능을 한 번에 제공하려 해 혼란을 줬다. 특히 상대가 타이핑하고 있는 메시지를 실시간으로 볼 수 있는 '인스턴트 메시징' 기능은 기술 자체는 혁신적이지만, 소비자로부터 불쾌하다는 혹평을 받으며 시장에서 사장됐다. 소비자 중심 사고가 아닌 기술 중심 사고가 왜 실패하는 지 보여주는 대표적인 사례다. 결국 소비자가 무엇을 왜 원하는 지 파악한 뒤 목적에 맞게 데이터를 활용해야 한다는 게 핵심이다.
인류학 박사이자 구글코리아, 필립모리스, 넷플릭스 등 유수의 기업에서 요직을 지낸 저자 백영재 박사는 데이터 기반 의사결정을 할 때 스토리에 대한 맥락을 우선적으로 파악해야 한다고 역설한다. 맥락을 파악하지 못하면 아무리 많은 데이터가 있어도 소비자가 원하는 것을 제공할 수 없다는 의견이다. 그리고 그 맥락을 찾아내는 데이터가 바로 'THICK 데이터'다. Thick 데이터는 양적 데이터인 빅데이터와 대조되는 개념으로 사람들의 실제 경험과 행위에 담긴 패턴 및 의미를 찾아내는 데이터라고 설명된다. 백 박사는 "정량적인 빅데이터로는 '무엇을 얼마나'에 관해 알 수 있고, 정성적인 정보인 thick data로는 '왜, 어떠한 맥락에서'에 대해 통찰할 수 있다"라고 말한다.
흥미로운 일화 하나. 넷플릭스는 이용자 다수가 동일한 프로그램을 한 번에 두 편 이상 연속해 시청하는 '몰아보기'를 한다는 사실을 파악했다. 다만 현상의 의미를 알 수 없었으며, 그 의미를 파악하고 서비스를 개선하고자 현장 참여 조사를 통해 소비자의 시청 방식을 관찰했다. 시청자 입장에서 가장 우려되는 부분은 결말을 미리 알게 되는 스포일링이다. 그러나 참여 관찰 결과 스포일링은 큰 문제가 아니라는 사실이 드러난다. 실제로 넷플릭스 이용자는 원치 않는 스포일링으로 시리즈 시청을 중단한 적이 거의 없었다. 오히려 시청할 계획이 없었으나 되려 관심이 생긴 사례가 더 많은 것으로 나타났다.
넷플릭스는 이렇게 수집한 Thick 데이터를 토대로 자체 제작한 '하우스 오브 카드' 시즌 1의 에피소드 13편을 몰아보기가 가능하도록 한꺼번에 공개했다. 통상 시리즈를 순차적으로 공개하면 몇 개월간 이용자를 묶어두는 게 가능했지만, 그런 효과를 포기한 셈이다. 대신 넷플릭스는 몰아보기를 통해 다음 회차가 공개되기까지 인내할 필요가 없고, 원하는 순간에 즐거움을 누릴 수 있다는 이미지를 내세웠다. 그 결과 하우스 오브 카드가 공개되자 마자 미국 내 구독자는 200만명, 해외 구독자는 100만명 증가했으며 넷플릭스는 37억5000만 달러의 순이익을 기록했다.
영화 '빅쇼트'의 일화도 주요 참고 사례. 한 헤지펀드의 수장 마크 바움과 그 동료들은 서브프라임 모기지 상품의 대부분이 부실 상품이라는 정보를 입수한다. 진위 여부를 확인하기 위해 현장 조사에 나선 그들은 집집마다 방문하며 다양한 사람들을 만나고 Thick 데이터를 수집한다. 반려견 이름으로 대출 받은 집주인, LTV 100%를 넘기는 집 5채를 소유한 스트리퍼, 이민자 및 저신용자에게 무지성 대출을 해주는 브로커 등 다양한 사례를 마주한 그들은 미국의 금융 시스템이 곧 무너질 것이라 직감한다. 그리고 유례없는 공배도 배팅을 결정. 결과는 돈벼락.
이처럼 어떤 현상이 일어난 맥락이나 전체 사회와의 관계를 탐구하고 그 의미를 해석하는 일에 있어서 샘플의 크기가 얼마나 되느냐는 중요한 문제가 아니라는 것이 이 책의 큰 줄기다. 결국 데이터 분석의 객관성을 담보하는 것은 샘플의 크기가 아니라 그 해석과 인사이트의 깊이다. Thick 데이터는 샘플 크기가 작더라도 스토리를 담고 있고 '왜'라는 질문에 대한 통찰을 제공하므로 사회 현상을 분석하는 데 중요한 역할을 한다.
개인적으로도 지금껏 빅데이터와 머신러닝을 공부해오며 나름 데이터 및 AI 산업에 대해 느낀 부분이 있다. AI 자체는 보조적인 성격이 크다는 사실. AI 보다 중요한 건 AI를 적용할 특정 분야에 대한 전문성이다. 아무리 AI 기술을 잘 알고 이해한다 해도 그걸 적용할 분야에 대해 아는 게 없으면 진정 의미있는 인사이트를 도출해내지 못한다. IT 업계에서 흔히 말하는 T자형 인재는 자신의 전문 분야에 대해 깊게 알고(I), 이 위에 AI를 덧붙여(ㅡ) 본인의 전문 영역을 발전시키는 인재다. AI만, 혹은 데이터만 때려 박는다고 살아남을 수 있는 시대는 아니다. 이상 문돌이 출신 비전공자의 자기만족.