공연 데이터로 아티스트 인기 예측해보기
Data for fun

공연 데이터로 아티스트 인기 예측해보기

데이터와 통계의 시대에 아티스트들이 어떻게 데이터를 활용할 수 있는지 제안합니다

2025-08-23이찬민

데이터 시대의 음악 산업

한 아티스트의 성공은 단순히 음악의 퀄리티만으로 결정되지 않습니다. 현대의 음악 산업에서는 아티스트의 인지도, SNS 등 미디어를 통한 홍보, 팬덤의 크기, 실제 공연 관람객 수 등 다양한 요소들이 서로 얽혀 복합적인 영향을 주고받습니다. 이러한 요인들간의 관계를 규명하고, 한 요인의 변화에 따라 다른 요인이 어떻게 반응하는지 예측할 수 있다면 분명 아티스트가 최적의 방향으로 성장을 이루어 내는데 큰 도움이 될 것입니다.

최근에는 데이터과학과 인공지능의 발달로 변수들 간의 관계를 수치화하고, 모델링을 통해 미래의 결과를 예측하는 것이 가능해지고 있습니다. 단순한 감이나 경험에 의존하던 과거 방식에서 벗어나, 아티스트가 자신의 브랜드 가치를 정량적으로 분석하고 상품화할 수 있게 된 것입니다.

이 중에서도 특히 관객 수 예측은 이미 다른 콘텐츠 산업에서 활발히 활용되고 있습니다. 대표적으로, 영화 관람객 수 예측이 있습니다. 데이터과학 경진대회 주제로도 자주 등장하는 영화 관람객 수 예측은 대중음악 공연과는 비슷하면서도 다릅니다.

회귀 분석

가장 간단하지만 강력한 예측 방법은 회귀 분석입니다. 출연 배우 라인업과 인지도, 감독, 제작비, 장르, 개봉 시점, 홍보 규모, 동시기 경쟁작 유무 등 다양한 요인을 한데 모아 여태까지 모은 데이터로 분석하는 것입니다.

영화 관객 예측의 예시에서는 총 관람객 수가 예측의 대상이 되는 ‘종속 변수’(Y), 위에서 언급한 배우 라인업, 장르 등의 요인들이 예측에 사용되는 단서인 독립 변수(X)가 됩니다. 이 방식은 실제 투자 판단이나 마케팅 전략 수립에도 활용되며, 영화 산업에서 유용한 의사결정 도구로 자리 잡았습니다.

흥미로운 예시로는 봉준호 감독의 넷플릭스 오리지널 영화 <옥자>의 가상 관객수 예측을 들 수 있겠습니다. 영화관에서 상영된 적이 없어 실제 관객수는 알 수 없지만, 장르 특성, 감독과 출연진, OTT 서비스 왓챠에서 영화 ‘보고싶어요’ 수까지 다양한 요인을 고려하여 가상의 관람객 수를 예상한 것입니다.

https://www.yna.co.kr/view/AKR20170629061600033
https://www.yna.co.kr/view/AKR20170629061600033

이러한 방식은 음악 산업에서도 동일하게 적용 가능합니다. 예를 들어, 아티스트의 공연 관객 수를 예측하고 싶다면 다음과 같은 변수들을 사용할 수 있습니다.

  • SNS 팔로워 수
  • SNS 조회수
  • 총 스트리밍 수
  • 직전 앨범 스트리밍 수
  • 홍보 노출량
  • 공연 지역의 인구

이렇듯 위의 예시와 비슷한 수많은 요인들을 직접 찾고, 독립 변수와 종속 변수를 구성할 수 있습니다.

복잡한 방법론

회귀 분석은 해석이 용이하고 가벼운 모델이지만, 복잡한 구조의 현실 데이터를 분석하기에는 한계가 있을 수 있습니다. 변수 간의 상호작용이 단순하지 않거나, 선형적인 관계가 아닐 경우, 또 변수의 형태가 다양한 경우에는 더 복잡한 모델이 필요합니다. 대표적으로 랜덤 포레스트, XGBoost, 딥러닝 등이 사용됩니다.

랜덤 포레스트와 XGBoost는 가장 기본적인 분석 방법 중 하나인 결정 트리를 여러 개 만들어 학습하는 기법으로, 변수들 간의 복잡한 상호작용을 쉽게 포착할 수 있습니다. 영화의 흥행에 영향을 미치는 요소들은 대부분 선형적인 형태를 가지지만, 간혹 그렇지 않은 경우 이러한 모델들이 더 높은 정확도를 보여줍니다.

AI 하면 가장 먼저 생각날 딥러닝 역시 높은 성능을 보여줍니다. 인간의 뇌를 모방한 딥러닝은 각 노드마다 비선형성을 부여한 대규모 네트워크이며, 대규모 데이터에서 강력한 예측 성능을 발휘합니다. 또한 숫자가 아닌 데이터에 대한 딥러닝 분석 방법론들이 빠르게 발전하고 있기 때문에 텍스트 뿐만 아니라 음악이나 사진을 직접 분석하는 것 역시 가능합니다. 실제로 스포티파이 등 음원 스트리밍 서비스에서는 딥러닝을 통해 청취자에게 맞는 아티스트를 추천해주고 있습니다.

이렇게 다양한 방법론을 현업에서 제공하는 스타트업들도 이미 존재합니다. PredictHQ는 2014년 창업 이후 공연, 스포츠 경기, 공휴일 등 다양한 ‘이벤트’들에 대해 수요와 관객 예측 등의 서비스를 제공하는 기업입니다. 그 가치를 인정받은 PredictHQ는 현재 실제 산업에서 활발히 사용되며, 3000만 달러 규모 투자를 받고 2024년 약 400만 달러의 매출을 기록하는 등 성장을 이어나가고 있습니다.

Hit Phenomena

지금까지 다른 요인들을 활용해 관객수, 즉 티켓파워를 예측하는 방법론들을 알아보았습니다. 그러나 우리가 해볼 수 있는 분석은 이것만이 아닙니다. 홍보에 따라 인지도가 변화하고, 인지도 변화에 따라 공연 관람객 층이 바뀌고, 공연에 따라 홍보 형태가 변화하고... 현실에서는 이렇게 온갖 요인들이 상호작용합니다.

따라서 우리는 티켓파워가 아닌 다른 성공 지표를 사용해 분석을 할 수도 있고, 공연 관람객이 많으면 인지도가 어떻게 증가하는지 거꾸로 살펴볼 수도 있습니다. 다음 단락에서는 공연과 SNS 홍보 등 인지도를 올리기 위한 활동들이 해당 아티스트에 대한 실제 관심도에 어떻게 영향을 끼치는지 수학적으로 모델링한 사례를 하나 살펴보겠습니다.

일본 규슈대 연구팀이 Coldplay, Lady Gaga, L’Arc-en-Ciel 등의 글로벌 아티스트를 대상으로 진행한 연구에서는, 투어 기간 중 티켓 판매량, 홍보 활동 등 데이터를 기반으로 관심도의 변화를 모델링했습니다. 이들이 사용한 방법론은 바로 ‘Hit Phenomena’ 모델로, 상품이나 미디어에 대한 관심도가 시간이 지나며 사람들 사이에서 어떻게 확산되고 사라지는지를 미분방정식으로 모델링하는 기법입니다. 결국, 이는 회귀 분석을 확장한 일종의 일반화된 동적 모델로, 시간축을 따라 관심도의 변화를 예측할 수 있습니다.

이 연구의 핵심인 식을 간단하게 설명하면 다음과 같습니다.

이 미분방정식에서 I(t)는 관심도 곡선을 나타내고, 매개변수 a, D, P는 각각

a: 개인의 관심도가 시간에 따라 줄어드는 정도

  • ex) 시간이 지남에 따라 상품이 머릿속에서 잊혀진다.

D: 직접적인 상호작용으로 인한 관심도 상승의 정도

  • ex) 친구에게 좋은 상품을 추천받았다.

P: 간접적인 상호작용으로 인한 관심도 상승의 정도

  • ex) 다른 사람들이 상품을 칭찬하는 것을 들었다.

이며, f(t)는 각 시점마다 발생하는 random effect, 즉 공연이나 홍보 등의 사건을 의미합니다.

시연

위 식을 바탕으로 직접 시연을 해 보았습니다. 펄프(Pulp)와 폰테인즈 D.C.(Fontaines D.C.) 두 밴드를 골랐고, 펄프는 이번 여름 새 앨범을 발매하며 시작한 영국 투어, 폰테인즈 D.C.는 이번 봄에 진행된 미국 투어 시점을 기준으로 분석했습니다. 다만, 원 논문에서는 트위터 언급량을 종속변수(관심도)로 사용했지만, 현재는 트위터 API 접근이 어려운 관계로 구글 트렌드 검색량을 대신 사용했습니다.

펄프는 80년대부터 지금까지 오랜 경력을 가진 밴드로, 이미 형성된 팬층과 안정적인 인지도를 바탕으로 큰 변동성 없이 영국 내 투어를 진행했습니다. 인기의 최전선에 있는 팝스타들과는 달리 커다란 홍보 이벤트는 발생하지 않았고, 일정 범위 내의 관심도가 유지되어 Hit Phenomena 모델로도 그 추세가 상대적으로 비슷하게 근사되었습니다.

반면, 폰테인즈 D.C.는 2010년대 후반 데뷔 후 최근 주목받기 시작한 밴드입니다. 비교적 젊은 팬층을 가지고 있으며, 공연 외에도 SNS 활동, 매체 노출, 인터뷰 등 다양한 홍보가 이루어졌습니다. 이처럼 다양한 외부 변수와 활동이 동시에 작용하는 상황에서는 관심도를 단순한 확산-소멸로 설명하기 어렵고, 예측 정확도 또한 떨어지는 모습을 보입니다.

한계점

펄프를 대상으로 한 분석의 경우에도 예상과 달리 한계점이 존재했습니다. 문제는 각종 홍보 효과를 영향력에 따라 숫자로 바꿔 모델에 집어넣어야 한다는 점에 있었습니다. 기존의 단독공연, SNS 홍보 등은 관람객 수, 조회수 등으로 쉽게 변환이 가능했지만, 그런 일반적인 범위를 벗어나는 사건에 대해서는 수치적으로 얼마나 큰 영향을 끼칠 지 추정하는 것이 거의 불가능했던 것입니다.

이번 글래스톤베리(Glastonbury) 페스티벌에서 펄프가 패치워크라는 이름의 비공식 히든 밴드로 깜짝 등장한 이벤트가 있었는데, 이때 급격한 관심도 상승이 발생했습니다. 아래의 구글 트렌드 그래프에서도 6월 말에 발생한 거대한 봉우리를 확인할 수 있습니다. 그러나 이 공연의 관객이 얼마나 많았는지, 또 그들에게 어느정도의 영향을 끼쳤는지 전혀 알 수 없었고, 특히나 이 분석에서 사용한 구글 트렌드 데이터의 특성상 '히든 밴드로 등장' 이라는 사건이 더욱 데이터의 왜곡을 불러왔을 것입니다. 때문에 기존의 식으로 근사하는 것이 불가능해졌습니다.

한편, 이렇게 예외적인 사건이 아니더라도 청취자의 관심도를 추정하는 모든 방법론에는 근본적인 한계점이 존재합니다. 시간이 지남에 따라 팬층 구조가 바뀌고, 새로운 요소들이 등장하는 것에 비해 식의 매개변수들을 빠르게 조정하는 것이 어렵다는 것입니다. 예를 들어 Hit Phenomena 분석에서는 a, D, P로 표기하는 매개변수의 값이 분석 시점, 대상 국가에 따라 바뀌고 달라지는데, 때문에 한 번 모델 학습을 완료했다고 해도 재사용하기 매우 어렵습니다.

데이터의 중요성

데이터와 AI의 시대, 우리가 살펴본 Hit Phenomena를 비롯해 복잡한 방법론들이 많이 등장했습니다. 아직은 부족한 점들이 있지만 분명 앞으로 꾸준히 발전할 것이고, 다양한 상황들에 대해 근사와 예측이 가능해질 것입니다.

그러나 멋있는 이론, 모델보다 중요한 것은 데이터입니다. 아무리 좋은 모델이 있다고 해도 그 모델은 입력된 데이터에 기반해 작동합니다. 즉 분석할 데이터가 없다면 무용지물입니다. 공연 일정뿐 아니라, 예매 관객층의 특성, SNS 활동과 반응, 팔로워 추이, 인터뷰, 콘텐츠 공개, 타 아티스트와 협업 이벤트 등 모든 홍보 활동의 데이터를 많이, 자세히 확보해야 합니다.

데이터의 힘을 잘 사용한 대표적인 사례로 차트메트릭(Chartmetric)이라는 기업이 있습니다. 차트메트릭은 음악 산업 종사자들을 위한 B2B 데이터 분석 플랫폼으로, 아티스트와 작업물의 인지도를 정량적으로 파악할 수 있게 해주는 도구입니다. 스포티파이, 유튜브, 인스타그램 등 다양한 스트리밍 플랫폼과 소셜 서비스에서 수집한 데이터를 기반으로, 아티스트의 팔로워 수 증가 추이, 스트리밍 수 변화, 플레이리스트 진입 여부, 팬덤의 지역별 분포 등을 시각화하여 제공합니다. 아티스트의 성장을 도모하는 전략가들의 입장에서는 핵심적인 데이터들이 한데 모여 보기 좋게 시각화까지 되어 있으니 정말 사랑스러운 툴이 아닐 수 없습니다.

차트메트릭은 2016년 창업 이후 꾸준하게 성장해왔으며, 2021년 연 매출 200만 달러를 달성했습니다. 데이터와 AI의 시대에 미리부터 데이터를 축적해둔 덕분입니다. COVID-19과 시기가 겹치며 온라인 상에서의 인지도 추정이 중요해진 것도 주요했습니다. 현재 차트메트릭을 완벽히 대체할 만큼 데이터의 양이 방대하고 사용이 편리한 서비스가 없는 만큼, 앞으로의 성장 역시 기대됩니다.

https://kopis.or.kr/por/main/main.do
https://kopis.or.kr/por/main/main.do

차트메트릭과는 그 방향성이 조금 다르지만, 한국의 공연예술 분야에서도 공연예술통합전산망(KOPIS)가 꾸준히 데이터를 모으고 있습니다. KOPIS는 예술경영지원센터에서 운영하는 서비스로, 전국에서 열리는 공연(대중음악, 전통음악, 연극, 뮤지컬 등 모든 종류의 공연)과 그에 대한 예매 데이터를 집계하여 보여줍니다. 개발자들이 사용할 수 있는 API도 제공하고 있어 많은 정보를 쉽게 얻을 수 있습니다.

물론 아직 부족한 점도 있습니다. 막상 분석을 하려고 보면 중요하게 쓰일 만 한 요인들이 수집되어 있지 않기도 하고, 전국의 모든 공연을 수집하다 보니 특정 장르 공연들을 자세히 분석하기에는 어렵습니다. 예를 들어, 뮤지컬, 연극 장르의 공연들을 위한 ‘공연 기간’, ‘공연 횟수’ 등의 지표가 존재하지만, 이는 대중음악 공연에 있어서는 큰 의미가 없는 변수입니다. 또한 관객수 예측에 필요한 각 공연별 관객수나 티켓 판매액 정보는 얻을 수 없으며, 작은 클럽 공연장들은 등록이 안 되어 있는 경우가 많습니다.

어떤 모델을 사용하든 정확한 예측의 출발점은 양질의 데이터 수집입니다. 아티스트의 인지도 변화, 팬덤의 성장, 투어 공연, SNS 홍보 등은 각각 개별적인 현상이 아니라 서로 연결된 하나의 흐름이며, 이 흐름을 파악하기 위해서는 다양한 지표를 꾸준히 모니터링하고 축적해야 합니다. 음악 산업에 몸담고 있는 사람들, 그리고 아티스트 자신들이 데이터에 주목하고 양질의 데이터를 모을수록 아티스트의 미래를 선명하게 예측할 수 있을 것입니다.




참고문헌

  • Kawahata, Yasuko, Etsuo Genda, and Akira Ishii. 2013. “Revenue Prediction of Music Concerts Using the Mathematical Model of Hit Phenomena.” In 2013 International Conference on Biometrics and Kansei Engineering (ICBAKE), 202–213. IEEE.
  • 오수진. 2017. “빅데이터로 예측한 '옥자' 정상개봉 관객은 727만명.” 연합뉴스, June 29, 2017.
홈으로

랩 캐즘

자생가능한 음악 생태계