본문 바로가기
자료실/보존서고

[개짓거리] 2024년 상반기에 아카이브를 몇 번이나 봤을까

by 양털책갈피 2024. 7. 1.

※ 술 마시고 작업함.


0. 개짓거리의 발단


1. 단순 통계

먼저 요약행 기능을 통해 본 테이블의 합계 통계부터 내보겠다.

 

생략된 부분을 포함, 총 793개 무대 1500회 시청했다.

 

이어서 곡은 총 몇 곡인지 알아보자. 현 테이블에서는 위의 "희망적 프리즘(希望的プリズム)" 처럼 같은 곡이어도 공연-회차에 따라 다른 릴레이션으로 구분되어 있기 때문에, 이는 다른 테이블을 이용해 알아내야 한다.

 

 

우선, 본 테이블에서 곡명을 복사해 다른 표를 만들고, 곡명을 오름차순으로 정렬해 같은 곡을 제거한다. 그런 다음, 횟수 속성에 다음 함수를 입력한다.

 

= SUM ( IF ( M3=표4[곡명], 표4[횟수], 0 ) )

 

여기서 표4는 처음에 만들어둔 테이블(표)이며, M?의 위치는 새롭게 만든 표의 곡명 속성이다.

 

즉, IF함수를 통해 "표의 곡명이 처음 표의 곡명과 같을 경우, 처음 표의 횟수를 출력" 하며, 이렇게 출력된 값들이 SUM함수를 통해 합쳐져 횟수에 표시된다. 이를 입력하고 엔터를 치면,

 


이렇게 각 곡마다 몇 번 봤는지 나온다. 이렇게 만들어진 표를 똑같이 요약행 기능을 통해 정리하면,

 

 

371개 곡을 1500회 시청한 것을 알 수 있다.

 

이렇게 단순히 기록한 데이터만을 가지고 표를 만들어 확인한 결과를 요약하면 다음과 같다.

 

2024년 상반기

371개 곡을
793개 무대로

1500번 시청함

2. 유의미한 분석 ① - 지표 추가

이렇게 끝내면 내가 그냥 아카이브를 1500번이나 봤다는 것밖에 되지 않으므로, 각 무대에 대하여 유의미한 지표를 만들어보겠다. 이때 생각해본 것은 "어떤 라이브가 가장 비중이 큰가", "어떤 라이브를 얼마나 자주 봤나" 등등이 될 것이다. 특히, 특정 무대/곡/공연이 재밌다면 그만큼 자주 봤을 것이기에, 수치 데이터를 활용하면 각 무대의 재미를 간접적으로 측정할 수 있을 것이다.

 

우선, 절대적인 척도는 당연히 시청 횟수이다. 시청 횟수가 높다는 것은 지난 6개월 동안 많이 봤다는 의미니 말이다. 표의 기능을 통해 정렬해보자.

 

 

상위 25개 무대의 결과이다. 개인 취향이 포함되긴 했어도 나름 재밌다고 생각했던 무대들이 모여 있다. 이 결과만으로 재미의 순위를 결정해도 무리는 아닐 것이다. 하지만 이 데이터와 결과에는 한 가지 오류가 있다.

 

 

위 데이터에서 시청 횟수 8회에 해당하는 4개 무대를 살펴보자. 각 무대들의 참여 캐스트나 시리즈가 다 다른 것은 둘째 치고, 중요한 건 이 라이브들이 시연한 날짜가 전부 제각각이라는 것이다. 고시엔은 24년 3월, 니지 6th 가나가와 공연은 24년 1월, 카레스코 니가타 팬미는 24년 6월, 하스 1st 아이치는 23년 공연이다. 즉, 같은 8회여도 단기간에 8회를 달성한 카레스코의 이로토메와 1년 전부터 아카이브 파일을 갖고 있던 미라파의 아이덴티티는 명목 횟수 비교가 부적절한 것이다.

 

이에, 아카이빙 날짜와 그에 따른 기회비용의 측면에서 새로운 지표를 투입했다.

 

 

바로 시작일, 기준일, 기회비용이다. 시작일은 아카이브 파일을 생성한 날짜, 기준일은 Today 함수를 통해 자동입력한 오늘 날짜, 기회비용은 (기준일)-(시작일)+1로, 아카이브를 시청할 수 있는 일수를 의미한다. 이 속성을 이용해 정렬 순서를 조정하면, 같은 횟수 사이에도 순서가 생겨 비교하기 쉬워진다.

 

 

실제로 조정해보면, 기회비용 일수가 가장 적은 카레스코의 이로토메를 8회 무대의 최상단에 올려보낼 수 있다.

 

하지만 보고서를 몇 번 써봤으면 알겠지만, 이따위로 표를 만들어가면 쪼인트 개까이고 다시 하라는 말을 듣게 된다. 표의 길이가 길어지는 것은 물론, 정리 결과를 독자가 다시 정리해서 받아들여야 하는 상황이기 때문이다. 이런 식으로 어줍잖은 정렬의 눈속임 대신, 기회비용을 반영한 지표를 만들어야 할 필요가 있다.


3. 유의미한 분석 ② - 보정

우리에게는 시청 횟수와 기회비용 일자가 있다. 그러므로 (전체 시청 횟수 / 1월 1일부터 6월 30일까지의 기회비용)을 하면 1일당 평균 시청 횟수를 알 수 있을 것이다.

 

1500 ÷ 182 = 8.241758242…

 

1일 평균 8.24회를 시청했음을 알 수 있다. 이 말은 하루가 주어지면 대충 8개 정도 무대를 본다는 뜻이며, 각 무대의 기회비용 일자에 해당 값을 곱하면 그 기간동안 평균 몇 개의 무대를 시청했는지를 알 수 있게 될 것이다.

 

예를들어, 기회비용이 열흘이라면 약 82.4회 시청, 한달이라면 247.25회 시청, 이렇게 해석할 수 있다. 그렇다면, 각 무대의 시청 횟수를 해당 무대의 아카이빙 날짜에 따라 다르게 나올 이 수치로 나눠버리면 특정 기간 동안의 시청 비중을 구할 수 있을 것이다. 

 

([@횟수]) / (표4_3[[#요약],[기준일]] × [@기회])

 

이렇게 비중을 구하고 내림차순으로 정렬하면 다음과 같은 결과가 나온다.

 

 

아카이빙 날짜에 따른 기회비용이 반영되었지만, 문제는 그 반영이 너무 강하게 되는 바람에 리에라 유닛 팬미가 상위권을 독식해버린 것이다. 절대적인 수치인 시청 횟수도 통계에 유의미한 영향을 주어야 하므로, 이 지표는 보정이 필요하다.

 

이럴 때 통계학에서 가장 많이 쓰는 방법이 강조하고 싶은 수치를 제곱하는 것이다. 위의 수식에서 횟수를 제곱으로 바꿔보자.

 

([@횟수])² / (표4_3[[#요약],[기준일]] × [@기회]) = (시청 횟수²) / (1일 평균 시청 횟수 × 기회비용 일수)

 

 

방금 전과 결과가 다르다. 보정 비중치를 만들어, 절대적인 수치인 시청 횟수와 상대적인 반영 비율이 되는 아카이빙 일자를 반영하는데 성공했다.


4. 아웃라이어 추출 ① - 지표 선정

이제 어떤 무대가 다른 무대들을 압도하는지 알아보자. 아웃라이어는 보통 이상치로, 통계의 여러 결과와 연산을 흐뜨리는 규격외의 값을 의미하는데, 이번 작업에서는 재미 GOAT 정도로 해석할 수 있을 것이다.

 

아웃라이어 선정에 사용할 지표는 x 축은 보정 비율, y 축은 시청 횟수를 활용한다.

 

그리고 엑셀의 차트는 데이터를 255개까지만 지원하므로, 아래의 데이터들은 삭제한다.

 

· 시청 횟수가 1인 무대
· 보정 비율 0.4040... 이하인 무대

 

위의 데이터들을 삭제하면, 총 238개의 릴레이션이 남으며, 이들을 대상으로 그래프를 만들도록 한다. 그리고 해당 238개 데이터만을 토대로 주요 지표들을 추출하면 다음과 같다.

 

· 전체 무대 수 : 238개
· 전체 시청 횟수 : 891회
· 최대 기회비용 일자 : 182일
· 1일 평균 시청 횟수 : 4.895604396...
· 평균 보정 비중 값 : 4.35623191...%

5. 아웃라이어 추출 ② - 기준값 생성

위의 절차대로 분산형 그래프를 만들면 다음과 같이 나온다.

 

 

한눈에 봐도 규격외의 값들이 보이는데, 이들이 진짜 규격외인지는 기준이 필요하다. 아웃라이어를 규정하는 기준은 통계를 내는 제작자마다 다르므로, 이번에도 자의적인 해석을 투입할 것이다.

 

우선, 해석에서는 2가지 지표를 기준으로 사용할 것이다.

 

첫째는 본 지표들의 위치를 지수함수 추세선으로 표현하여 위치에 따라 절대적인 시청횟수와 상대적인 기회비용 일자 사이의 밸런스를 해석할 것이다. 추세선 보다 아래에 위치한다면, 해당 무대들은 동일 기회비용에서 더 많은 시청횟수를 기록한 것이며, 다시 말해 라이브를 시청한 빈도가 잦다는 의미이다. 반대로 추세선 보다 위에 위치하는 무대들은 기회비용에 비하여 시청횟수가 모자라다는 의미가 된다.

 

둘째는 가상의 무대를 추가하여 각 무대들의 대체가능성을 구할 것이다. 야구에서 활용하는 WAR(승리기여도)과 비슷한 개념으로, 해당 무대를 가상의 무대로 치환했을 때, 명백하게 지표에 - 영향을 주는지를 알아볼 것이다. 이는 가상의 무대를 몇 번 봤는지를 구하고, 그 값에 맞게 x축과 y축의 교차점을 조정하여 1사분면에 위치하는지를 확인하면 된다.

 

추세선은 엑셀 내의 기능을 통해 구한다.

 

대체가능성을 알아보기 위한 가상의 무대는 해당 무대가 추가되었음에도 보정 비중의 평균값을 유지하는 시청횟수 n값으로 구한다. 이를 방정식으로 정리하여 n값을 구해보면, n = 6.25174... 가 나온다.

 

이때의 n값과 보정 비중의 평균값을 각 축의 교차점으로 두면, 좌표평면은 다음과 같이 만들어진다.

 


6. 아웃라이어 추출 ③ - 아웃라이어 도출

이제 우리는 1사분면 위의 지표들만 보면 된다. 저 중에 아웃라이어 지표가 있음이 확실해졌다. 그러나 과연 몇개가 아웃라이어에 해당하는지는 알 수 없다. 이에따라 마지막 절차로 기준값들의 곱과 백분위를 이용한 아웃라이어 영역을 표시할 것이다.

 

기준값은 두 축의 교차점 값인 x = 0.043562319... 과 y = 6.25174..., 여기에 10을 곱한 값이며, 각 데이터의 xy 값이 기준값보다 크다면, 그 데이터는 아웃라이어라 할 수 있다.

 

기준값의 xy 값은 2.72340293... 이며, 정수값인 y의 변화에 따라 영역을 그리면 다음과 같다.

 

 

1사분면 위에 있으며, 아웃라이어 영역 안에 포함된 무대는 다음과 같다.

 

① 유닛 고시엔 2024 1일차 - 스페셜 퓨어 유닛 《キラーキューン☆》

② 리에라 유닛 팬미 니이가타 1일차 - KALEIDOSCORE 《色づいて透明》

③ 유닛 고시엔 2024 1일차 - 스페셜 팬시 유닛 《待ってて愛のうた》

 

이 중 팬시 유닛의 맛떼아이는 추세선 보다 위에 위치하므로, 다른 두 무대보다 시청 빈도가 적음을 알 수 있다. 물론 통계상 유의미한 아웃라이어임은 자명하다.


7. 결론

일단 상반기에만 아카이브를 1500회 본 시점에서 뽕은 오지게 뽑은 것 같고, 그 와중에 고시엔 키라큥과 맛떼아이, 리에라 유닛팬미 카레스코의 이로토메를 높게 평가함을 알 수 있다.

 

그리고 나기는 아웃라이어에만 두 번 들어갔다.

 

대    청   


더보기

 

물론 무대 상관 없이 곡으로만 따지면 캣츄가 최강이다.

댓글