※ 참고. 더보기 누르면 pandas 나옴
1. 단순 집계
이 개짓거리의 발단부터 이전 과정은 전부 6개월 전에 다뤘으니, 바로 통계부터 보겠다.
기록표에 의한 단순 집계 결과는 위와 같다. 대충 하루에 9.91803278688525개 무대를 시청했다. 이제부터 이 데이터들에서 재미있는 통계들을 뽑아보자.
2. 몇 회부터 재밌다고 생각한 무대일까
일단, 통계에서 시청횟수가 1인 무대들은 처음 아카이브 볼 때 말고는 안 본 무대거나, 2024년 이전 공연이지만 1번만 보고 만 무대이다. 즉, 다시 찾을 유인이 적었던 그런 무대라 할 수 있다.
반면에 수치가 1이상인 무대들은 최소한 처음 보고 나서 다시 본 적이 있다는 뜻이므로, 뭔가 재미를 느꼈을 것이다. 이것을 고려해 "몇 회부터 재밌다고 생각했는지" 알아내보자.
6개월 전에는 이것을 자의적인 아웃라이어 수치를 정해서 봤는데, 이번에는 pandas를 쓸 것이므로 좀 더 디테일하게 파보자. 일단 "시청 횟수"에 따라 무대의 빈도를 계산하고, 그 무대의 누적 %를 따져서 "상위 4%"가 몇 회부터 시작하는지 알아보자. 파레토 법칙에 따라 20%로 잡아도 되는데, 갤방에서 틀었으면 하는 무대 정도로 컷을 높일 생각이므로, 수능 1등급 기준인 4%로 했다.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore", category=UserWarning, module="openpyxl")
pd.set_option('display.float_format', '{:,.1f}'.format)
무대 = pd.read_excel('2024 아카이브.xlsx')
횟수_빈도_df = 무대['횟수'].value_counts().reset_index()
횟수_빈도_df.columns = ['횟수', '무대 수']
횟수_빈도_df = 횟수_빈도_df.set_index('횟수').sort_index()
횟수_빈도_df['누적 공연수'] = 횟수_빈도_df['무대 수'].cumsum()
횟수_빈도_df['누적 퍼센트'] = 횟수_빈도_df['누적 공연수'] / 1195 * 100
result = 횟수_빈도_df[횟수_빈도_df['누적 퍼센트'] <= 96]
result
그 결과, 11회까지가 하위 95.8%로 나왔다. 즉, 12회부터가 상위 4%에 속한다. 이 무대들을 모두 모아보자.
시리즈 | 공연 | DAY | 캐스트 | 곡명 | 횟수 |
고시엔 | 유닛 고시엔 2024 | 1 | 퓨어 | キラーキューン☆ | 35 |
고시엔 | 유닛 고시엔 2024 | 1 | 팬시 | 待ってて愛のうた | 25 |
이차 페스 | 이차 페스 | 2 | 니지가사키 | Just Believe!!! | 24 |
고시엔 | 유닛 고시엔 2024 | 2 | 5yncri5e! | Dancing Raspberry | 23 |
고시엔 | 유닛 고시엔 2024 | 2 | 미스테리어스 | ノンフィクション!! | 23 |
고시엔 | 유닛 고시엔 2024 | 2 | 5yncri5e! | A Little Love | 22 |
리에라 | 유닛 팬미 최종장 | 1 | 페이튼 나오미 | みてろ! | 22 |
리에라 | 유닛 팬미 니가타 | 1 | KALEIDOSCORE | 色づいて透明 | 21 |
이차 페스 | 이차 페스 | 2 | - | 繚乱!ビクトリーロード | 20 |
고시엔 | 유닛 고시엔 2024 | 2 | 스마일 | Colorful Dreams! Colorful Smiles! | 19 |
니지 | 니지 6th 가나가와 | 2 | 니지가사키 | New Year's March! | 19 |
고시엔 | 유닛 고시엔 2024 | 1 | 프리티 파워풀 | 全速ドリーマー | 18 |
고시엔 | 유닛 고시엔 2024 | 2 | A·ZU·NA | Blue! | 18 |
고시엔 | 유닛 고시엔 2024 | 2 | 큐티 | 夏めきペイン | 18 |
니지 | 니지 6th 가나가와 | 2 | 코이즈미 모에카 | 咬福論 | 18 |
리에라 | 리에라 4th 아이치 | 2 | CatChu! | オルタネイト | 18 |
이차 페스 | 이차 페스 | 2 | - | キャットスクワッド | 18 |
리에라 | 리에라 5th 도쿄 | 2 | Liella! | Stella! | 17 |
고시엔 | 유닛 고시엔 2024 | 1 | QU4RTZ | PASTEL | 16 |
고시엔 | 유닛 고시엔 2024 | 1 | 엘레강트 | 明日の空の僕たちへ | 16 |
니지 | 니지 1st | 2 | 쿠스노키 토모리 | MELODY | 16 |
니지 | 니지 6th 가나가와 | 2 | 우치다 슈 | Lemonade | 16 |
리에라 | 리에라 3rd 도쿄 | 2 | Liella! | 色づいて透明 | 16 |
아쿠아 | 환일 1st | 3 | - | Tick-Tack, Tick-Tack | 16 |
이차 페스 | 이차 페스 | 1 | - | Dye the sky. | 15 |
고시엔 | 유닛 고시엔 2024 | 2 | CatChu! | オルタネイト | 14 |
고시엔 | 유닛 고시엔 2024 | 2 | 쿨 | Deep Resonance | 14 |
니지 | 니지 7th | 1 | 쿠보타 미유 | VIVID WORLD | 14 |
니지 | 니지 7th | 1 | 하야시 코코 | DIVE! | 14 |
리에라 | 리에라 4th 아이치 | 2 | CatChu! | 影遊び | 14 |
리에라 | 리에라 5th 도쿄 | 2 | CatChu! | オルタネイト | 14 |
리에라 | 리에라 5th 후쿠오카 | 2 | CatChu! | オルタネイト | 14 |
하스 | 하스 2nd 효고 | 1 | DOLLCHESTRA | 希望的プリズム | 14 |
고시엔 | 유닛 고시엔 2024 | 2 | CatChu! | 影遊び | 13 |
니지 | 니지 6th 가나가와 | 2 | - | Waku Waku! Monday Morning | 13 |
리에라 | 리에라 5th 도쿄 | 2 | Liella! | クレッシェンドゆ・ら | 13 |
리에라 | 유닛 팬미 최종장 | 2 | 아오야마 나기사 | リバーブ | 13 |
고시엔 | 유닛 고시엔 2024 | 1 | R3BIRTH | MONSTER GIRLS | 12 |
고시엔 | 유닛 고시엔 2024 | 1 | 와이와이와이 | わーいわいわい わいわいわい! | 12 |
니지 | 니지 7th | 1 | 니지가사키 | 夢がここからはじまるよ | 12 |
니지 | 니지 7th | 1 | 우치다 슈 | stars we chase | 12 |
니지 | 니지 7th | 1 | 코이즈미 모에카 | EMOTION | 12 |
리에라 | 3기 리리이베 | 2 | Liella! | 青春HOPPERS | 12 |
리에라 | 유닛 팬미 최종장 | 1 | CatChu! | 全力ライオット | 12 |
리에라 | 유닛 팬미 최종장 | 2 | 에모리 아야 | Eyeをちょうだい | 12 |
리에라 | 유닛 팬미 최종장 | 2 | 오오쿠마 와카나 | ガラスボールリジェクション | 12 |
리에라 | 유닛 팬미 후쿠오카 | 3 | 5yncri5e! | キラーキューン☆ | 12 |
아쿠아 | 2024 누마즈 마츠리 | 3(밤) | Aqours | ユメ語るよりユメ歌おう(Rock ver) | 12 |
이차 페스 | 이차 페스 | 2 | - | 学祭革命夜明け前 | 12 |
이차 페스 | 이차 페스 | 2 | DOLLCHESTRA | KNOT | 12 |
2024년 기준, 아카이브 기록상 1등급 받은 무대들이다. 저 무대들의 재미는 아카이브 3630회 시청한 내가 보장한다.
3. 몇 회부터 재밌다고 생각한 곡일까
같은 논리와 과정으로, 이번에는 "곡"에 대해 분석해보자.
곡 = pd.read_excel('song.xlsx')
곡_빈도_df = 곡['횟수'].value_counts().reset_index()
곡_빈도_df.columns = ['횟수', '곡 수']
곡_빈도_df = 곡_빈도_df.set_index('횟수').sort_index()
곡_빈도_df['누적 곡 수'] = 곡_빈도_df['곡 수'].cumsum()
곡_빈도_df['누적 퍼센트'] = 곡_빈도_df['누적 곡 수'] / 512 * 100
곡result = 곡_빈도_df[곡_빈도_df['누적 퍼센트'] <= 96]
곡result
이번에는 길이가 길어서 끝에만 끊어왔다. 보면 25회까지가 하위 95.9%이며, 26회부터가 상위 4%다. 이에 해당하는 곡들을 모아보면,
곡 | 횟수 | 랭크 |
オルタネイト | 106 | 1위 |
キラーキューン☆ | 84 | 2위 |
影遊び | 69 | 3위 |
Dancing Raspberry | 64 | 4위 |
A Little Love | 47 | 5위 |
色づいて透明 | 45 | 6위 |
ディストーション | 41 | 7위 |
みてろ! | 40 | 8위 |
ノンフィクション!! | 39 | 9위 |
Jellyfish | 34 | 10위 |
全力ライオット | 34 | 10위 |
MIRACLE NEW STORY | 33 | 12위 |
繚乱!ビクトリーロード | 31 | 13위 |
不可視なブルー | 30 | 14위 |
TO BE CONTINUED | 29 | 15위 |
Colorful Dreams! Colorful Smiles! | 28 | 16위 |
Just Believe!!! | 28 | 16위 |
Stella! | 27 | 18위 |
ニュートラル | 27 | 18위 |
待ってて愛のうた | 27 | 18위 |
ベロア | 26 | 21위 |
이러하다. 요란, CDCS, 믿기본, 맛떼아이 빼면 전부 리에라다. 그리고 2번의 데이터와 3번의 데이터를 합쳐보면 나오는
filtered_무대 = 무대[무대['횟수'] >= 12]
filtered_곡 = 곡[곡['횟수'] >= 26]
common_곡명_df = pd.merge(filtered_무대, filtered_곡, left_on='곡명', right_on='곡', how='inner')
filtered_columns_df = common_곡명_df[['시리즈', '공연', 'DAY', '캐스트', '곡명', '횟수_x', '횟수_y']]
filtered_columns_df = filtered_columns_df.rename(columns={
'횟수_x': '시청 횟수',
'횟수_y': '같은 곡 전체 시청 횟수'})
filtered_columns_df = filtered_columns_df.sort_values('곡명', ascending=False)
filtered_columns_df
위의 무대&곡들은 양쪽 모두 상위 4%에 든 목록이다. 또한,
단일 무대로 곡 상위 4% 기준을 달성한 것은 고시엔 키라큥이 전부다.
4. 누구 목소리를 가장 많이 들었을까
시리즈, 그룹, 유닛 등으로 통계를 내는 건 표에서 딸깍만 하면 되니까 구하기 쉽다. 다만, 이차페와 고시엔의 영향으로 셔플 유닛이 많고, 몇몇 무대에서 결원이 생기거나, 중도 합류 캐스트가 있는 등 딸깍으로 얻어낸 통계가 "진짜 그 캐스트/유닛/그룹"의 통계인지 확신할 수 없다.
그런고로, 각 무대마다 어떤 캐스트가 출연했는지를 전부 기입하고, 그것을 csv로 저장한 뒤, pandas의 텍스트 나누기를 통해 집계하겠다. 다만, 곡의 특성상 다음의 곡들은 캐스트를 결측치로 처리하겠다.
- 異次元★♥BIGBANG
- LIVE with a smile!
- 러브라이브 캐스트가 참가하지 않은 아이마스 곡들
또한, 럽지컬의 경우, 캐스트가 기존 뮤아니리하 캐스트와 겹칠 일이 절대 없으니, 럽지컬 그냥 "럽지컬" 팀으로 처리하겠다.
data = pd.read_csv("csv.csv") # CSV 파일 경로로 변경
expanded_data = data.set_index('출연 횟수')['캐스트'].str.split(', ', expand=True).stack()
expanded_data = expanded_data.reset_index(name='캐스트')
result = expanded_data.groupby('캐스트')['출연 횟수'].sum().reset_index()
result.columns = ['캐스트', '전체 출연 횟수']
result = result.set_index('캐스트').sort_values('전체 출연 횟수', ascending=False)
result.index = range(1, len(result) + 1)
result
해서 결과가 나왔는데, 길이가 너무 길어서 적절한 위치에서 끊어서 보겠다.
1위에서 11위는 모두 리에라 멤버들이 가져갔다. 그럴 수밖에 없는 게, 일단 5th가 연초부터 있었고, 리에라 팬미를 투어로 돌았기 때문에 많이 나올 수밖에 없었다. 물론 그걸 떼어놓고 봐도 캣츄 3인방이 최상위에 위치한 시점에서 록붕이의 개인 취향이 지대하게 영향을 끼쳤다.
이어서 나코-리유-논쨩-쿠마-모링이-나기-사쿠-유이나인데, 3기생이라 합류가 늦은 둘은 1st~3rd 라이브를 돌려보는 바람에 격차가 생긴 것으로 보인다. +600에선 나코가 그나마 격차가 큰 편인데, 이건 아마도 싱크라+맛떼아이 때문이 아닐까 한다.
츙룽, 체미, 삣삐, 마유치 4명이 +400이다. 딱 봐도 높은 이유가 보이는데, 일단 쿼츠 무대와 고시엔 1일차 파스텔을 자주 봐서 격차가 나온 것 같다. 아카링은 고시엔에서 결장했기 때문에 카운트가 같이 안 올라갔다. 삐가 높은 건 교복론과 왘왘모닝 때문으로 보인다. 그 증거가 바로 이어서 마에다가 나온다는 것. 1학년들 곡이다보니 체미/삣삐/마유치/카오링이 상위권에 속한다.
뒤이어 등장하는 미유땅, 아카링, 퐁구리, 띠드, 슈슈, 낫쨩, 코코. 각자 10회 미만이라 별 차이는 없는데, 유메코코, 네오네오 같은 9인곡 때문에 띠슈코 3명이 몇 회씩 모자란 걸로 보인다. 근데 낫쨩은 왜 저기 있지. 솔로곡을 상대적으로 덜 봤나 보다.
니지에서 중요한 건 사실 코코인데, 전체 시청 횟수가 3630회이므로, 낫쨩까지는 10%대를 유지한다. 코코부터는 9%다.
다음은 200~300회를 기록한 5명. 콧땅과 낫스는 돌케라서, 컁-후리-안쨩은 개인 라이브 영상을 갖고 있어서다. 갖고 있기로는 슈카와 냐도 하나씩 갖고 있는데,
둘이 똑같이 181회다. 우이사마와 논쮸는 스리즈부케로 붙어다니기 때문에 수치가 비슷할 수밖에 없는데, 저 7회의 차이는 아마 이차페 마이마이, 미라뉴스 두 곡 때문일 거다.
언니-슈카-냐-샤-킹쨩-스와로 이어지는 이 라인은 슈카와 냐는 앞서 말했듯 개인 라이브, 샤와 킹쨩은 지모마츠 때문에 차이가 나온 걸로 보인다. 언니는 이차페 튤립, 캣스쿼드, 고시엔 논픽션 때문으로 보인다. 재밌는 건 다 언니가 했다. 이러면 스와가 낮은 것도 이어지는데, 스와가 이차페에서 셔플로 나온 곡이 없었다.
이제 100 언더다. 100 언더에서는 독보적인 위치가 토모리다. 토모리 개인 라이브도 갖고 있고, 아-주 가끔이지만 토모리의 3rd, 4th, 5th, 아즈나를 보기도 했고. 물론 가장 큰 공헌은 1st 멜로디다.
유나나의 40 달성은 논픽션 덕분이다. 치하와 히붕이는 고시엔에서 카운트가 똑같이 된 듯 하다. 써니파 보면 성설 봤고, 성설 보면 써니파 봤다. 그리고 둘이 같이 나츠페인 했다.
야붕이도 있긴 하다. 와츄고나두, 니지교가, 뉴이어마치 등등에 이름 넣고 카운트 했다. 후쨩은 유일하게 3rd 돌케 공연을 봐서 카운트가 +30으로 올라왔다. 아사밍은 고시엔으로 31회 채웠다. 성설과 딥레조.
마지막 파트는 뮤즈, 104기생인 히쨩과 린린, 그리고 럽지컬이다. 뮤즈는 토크 콘서트와 오케콘에서 카운트가 되었고, 럽지컬은 only 이차페다. 히쨩과 린린의 차이는 104기 편곡 버전 때문인데, 미라파 104기 버전 아이덴티티는 도저히 못 듣겠다. 늙어서 정신이 없다. 린린에게 미안하다.
5. 결측치 대체 - 옆집/셔플 등으로 통일하면
캐스트마다의 통계를 봤으니, 이번에는 그룹과 유닛 등으로 한 번 보자. 멤버 변동 따지지 말고, 단순히 무대의 명의가 누구이냐로 정리한다.
100회 이상의 시청 수를 기록한 그룹 및 유닛들이다. 당연하게도 솔로는 없다. 와중에 단 8개의 무대로 168회를 본 고시엔 셔플은 도대체 뭘까.
50회 이상의 데이터에서 3명의 솔로 캐스트가 등장했다. 이런 건 오시 안 따라간다. 그냥 노래가 취향인 사람 따라간다.
40회 및 30회 범위로 가니 솔로가 많아지고, 대부분 니지쨩이다. 리에라에서는 페이에 이어 나기가 등장했다. 역시 나기 생파를 가지고 있는 보람이 있다.
20대로 내려오니 대부분이 리에라다. 옆집으로 표시된 저기는 이차페 때 아이마스쪽 출연자만 있는 경우이다. 대충 녹칠, 정글파티, 학제혁명, 스노하레, 오마이갓 이런 거다.
2025년에 열심히 봐야될 멤버들이다.
6. 마무리
캐스트 별로 정리한 통계가 대충 이러이러 하다는 걸 봤고, 1년 동안 3630회 봤으면 많이 보긴 한 것 같다. 아 근데 저 카운트에 후기 쓴다고 움짤 뜬 건 포함 안 했다.
아무튼, 올 한 해도 럽라가 있어서 행복했고,
모든 통계에서 자꾸 얼굴 보인 유닛이 캣츄인 걸 보면 유전자에 각인된 록블러드는 어쩔 수 없었나 보다.
'자료실 > 보존서고' 카테고리의 다른 글
[DIY] (ɖ¡/ơ, ơ y 「곰타백을 만들었어.」 (0) | 2024.12.29 |
---|---|
[개짓거리] 내가 그대의 소원을 들어주겠소 (0) | 2024.12.23 |
[개짓거리] GPT와 NAI를 합치면 with Pixlr (0) | 2024.11.28 |
[개짓거리] Novel AI는 정말 신일까 (0) | 2024.11.26 |
[개짓거리] GPT는 SS를 읽으면 어디까지 이해할까 (0) | 2024.08.19 |
댓글