稍微分析了一下我的 Podcast 收聽紀錄 2018–2020

自從 2015 年開始聽 Podcast 至今也約 5 年了。最近發現我聽 Podcast 的時間和訂閱節目的數量都很多,有點資訊超載的感覺,尤其新節目越來越多(大部分是台灣的),排擠到原本訂閱的節目,跳過了好多單集。

以下是我一直以來的猜想:

  1. 我訂閱的節目在最近兩三個月變得很多,但是真正去聽的很少,所以有些該退訂。
  2. 我聽節目的喜好程度是中國普通話節目 > 台灣國語節目 > 台語節目 > 英語 >> 日語。
  3. 一開始都是聽中國的節目,而從某一段期間開始狂聽英語節目。
  4. 開始在家工作之後似乎聽的時間變多了,儘管沒有通勤。

於是我好奇我的行為有沒有什麼改變。

尤其是「訂了沒在聽」的問題,一直困擾著我。我有公開一個我訂閱中的節目列表。目前是大約 100 檔節目。但是我不可能全部都聽完。

但是數據去哪裏找呢?


我用的 Podcast App 叫做 Castro,裡面有個打星 (Star) 的功能。這個計畫本來是想要做打星列表,公開出來。但是 App 裡面沒有匯出的功能,備份檔裡面雖然有節目和單集的歷史紀錄,但只有內部索引號碼 (UUID),讀不到節目名稱。去信開發者也只收到罐頭回信。

本來很氣餒,但後來找到有人透過祕技把資料庫匯出,寄送到自己的 Email 信箱。基本上他做的是把事件灌到另一個紀錄個人嗜好的 App 裡面。

有了原始資料庫就可以做很多事情了,包括收聽行為的分析。拿到了資料庫之後,就用 SQL 和 Google 試算表做簡單的數據分析。剛好遇到日本的黃金週,旅遊計畫也因為武漢肺炎 (COVID-19) 疫情而被取消了,所以我有完整的長假可以玩這些資料。(技術細節請見文末)

以下是一些 Insights。直方圖的數據是根據收聽時間 × 節目主要語言來彙整的,以一週為單位,橫軸是收聽的週(以週日為開始),越往右邊越靠近現在(2020 年 5 月)。

數據最終更新的時間是五月初,所以五月的數據不完整。以及我開始用 Castro 大約是 2018 年 11 月,所以先前的數據是空白的。不過一年半的數據也夠分析了。


總播放單集數

首先最直覺的問題是「我到底都聽了多少單集」。

跟其他 Podcast App 不同,Castro 的基本設計是一個播放清單和收件匣 (Inbox)。Castro 把訂閱 Podcast 節目類比成訂閱電子報,有新內容的時候先進入收件匣,要聽的時候再移入播放清單,且可以自由調整播放順序。我在 Castro 中設定大部分的節目是進入 Inbox,只有少數每日更新,或是乾貨特別多的節目,可以直接進入播放清單。如果你是播客主,Castro 客戶端的下載 +1 就是發生在此刻。

如果用 SEO 的術語來說,就是「閱覽數」(PV)。除了我有信心可以每集必聽的節目之外,還有標題內文吸引我所以點了下載的單集。聽說 SEO 界還有所謂的 clickbait 伎倆——以聳動或嘩眾取寵的標題騙人家點進來看,增加 PV 及增加廣告曝光次數。幸好 Podcast 仍然還在主動訂閱的模式,clickbait 比較難奏效。

以下這張圖就是我自己的 PV 數。

/images/2020-05-09-podcast-analysis/episodes-weekly.png

/images/2020-05-09-podcast-analysis/episodes-weekly-100.png

總播放時長

上述的播放單集並沒有回答一個問題:我播放了那麼多的單集,加起來到底都花了多少時間在聽 Podcast?

透過統計資料庫裡面的「播放進度」就可以算出每週大約播放了多少小時的節目。當然因為它只有進度(秒),所以它是原始音訊檔的時間長度,忽略快轉跳過的時間、加速播放、自動移除空白而省下的時間,也忽略了重複播放多次的加總時間(只計算最後一次播放到哪裏)。但因為我的習慣通常是不會重複聽第二次,所以不精確的部分不太影響這個指標。

那麼來看圖說故事。縱軸是加總的播放進度,單位是小時:

/images/2020-05-09-podcast-analysis/duration-weekly.png

/images/2020-05-09-podcast-analysis/duration-weekly-100.png

追新番指數

上述的收聽及紀錄不考慮新番舊番,也就是說如果我在 2020 年 5 月選了 2018 年發布的單集收聽,還是算在 2020 年 5 月。如果要解答訂閱的即時收聽量,也就是「新番一定聽」和「訂了沒在聽」的指標,則要考慮發布日期和收聽日期。

下圖計算的方式是每週有給一個節目按「播放」就算 1 次,按多次也只算 1 次。並且只計算發布後 7 天內收聽的節目,所以可以排除去聽老集數的誤差(播客主所謂的「長尾」)。

於是就可以看出每週真正去追的新番數量:

/images/2020-05-09-podcast-analysis/following-shows.png

忠誠指數

上面的追新番圖表是照語言區分的。我事實上最好奇的是「我需要退訂哪些節目」。

做播客主的人一定會好奇:你的節目真的有人在聽嗎?儘管託管網站後台看得到下載數量,但你卻不知道他們有沒有播放(除非是 Apple Podcasts、Spotify 等平台有第一手數據)。甚至你也不知道這其中有多少是訂了之後沒在聽。

接下來這項統計,就是我對節目的忠誠度。這個數據是如此計算的:

對於每一檔節目,找到最初我播放的單集。從那之後發布的每一單集,根據月份加總時間長度。然後和我實際收聽的長度相除。

這樣就能得到一個「消化率」:雖然有訂閱,而且它在這個月有發新番,但有多少 % 是我真正去聽了。

這就能看出我對節目的忠誠度,以及看看那些我可以退訂,反正我也沒在聽。

再一次用 SEO 的術語來解釋,前文的單集總數如果是 PV 的話,忠誠指數就是「逗留網站時間」。吸睛的標題可能會吸引我打開網頁,但真正有內容的長文會讓讀者流連忘返,標題卻不見得吸睛。

然而對於 Podcast 來說,花時間製播的內容還是得要有人聽完才有意義。標題和節目筆記只是一種廣告,轉化發生在節目的消化。但這樣的轉化除非是發布端到收聽端整合的大平台(Apple Podcast, Spotify)才能精確計算,不像 YouTube 有製播-回放-統計一條龍的鏈,用 RSS 發布的 Podcast,天生就很難一個平台通吃,一般的泛用型 Podcast App 因為單純是下載檔案,後端只能看到下載數據,無法向播客主回報收聽紀錄等資訊。所以這種數據對播客主來說是夢寐以求的。

以下這張截圖只是一張試算表的一部分。因為 5 月的內容還算新,所以我還沒聽完。但是如果我往下捲,就會發現許多紅色、有發新番但根本沒在聽的節目。截圖中的節目基本上都是我還有固定在追的。

/images/2020-05-09-podcast-analysis/consumption-rate-monthly-per-show.png

當然,因為有語言的標籤,所以可以照語言分類:

/images/2020-05-09-podcast-analysis/consumption-rate-monthly-per-lang.png

我的積極目標是要讓最新月份的數據盡量在 70% 以上,或是偏綠色,這表示我有訂的都有在聽,盡量降低出一集就 Skip 一集的壓力感。


後記:用數據洞察自己的沈迷

運用大數據平台分析個人的「小數據」也不是第一次了。在 2019 年 11 月也做過類似的事情,那時候是分析 Twitter 發文紀錄。資料量也不是很多,才三萬多條 ,不過已經可以看到一些有趣的趨勢。

今天做這個 Podcast 分析,雖然最初的目標是拉出資料庫來發布我的打星播放清單,但是當我手上拿到一個充滿事件紀錄的資料庫的時候,我就轉而運用我在工作學到的知識來分析數據,以及把流程給自動化。

從 2019 年末開始我有觀察到,每週推出的單集,多過我可以消化的量,但當時不以為然,只覺得 Castro 可以幫我統整單集,我自己決定如何收聽,已經比 Overcast、Pocket Cast 等基於播放列表的 App 來得方便了。但最近看到 Inbox 有 40 個單集,我就感到問題的嚴重性。儘管在家工作的時間變多了,但同時我也開始覺得「聽不完」,那麼 Podcast 作為娛樂工具就失去了它的意義,不如說是一種沈迷

以前我也有類似的感覺。2012 年以前我沈迷 PTT。2016 年以前我沈迷日本動漫,每季都會追新番,看不完。2019 年以前會玩 PS4 的暢銷大作。2019 年中以前會一直逛 Facebook。如今是 Podcasts。

雖稱沈迷,這種沈迷卻不是因為樂在其中,而是來自怕落伍的壓力 (Fear of Missed Out, FOMO)。我只是一味地輸入而沒有咀嚼之後再輸出,為的只是保持自己的資訊跟「大眾」同步。如果讀新聞是為了因應瞬息萬變的世界(瘟疫下更重要),那麼追逐娛樂的新事物,雖然可以消化時間,有時還能改變自己的思考模式,但如果沒有輸出,並無法給自己帶來好處,只是徒增壓力。

我依稀記得 Cal Newport 在《Digital Minimalism》一書中闡述一種觀念,就是我們要去尋找對自己最有效用的科技,而非單純別人也在用所以你也用。狂刷 Netflix、社群網站等行為,都不是最有效用的利用法。作者建議讀者去尋找對自己最有效用的科技,並對於任何新科技都保持嚴格檢驗的態度,「我是否確實體會到他對我生活帶來的美好」、「我榨取了它對我最有價值的部分了嗎」而非不假思索地接受新科技。

用台灣人最愛說的 CP 值(性價比,Cost-Performance Rate)來解釋的話,成本(代價)是你花了多少時間在這些娛樂,但最重要的性能(效能)卻是可以自己定義的。它可以是消遣無聊的生活、創作而得到的爽、對世界發表意見的輸出。但如果成效不彰,可能你用的方法不適合你,也可能該工具本來的設計就不是讓你爽,而是讓你看廣告,所以吸引你的注意力。但最重要的是,定義一個效能 P,然後檢視你付出的代價 C 跟實際獲得的 P 有沒有夠高,藉此來檢驗科技是否給自己帶來好的效果。

話說回我自己。如前所述,我放棄了不少興趣,動漫、電動、SNS。近來我跟 Netflix、電子書處於一種我很滿意的平衡,我也找到了我和 Facebook 新的平衡。但眼看 Podcast 好像快要吃垮我自己,現在做這種數據研究,給自己一些未來的指引,可能還不遲。


附錄:技術細節 for Geeks

分析的方式:

資料彙整的方式:

下載資料庫檔案的方式:

一些淚:

一些懸念: