一、項目背景
我們運營一個大型新聞網站,旗下包含十多個內容分站(評論、財經、娛樂、體育、健康、生活等)。每篇文章底部會展示 20 篇相關推薦文章,這是站內流量循環的重要入口。
目前相關推薦由兩套系統並行產出:
核心目標:在所有分站上,新系統的推薦效果必須超越舊系統。 目前多數分站已領先,但仍有幾個分站落後,需要在 4 週內通過系統性的實驗迭代解決。
二、現況概述
根據最新數據,各分站的新舊系統 CTR (點擊率)對比情況如下:
三、問題分析
落後分站的共同特點是 內容的時效性需求和推薦算法的時間衰減策略不匹配:
相比之下,已勝出的分站(體育、政治、娛樂等)恰好是「時效性強」的內容,算法偏好新文章的策略在這些場景下正好契合用戶需求。
四、技術棧
組件 技術 數據倉庫 Google BigQuery 推薦算法 BigQuery SQL Stored Procedures 向量搜索 BigQuery VECTOR_SEARCH 推薦導出 GCS (Google Cloud Storage) 版本管理 Git
五、優化方法論
5.1 三層評估漏斗
每次參數調整不再直接上線等結果,而是通過三層漏斗逐步驗證:
第一層:離線評估(分鐘級) 用歷史點擊數據回測,快速篩掉明顯差的配置 輸入 20+ 組配置 → 篩到約 8 組 ↓ 第二層:Interleaving 測試(小時級) 在同一推薦列表中交錯混合兩組配置的結果 統計用戶實際點擊偏好哪組 靈敏度是傳統 A/B 的 10-100 倍 約 8 組 → 篩到 2-3 組 ↓ 第三層:A/B 測試(天級) 最終候選做傳統分流測試 觀察長期指標(停留時間、推薦鏈路深度) 2-3 組 → 確認最優
5.2 多因素實驗設計
同時測試多個參數的不同組合,而非一次只改一個。需要調整的參數包括:
通過正交實驗設計,少量實驗即可覆蓋主要的因素交互效應。
5.3 複合質量指標
不僅看 CTR ,還要看用戶點擊後的行為質量:
多維指標可以避免「標題吸引人但內容不匹配」的情況。
六、2 週排程
時間 階段 主要工作 產出 Week 0 ( 1 天) 基礎設施
構建離線評估集、複合指標追蹤、Interleaving 框架、實驗配置表 評估工具就緒 Week 0 ( 2 天) Round 1:參數探索 多組配置離線全掃 → 線上 Interleaving → A/B 確認 最優基礎參數配置 Week 0 ( 2 天) Round 2:新信號 在最優配置上測試新信號(專欄加分、經典內容位等) 各分站最終信號組合 Week 1 ( 3 天) Round 3:精調 + 驗證 混合策略測試,72 小時穩定性驗證 各分站最終配置確認 Week 1 ( 2 天) 生產部署 + 監控 上線最終配置,部署每日監控和告警機制 系統上線、監控就緒
七、交付標準
必須達成
八、所需技能
技能要求:
SQL / BigQuery 熟練。核心工作是修改和測試 BigQuery Stored Procedures 推薦系統 了解基本概念( CTR 、A/B 測試、Interleaving 、推薦排序) 數據分析 能設計實驗、分析結果、判斷統計顯著性 Git 基本使用即可 Python
非必須,但如需做數據處理會有幫助
九、工作方式
十、其他