V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 外包信息请发到 /go/outsourcing 节点。
• 不要把相同的信息发到不同的节点
yyu781604
V2EX  ›  酷工作

[演算法项目] 远端&兼职

  •  
  •   yyu781604 · 5 小时 50 分钟前 · 187 次点击

    一、項目背景

    我們運營一個大型新聞網站,旗下包含十多個內容分站(評論、財經、娛樂、體育、健康、生活等)。每篇文章底部會展示 20 篇相關推薦文章,這是站內流量循環的重要入口。

    目前相關推薦由兩套系統並行產出:

    • 新系統:我們自建的推薦算法,在 Google BigQuery 上運行,有兩個變體:
      • 基於命名實體重疊的推薦:比對文章間共同提到的人名、地名、事件等實體來判斷相關性
      • 基於語義向量搜索的推薦:利用文章 Embedding 計算語義相似度,並結合點擊熱度排序
    • 舊系統:原有推薦系統,目前作為效果對比的基線

    核心目標:在所有分站上,新系統的推薦效果必須超越舊系統。 目前多數分站已領先,但仍有幾個分站落後,需要在 4 週內通過系統性的實驗迭代解決。


    二、現況概述

    根據最新數據,各分站的新舊系統 CTR (點擊率)對比情況如下:

    • 一些分站明確落後:新系統 CTR 低於舊系統 10%~35%,是本次優化的重點
    • 一些分站基本持平:新系統小幅領先,但優勢不明顯,需鞏固
    • 多個分站已大幅勝出:新系統領先幅度在 13%~73% 之間,以穩定為主
    • 少量小站不納入優化:文章量過少,投入產出比低

    三、問題分析

    落後分站的共同特點是 內容的時效性需求和推薦算法的時間衰減策略不匹配:

    • 觀點評論類(差距最大):讀者尋找特定議題的深度觀點,經典文章依然有閱讀價值。但算法偏好新文,把有價值的「舊文」壓到了很低的推薦分。
    • 知識參考類(如健康):內容具有長期參考價值,不像新聞有明確的時效性。時間衰減過強會排除這類內容。
    • 財經類:曾經勝出但近期退步,可能與近期的參數調整有關,需要排查。

    相比之下,已勝出的分站(體育、政治、娛樂等)恰好是「時效性強」的內容,算法偏好新文章的策略在這些場景下正好契合用戶需求。


    四、技術棧

    組件 技術 數據倉庫 Google BigQuery 推薦算法 BigQuery SQL Stored Procedures 向量搜索 BigQuery VECTOR_SEARCH 推薦導出 GCS (Google Cloud Storage) 版本管理 Git


    五、優化方法論

    5.1 三層評估漏斗

    每次參數調整不再直接上線等結果,而是通過三層漏斗逐步驗證:

    第一層:離線評估(分鐘級) 用歷史點擊數據回測,快速篩掉明顯差的配置 輸入 20+ 組配置 → 篩到約 8 組 ↓ 第二層:Interleaving 測試(小時級) 在同一推薦列表中交錯混合兩組配置的結果 統計用戶實際點擊偏好哪組 靈敏度是傳統 A/B 的 10-100 倍 約 8 組 → 篩到 2-3 組 ↓ 第三層:A/B 測試(天級) 最終候選做傳統分流測試 觀察長期指標(停留時間、推薦鏈路深度) 2-3 組 → 確認最優

    5.2 多因素實驗設計

    同時測試多個參數的不同組合,而非一次只改一個。需要調整的參數包括:

    • 時間衰減策略:文章年齡對推薦分的影響程度
    • 實體 / 語義權重:不同相似度信號在總分中的比重
    • 熱度權重:推薦點擊熱度的加分幅度
    • 候選池時間窗口:從多長時間範圍內取候選文章
    • 新信號開關:如同專欄加分、經典內容保留位等

    通過正交實驗設計,少量實驗即可覆蓋主要的因素交互效應。

    5.3 複合質量指標

    不僅看 CTR ,還要看用戶點擊後的行為質量:

    • CTR:推薦被點擊的概率
    • 推薦鏈路深度( Session Depth ):用戶點了推薦後,是否繼續點擊下一篇推薦
    • 停留時間( Dwell Proxy ):用戶在推薦文章上的停留時長

    多維指標可以避免「標題吸引人但內容不匹配」的情況。


    六、2 週排程

    時間 階段 主要工作 產出 Week 0 ( 1 天) 基礎設施

    構建離線評估集、複合指標追蹤、Interleaving 框架、實驗配置表 評估工具就緒 Week 0 ( 2 天) Round 1:參數探索 多組配置離線全掃 → 線上 Interleaving → A/B 確認 最優基礎參數配置 Week 0 ( 2 天) Round 2:新信號 在最優配置上測試新信號(專欄加分、經典內容位等) 各分站最終信號組合 Week 1 ( 3 天) Round 3:精調 + 驗證 混合策略測試,72 小時穩定性驗證 各分站最終配置確認 Week 1 ( 2 天) 生產部署 + 監控 上線最終配置,部署每日監控和告警機制 系統上線、監控就緒


    七、交付標準

    必須達成

    1. 所有納入優化的分站,新系統 CTR ≥ 舊系統 CTR 20%
    2. 已勝出分站不退步 — 維持現有領先 同時要求
    3. 建立持續監控機制 — 每日健康度報表、異常告警
    4. 每輪實驗有完整記錄 — 配置、數據、結論、決策依據可追溯

    八、所需技能

    技能要求:

    SQL / BigQuery 熟練。核心工作是修改和測試 BigQuery Stored Procedures 推薦系統 了解基本概念( CTR 、A/B 測試、Interleaving 、推薦排序) 數據分析 能設計實驗、分析結果、判斷統計顯著性 Git 基本使用即可 Python

    非必須,但如需做數據處理會有幫助


    九、工作方式

    • 每輪實驗結束後,需提交實驗報告(配置、結果、決策)
    • 重大參數改動需先溝通確認再上線
    • 每日同步進展,有阻塞及時反饋
    • 代碼通過 Git 管理

    十、其他

    • 如果您有相关经验,欢迎带着报价来投。未来希望能达成长久合作
    • 也希望您是自由工作者或者有大量的业余时间,以利于多个项目展开深度合作。
    • 最好是海外的华人华侨,公司主体业务在海外,项目薪资以付美金或稳定币为主。所以,希望您可以有相关的账户,以利结算。
    • 如有兴趣,可与技术详谈,项目相关情况。
    • 联系方式: [email protected] ,请附带您的简历信息。
    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   990 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 18:28 · PVG 02:28 · LAX 10:28 · JFK 13:28
    ♥ Do have faith in what you're doing.