V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
baobao1270
V2EX  ›  问与答

如何镜像一个 MediaWiki 网站?

  •  
  •   baobao1270 · Apr 16, 2023 · 2583 views
    This topic created in 1117 days ago, the information mentioned may be changed or developed.

    想要备份一个国内小众圈子的 Wiki ,害怕哪天整个站都被屏蔽了

    1. 不是维基百科,对方也不提供 dump 文件,所以不能使用「离线 Wiki 浏览器」之类的东西
    2. 想要采集 Wiki 语言格式的文件内容,而不是 HTML 格式
    6 replies    2024-11-21 00:23:52 +08:00
    clockwise9
        1
    clockwise9  
       Apr 16, 2023 via Android
    根据 https://m.mediawiki.org/wiki/Web_scraping_access ,url 加参数 action=raw 就可以获得 wikitext 内容
    baobao1270
        2
    baobao1270  
    OP
       Apr 16, 2023
    @clockwise9 不是很想自己写爬虫,最好有能够有已经有的开源程序
    LxnChan
        3
    LxnChan  
       Apr 16, 2023
    https://lxnchan.cn/wget-all-grab.html

    刚才我用我自己的 mediawiki 试了一下,wget 整站抓取基本是可行的,但是抓下来的东西比较乱而且只能是静态页面(包括在页面内跳转也会失效)。不过可以参考#1 的思路,在抓取时每个 url 后加 raw 参数然后自己本地搭一个把 raw 导入数据库应该也可行。
    vazo
        4
    vazo  
       Apr 16, 2023
    可以试试 HTTrack
    http://www.httrack.com/page/2/
    winterx
        5
    winterx  
       Apr 16, 2023
    特殊:导出页面
    dianso
        6
    dianso  
       Nov 21, 2024
    找到办法了吗
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3003 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 72ms · UTC 15:15 · PVG 23:15 · LAX 08:15 · JFK 11:15
    ♥ Do have faith in what you're doing.