V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
creedowl
V2EX  ›  互联网

如何优雅的保存网页正文?

  •  1
     
  •   creedowl · 2018 年 7 月 4 日 · 22022 次点击
    这是一个创建于 2753 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看到一些好的文章 /博客,想要保存下来,方便以后查阅,用过 pocket 体验不好,会丢格式,代码高亮...

    目前想法是把文章正文保存为 PDF,考虑用 puppeteer,但是它好像只能将整个页面保存为 PDF,请问有什么更优雅的方法?

    93 条回复    2019-07-24 13:42:09 +08:00
    VVVVVEX
        1
    VVVVVEX  
       2018 年 7 月 4 日
    收藏链接
    nulIptr
        2
    nulIptr  
       2018 年 7 月 4 日
    pdf 可以的话屏幕剪辑也行啊,我用 onenote
    creedowl
        3
    creedowl  
    OP
       2018 年 7 月 4 日
    @VVVVVEX 怕时间久了链接凉了,毕竟挺多个人博客域名经常换..
    creedowl
        4
    creedowl  
    OP
       2018 年 7 月 4 日
    @nulIptr #2 那样不能复制吧..想用 PDF 就是因为可以复制,图片可以放大
    lurenw
        5
    lurenw  
       2018 年 7 月 4 日
    diggo
    randyzhao
        6
    randyzhao  
       2018 年 7 月 4 日
    我好像听人说过印象笔记可以直接保存整个网页副本?
    randyzhao
        7
    randyzhao  
       2018 年 7 月 4 日   ❤️ 1
    #5 我补充一下 5 楼的

    https://www.diigo.com/premium

    Store your online resources with annotations intact forever, regardless of whether the original source is still active. (Premium Feature)
    haimall
        8
    haimall  
       2018 年 7 月 4 日 via Android
    滚动截屏,放 onenote 之类的
    fakeJas0n
        9
    fakeJas0n  
       2018 年 7 月 4 日
    creedowl
        10
    creedowl  
    OP
       2018 年 7 月 4 日
    @lurenw #5 老哥好像打错了 emm..我看看这个
    creedowl
        11
    creedowl  
    OP
       2018 年 7 月 4 日
    @haimall 那样不能复制吧..想用 PDF 就是因为可以复制,图片可以放大
    JackEggie
        12
    JackEggie  
       2018 年 7 月 4 日
    evernote 的 chrome 插件
    smdbh
        13
    smdbh  
       2018 年 7 月 4 日
    evernote
    creedowl
        14
    creedowl  
    OP
       2018 年 7 月 4 日
    @randyzhao #6 整个网页的话有多余元素不好去掉..
    pexcn
        15
    pexcn  
       2018 年 7 月 4 日
    网页滚动截屏: https://sspai.com/post/42193
    Mbin
        16
    Mbin  
       2018 年 7 月 4 日
    我也想知道,一直没什么特别舒服的方法,有道和印象体验都不好
    haimall
        17
    haimall  
       2018 年 7 月 4 日 via Android
    @creedowl 看你复制的机率有多大,有一种功能叫识别图片文字。想完美,总要牺牲点东西的。
    logOo
        18
    logOo  
       2018 年 7 月 4 日 via Android
    页面千千万,没啥特别优雅的方案
    cdfmr
        19
    cdfmr  
       2018 年 7 月 4 日
    Firefox 的插件 Scrapbook,坚守 ESR 52 的最大原因。
    radio777
        20
    radio777  
       2018 年 7 月 4 日
    chrome 浏览器 打印 里面可选择保存为 pdf 格式
    randyzhao
        21
    randyzhao  
       2018 年 7 月 4 日
    @creedowl 误解你的意思了,你的意思是只保留文章的正文?

    那我暂时不知道了。。。
    creedowl
        22
    creedowl  
    OP
       2018 年 7 月 4 日
    @randyzhao 因为现在页面总有各种乱七八糟的东西..
    aice114
        23
    aice114  
       2018 年 7 月 4 日
    有道云笔记,chrome 插件
    imn1
        24
    imn1  
       2018 年 7 月 4 日
    前两天不是有个人发了个 maoxian 什么的剪切扩展么?
    goodniuniu
        25
    goodniuniu  
       2018 年 7 月 4 日
    印象笔记!
    ericzeng
        26
    ericzeng  
       2018 年 7 月 4 日
    印象笔记保存这个不错,还能提醒
    Trumeet
        27
    Trumeet  
       2018 年 7 月 4 日 via Android
    archive.is 和类似网站 试试?
    cuzfinal
        28
    cuzfinal  
       2018 年 7 月 4 日
    打印成 pdf 文件存起来。
    geying
        29
    geying  
       2018 年 7 月 4 日
    全屏截图
    JCZ2MkKb5S8ZX9pq
        30
    JCZ2MkKb5S8ZX9pq  
       2018 年 7 月 4 日
    onenote 也有 chrome 插件,但后来我嫌太占空间了,还是 pocket 了。
    nosay
        31
    nosay  
       2018 年 7 月 4 日
    有过类似的需求,找了一圈都不太好用。无奈用自己上次搭车买的良心云服务器,做了个相关服务,用到现在。
    不过不是截取正文,只是简单的生成图片以及下载相应页面然后分类入库。
    tabris17
        32
    tabris17  
       2018 年 7 月 4 日
    要格式还要带图片,mht 格式是最好的。

    页面要剪裁,可以用开发者工具来清除元素,再另存 pdf,或者存 evernote
    v2sir
        33
    v2sir  
       2018 年 7 月 4 日   ❤️ 6
    哎嘛, 那么多回答, 没一个能轻松而优雅的解决问题的。 这届程序员不行?
    chrome,选定所需内容, 右键点击,选择打印... (注意要选定内容,并且右键菜单选择打印)
    绝大多数网站都能适配,个别网站打印的 PDF 排版有点问题, 还有的网站有分享浮动条的, 会导致右键弹出菜单失效。
    回答完毕。
    rb6221
        34
    rb6221  
       2018 年 7 月 4 日
    onenote evernote 类似的网页剪藏
    glasslion
        35
    glasslion  
       2018 年 7 月 4 日
    我现在是 印象笔记剪藏, 印象桌面客户端可以导出为 html,定期 用 calibre 转成 epub 电子书
    hebwjb
        36
    hebwjb  
       2018 年 7 月 4 日
    印象笔记·剪藏
    hebwjb
        37
    hebwjb  
       2018 年 7 月 4 日
    zangbob
        38
    zangbob  
       2018 年 7 月 4 日
    randyzhao
        39
    randyzhao  
       2018 年 7 月 4 日
    @v2sir 这种方法我知道的,不过每次都要选择全文。。。并不优雅啊
    SeptimusX
        40
    SeptimusX  
       2018 年 7 月 4 日
    Evernote 之前的 Clearly 干这个最合适,简阅似乎也可以…
    sudoz
        41
    sudoz  
       2018 年 7 月 4 日
    @nulIptr onenote 的网页截屏非常难用,排版、字体都极差
    Seanfuck
        42
    Seanfuck  
       2018 年 7 月 4 日
    @cdfmr Firefox 自带截屏功能,不需要插件;用开发者工具也方便复制文字。
    frozenthrone
        43
    frozenthrone  
       2018 年 7 月 4 日 via iPhone
    阅读模式转 pdf,保存到 icloud
    nulIptr
        44
    nulIptr  
       2018 年 7 月 4 日
    @sudoz ???我用火狐,有个 onenote 的插件,一件截图整个网页啊
    StarRED
        45
    StarRED  
       2018 年 7 月 4 日 via Android
    有软件可以搬网站😀😀😀
    sammo
        46
    sammo  
       2018 年 7 月 4 日
    收藏链接,收藏到 archive.is 或 Wayback Machine
    mikezhang0515
        47
    mikezhang0515  
       2018 年 7 月 4 日   ❤️ 1
    mhtml,这个难道没人知道吗?我的天
    Vitameans
        48
    Vitameans  
       2018 年 7 月 4 日 via iPhone
    MzM2ODkx
        49
    MzM2ODkx  
       2018 年 7 月 4 日   ❤️ 1
    Chrome 开发者工具,<kbd>ctrl</kbd>+<kbd>shift</kbd>+<kbd>p</kbd> 输入 `capture`选择,可以截图整个网页或者 某个 DOM 的内容,比如下面评论区的截图

    ![image]( )
    FanWall
        50
    FanWall  
       2018 年 7 月 4 日 via Android
    Evernote+1,用了两年效果很好,移动端效果差些,chrome 插件则完全满足我的需求。
    Davidwg
        51
    Davidwg  
       2018 年 7 月 4 日
    push to kindle
    Pai
        52
    Pai  
       2018 年 7 月 4 日
    左上角 设置 另存为 放一个文件夹
    windsage
        53
    windsage  
       2018 年 7 月 4 日 via iPhone
    印象笔记裁剪插件了解一下
    loryyang
        55
    loryyang  
       2018 年 7 月 4 日
    pdf + 印象笔记插件,基本够用了
    Qzier
        56
    Qzier  
       2018 年 7 月 4 日 via iPhone
    保存为 mhtml
    snw
        57
    snw  
       2018 年 7 月 4 日 via Android
    Firefox 全网页截图:Shift+F2,然后输入 screenshot --fullscreen
    Messiv2
        58
    Messiv2  
       2018 年 7 月 4 日
    @randyzhao 是的。大象还可以截图保存网页的一部分。不过我一般都是用大象保存正文。
    Pyjamas
        59
    Pyjamas  
       2018 年 7 月 4 日
    有 rss 的话可以用 inoreader 之类的软件订阅然后打印成 pdf
    omph
        60
    omph  
       2018 年 7 月 4 日
    简悦,存 pdf 或 md
    zhangbohun
        61
    zhangbohun  
       2018 年 7 月 4 日
    为知笔记的 chrome 扩展,识别很准
    trn4
        62
    trn4  
       2018 年 7 月 5 日 via iPhone
    网页另存为就是干这个的……虽然会把所有杂七杂八的东西都存了
    oscargong
        63
    oscargong  
       2018 年 7 月 5 日
    我用 Python 包了一下 Mercury API,然后保存为 HTML。

    https://mercury.postlight.com/web-parser/
    dobelee
        64
    dobelee  
       2018 年 7 月 5 日 via Android
    无敌大象。
    CEBBCAT
        65
    CEBBCAT  
       2018 年 7 月 5 日 via Android
    深夜了,推荐个 简阅 ,多个浏览器都能用,不细介绍了
    elvisyao
        66
    elvisyao  
       2018 年 7 月 5 日
    印象笔记最重要,对我来说也是唯一卖点,就是 非常简单的剪辑页面 保存到云端

    现在我就是想,今日头条什么时候也能保存到印象笔记
    wtdd
        67
    wtdd  
       2018 年 7 月 5 日 via Android
    没有,互联网就不是让这么用的,强行本地化,要么肥要么累
    marknote
        68
    marknote  
       2018 年 7 月 5 日
    必须推荐一下自己的作品:MarkNote

    内容会被自动抓取并被转换为 Markdown 格式
    然后你可以随便修随便改
    加标签方便管理

    demo:
    https://www.jianshu.com/p/8949e11da186
    standin000
        69
    standin000  
       2018 年 7 月 5 日
    @oscargong 能分享下代码吗,谢谢
    wofave
        70
    wofave  
       2018 年 7 月 5 日   ❤️ 1
    zhishidahao
        71
    zhishidahao  
       2018 年 7 月 5 日
    @wofave 我就用的这个
    yingfengi
        72
    yingfengi  
       2018 年 7 月 5 日 via Android
    Ctrl + P 打印成 PDF
    siagasky
        73
    siagasky  
       2018 年 7 月 5 日
    用 evernote 的话 evernote 最佳,不用的话 wallabag 了解一下
    oska874
        74
    oska874  
       2018 年 7 月 5 日
    evernote 啊,最佳。
    Clarencep
        75
    Clarencep  
       2018 年 7 月 5 日
    印象笔记·剪藏 +1
    LichMscy
        76
    LichMscy  
       2018 年 7 月 5 日
    保存正文
    用 Pocket 啊
    ZRS
        78
    ZRS  
       2018 年 7 月 5 日
    instapaper
    inter1908
        79
    inter1908  
       2018 年 7 月 5 日
    Safari 选择阅读器,然后导出 PDF。
    ethusdt
        80
    ethusdt  
       2018 年 7 月 5 日
    single file
    ethusdt
        81
    ethusdt  
       2018 年 7 月 5 日
    SIngleFile 和 SingleFile Core 这两个 chrome 插件
    echo404
        82
    echo404  
       2018 年 7 月 5 日
    印象笔记 chrome 插件
    tsukiikekaoru
        83
    tsukiikekaoru  
       2018 年 7 月 5 日 via Android
    先用简悦,然后选择你喜欢的方式导出
    donglongfei2008
        84
    donglongfei2008  
       2018 年 7 月 5 日
    记得火狐很早之前就有截取整个网页的功能,保存成图片
    ibolee
        85
    ibolee  
       2018 年 7 月 5 日
    先用 fireshot 插件整页截图,再用 10987654321 点 com 做在线图像识别转文本。
    ajan
        86
    ajan  
       2018 年 7 月 5 日   ❤️ 1
    standin000
        87
    standin000  
       2018 年 7 月 5 日
    @randyzhao diigo 能够导出 html 文件吗?
    randyzhao
        88
    randyzhao  
       2018 年 7 月 6 日
    @standin000 这个我就不知道了,你喊一下 5 楼的同学
    laxapple
        89
    laxapple  
       2018 年 7 月 6 日
    Safari Reader 模式打印保存为 PDF
    standin000
        90
    standin000  
       2018 年 7 月 6 日
    好吧,继续请教 @lurenw
    H0TSp1RnG
        91
    H0TSp1RnG  
       2018 年 8 月 18 日
    楼主有结论了吗
    creedowl
        92
    creedowl  
    OP
       2018 年 8 月 18 日
    @H0TSp1RnG #91 上面推介的简阅不错
    PANWCS
        93
    PANWCS  
       2019 年 7 月 24 日
    @v2sir 这个方法是真好评,方便。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2671 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 12:22 · PVG 20:22 · LAX 04:22 · JFK 07:22
    ♥ Do have faith in what you're doing.