python将浏览器书签内容下载到本地

需求

网上阅读到不错的文章,收藏到google书签后想要下载到本地,方便查询。

BeautifulSoup

python提供了一个便捷的工具抓取网页的内容叫 BeautifualSoup ,简单用法:

#code by每日教程teachcourse.cnfrom urllib.request import urlopenfrom bs4 import BeautifulSoupurl=\\\'https://baidu.com\\\'html = urlopen(url)bsObj = BeautifulSoup(html.read())print(bsObj)

获取内容

获取指定网页的内容。

使用 find() 方法获取某一个html内容

比如:获取logo里面的内容,PC端打开网页按下F12,找到需要获取内容的html节点

#code by每日教程teachcourse.cn#...bsObj = BeautifulSoup(html.read())print(bsObj.find(\\\'div\\\',{\\\'id\\\':\\\'lg\\\'}))

将内容保存到txt文件中

# 保持到txt文件中with open(\\\'content.txt\\\',\\\'w\\\', encoding=\\\'utf8\\\') as txt_file:    txt_file.write(logo_obj.prettify())

运行后,打印当前节点的内容

获取图片资源

获取所有的 img 标签,使用 find_all() 方法

#code by每日教程teachcourse.cn#...# 获取所有图片html标签img_list=logo_obj.find_all(\\\'img\\\')print(img_list)

将图片保持到本地

#code by每日教程teachcourse.cn#...# 将图片下载本地for img in img_list:    url = img[\\\'src\\\']    filename = url.split(\\\'/\\\')[-1]    # 因为src缺少https:前缀,需要手动添加    urllib.request.urlretrieve(\\\'https:\\\'+url, filename)

封装成工具

能够将一个网页的内容下载到txt文档,同时也可以下载图片到本地,可以封装成一个工具,传入网页的url和html节点就可以拉取内容到本地。

原创文章,作者:网络技术联盟站,如若转载,请注明出处:https://www.sudun.com/ask/49861.html

(0)
网络技术联盟站's avatar网络技术联盟站
上一篇 2024年5月11日 下午2:39
下一篇 2024年5月11日 下午2:41

相关推荐

  • 乐高编程用什么本子

    LEGO Mindstorms EV3、LEGO Boost、LEGO Education WeDo 2.0是乐高编程教育的三个主要系列。每一个都迎合不同年龄段的孩子,并提供合适的…

    网站运维 2024年5月12日
    0
  • 防火墙的分类

    防火墙的分类方法,主要有以下6种:1、软、硬件形式分类:软件防火墙、硬件防火墙、芯片级防火墙。2、防火墙技术分类:包过滤型防火墙、应用代理型防火墙 。3、防火墙

    2024年9月23日
    0
  • MySQL如何存储时间日期时间或时间戳?

    时间存储时间存储是我们在MySQL中最常用的一种存储类型,MySQL为我们提供了timestamp和datetime两种数据类型,那么这两者有什么区别,又该如何

    2024年9月28日
    0
  • 如何加强APP安全?

    现今移动应用市场火爆,APP数量呈爆发式增长,随着5G的逐渐广泛应用,APP增长趋势不断。正因APP的泛滥,网络攻击者的目标也在逐渐转移,数亿的移动互联网用户暴

    2024年9月19日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注