机器学习全过程实战(一)——数据采集与爬取(数据采集机器人)

机器学习全过程实战(一)——数据采集与爬取数据采集概述
爬虫:批量化自动化从特定网页获取数据的脚本程序
Python爬虫技术
Python爬虫技能: 静态网页数据抓取(urllib/requests/BeautifulSoup/lxm

数据采集概述

爬虫:自动从特定网页批量检索数据的脚本

Python爬虫技术

Python爬虫技巧:

静态网页数据捕获(urllib/requests/BeautifulSoup/lxml)

动态网页数据捕获(ajax/phantomjs/selenium)

爬虫框架(scrapy)

补充知识:前端知识、数据库知识、文本处理技术

Python爬虫环境设置

平台:Windows7/10

Python开发套件:anaconda 3.5或更高版本(Python3.6)

MySQL数据库

MongoDB数据库

Navicat 数据库客户端

PyCharm集成开发环境

铬浏览器

Python爬虫的四步基本框架

请求urllib/请求

解析BeautifulSoup/lxml

CSS选择器/XPath表达式/正则表达式提取

存储csv/MySQL/mongoDB等

urllib: python的标准库,提供了一系列操作URL的功能

直接使用你

#以上关于机器学习全过程的相关内容(一)——从网络收集数据并爬取相关信息请参考官方公告。

原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/91890.html

(0)
CSDN的头像CSDN
上一篇 2024年6月24日
下一篇 2024年6月24日

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注