数据采集概述
爬虫:自动从特定网页批量检索数据的脚本
Python爬虫技术
Python爬虫技巧:
静态网页数据捕获(urllib/requests/BeautifulSoup/lxml)
动态网页数据捕获(ajax/phantomjs/selenium)
爬虫框架(scrapy)
补充知识:前端知识、数据库知识、文本处理技术
Python爬虫环境设置
平台:Windows7/10
Python开发套件:anaconda 3.5或更高版本(Python3.6)
MySQL数据库
MongoDB数据库
Navicat 数据库客户端
PyCharm集成开发环境
铬浏览器
Python爬虫的四步基本框架
请求urllib/请求
解析BeautifulSoup/lxml
CSS选择器/XPath表达式/正则表达式提取
存储csv/MySQL/mongoDB等
urllib: python的标准库,提供了一系列操作URL的功能
直接使用你
#以上关于机器学习全过程的相关内容(一)——从网络收集数据并爬取相关信息请参考官方公告。
原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/91890.html