MCPcopy Index your code
hub / github.com/NanmiCoder/CrawlerTutorial

github.com/NanmiCoder/CrawlerTutorial @main sqlite

repository ↗ · DeepWiki ↗
873 symbols 2,937 edges 94 files 764 documented · 88% 14 cross-repo links
README

关于作者

大家好,我是程序员阿江-Relakkes,近期我会给大家出一些爬虫方面的教程,爬虫入门、进阶、高级都有,有需要的朋友,star仓库并持续关注本仓库的更新。

  • Github万星开源自媒体爬虫仓库MediaCrawler作者
  • 全栈程序员,熟悉Python、Golang、JavaScript,工作中主要用Golang。
  • 曾经主导并参与过百万级爬虫采集系统架构设计与编码
  • 爬虫是一种技术兴趣爱好,参与爬虫有一种对抗的感觉,越难越兴奋。

查看教程

在线链接:https://nanmicoder.github.io/CrawlerTutorial/

对应的视频链接近期也会同步更新出来,查看B站合集地址

爬虫入门

爬虫进阶

高级爬虫

  • [✖] 待更新...

爬虫交流群

扫码加作者企微拉进群,备注来自github爬虫教程

企微二维码

免责声明

本仓库的所有内容仅供学习和参考之用,禁止用于商业用途。任何人或组织不得将本仓库的内容用于非法用途或侵犯他人合法权益。本仓库所涉及的爬虫技术仅用于学习和研究,不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本仓库内容而引起的任何法律责任,本仓库不承担任何责任。使用本仓库的内容即表示您同意本免责声明的所有条款和条件。

Star History

Star History Chart

Core symbols most depended-on inside this repo

info
called by 263
源代码/爬虫进阶/10_数据分析与可视化/pandas_analysis.py
get
called by 194
源代码/爬虫进阶/06_登录认证_Cookie与Session管理/session_demo.py
append
called by 118
源代码/爬虫进阶/11_进阶综合实战项目/store/backend.py
run
called by 34
源代码/爬虫进阶/01_工程化爬虫开发规范/refactored_crawler/crawler.py
new_page
called by 30
源代码/爬虫进阶/11_进阶综合实战项目/core/browser.py
close
called by 17
源代码/爬虫进阶/07_登录认证_扫码与短信登录实现/sms_login.py
get
called by 14
源代码/爬虫进阶/01_工程化爬虫开发规范/refactored_crawler/client.py
close
called by 14
源代码/爬虫进阶/04_Playwright浏览器自动化入门/spa_crawler.py

Shape

Method 525
Function 199
Class 149

Languages

Python100%

Modules by API surface

源代码/爬虫进阶/07_登录认证_扫码与短信登录实现/login_factory.py37 symbols
源代码/爬虫进阶/06_登录认证_Cookie与Session管理/cookie_manager.py37 symbols
源代码/爬虫进阶/02_反爬虫对抗基础_请求伪装/rate_limiter.py35 symbols
源代码/爬虫进阶/10_数据分析与可视化/pandas_analysis.py30 symbols
源代码/爬虫进阶/09_数据清洗与预处理/text_cleaner.py26 symbols
源代码/爬虫进阶/07_登录认证_扫码与短信登录实现/sms_login.py26 symbols
源代码/爬虫进阶/10_数据分析与可视化/chart_demo.py24 symbols
源代码/爬虫进阶/08_验证码识别与处理/captcha_service.py23 symbols
源代码/爬虫进阶/01_工程化爬虫开发规范/exception_demo.py23 symbols
源代码/爬虫进阶/05_Playwright进阶_反检测与性能优化/performance_optimization.py22 symbols
源代码/爬虫进阶/07_登录认证_扫码与短信登录实现/bilibili_qrcode_login.py20 symbols
源代码/爬虫进阶/06_登录认证_Cookie与Session管理/bilibili_cookie.py20 symbols

Dependencies from manifests, versioned

mermaid11.12.2 · 1×
vitepress1.3.4 · 1×
vitepress-plugin-mermaid2.0.17 · 1×
aiofiles23.2.1 · 1×
aiomysql0.2.0 · 1×
cryptography42.0.0 · 1×
curl-cffi0.7.0 · 1×
ddddocr1.4.0 · 1×
fake-useragent1.5.0 · 1×
httpx0.24.0 · 1×
jieba0.42.0 · 1×
loguru0.7.0 · 1×

Datastores touched

(mysql)Database · 1 repos
crawlerDatabase · 1 repos

For agents

$ claude mcp add CrawlerTutorial \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact