网络爬虫 | 使用scrapegraph-ai(大模型方案)自动采集网页数据
使用大型语言模型和直接图逻辑为网站和本地文档(XML,HTML,JSON 等)创建爬取管道。
scrapegraphai有三种主要的爬取管道可用于从网站(或本地文件)提取信息:
SmartScraperGraph: 单页爬虫,只需用户提示和输入源;
SearchGraph: 多页爬虫,从搜索引擎的前 n 个搜索结果中提取信息;
SpeechGraph: 单页爬虫,从网站提取信息并生成音频文件。
SmartScraperMultiGraph: 多页爬虫,给定一个提示 可以通过 API 使用不同的 LLM,如 OpenAI,Groq,Azure 和 Gemini,或者使用 Ollama 的本地模型。
爬虫数据
@Farnell2014