Golang爬虫入门指南-CSDN博客

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

引言

网络爬虫是一种自动化程序用于从互联网上收集信息。随着互联网的迅速发展爬虫技术在各行各业中越来越受欢迎。Golang作为一种高效、并发性好的编程语言也逐渐成为爬虫开发的首选语言。本文将介绍使用Golang编写爬虫的基础知识和技巧。

一、环境准备

在开始编写Golang爬虫之前我们需要先准备好开发环境。首先确保你已经安装了Golang并配置好了GOPATH。其次我们需要安装一些必要的库比如net/http用于发送HTTP请求golang.org/x/net/html用于解析HTML等。可以使用go get命令来安装这些库。

go get -u golang.org/x/net/html

二、发送HTTP请求

在编写爬虫之前我们需要先了解如何发送HTTP请求。Golang提供了net/http包可以方便地发送GET和POST请求。

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
)

func main() {
	resp, err := http.Get("https://www.example.com")
	if err != nil {
		fmt.Println("请求发送失败", err)
		return
	}
	defer resp.Body.Close()

	body, err := ioutil.ReadAll(resp.Body)
	if err != nil {
		fmt.Println("读取响应失败", err)
		return
	}

	fmt.Println(string(body))
}

上面的代码中我们使用http.Get发送了一个GET请求并得到了响应。然后我们使用ioutil.ReadAll来读取响应的内容并将其打印出来。

三、解析HTML

一般来说我们爬取的数据都是存储在HTML中的。因此我们需要学会如何解析HTML。Golang提供了golang.org/x/net/html包来帮助我们解析HTML。

package main

import (
	"fmt"
	"net/http"
	"golang.org/x/net/html"
)

func main() {
	resp, err := http.Get("https://www.example.com")
	if err != nil {
		fmt.Println("请求发送失败", err)
		return
	}
	defer resp.Body.Close()

	doc, err := html.Parse(resp.Body)
	if err != nil {
		fmt.Println("解析HTML失败", err)
		return
	}

	// 在这里进行HTML解析操作...

}

上面的代码中我们使用html.Parse函数来解析HTML并得到一个表示整个HTML文档的树状结构。在这个树状结构中我们可以使用不同的方法来查找和提取我们需要的数据。

package main

import (
	"fmt"
	"net/http"
	"golang.org/x/net/html"
)

func main() {
	resp, err := http.Get("https://www.example.com")
	if err != nil {
		fmt.Println("请求发送失败", err)
		return
	}
	defer resp.Body.Close()

	doc, err := html.Parse(resp.Body)
	if err != nil {
		fmt.Println("解析HTML失败", err)
		return
	}

	findLinks(doc)
}

func findLinks(n *html.Node) {
	if n.Type == html.ElementNode && n.Data == "a" {
		for _, a := range n.Attr {
			if a.Key == "href" {
				fmt.Println(a.Val)
			}
		}
	}

	for c := n.FirstChild; c != nil; c = c.NextSibling {
		findLinks(c)
	}
}

上面的代码中我们定义了一个递归函数findLinks来查找HTML中的所有链接。我们使用html.Node的Type和Data属性来判断当前节点是否为<a>标签并使用Attr属性来获取链接的地址。

四、并发爬虫

并发是Golang的一个重要特性能够提高爬虫的效率。我们可以使用Golang的并发机制来同时发送多个HTTP请求加快网页的爬取速度。

package main

import (
	"fmt"
	"net/http"
	"golang.org/x/net/html"
)

func main() {
	urls := []string{
		"https://www.example.com/page1",
		"https://www.example.com/page2",
		"https://www.example.com/page3",
	}

	ch := make(chan string)

	for _, url := range urls {
		go fetch(url, ch)
	}

	for range urls {
		fmt.Println(<-ch)
	}
}

func fetch(url string, ch chan<- string) {
	resp, err := http.Get(url)
	if err != nil {
		ch <- fmt.Sprintf("请求 %s 发送失败%v", url, err)
		return
	}
	defer resp.Body.Close()

	doc, err := html.Parse(resp.Body)
	if err != nil {
		ch <- fmt.Sprintf("解析 %s 失败%v", url, err)
		return
	}

	// 在这里进行HTML解析操作...

	ch <- fmt.Sprintf("请求 %s 完成", url)
}

上面的代码中我们定义了一个ch通道用于接收爬虫的结果。然后我们使用go关键字来开启多个协程每个协程负责爬取一个网页的内容并进行解析。最后我们使用<-ch来从通道中获取结果并打印出来。

五、数据存储

爬取到的数据通常需要保存到数据库或者文件中。Golang提供了各种数据库驱动和文件操作函数可以方便地进行数据存储。

package main

import (
	"fmt"
	"net/http"
	"golang.org/x/net/html"
	"os"
	"io"
)

func main() {
	resp, err := http.Get("https://www.example.com")
	if err != nil {
		fmt.Println("请求发送失败", err)
		return
	}
	defer resp.Body.Close()

	file, err := os.Create("output.html")
	if err != nil {
		fmt.Println("创建文件失败", err)
		return
	}
	defer file.Close()

	_, err = io.Copy(file, resp.Body)
	if err != nil {
		fmt.Println("保存文件失败", err)
		return
	}

	fmt.Println("文件保存成功")
}

上面的代码中我们使用os.Create函数创建了一个名为output.html的文件并使用io.Copy函数将HTTP响应的内容保存到文件中。

六、案例

案例一爬取网页标题

package main

import (
	"fmt"
	"net/http"
	"golang.org/x/net/html"
)

func main() {
	resp, err := http.Get("https://www.example.com")
	if err != nil {
		fmt.Println("请求发送失败", err)
		return
	}
	defer resp.Body.Close()

	doc, err := html.Parse(resp.Body)
	if err != nil {
		fmt.Println("解析HTML失败", err)
		return
	}

	title := findTitle(doc)
	fmt.Println("网页标题", title)
}

func findTitle(n *html.Node) string {
	if n.Type == html.ElementNode && n.Data == "title" {
		return n.FirstChild.Data
	}

	for c := n.FirstChild; c != nil; c = c.NextSibling {
		title := findTitle(c)
		if title != "" {
			return title
		}
	}

	return ""
}

在上面的例子中我们使用findTitle函数来查找网页的标题。我们通过递归遍历HTML树如果遇到<title>标签我们就返回其内容。

案例二爬取图片链接

package main

import (
	"fmt"
	"net/http"
	"golang.org/x/net/html"
)

func main() {
	resp, err := http.Get("https://www.example.com")
	if err != nil {
		fmt.Println("请求发送失败", err)
		return
	}
	defer resp.Body.Close()

	doc, err := html.Parse(resp.Body)
	if err != nil {
		fmt.Println("解析HTML失败", err)
		return
	}

	images := findImages(doc)
	fmt.Println("图片链接")
	for _, img := range images {
		fmt.Println(img)
	}
}

func findImages(n *html.Node) []string {
	var images []string

	if n.Type == html.ElementNode && n.Data == "img" {
		for _, attr := range n.Attr {
			if attr.Key == "src" {
				images = append(images, attr.Val)
			}
		}
	}

	for c := n.FirstChild; c != nil; c = c.NextSibling {
		images = append(images, findImages(c)...)
	}

	return images
}

在上面的例子中我们使用findImages函数来查找网页中的所有图片链接。我们通过递归遍历HTML树如果遇到<img>标签我们就将其src属性的值添加到结果集中。

案例三爬取动态生成内容

package main

import (
	"fmt"
	"net/http"
	"io/ioutil"
)

func main() {
	resp, err := http.Get("https://api.example.com/data")
	if err != nil {
		fmt.Println("请求发送失败", err)
		return
	}
	defer resp.Body.Close()

	body, err := ioutil.ReadAll(resp.Body)
	if err != nil {
		fmt.Println("读取响应失败", err)
		return
	}

	fmt.Println("动态生成内容", string(body))
}