当前位置:首页 > python代码 > 正文内容

巧用python代码生成网站sitemap地图

王铁锹5个月前 (12-02)python代码193

引言如下:

在互联网的世界里,拥有一个清晰、易于导航的网站地图(sitemap)对于网站的成功至关重要。

网站地图不仅有助于用户更好地了解网站结构,还能极大地提升搜索引擎优化(SEO)

因为它为搜索引擎爬虫提供了发现和索引页面的有效途径。

通过提供一个全面且更新及时的网站地图,我们可以确保搜索引擎能够快速找到网站上的新内容或更改过的内容,

从而提高网站在搜索结果中的可见性。

      代码特色:

          我将结合Python标准库xml.etree.ElementTree来构建XML文档,并介绍如何根据需要添加网页URL、最后修改时间、更新频率和优先级等信息。此外,我们还会简要探讨如何抓取网站内容以动态生成包含所有重要页面的网站地图,这对于大型或经常更新的网站尤为有用。

代码展示图

代码展示图

代码展示图(二)

代码展示图二

完整代码如下

import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin, urlparse
import os

class SitemapGenerator:
    def __init__(self, base_url):
        self.base_url = base_url
        self.visited_urls = set()
        self.sitemap = []

    def is_valid_url(self, url):
        parsed = urlparse(url)
        return bool(parsed.netloc) and bool(parsed.scheme)

    def get_all_links(self, url):
        try:
            response = requests.get(url)
            soup = BeautifulSoup(response.text, 'html.parser')
            for a_tag in soup.find_all("a", href=True):
                href = a_tag.attrs['href']
                full_url = urljoin(url, href)
                if self.is_valid_url(full_url) and self.base_url in full_url:
                    yield full_url
        except requests.RequestException as e:
            print(f"Error fetching {url}: {e}")

    def crawl(self, url):
        if url in self.visited_urls:
            return
        print(f"Crawling: {url}")
        self.visited_urls.add(url)
        self.sitemap.append(url)
        for link in self.get_all_links(url):
            self.crawl(link)

    def generate_sitemap(self, output_file='sitemap.txt'):
        with open(output_file, 'w') as f:
            for url in self.sitemap:
                f.write(url + '\n')
        print(f"Sitemap saved to {output_file}")

if __name__ == "__main__":
    base_url = ""  # 替换为你要爬取的网站URL
    sitemap_generator = SitemapGenerator(base_url)
    sitemap_generator.crawl(base_url)
    sitemap_generator.generate_sitemap()

     最后会生成文件至当前目录下的sitemap

扫描二维码推送至手机访问。

微信搜索关注王铁锹公众号或者搜索王秋风。

版权声明:本文由王铁锹个人发布,如需转载请注明出处。

本文链接:https://www.3ban.cn/?id=55

“巧用python代码生成网站sitemap地图” 的相关文章

利用python代码一秒完成指定IP端口扫描

利用python代码一秒完成指定IP端口扫描

引言”学习如何使用Python编写高效的端口扫描脚本,实现对指定IP地址的快速端口扫描。本教程提供详细的代码示例和解释,教你利用Python的强大功能在短短一秒钟内检测出目标主机上所有开放的端口。无论是网络安全测试、服务器管理还是渗透测试准备,这个Python端口扫描器都是不可或缺的工具。获取代码,...

巧妙调用接口来判断ip地址

巧用一个使用 Python 发起 HTTPS 请求的例子,旨在获取指定 IP 地址的相关信息!请勿用于生产测试环境!import urllib.request import ssl # 定义请求的URL、方法、应用代码(API密钥)以及查询参数 host&nb...

Python脚本实现自动检测并重命名非正常图片文件

Python脚本实现自动检测并重命名非正常图片文件

概述在日常的文件管理和数据处理中,我们可能会遇到一些文件名虽然以特定扩展名结尾,但实际内容并不符合该格式的情况。例如,某些文件可能被错误地标记为 .jpg 文件,但实际上它们可能是其他类型的文件,如视频文件。这种情况下,如果我们依赖文件扩展名来处理文件,就可能导致程序出现错误或无法正确处理文件。本文...

PHP脚本获取客户端IP地址和解析设备信息

PHP脚本获取客户端IP地址和解析设备信息

在互联网应用中,了解访问者的信息对于网站分析、用户行为跟踪以及安全控制等方面非常重要。PHP是一种广泛使用的服务器端脚本语言,它提供了多种方法来收集和处理来自客户端的数据。下面的代码片段展示了两个PHP函数,它们分别用于获取客户端的IP地址和解析用户的设备信息(包括操作系统和浏览器)。获取客户端IP...

python实现验证码自动化浏览器操作和图像处理

引言在现代Web开发和自动化测试中,使用编程语言来模拟人类行为进行网页浏览、数据抓取或执行特定任务变得越来越普遍。本文将介绍如何利用Python结合DrissionPage库和OpenCV库来实现一个自动化的浏览器操作脚本,该脚本能够登录到指定的网站,并通过图像处理技术解决滑动验证码问题。环境准备首...