当前位置:首页 > python代码 > 正文内容

巧用python代码生成网站sitemap地图

王铁锹1年前 (2024-12-02)python代码787

引言如下:

在互联网的世界里,拥有一个清晰、易于导航的网站地图(sitemap)对于网站的成功至关重要。

网站地图不仅有助于用户更好地了解网站结构,还能极大地提升搜索引擎优化(SEO)

因为它为搜索引擎爬虫提供了发现和索引页面的有效途径。

通过提供一个全面且更新及时的网站地图,我们可以确保搜索引擎能够快速找到网站上的新内容或更改过的内容,

从而提高网站在搜索结果中的可见性。

      代码特色:

          我将结合Python标准库xml.etree.ElementTree来构建XML文档,并介绍如何根据需要添加网页URL、最后修改时间、更新频率和优先级等信息。此外,我们还会简要探讨如何抓取网站内容以动态生成包含所有重要页面的网站地图,这对于大型或经常更新的网站尤为有用。

代码展示图

代码展示图

代码展示图(二)

代码展示图二

完整代码如下

import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin, urlparse
import os

class SitemapGenerator:
    def __init__(self, base_url):
        self.base_url = base_url
        self.visited_urls = set()
        self.sitemap = []

    def is_valid_url(self, url):
        parsed = urlparse(url)
        return bool(parsed.netloc) and bool(parsed.scheme)

    def get_all_links(self, url):
        try:
            response = requests.get(url)
            soup = BeautifulSoup(response.text, 'html.parser')
            for a_tag in soup.find_all("a", href=True):
                href = a_tag.attrs['href']
                full_url = urljoin(url, href)
                if self.is_valid_url(full_url) and self.base_url in full_url:
                    yield full_url
        except requests.RequestException as e:
            print(f"Error fetching {url}: {e}")

    def crawl(self, url):
        if url in self.visited_urls:
            return
        print(f"Crawling: {url}")
        self.visited_urls.add(url)
        self.sitemap.append(url)
        for link in self.get_all_links(url):
            self.crawl(link)

    def generate_sitemap(self, output_file='sitemap.txt'):
        with open(output_file, 'w') as f:
            for url in self.sitemap:
                f.write(url + '\n')
        print(f"Sitemap saved to {output_file}")

if __name__ == "__main__":
    base_url = ""  # 替换为你要爬取的网站URL
    sitemap_generator = SitemapGenerator(base_url)
    sitemap_generator.crawl(base_url)
    sitemap_generator.generate_sitemap()

     最后会生成文件至当前目录下的sitemap

扫描二维码推送至手机访问。

微信搜索关注王铁锹公众号或者搜索王秋风。

版权声明:本文由王铁锹个人发布,如需转载请注明出处。

本文链接:https://www.3ban.cn/?id=55

“巧用python代码生成网站sitemap地图” 的相关文章

利用python导入flv文本链接随机构造一组网页播放

利用python导入flv文本链接随机构造一组网页播放

引言如下通过导入本地文件夹内的文本,引入链接调用python代码开放5000端口进行网页的flv随机播放,这个代码常用于随机测试flv的直播播放设置,亦或者监控等领域....软件规划如下FLV Video Player 是一个基于Web的简易视频播放器应用,使用Python的Flask框架构建。为用...

巧妙调用接口来判断ip地址

巧用一个使用 Python 发起 HTTPS 请求的例子,旨在获取指定 IP 地址的相关信息!请勿用于生产测试环境!import urllib.request import ssl # 定义请求的URL、方法、应用代码(API密钥)以及查询参数 host&nb...

PHP脚本获取客户端IP地址和解析设备信息

PHP脚本获取客户端IP地址和解析设备信息

在互联网应用中,了解访问者的信息对于网站分析、用户行为跟踪以及安全控制等方面非常重要。PHP是一种广泛使用的服务器端脚本语言,它提供了多种方法来收集和处理来自客户端的数据。下面的代码片段展示了两个PHP函数,它们分别用于获取客户端的IP地址和解析用户的设备信息(包括操作系统和浏览器)。获取客户端IP...

python代码实现图片人脸识别以及一键覆盖图片~

python代码实现图片人脸识别以及一键覆盖图片~

本文介绍一款基于Python的人脸检测与图像处理工具,支持透明图片覆盖、动态尺寸调整及实时预览功能,适用于图像编辑、隐私保护等场景。核心功能:精准人脸检测采用OpenCV Haar级联检测算法,自动识别图片中的人脸并标记红色圆圈。支持多人脸同步检测,适应不同角度和尺寸。透明图片覆盖支持带Alpha通...

Python自动化直播截图神器:高效处理监控直播视频流

在当今直播盛行的时代,如何从大量的直播流中快速获取关键帧截图?今天为大家带来一个高效的Python脚本工具,它可以:🚀 并发处理多个直播流⏱️ 设置超时机制防止阻塞🔁 失败自动重试机制💾 将截图保存至本地目录适用于直播监控、内容审核、AI训练数据采集等场景!一、🧠 核心功能亮点✅ 并发处理使用 Th...