sh镜像一个站点。从基本url和$url/sitemap.xml开始(代码片段)

author author     2022-12-20     157

关键词:

# use wget to mirror a site
#   $1 is site URL
#     - format is http(s)://www.sitename.com/ (or no slash at end)
#   $1%%+(/) removes all slashes at end
#   $1%/ removes 1 slash at end
Mirror_Start=`date`
MirrorLog="`basename $1`/_MirrorSite.log"
mkdir `basename $1`
MirrorDir="$1%/"
# With Fix of URLs after download
WgetParms=" -E -Kk --mirror -p -e robots=off"
# Without Fix of URLs after download
#WgetParms=" --mirror -e robots=off"
# Set extglob setting in bash for pattern matching (used for "$1%/" )
shopt -s extglob
# Mirror from default home page
wget $WgetParms $1 > $MirrorLog
# Mirror from /sitemap.xml if it exists
echo '========================== Trying sitemap.xml =============================' | tee -a $MirrorLog
if wget -q -O- "$MirrorDir/sitemap.xml" ; then
        cat sitemap.xml | grep -o '<loc>.*</loc>' | grep -o 'http[^<"]*' | xargs wget $WgetParms >>$MirrorLog
        echo 'Sitemap='"|$MirrorDir/sitemap.xml|"
else
        echo 'Sitemap='"|$MirrorDir/sitemap.xml| FAILED! Error=$?" | tee -a $MirrorLog
fi
if wget -q -O- "$MirrorDir/sitemap/" ; then
        cat sitemap | grep -o '<loc>.*</loc>' | grep -o 'http[^<"]*' | xargs wget $WgetParms >>$MirrorLog
        echo 'Sitemap='"|$MirrorDir/sitemap/|"
else
        echo 'Sitemap='"|$MirrorDir/sitemap/| FAILED! Error=$?" | tee -a $MirrorLog
fi

echo $Mirror_Start "<-- Start time" | tee -a $MirrorLog
echo `date` "<---- End Time" | tee -a $MirrorLog

Wamp 基本配置:“在此服务器上找不到请求的 URL /my-site/。”

...我无法成功访问“www”文件夹中的任何项目。例如,我用一个简单 查看详情

PHP 从多个 URL 获取站点标题

...粘贴链接和“获取标题”之类的按钮来提取标题。我做了一个函数来从一个URL中提取标题。它工作正常。我是PHP的新手,我不知道如何检测换行符以获取url。谁能帮帮我?这是我的代码<?phpfunction 查看详情

获取httpureffer的主url

<?php//URL:$site="http://www.site.com.br/teste";//SPLITSURLFROMHTTP://:$url=explode("http://",$site);//CLEANTHERESULT,LEAVETHEMAINADDRESS:$site=dirname($url[1].'<br>');//SHOW:echo($site);?> 查看详情

从 localhost 开发站点时更改了 WordPress 地址 (URL) 和站点地址 (URL)。现在,建立数据库连接时出错

】从localhost开发站点时更改了WordPress地址(URL)和站点地址(URL)。现在,建立数据库连接时出错【英文标题】:ChangedWordPressAddress(URL)andSiteAddress(URL)whendevelopingsitefromlocalhost.Now,errorestablishingadatabaseconnection【发布时间】:2020-09-2715:46:29... 查看详情

如何在 MVC 中获取站点的基本 URL [重复]

】如何在MVC中获取站点的基本URL[重复]【英文标题】:HowtogetbaseurlofthesiteinMVC[duplicate]【发布时间】:2014-07-0510:29:14【问题描述】:我想向用户发送一封电子邮件,他可以点击链接转移到我的网站。我不想在我的电子邮件模板中硬... 查看详情

sh从命令行打开本地站点(代码片段)

查看详情

从站点获取 URL 列表 [关闭]

...时间】:2010-10-2520:27:18【问题描述】:我正在为客户部署一个替代网站,但他们不希望所有旧页面都以404结尾。保留旧的URL结构是不可能的,因为它很可怕。所以我正在编写一个404处理程序,它应该查找正在请求的旧页面并永久... 查看详情

sh从jamfpro服务器删除站点(代码片段)

查看详情

python从嵌套站点地图到elasticsearch的url,标题和关键字(代码片段)

查看详情

sh壳牌:$pwd,$(),基本名称,日期,得到输出从-另一个脚本(代码片段)

查看详情

第六篇:配置docker容器加速器

背景说明鉴于国内网络稳定问题,到国外站点拉取docker镜像十分缓慢,故需要配置国内镜像以便提高镜像下载速度。1.使用这个url地址https://account.daocloud.io/signin注册一个账号并登录2.点击右上角箭头标记的加速选项3.复制下面的... 查看详情

wamplaravel-从一个本地站点向另一个站点发送api请求混合了环境变量(代码片段)

我正在开发一个API服务,我开发的另一个网站将使用它。所以在本地构建和测试时,显然我希望站点的本地副本都能正常工作。然而,它似乎混淆了environment变量。例如:SiteA有APP_URL=http://a.localSiteB有APP_URL=http://b.local我从GET代码... 查看详情

搜索引擎语法

...定的文件类型,如:.bak,.mdb,.inc等。info:  查找指定站点的一些基本信息。inurl:  搜索我们指定的字符是否存在于URL中。Link:link:thief.one可以返回所有和thief.one做了链接的URL。site:site:thie 查看详情

将json对象从一个站点移动到另一个站点(代码片段)

...asp.netwebforms中有两个不同url的项目。我需要将c#对象从一个移动到另一个。我尝试使用JavaScriptSerializer将其序列化为JSON并将其作为参数移动到url中,但我不希望客户端看到jsonAa=newA()val=1,val1="verylongstring";varjsonSerialiser=newJavaScriptSe... 查看详情

sh一个简单的程序,用于在我的mac上的〜/heroku目录中更新,构建,提交和部署所有站点(代码片段)

查看详情

Python,从包含某个单词的 xml 站点地图中提取 url

】Python,从包含某个单词的xml站点地图中提取url【英文标题】:Python,extracturlsfromxmlsitemapthatcontainacertainword【发布时间】:2019-03-0516:59:20【问题描述】:我正在尝试从站点地图中提取URL中包含单词foo的所有URL。我已经设法提取了... 查看详情

java示例代码_从java中URL的arraylist中获取主机站点和该主机的每个实例的列表

java示例代码_从java中URL的arraylist中获取主机站点和该主机的每个实例的列表 查看详情

从站点中的所有 URL 中删除尾部斜杠

】从站点中的所有URL中删除尾部斜杠【英文标题】:RemovingtrailingslashfromALLURLsinsite【发布时间】:2013-02-1110:24:12【问题描述】:我对整个.htaccess有点陌生,我一直在尝试对其进行修改,以使我的所有链接都不会在其各自URL的末尾... 查看详情