python从嵌套站点地图到elasticsearch的url,标题和关键字(代码片段)

author author     2022-12-27     603

关键词:

import time
import requests
from bs4 import BeautifulSoup
from elasticsearch import Elasticsearch

es_client = Elasticsearch(['http://search-domain:9200'])

drop_index = es_client.indices.create(index='myindex', ignore=400)
create_index = es_client.indices.delete(index='myindex', ignore=[400, 404])

def urlparser(title, url):
    # scrape title
    p = 
    tag_names = []
    post = title
    page = requests.get(post).content
    soup = BeautifulSoup(page, 'lxml')
    title_name = soup.title.string

    # scrape tags
    desc = soup.findAll(attrs="name":"keywords")
    if len(desc) >=1:
        tag_names = desc[0]['content'].split(',')
    else:
        tag_names = []
    #pass
    # payload for elasticsearch
    doc = 
        'date': time.strftime("%Y-%m-%d"),
        'title': title_name,
        'tags': tag_names,
        'url': url
    

    # ingest payload into elasticsearch
    res = es_client.index(index="myindex", doc_type="docs", body=doc)
    print(res)
    time.sleep(1.5)

sitemap_feed = 'http://www.domain.com/sitemap.xml'
page = requests.get(sitemap_feed)
sitemap_index = BeautifulSoup(page.content, 'html.parser')
urls = [element.text for element in sitemap_index.findAll('loc')]

for xx in urls:
    sub_sitemap_feed = xx
    sub_page = requests.get(sub_sitemap_feed)
    sub_sitemap_index = BeautifulSoup(sub_page.content, 'html.parser')
    sub_urls = [element.text for element in sub_sitemap_index.findAll('loc')]
    for xxy in sub_urls:
        urlparser(xxy, xxy)

Wordpress Yoast 从 XML 站点地图中排除帖子

】WordpressYoast从XML站点地图中排除帖子【英文标题】:WordpressYoastexcludepostsfromXMLsitemap【发布时间】:2017-11-1518:07:14【问题描述】:我正在使用YoastSEO插件,我正在尝试使用“wpseo_sitemap_entry”过滤器从帖子XML站点地图中手动排除帖... 查看详情

Liferay 7:是不是可以自动从链接站点获取图像到站点地图?

】Liferay7:是不是可以自动从链接站点获取图像到站点地图?【英文标题】:Liferay7:Isitpossibletogetanimageforfromalinkedsitetoasitemapautomatically?Liferay7:是否可以自动从链接站点获取图像到站点地图?【发布时间】:2021-10-2416:09:51【问题... 查看详情

从嵌套地图(和矢量)创建 HTML 表格

...1-2712:01:15【问题描述】:我正在尝试创建一个我以前使用python编写过的表(工作时间表),我认为这对我来说是对Clojure语言的一个很好的介绍。我在Clojure(或lisp方面)方面的经验很少,而且我在google中进行了几轮测试,并进行... 查看详情

如何从 Google 电子表格中的 Google Apps 脚本自动更新“站点地图”功能?

】如何从Google电子表格中的GoogleApps脚本自动更新“站点地图”功能?【英文标题】:Howtoautomaticallyupdate\'sitemap\'functionfromGoogleAppsScriptinGoogleSpreadsheet?【发布时间】:2019-06-0708:11:59【问题描述】:我对GoogleApps脚本很陌生。我正在... 查看详情

从嵌套字典到 python Dataframe

】从嵌套字典到pythonDataframe【英文标题】:FromnesteddictionarytopythonDataframe【发布时间】:2020-10-2222:42:42【问题描述】:我有一个嵌套字典示例,如下所示:data=[\'resultInfo\':\'load\':None,\'unload\':\'weight\':59.0,\'unit\':\'ton\',\'tonsPerTeu\':None... 查看详情

在 Python 中使用 BS4 抓取数据,嵌套表

】在Python中使用BS4抓取数据,嵌套表【英文标题】:ScrapingdatawithBS4inPython,nestedtable【发布时间】:2018-06-3002:15:59【问题描述】:我正在尝试从balloon-reference.com上抓取一些数据。我编写了一些代码来从站点的其他部分获取数据,其... 查看详情

php将idx站点地图添加到yoastseo站点地图(代码片段)

查看详情

php将idx站点地图添加到yoastseo站点地图(代码片段)

查看详情

从站点地图和数据库填充 ASP.NET 菜单

】从站点地图和数据库填充ASP.NET菜单【英文标题】:PopulatingASP.NETMenufrombothsitemapanddatabase【发布时间】:2011-09-2220:37:41【问题描述】:我目前正在使用站点地图作为我的ASP.NET菜单控件的数据源,但是我希望从数据库中动态填充... 查看详情

从 python 生成 Faker 数据并将其加载到 BigQuery 嵌套表中

】从python生成Faker数据并将其加载到BigQuery嵌套表中【英文标题】:GenerateFakerdatafrompythonandloaditintoBigQuerynestedtable【发布时间】:2020-02-2009:12:06【问题描述】:我想为我的测试创建虚拟数据。因此,我使用faker创建了一些虚拟数据... 查看详情

从 Google 静态地图获取移动站点的路线

】从Google静态地图获取移动站点的路线【英文标题】:GettingDirectionsfromGoogleStaticMapforaMobileSite【发布时间】:2012-04-2515:25:18【问题描述】:我正在构建一个移动网站。它上面有一个谷歌静态地图。我希望能够连接到手机的GPS并通... 查看详情

将使用 pip 安装的站点包/模块从较旧版本的 python 迁移到较新/最新版本的 python

】将使用pip安装的站点包/模块从较旧版本的python迁移到较新/最新版本的python【英文标题】:Migratesite-packages/modulesinstalledwithpipfromoldertonewer/latestversionofpython【发布时间】:2020-11-0303:26:06【问题描述】:一开始,我将安装在/../pytho... 查看详情

从嵌套地图对象javascript中删除重复项

】从嵌套地图对象javascript中删除重复项【英文标题】:Removeduplicatesfromnestedmapobjectsjavascript【发布时间】:2019-09-1203:48:41【问题描述】:我正在使用看起来像的嵌套地图在网格上显示数据this.state.rows.map((qc)=>qc.BinsByDayByOrchardsQCs.... 查看详情

Flutter - 从 Cloud Firestore 读取嵌套地图

】Flutter-从CloudFirestore读取嵌套地图【英文标题】:Flutter-ReadNestedMapsfromCloudFirestore【发布时间】:2021-09-3022:43:20【问题描述】:我在尝试从CloudFirestore读取另一个地图中的地图时遇到问题。我在互联网上找到了几篇关于该主题的... 查看详情

我可以从站点地图生成 ASP.NET MVC 路由吗?

】我可以从站点地图生成ASP.NETMVC路由吗?【英文标题】:CanIgenerateASP.NETMVCroutesfromaSitemap?【发布时间】:2010-09-0602:35:15【问题描述】:我正在考虑为即将到来的项目学习ASP.NETMVC框架。我可以使用高级路由根据站点地图层次结构... 查看详情

Python 3 中的嵌套地图

】Python3中的嵌套地图【英文标题】:NestedmapsinPython3【发布时间】:2015-09-0606:51:30【问题描述】:我想将我的列表list=["a,1","b,2"]转换为嵌套列表[["a","1"],["b","2"]]。以下作品:f1_a=map(lamb... 查看详情

使用 python/pandas 从特定文件夹中读取几个嵌套的 .json 文件到 excel 中

】使用python/pandas从特定文件夹中读取几个嵌套的.json文件到excel中【英文标题】:Readingseveralnested.jsonfilesfromaspecificfolder,intoexcelusingpython/pandas【发布时间】:2021-02-2711:03:36【问题描述】:我想将文件夹中的几个嵌套json文件读入一... 查看详情

如何在只有***元素的 asp.net 中制作基于站点地图的菜单?

...述】:我正在尝试根据asp.net站点地图制作菜单。您如何嵌套站点地图节点以使它们都显示在同一级别上。这是我所拥有的:<siteMapxmlns="http://schemas. 查看详情