爬虫第一课(代码片段)

慢慢来会比较快 慢慢来会比较快     2022-10-28     373

关键词:

 一、小说下载

小说网址是:http://www.biqukan.com

import requests
from bs4 import BeautifulSoup

class downloader(object):
    
    def __init__(self):
        self.url = http://www.biqukan.com/1_1408/
        self.serve = http://www.biqukan.com
        self.page_url = []
        self.page_name = []
 
    #获取每个章节的链接和章节名字
    def get_page_url(self):
        html = requests.get(self.url)
        soup = BeautifulSoup(html.text,lxml)
        url_list = soup.find_all(div,class_="listmain")
        url_list = BeautifulSoup(str(url_list[0]))
        a = url_list.find_all(a)
        for each in a[12:]:
            self.page_url.append(self.serve + each.get(href))
            self.page_name.append(each.string)
  
    #小说页面的内容
    def get_html(self,url):
        html = requests.get(url)
        soup = BeautifulSoup(html.text,lxml)
        content = soup.find_all(div,class_="showtxt")
        content = content[0].text
        content = content.replace(<br/><br/>,\n\n)
        return content
    
    #写入txt文件中
    def writer(self,path,name,text):
        with open(path,a,encoding=utf-8) as f:
            f.write(name+\n)
            f.write(text)
            f.write(\n\n)            
        
        
if __name__ == __main__:
    dl = downloader()  #实例化类
    dl.get_page_url()   #运行获取章节名称,url的函数
    name = dl.page_name  #获取到的章节名称和url赋值给name,url
    url = dl.page_url
    for i in range(len(name)):
        dl.writer(小说.txt,name[i],dl.get_html(url[i]))

 

text第一课(代码片段)

查看详情

python爬虫第一课python爬虫环境与爬虫简介

1.1认识爬虫网络爬虫作为收集互联网数据的一种常用工具,近年来随着互联网的发展而快速崛起。使用网络爬虫爬取网络数据首先需要了解网络爬虫的概念和主要分类,各类爬虫的系统结构,运作方式,常用的爬... 查看详情

java第一课(代码片段)

栗子一:求两个数的最大公约数importjava.util.Scanner;publicclassGreatestDivisorpublicstaticvoidmain(String[]args)Scannerinput=newScanner(System.in);System.out.print("Pleaseinputthenumber1:");intnu 查看详情

第一课(代码片段)

...p; name="animoo"    age=22    第一个字符不能是 查看详情

第一课helloworld程序(代码片段)

  接触一门编程语言都是从HelloWorld开始的。我们以Idea为开发工具,写一个JAVA版的HelloWorld。  1,启动idea,点击菜单File->New->Project   新建一个Java工程  2,右键点击src目录New->JavaClass在新建的文件中打开写入以... 查看详情

第一课(20180327):helloword(代码片段)

问:程序员编写的第一个程序是啥米?猿:这个问题,soeasy。我选择闭着眼睛回答,那就是“HelloWorld”。问:那在python里面怎么来进行HelloWord呢?猿:听我细细到来。小黑板开始讲课了:知识点:print():打印。将要打印的内容... 查看详情

第一课第一周大作业-胸部14种疾病分类-代码详解(代码片段)

深度学习胸部X射线诊断本次作业文件:在第一课/第一课大作业/week1classification欢迎来到课程1的第一个作业!在这个任务中!您将通过使用Keras构建最先进的胸部X射线分类器来探索医学图像诊断。你将学会一下内容... 查看详情

xml之第一课(代码片段)

...、xml的语法(1)xml的文档声明*创建一个文件后缀名(.xml)*第一步:创建后必须要有一个文档声明,这个声明必须是第一行**<?xmlversion="1.0"encoding="gbk"standalone="yes"?>属性:version:xml的版本1.0和1.1高版本不能像低版本兼容e 查看详情

第一课:超级helloarduino.使用多种知识串联一个入门小项目,很适合初学第一课哟.(代码片段)

开关+led+旋钮电位器的实验视频已经购买Arduino开发版的同学,开始上课~来一场紧张刺激的helloArduino之旅吧~前言开发工具的下载,安装,使用都很简单,我这里就不赘述了,附上官方的说明,跟着步骤来,十分钟搞定~相关连接ide下载... 查看详情

推荐学java——spring第一课(代码片段)

索引Spring简介框架核心简介第一个Spring项目创建流程容器可以映射的对象Spring给属性赋值第一种方式,set注入第二种方式,注解方式@Component注解示例@Value使用@Autowired使用@Resource使用总结Spring简介官网地址ÿ... 查看详情

golang✔️走进go语言✔️第一课helloworld(代码片段)

【Golang】✔️走进Go语言✔️第一课HelloWorld概述Go语言结构新建项目HelloWorld概述Golang是一个跨平台的新生编程语言.今天小白就带大家一起携手走进Golang的世界.(第1课)Go语言结构在我们开始学习Go编程语言的基础构建模块前,我们... 查看详情

python基础2022最新第一课安装&环境配置(代码片段)

【Python基础2022最新】第一课安装&环境配置概述自我介绍安装环境配置Python的历史Python的前景概述从今天开始,小白我将带领大家学习一下Python零基础入门的内容.本专栏会以讲解+练习的模式,带领大家熟悉Python的语法,应用,... 查看详情

python基础2022最新第一课安装&环境配置(代码片段)

【Python基础2022最新】第一课安装&环境配置概述自我介绍Python的历史Python的前景安装环境配置PyCharm安装第一个程序概述从今天开始,小白我将带领大家学习一下Python零基础入门的内容.本专栏会以讲解+练习的模式,带领大家熟... 查看详情

berkleycs162操作系统第一课文字版-课程介绍(代码片段)

熟肉视频地址:CS162操作系统课程第一课-课程介绍(上)CS162操作系统课程第一课-课程介绍(下)第一节课主要是关于课程介绍以及操作系统是什么、为什么这么重要的简介。现代最伟大的发明之一是互联网,它把全世界不同... 查看详情

kafaka技术第一课(代码片段)

1,课程回顾zk分布式协调框架2,本章重点消息队列的概念消息队列的特点和作用常见的MQ框架有哪些kafka的简介基本术语集群搭建,启动和关闭常用命令3,具体内容3.1消息队列(messagequeue)的概念消息是在... 查看详情

收藏第一课第二周作业-学会计算分类各种指标-超详细教程(代码片段)

本次作业文件:在第一课/第一课大作业/week2metric这节课不需要对模型进行预测,所有的预测结果已经在csv文件中给出。作为提醒,我们的数据集包含14种不同情况的X射线,可通过X射线诊断。我们将使用我们在这... 查看详情

eventwaithandle第一课(代码片段)

本篇通过一个列子使用EventWaitHandle实现两个线程的同步。请参看下面的列子。usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading;namespaceThreadSynDemoclassProgramprivateintn1,n2,n3;staticvoidMain(string[]args)Programp=newProgr... 查看详情

mybatis第一课mybatis的框架的搭建和使用(代码片段)

概念MyBatis本是apache的一个开源项目iBatis,2010年这个项目由apachesoftwarefoundation迁移到了googlecode,并且改名为MyBatis。2013年11月迁移到Github。iBATIS一词来源于“internet”和“abatis”的组合,是一个基于Java的持久层框架。iB... 查看详情