使用mitmproxy做今日头条爬虫链接分析(代码片段)

proceduremonkey proceduremonkey     2023-02-28     323

关键词:

import pickle

import chardet
from mitmproxy import ctx
from pprint import pprint

heads_file = header.txt

body_file = body.txt

#mitmdump -s test.py
# Dalvik/2.1.0 (Linux; U; Android 8.1.0; MI 8 MIUI/8.8.31)
def request(flow):
     #只是修改请求浏览器请求头为MitmProxy
     # flow.request.headers[‘User-Agent‘] = ‘Mozilla/5.0 (Linux; U; Android 6.0.1; zh-cn; MI 5s Build/MXB48T) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/53.0.2785.146 Mobile Safari/537.36 XiaoMi/MiuiBrowser/8.7.1‘
     # ctx.log.warn(str(flow.request.url))
     # ctx.log.info(str(flow.request.headers))
     # pprint(vars(flow.request))
     # ctx.log.error(str(dir(flow.request)))
     # ctx.log.info("data.content:" + str(flow.request.data.content))
     # ctx.log.info("data:" + str(dir(flow.request.data)))
     # ctx.log.info("content:" + str(flow.request.content))
     # ctx.log.info(flow.request.headers[‘User-Agent‘])
     url = str(flow.request.url)
     ctx.log.info("url:" + url)
     # if ‘pstatp.com/article‘ in url or ‘snssdk.com/article‘ in url or ‘snssdk.com/api/search‘ in url:
     #      file = open(heads_file, encoding="utf-8", mode="a")
     #      file.write( url + "
")
     #      file.close()
     fileother = open("other.txt", encoding="utf-8", mode="a")
     fileother.write(url + "
")
     fileother.close()
     # with open(heads_file, ‘a‘) as handle:
     #      pickle.dump(flow.request.url, handle)


# def response(flow):
#      response = flow.response
#      info = ctx.log.info
#      info(str(response.status_code))
#      info(str(response.headers))
#      info(str(response.cookies))
#      # info(str(response.encoding))
#      detRes = chardet.detect(response.content)  # 返回编码结果
#      charset = detRes["encoding"]
#      info(str(charset))
#      # text = response.content.decode(charset, "ignore")
#      if not charset:
#           charset = ‘utf-8‘
#      text = str(response.content,encoding=charset)
#      info(text)
#      file = open(body_file,encoding=charset,mode="a")
#      file.write(text)
#      file.close()
     # with open(body_file, ‘a‘) as handle:
     #      pickle.dump(text, handle)

 

今日头条算法

...u014114990/article/details/48165781 日头条涉及到算法:(1)今日头条服务器1000台左右,通过代码实现的爬虫功能,在其他传媒的网站和门户上抓取各种信息。如果在网站上抓取到纸媒的内容,优先从纸媒门户上抓取信息(2)抓取... 查看详情

爬虫(猫眼电影+校花网+github+今日头条+拉钩)(代码片段)

 Requests+正则表达式爬取猫眼TOP100榜电影信息MARK:将信息写入文件解决乱码方法,开启进程池秒爬。123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051import requestsfrom requests.except 查看详情

今日头条爬虫

今日头条是一个js动态加载的网站,尝试了两种方式爬取,一是页面直接提取,一是通过接口提取:version1:直接页面提取#coding=utf-8#今日头条fromlxmlimportetreeimportrequestsimporturllib2,urllibdefget_url():url=‘https://www.toutiao.com/ch/news_hot/‘gl... 查看详情

递归爬取今日头条指定用户一个月内发表的所有文章,视频,微头条(代码片段)

最近找工作,爬虫面试的一个面试题。涉及的反爬还是比较全面的,结果公司要求高,要解决视频链接时效性问题,凉凉。直接上代码importrequestsimporttimefromdatetimeimportdatetimeimportjsonimportexecjsimporthashlibimportreimportcsvfromzlibimportcrc32fr... 查看详情

今日头条app数据爬虫demo(代码片段)

importjsonimporttimefromurllib.parseimportquotefromurllibimportrequestimportrequests"""1.综合2.视屏3.资讯4.小视屏5.图片6.用户7.音乐8.问答9.微头条10.话题"""tab_list=["pd=synthesis&from=search_tab","pd=video&from=video","pd=information&from=news","pd=xiaoshipin&fr... 查看详情

今日头条是如何做推广和运营的?

 一、利用软文吸粉  首先得分析今日头条里面存在的目标人群,分析他们都很喜欢关注什么内容?对哪些很感兴趣?他们关注的与喜欢的有没有跟自己的产品或服务有相关的?  理清这些问题后,接下来就是针对这样的目标人... 查看详情

爬虫学习笔记(二十三)——appium+mitmproxy(代码片段)

文章目录一、工具1.1、手机投屏工具1.2、fiddler、mitmproxy和APPium二、案例:火山急速版视频抓取2.1、视频链接2.2、代码实现2.2.1、Appium自动化翻页2.2.2、mitmproxy提取视频url2.2.3、下载视频一、工具1.1、手机投屏工具scrcpy投屏演示... 查看详情

node爬虫,批量爬取头条视频并保存(代码片段)

...下载美女图集简介一般批量爬取视频或者图片的套路是,使用爬虫获得文件链接集合,然后通过writeFile等方法逐个保存文件。然而,头条的视频,在需要爬取的html文件(服务端渲染输出)中,无法捕捉视频链接。视频链接是页... 查看详情

php+phantomjs实现今日头条的首页推送抓取

...效果也不是很好,记录一下吧。 认识的哥们最近在爬今日头条的数据,不过他是做java的。之前也想用php做点爬数据的东西,于是直接也搞今日头条,万一有不明白的地方还能有个人商量。话不多说,上点干货。  关... 查看详情

今日头条marketingapi小工具(.netcore版本)(代码片段)

前言  由于工作原因,需要用到今日头条的MarketingAPI做一些广告投放的定制化开发。然后看现在网上也没多少关于头条MarketingAPI的文章,于是便就有了该篇文章。  头条MarketingAPI主页地址:https://ad.toutiao.com/openapi/index.html。... 查看详情

mitmproxy安装与安卓模拟器的配合使用-手机app爬虫

参考技术A参考链接:https://zhuanlan.zhihu.com/p/68806789介绍一款爬虫辅助工具mitmproxy,mitmproxy就是用于MITM的proxy,MITM中间人攻击。说白了就是服务器和客户机中间通讯多增加了一层。跟Fiddler和Charles最大的不同就是,mitmproxy可以进行二... 查看详情

今日头条头条号图文发布页面的“扩展链接”是干嘛用的?

这玩意不知道是干嘛用的?是用于引流到外部网站用的头条号创作者可在图文或视频详情页的固定位置插入外部链接,将用户引流至帐号主页、其他文章/视频页面、企业官方网站、店铺、活动H5等地址。参考文章:对... 查看详情

怎么在今日头条上发布新闻,或者做广告投放的?

怎么在今日头条上发布新闻,或者做广告投放的?就是把信息,主动推送给用户的那种广告,或者新闻。广告投放自己不好做,要说自己在上边发新闻或许还可以今日头条如何发布文章?第一步,登陆今日头条官网申请账号第二... 查看详情

爬虫学习笔记(二十二)——mitmproxy(代码片段)

文章目录一、简介和安装1.1、概念和作用1.2、安装1.3、工具介绍二、设置代理2.1、PC端设置代理2.2、PC端安装证书2.3、移动端设置代理三、mitmdump3.1、插件使用3.2、常用事件3.2.1、request事件3.2.2、response事件3.3、下载图片一、简介... 查看详情

今日头条开源项目分析笔记1

1.InitApp==>项目的入口Application1.1.继承了MultiDexApplication  超过65K方法的APP,会遇到65535的错误。原因就是为了支持比较大型的APP而产生。  参考文章:Android分包MultiDex原理详解。 1.2.在build.gradle中修改multiDexEnabled   ... 查看详情

今日头条广告投放技巧干货:落地页分析工具

...遇到过类似这样的问题,那你一定不能错过今天这篇今日头条广告投放干货:落地页分析工具。作为行业领先的效果广告平台,今日头条通过智能推荐技术的不断精进&#x 查看详情

今日头条信息流投放与用户属性分析

近期,有不少的广告主朋友询问到今天头条的广告,比如今天头条信息流广告怎么K户,K户费用多少,需求哪些资质的问题。小编通知咱们先别急,今天头条是好,但是也要先了解其用户特点,然后再投进也不迟。  今天头条... 查看详情

mitmproxy与安卓模拟器搭配,助力python爬虫工程师,然后就可以爬csdn粉丝数据了(代码片段)

本篇博客为大家介绍mitmproxy,该工具与Charles和Fiddler实现的功能类似,都可以辅助我们分析接口。文章目录mitmproxy工具安装mitmproxy配合安卓模拟器在python环境下配置mitmproxy案例时间订阅时间mitmproxy工具安装mitmproxy是一个免... 查看详情