在maxcompute上分析ip来源的方法

author author     2023-01-20     614

关键词:

摘要: 在MaxCompute上分析IP来源和供应商

淘宝IP库
淘宝IP地址库官网地址http://ip.taobao.com/,其查询接口http://ip.taobao.com/service/getIpInfo.php?ip=[ip地址字串],如下所示:

技术分享图片

但是在MaxCompute中禁止使用http请求,那么如何实现在MaxCompute中进行IP的查询?
目前有三种方式:

用SQL将数据查询到本地,再发起http请求查询。-->效率低下,且淘宝IP库查询频率需小于10qps,否则拒绝请求。
下载IP地址库到本地,进行查询。-->同样效率低,且不利于数仓等分析使用。
将IP地址库定期维护上传至MaxCompute,进行连接查询。-->比较高效,但是IP地址库需自己定期维护。
下载IP地址库
① IP地址库下载,http://ip.taobao.org:9999/ipdata_download.html 下载需要的格式数据。本文以[基本数据格式]为例。

技术分享图片

②下载UTF-8数据,打开看看数据格式。

技术分享图片

前四个数据是IP地址的起始地址与结束地址,前两个是十进制整数形式,后两个是点分形式。这里我们使用整数形式,以便计算IP是否属于这个网段。

上传IP地址库数据
①创建表DDL:

DROP TABLE IF EXISTS ipresource ;

CREATE TABLE IF NOT EXISTS ipresource
(
start_ip BIGINT
,end_ip BIGINT
,start_ip_arg string
,end_ip_arg string
,country STRING
,area STRING
,city STRING
,county STRING
,isp STRING
)
;
②使用Tunnel上传文件(文件>10MB需要使用Tunnel upload命令)

[email protected] workshop_demo>tunnel upload ipdata.txt.utf8 ipresource;
技术分享图片

可以通过SQL查看到表中共计上传2369306条数据。

③查看ipresource表样本数据。

技术分享图片

编写UDF函数
通过编写Python UDF将点号分割的IP地址转化为int类型的IP。详细如下:
①添加Python 资源。

技术分享图片

技术分享图片

②编写Python资源代码。

from odps.udf import annotatebr/>@annotate("string->bigint")
class ipint(object):
def evaluate(self, ip):
try:
return reduce(lambda x, y: (x << 8) + y, map(int, ip.split(‘.‘)))
except:
return 0
点击提交并解锁。

技术分享图片

③新建自定义函数:

技术分享图片

提交并解锁:

技术分享图片

④验证ipint函数是否生效并满足预期值。

技术分享图片

在SQL中使用
以具体IP地址为例,在正常情况会以具体表的字段来读进来。

技术分享图片

保证数据准确性可以定期从淘宝IP库获取数据来维护ipresource这个表。


云端大规模视频分析:maxcompute在视觉计算中的应用

...。杭州大脑的项目实践任务多样、算法复杂,数据庞大,MaxCompute很好地胜任了计算平台处理大规模视频的任务。那么,MaxCompute的正确打开方式是怎样的呢,怎样灵活利用MaxCompute使之性能达到最好, 查看详情

21分钟教会你分析maxcompute账单

背景阿里云大计算服务MaxCompute是一款商业化的大数据分析平台,其计算资源有预付费和后付费两种计费方式。并且产品每天按照project为维度进行计量计费(账单基本情况下会第二天6点前产出)。本文使用的为云上客户真实数据... 查看详情

如何分析wireshark抓到的包

...在主界面上选择网卡,然后点击start。wireshark即进入抓包分析过程。在本篇我们选择以太网,进行抓包。接下来再界面我们可以看到wireshark抓到的实时数据包。我们对数据包的各个字段进行解释。1.No:代表数据包标号。2.Time:在... 查看详情

基于maxcompute分布式python能力的大规模数据科学分析(代码片段)

...;同时又受限于平台的计算性能无法处理,本文介绍的MaxCompute可以让您利用并行和分布式技术来加速数据科学。也就是说只要会用numpy、pandas和scikit-learn之一,就会用MaxCompute分布式Py 查看详情

maxcompute批量分区删除

参考技术Aps:Maxcompute数据仓库建设的分享。大致介绍下Maxcompute,Maxcompute是阿里的一个大数据工具,基于Maxcompute阿里搭建了一个Datawork的数据平台。可以很“方便”的从各种数据源导入数据,做数据分析、机器学习等。“方便"之所... 查看详情

maxcompute用户初体验

作为一名初次使用MaxCompute的用户,我体会颇深。MaxCompute开箱即用,拥有集成化的操作界面,你不必关心集群搭建、配置和运维工作。仅需简单的点击鼠标,几步操作,就可以在MaxCompute中上传数据,分析数据并得到分析结果。作... 查看详情

maxcompute用户初体验

作为一名初次使用MaxCompute的用户,我体会颇深。MaxCompute开箱即用,拥有集成化的操作界面,你不必关心集群搭建、配置和运维工作。仅需简单的点击鼠标,几步操作,就可以在MaxCompute中上传数据,分析数据并得到分析结果。作... 查看详情

外部工具连接saas模式云数据仓库maxcompute实战——商业bi分析工具篇

简介:MaxCompute是面向分析的企业级SaaS模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,帮助企业和大数据... 查看详情

外部工具连接saas模式云数据仓库maxcompute实战:商业bi分析工具篇

简介:MaxCompute是面向分析的企业级SaaS模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,帮助企业和大数据... 查看详情

基于maxcompute的实时数据处理实践

简介: MaxCompute通过流式数据高性能写入和秒级别查询能力(查询加速),提供EB级云原生数仓近实时分析能力;高效的实现对变化中的数据进行快速分析及决策辅助。当前Demo基于近实时交互式BI分析/决策辅助场景,... 查看详情

maxcompute文章索引

概况介绍: MaxCompute2.0生态开放之路及最新发展10年老兵带你看尽MaxCompute大数据运算挑战与实践一分钟了解阿里云产品:大数据计算服务MaxCompute概述数加平台如何通过Serverless架构实现普惠大数据淘宝大数据之路 应用案例... 查看详情

阿里云-maxcompute研究

一、官方介绍MaxCompute是适用于数据分析场景的企业级SaaS(SoftwareasaService)模式云数据仓库,提供离线和流式数据的接入,支持大规模数据计算及查询加速能力。MaxCompute适用于100GB以上规模的存储及计算需求,... 查看详情

使用curl模拟ip和来源进行网站采集的实现方法

对于限制了ip和来源的网站,使用正常的采集方式是不行的。本文将介绍一种方法,使用php的curl类实现模拟ip和来源,实现采集限制ip和来源的网站。1.设置页面限制ip和来源访问server.php<?php$client_ip=getip();$referer=getreferer();$allow_i... 查看详情

抓包怎么分析数据

参考技术A问题一:抓包抓到的数据,怎么分析啊5分1,取决于你抓包的层级。一般来说都是与网站之间交换的,未经格式化的较为数据。2,可以从网卡抓取本机收发的数据,也有人把从浏览器或其它工作在顶层的软件获得的数据,... 查看详情

maxcompute中如何通过logview诊断慢作业

简介:MaxCompute致力于批量结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务,在MaxCompute执行sql任务的时候有时候作业会很慢,本文通过查看logview排查具体任务慢的原因在这里把任务跑的慢... 查看详情

logstash+datahub+maxcompute/streamcompute进行实时数据分析

Logstash是一款开源日志收集处理框架,有各种不同的input、filter、output插件,用户使用这些插件可以将各种数据源导入到其他系统。logstash-output-datahub插件,实现将数据导入DataHub的功能,通过简单的配置即可完成数据采集和向DataH... 查看详情

maxcompute湖仓一体介绍

简介:本篇内容分享了MaxCompute湖仓一体介绍。分享人:孟硕阿里云MaxCompute产品专家 视频链接:数据智能实战营-北京站专题回顾正文:本篇内容将通过两个部分来介绍MaxCompute湖仓一体。一、什么是MaxCompute湖仓一... 查看详情

maxcompute_2_maxcompute数据迁移文档(代码片段)

摘要:乍一看标题会以为是不是作者写错了怎么会有从MaxCompute到MaxCompute迁移数据的场景呢在实际使用中已经有客户遇到了这种场景比如两个网络互通的专有云环境之间数据迁移、公共云数加DataIDE上两个云账号之间数据迁移、还... 查看详情