数据挖掘随笔(代码片段)

Love_YourSelf Love_YourSelf     2022-12-11     757

关键词:

数据挖掘随笔

记录一下自己对与数据挖掘的一些了解与感想

文章目录


前言

2022年7月22日,第五届数字中国建设峰会在福建省举行,开幕式上国家网信办发布了《数字中国发展报告(2021年)》,报告指出2017年—2021年,我国数据产量从2.3ZB增长至6.6ZB。由此可见我们当下正处于大数据的时代,随着信息时代的到来,我们面临着信息爆炸的问题,大数据的特点主要包括数量大、种类多、价值密度低以及产生速度快,也就是所谓的“4V”,面对海量且良莠不齐的信息,数据挖掘技术应运而生,它能够帮助我们从随机的、不完整的、复杂的数据中筛选提取出潜在的有价值的数据及信息,通过数据挖掘处理大量冗杂的数据内容可以极大地提高处理信息的效率,从中可以快速获取大量有价值的信息和知识来帮助我们进行决策与工作。
在我看来数据挖掘及大数据分析可以改变我们看世界的方式,技术加数据思维能够发挥数据最大的价值,因为掌握越多的信息可以使我们能以更高的维度或者说是能在全局化的层面上看待问题,因为我们的世界本身就是可以由不同尺度不同粒度的数据来描述,正如“Everything is data, data is everything”。目前数据挖掘已渗透于人们生活的各个方面,不管是金融投资、价格预测领域,还是智慧医疗、轨迹规划领域均可寻到数据挖掘的踪迹,这彰显出大数据在社会中的重要地位,其与深度学习、数据分析、人工智能相结合,呈现出广阔的应用前景和极高的研究价值。接下来我将从以下三个方面记录一下,目前我对数据挖掘的一些认识与思考。

一、数据挖掘简介及处理过程

数据是最原始的信息表达方式,通过数理分析方法和算法从海量数据中搜索、挖掘出隐藏在海量数据中那些不能靠直觉发现的但有价值的数据,这也就是信息,然后对信息进行结构化或者是规范化,使其变成对应的知识,最后就是通过建立和验证模型来帮助进行决策,这也就是为达到某种目标利用数据挖掘对知识进行合理的应用。数据挖掘任务可以分为两类,一类是预测型任务,例如分类和回归,这是指根据学习一些已有数据的规则去预测未知数据的相关信息;另一类是描述型任务,例如关联规则挖掘和聚类分析,这是指该任务没有先验知识,根据对数据的分析与建模,得到数据间的联系及潜在规律。由于数据挖掘技术涉及的领域很广,用于解决数据挖掘任务的方法大致可分为以下4类:统计学习的方法、机器学习的方法、神经网络和数据库的方法。由此可见数据挖掘技术是一门多学科交叉技术,其涉及数学、计算机科学和人工智能等多个领域。
在我看来数据挖掘主要包括数据收集、数据清洗、模型构建以及迭代调优四个过程。在数据收集过程中可以通过网络爬虫、网页埋点技术以及外部数据库导入等方法来获取大量数据,要尽可能保证收集的数据对问题求解有所帮助,避免出现资源浪费;数据清洗是为了保证预测质量,可以采用相关分析、周期性分析以及异常值分析等方法对收集数据进行探索、审核和必要的加工处理;在得到相关数据特征信息后,可以使用回归分析、分类分析和异常检测等方法构建模型,分类和回归技术有很多,如决策树、贝叶斯网络、Logistic回归方法、随机森林算法、遗传算法、神经网络等;在得到模型后需对其进行测试分析,利用所得数据进行模型的评价,不断改进现有的模型,使之有较好的容差能力以及应用性。在这过程中可使用的方法很多,所以研究方向也是非常广阔的。

二、数据挖掘应用场景举例

数据挖掘是一门交叉性质的研究学科,它综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果,依托该技术已创造出了许多领域的新业态、新运营模式及新决策方法,它助力多领域推动社会经济创新发展。
在短视频领域,数据挖掘可以较为精准推荐感兴趣的视频内容,例如抖音会根据用户平常使用习惯,收集用户点赞、评论以及视频停留时间等信息来综合评估用户感兴趣的内容,以此来达到有目的地推送;在电商领域,数据挖掘可以帮助电商站内广告推荐,给用户推荐可能喜欢的商品,例如淘宝会在用户搜索某一商品后,向其推荐其他同类商品或者是相关产品;在零售领域,数据挖掘分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量,一个经典的案例是纸尿布和啤酒;在房产领域,数据挖掘全面助力房地产行业,打造精准投资政策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人;在金融领域,数据挖掘可从多维度体现用户特征,挖掘不同类数据之间蕴含的潜在联系,帮助金融机构推荐优质客户,防范欺诈风险;在企业管理领域,数据挖掘技术深入分析企业的日常经营问题和经营业绩情况,为企业的财务发展和未来战略提供相关的建议,提升管理层的决策水平;在保险领域,数据挖掘及风险预测可以助力保险行业精准营销,深层次分析信息数据之间的特点和联系,提升精细化定价能力;在水利工程领域,通过人工神经网络预测,对监测的数据进行计算和分析,对工程的安全状况进行判断和预测,在人工信息化监管平台进行处理、展示和管理,可给水利建设管理单位提供极大的便利;在物流仓储领域,数据挖掘可分析用户购买力及购买趋势,帮助企业合理构建实体仓,例如京东物流基本可实现上午下单下午送达、下午下单次日上午送达;在数值预测领域,数据挖掘采用相似性搜索方法,从海量历史数据中查找与当前时问序列相似的序列,通过查找到的一组或若干组序列来预测未来的趋势,该方法已较为成熟,且广泛运用在电力价格、股票价格、水文情况和交通流量等预测中。

三、对数据挖掘的思考和展望

2019年是5G的元年,至此国家仍在大力铺设5G设备,我们要了解5G带来的不仅是通讯方面的便捷与高效,更带来了海量的数据,回看3G到4G的转变,绝大多数人将传统打电话和发短信的方式改为语音、视频、直播、网上购物等生活方式,于此带火了淘宝、京东、美团、字节跳动等企业。所以说5G时代的到来是挑战更是机遇,我认为在今后掌握更多流量掌握更多数据的企业会有更大的发展,从这些数据中不仅可以分析出人们的生产生活习惯,更能反映出今后一些潜在的发展方向,而数据挖掘技术恰恰能够在降低人工处理数据成本的同时极大地提高数据分析的效率。另外目前深度学习领域的研究还是通过大规模数据集来驱动的,数据集的质量很大程度上决定了深度学习模型优化的程度,数据集的规模不够很可能会导致复杂模型出现过拟合的现象,模型会学习到一些无关紧要的特征,进而降低了模型的泛化能力,所以可以利用数据挖掘技术对大规模数据进行相应的处理,通过数据筛选、异常值处理以及数据标准化等方法进行数据的再加工使其满足模型训练需要,这也会进一步推动深度学习领域的发展,给研究者更广阔的发挥空间。
目前利用数据挖掘技术对大数据进行分类分析、聚类分析、关联规则挖掘及异常挖掘是获取隐藏知识的基本途径,在我看来数据挖掘是大数据技术的一种应用和发展,将它应用到各领域将有助于对大容量、多种类、实时性很强的数据进行有效的分析、处理和利用,通过预测未来趋势可以为各层级的人员或决策者提供有价值的信息。可视化分析就是大数据分析的一种应用,这其中包含统计分析技术、数据挖掘技术和机器学习技术,利用这些方法对获得到的数据进行分析与处理,然后实现数据与可视化图像的映射达到让使用者更为清晰直观地分析、监测或者是决策,最后是为开发的可视化系统添加用户交互的手段,也就是用户可以按照自己的需求进行相应数据的展示或者是选择数据显示的形式。我认为可视化分析在将来会有很大的发展前景,因为相比于枯燥的字符,图像更适合也更方便人们去查看,通过可视化之后的数据更加生动更加灵活更加的有利于人们去接受,再加上自然语言处理技术的发展,在以后素有人工智能皇冠上的明珠之称的自然语言处理技术搭配数据可视化的系统很大可能会是今后发展的趋势。

总结

我认为大数据时代最大的转变在于放弃传统的对因果关系的渴求,转而更多地关注相关关系,关注海量数据中隐含着宝贵的知识和规律信息,获取这些知识并将之应用于相关领域中具有重要意义。数据挖掘的应用非常广泛,只要所研究产业有分析价值与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析,进而有较好的发展的前景。未来数据挖掘技术的使用会越来越广泛,不仅仅是教育领域、商业领域、电信领域、医疗卫生领域,甚至以后可能会出现的一些新型领域。我相信越来越多的组织会将存在于现有数据库中的大数据转化为对于研究有使用价值的知识和资源,未来数据挖掘技术势必会带给使用者更大更多的利益,通过更为先进的技术手段去预测未来的发展趋势,以实现更加准确地掌控未来,造福于各行各业。

docker随笔2--数据卷(代码片段)

1.背景:容器是镜像的实例,是一个运行的应用,应用在运行过程中会产生数据,需要对容器内的数据进行操作。2.容器管理数据的两种方式:  数据卷  数据卷容器。3.数据卷:3-1:什么是数据卷:数据卷是一个特殊的目录... 查看详情

数据结构随笔(代码片段)

单链表逆置 代码11voidReverseList(LinkList&L)23LNode*p;4LNode*q;5p=L->next;6L->next=NULL;7while(p!=NULL)89q=p->next;10p->next=L->next;11L->next=p;12p=q;1314不懂的地方 第9到第12行是如何完成逆置的 查看详情

mysql事务随笔(代码片段)

一、什么是事务  数据库中的概念,按我个人理解:能够保证一组任务全部执行成功或者全部执行失败的这么个机制,叫事务  事务是数据库中重要概念,如果没有这种保障机制,数据库中的数据就是不安全的(就是无法保证数据的... 查看详情

flink流处理随笔(上)(代码片段)

文章目录Flink基本处理流程(上)数据读取直接读取文件从列表当中读取文件从socket读取网络数据从Kafka读取数据addSource自定义数据源数据处理map与flatmap的区别过滤分组处理(滚动聚合)reduce使用Flink基本处理流程... 查看详情

pytoch随笔(光速入门篇)(代码片段)

文章目录Pytorch梯度线性回归原始版高级API版优化器梯度下降算法(batchgradientdescentBGD)随机梯度下降法(StochasticgradientdescentSGD)小批量梯度下降(Mini-batchgradientdescentMBGD)动量法(Momentum)AdaGradRMSPropAdam手写数字案例数据集数据划分网络构... 查看详情

request随笔(代码片段)

Request随笔request对象和response对象的原理:request和response对象是由服务器创建的。我们来使用它们。request对象是来获取请求消息,response对象是来设置响应消息。request对象继承体系结构:request功能:获取请求消息... 查看详情

随笔测试(代码片段)

简介:tigergraph是一个图数据库安装下载解压无序列表托尔斯泰特克斯县泰凯斯有序列表李恩李恩飞ak47李恩飞一盏灯,一片昏黄,一简书,一杯淡茶。一盏灯,一片昏黄,一简书,一杯淡茶。functiontest()console.info("markdown");代码引... 查看详情

6.2随笔(代码片段)

---恢复内容开始---0 九大内置对象对于每个用户来说他每次访问都是新的访问,都有他的一份数据。  每个用户登录的数据不同,但访问的都是Servle对象,但表示每个用户时,需要单独的一个对象来代表用户本次JSP访... 查看详情

sqlserver基础操作(此随笔仅作为本人学习进度记录)(代码片段)

createdatabaseLtsDatabase\\创建数据库on(name=LtsDatabase_data,\\数据库名称filename=‘d:\temp\LtsDatabase_data.mbf‘,\\文件所在位置,扩展名.mdfsize=6,\\数据库文件初始化大小maxsize=12,\\数据库文件最大值可以为多大filegrowth=10%\\数据库超过现有的尺... 查看详情

巩固复习(对以前的随笔总结)_数据结构(代码片段)

单链表#实现单链表classNode(object):‘‘‘定义一个节点‘‘‘def__init__(self,data):#因为每次都需要生成一个节点,写到类里面便于保存self.data=data#保存节点的值self.next=None#默认将节点的指向为空#二元组也可以实现节点(data,next指针域),... 查看详情

xml随笔(代码片段)

文章目录XML随笔1.概念2.语法2.1基本语法2.2组成部分2.3约束3.解析XML随笔1.概念ExtensibleMarkupLanguage可扩展标记语言。可扩展:所有标签都是自定义的。只要符合标签命名规则即可。功能:存储数据作为配置文件使用。在网络... 查看详情

sqlserver基础操作(此随笔仅作为本人学习进度记录五!--数据类型)(代码片段)

二进制数据类型binaryvarbinaryUniqueidentifierbinarry(n):n用来表示数据的长度,长度为1—8000,最低长度为1。varbinary:varbinary(n)!--具有可变动的长度类,型用来存储二进制数据的,。也是用来代表数据的长度,在输入数据的时候,必... 查看详情

python数据分析第四周作业随笔(代码片段)

商品零售购物篮分析代码一:查看数据特征importnumpyasnpimportpandasaspdinputfile="D:\\\\360MoveData\\\\Users\\\\86130\\\\Documents\\\\TencentFiles\\\\2268756693\\\\FileRecv\\\\GoodsOrder.csv"#输入的数据文件data=pd.read_csv(inputfile,encoding=\'gbk\')#读取数据data.info()#... 查看详情

随笔:想写一本数据结构的书(代码片段)

早前的思考:https://doctording.blog.csdn.net/article/details/52744016以及最近leetcode刷题看到如下一段话冒泡排序,选择排序,插入排序,快速排序,堆排序,归并排序,希尔排序,桶排序,基数排序新年... 查看详情

随笔:想写一本数据结构的书(代码片段)

早前的思考:https://doctording.blog.csdn.net/article/details/52744016以及最近leetcode刷题看到如下一段话冒泡排序,选择排序,插入排序,快速排序,堆排序,归并排序,希尔排序,桶排序,基数排序新年... 查看详情

python数据分析第七周作业随笔记录(代码片段)

电商产品评论数据情感分析代码1:评论去重的代码#代码12-1评论去重的代码importpandasaspdimportreimportjieba.possegaspsgimportnumpyasnp#去重,去除完全重复的数据reviews=pd.read_csv("D:\\\\360MoveData\\\\Users\\\\86130\\\\Documents\\\\TencentFiles\\\\2268756693\\\... 查看详情

mongo随笔1(代码片段)

P版云环境 自助mongo数据库集群sip_host01:PRIMARY>showdbsadmin0.000GBbk-cmdb-adapter0.031GBconfig0.000GBhost-evacuation-service0.000GBlocal0.046GBonlinesnapshot-service0.000GBorder-business0.000GBtstack_cm 查看详情

flink系列窗口随笔(代码片段)

文章目录窗口概念WindowAPI窗口函数Aggregate示例其他API说明总结窗口概念一句基于Flink流处理引擎的块处理的最佳方案。窗口类型:时间窗口,计数窗口基本流程:1.先对数据分组2.先开窗3.窗口函数,对窗口实现怎... 查看详情