对大数据知识架构的梳理

author author     2022-07-31     230

关键词:

     近期交接了前期的大数据项目,对之前的项目内容做一个总结。也算是梳理一下项目的架构,对前期也算是一个总结,为后期的学习打下一个基础。


清理数据

     对传统行业来说,上来就说要搞大数据,一般都会是一种噱头,因为之前的数据量不会很大,所以基本上都是一些统计分析内容为主。在这一阶段,你对数据理解就尤为重要!这里边牵扯到的知识有数据清理,相关的ETL技术。也就是说你要做数据分析,数据在哪里很是重要,当你不清楚你的数据的位置的时候,你的分析也就无所谈起。而原始数据里边一定会有许多的问题。而此时,你的清理过程就是要深入了解原始数据。为什么说一个好的数据分析人员一定是一个好的业务人员,这点也尤为重要。因为只有你对数据更为了解的时候,你才能更好的补全,替代。说和通俗一点,就是你要将原始的数据转换成PC能读懂的数据。

    这里也有一个4:3:3的原则,你原始的数据要从测试,训练,验证这三个维度来训练你的数据,这样构成一个循环,好让你的数据最终的成功度提高。而当你的数据入库的时候,就采用结构化还是非结构化的时候,这点也非常重要。也是决定着你后期读取的快慢!


分析数据

  这一步是要结合着业务来做的,你对业务理解多少。结合着业务需求来分析数据,而不是单纯理解数据,不同行业不同工种对同一数据的理解是不同的。相比之下,业务人员要对数据的理解更加深入几分。你如何分析你的数据,如何理解里边的特殊值。如何去找到你所要求的目标数据,这一点尤其重要。

  分析数据,这一点也关系到你的项目的成败。这一点个人感觉也是产品经理需要重要把握的地方。首先,做为产品经理,你不可能对所有行业都了解的很清楚,在这种情况下,就势必要求你能够最大限度的来理解数据的价值。在这一步,你要与业务人员深入交流,确保对数据的详细了解,然后才能够在接下的环节中脱颖而出。


算法选取

  有人说这一点都涉及研发了,作为产品经理是不需求去重点关注的。但从个人角度来说,这一点也同样重要。因为你初期的算法选取不当会造成后期的结果错误。也就相当于说,基本的东西,你一上来就要选好。

  而在算法选取方面,个人感觉也是要结合业务来实施。首先,要弄清楚业务那边主要关注的是什么指标。而与这一个指标相关的参数有那些,这些参数都是如何来影响这些指标的。至于算法的准确度,这一点,可以通过对数据颗粒度的细化来不断提高。不同的代码对系统的资源调度是不同的,而若你对算法的了解程度最大限度决定了你最终产品的反应快慢!


需求分析

  有人说,这一块是最为重要的。为什么你不是放在第一部分来讲,而是放在最后一部分了。因为深刻的感受到,在传统行业,用户的需求不明确,或者说不是那么明确。又或者是用户的需求是可以被引导的。一直以来,个人都将用户的需求分为四种:强需,弱需,真需,假需。

  有的时候,要分辩这些需求。是要求产品经理具有相关行业的背景的。因为不同行业,不同公司对人的需求是不同的。如何去挖掘用户的需求,并将这些需求转换成为可以落地实现的产品。这点对产品经理的要求是很高的。


部门沟通

  大数据产品,我将它分为三个线,一个是产品,一个是业务,一个是研发。这样就涉及到了部门之间的沟通。业务有许多的用户需求要经过产品的人来向研发反馈,而研发也需要产品的人把自己的工作落实到实际的项目中来。

  大数据,对上来说。领导层也许不懂大数据能够做什么。这就需要产品人员来给领导层以通俗的语言来讲明白。而对合作厂家来说,要有正确的引导,才能够让对方看到合作的可能。从而为项目的发展提供动力。


  大数据项目,以一个产品经理的角度来参于到这个项目中,才发现,自己曾经学到的内容到实际的应用中是那么的微乎其微。传统行业对大数据的渴求不再单单的基于概念而是真正的落地,真正的辅助业务创造价值。而这一方面,对一个产品经理的要求只会越来越高。

  很高兴前段时间论文的开题也顺利通过了,大数据的路还有很远,且行且珍惜吧!

《大数据日知录:架构与算法》读书笔记(多图)

...常全面以至于知识点都梳理了三天。作为导论式的总览,对大数据领域有了个总体的认识,接下来可以更针对性地加强和实践。总体上比较侧重基础理论和分布式系统的介绍,数据清洗、实时与离线融合的实践、数据分析以及将... 查看详情

知识体系梳理

...作用) 二、Java基础1、函数式编程2、线程池3、HashMap数据结构4、Cocurrenc 查看详情

19张图梳理springcloud中的重要知识点

目录1、什么是微服务1.1、架构演进1.2、微服务架构1.3、微服务解决方案2、SpringCloud概览2.1、什么是SpringCloud2.1、SpringCloud主要组件3、总结1、什么是微服务1.1、架构演进架构的发展历程是从单体式架构,到分布式架构,到SOA架构... 查看详情

openstack架构知识梳理(代码片段)

OpenStack既是一个社区,也是一个项目和一个开源软件,提供开放源码软件,建立公共和私有云,它提供了一个部署云的操作平台或工具集。包括OpenStack计算(代号为Nova),OpenStack对象存储(代号为Swift),并OpenStack镜像服务(代... 查看详情

系统架构设计师考试知识点梳理一

大纲Flynn分类法CISC和RISC计算机层次化存储结构Cache时间局部性和空间局部性随机存储器和只读存储器磁盘工作原理结束语未来公司里面有两种人,一种人是可有可无的人,随便在市场上就可以招到,可以替换。还有一种是合伙人... 查看详情

mysql知识体系梳理

...单机实现集群实现存储实现mysql中的锁锁模式表锁行锁元数据锁页面锁mysql索引介绍分库分表方案mycatshareding-jdbc内置inteceptor执行计划各参数的详细说明事 查看详情

数据治理知识体系学习笔记

数据治理涉及组织体系、标准体系、流程体系、评价体系、技术体系几方面的内容,主要包含:元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理等内容。元数据管理元数据管理主要涉及元数据分... 查看详情

sedna终身学习以及kubeedge梳理(代码片段)

....2.1元知识,Metaknowledge3.2.2元知识的阶,Order3.2.3元数据,Metadata3.2.4元标签,Metalabel3.3舒适度预测终身学习框架3.4元知识初始化(元学习)3.4.1定义3.4.2元学习过程3.5任务分配(推理阶段)3.6未知任务... 查看详情

接口自动化知识梳理

...理学习方式:靠时间堆思考清楚http请求类:写2组数据在Python里面。单元测试类:写2组数据在Python里面。解决数据的分离:数据写到Excel里面去。解决参数的依赖关系 查看详情

大数据开源架构包括哪些?

...策略和方法都需要对数据进行分析。今天这篇文章主要是对大数据开源架构的相关知识的探讨。一起来看看大数据开源架构都包括了哪些内容。1、业务应用也就是是数据采集,用什么方式收集数据。互联网搜集数据是比较简单... 查看详情

进阶-mongodb知识梳理

...     MongoDB是一个高性能,开源,无模式的文档型数据库,是当前NoSql数据库中比较热门的一种。它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。Mongo使用C++开发。Mongo的官方网站地址是:http://www.mongodb.org... 查看详情

《数据库系统概论》知识点梳理

第一章绪论1.1数据库系统概述1.1.1数据库的4个基本概念数据:描述事物的符号记录,数据的含义称为数据的语义,二者是不可分的。数据库:数据库是长期存储在计算机内、有组织的、可共享的大量数据的集合。数据库数据基本... 查看详情

数据库知识体系梳理

关系型数据库的特点(1)以二维表的形式来存放数据信息(2)传统企业使用Oracle(有资本),互联网企业使用MySQL(开源免费,社区人群多)(3)SQL语句是管理数据的关键(4)安全性方面(ACID)2.MySQL版本选择(1)我接触的最... 查看详情

数据库知识体系梳理

关系型数据库的特点(1)以二维表的形式来存放数据信息(2)传统企业使用Oracle(有资本),互联网企业使用MySQL(开源免费,社区人群多)(3)SQL语句是管理数据的关键(4)安全性方面(ACID)2.MySQL版本选择(1)我接触的最... 查看详情

实时同步服务知识梳理

...使用实时同步服务a-因为定时任务有缺陷,-一分钟以内的数据无法进行同步,容易造成数据丢失;b-用户上传数据信息需要实时备份保存.实时同步实现及工作原理.01.实时监控同步数据目录信息变化;02.监控目录发生变化进行数据推送.... 查看详情

zip相关知识梳理(代码片段)

...指点!一、zip文件格式zip文件格式:[本地文件头1][档案数据1][数据描述符1]...[本地文件头n][档案数据n][数据描述符n][存档解密标题 查看详情

mysql的知识梳理

数据准备:--建表createtablecustomer_jia(CIDint(4),Cnamevarchar(20),Csexvarchar(2),Cageint(3),Cjobvarchar(20),CCNOint(2));createtablecompan 查看详情

数据结构与算法知识点梳理—思维导图

数据结构与算法是学习编程者的必修课,下面是我学习完之后的知识点梳理与总结。本来用xmind做的时候把重要知识点都附了博客链接,但是xmind导出来后打不开了。不用担心我把相关内容放在了数据结构专栏里。#专栏地址:http... 查看详情