大数据学习笔记~linux基础篇

南城、每天都要学习呀 南城、每天都要学习呀     2023-04-01     206

关键词:

记录我在学习大数据技术过程中的学习笔记

目录

一、学习目标

二、Linux虚拟机的安装配置

         a、创建虚拟机、安装centos7(保姆级教程)

         b、使用克隆的方式创建Linux虚拟机

        c、使用Xshell连接Linux虚拟机

三、Linux命令使用

        a、文件相关的高级命令

        b、vi命令

                1.编辑文件内容

                2.复制粘贴

                3.查找字符串

                4.快速删除

                5.查找某一行内容

                6.快速跳到文件首行和末行

                7.如果在编辑的时候,意外退出

         c、文件统计相关命令

                1.wc命令的使用

                2.uniq:检查重复的行列

                3.sort:排序

                4.head:取前n条数据

        d、日期相关命令

        e、进程相关命令

        f、linux高级命令(grep查找、sed编辑、awk分析)

                1.grep        查找

                2.sed        自动编辑

                3、awk        分析


一、学习目标

掌握Linux虚拟机的安装

掌握Linux中高级命令的使用

二、Linux虚拟机的安装配置

安装VMware软件

使用VMware安装配置Linux虚拟机

使用Xshell连接Linux虚拟机

在安装VMware之前需要打开电脑的虚拟化功能

在任务管理器-性能中可以看到是否开启了虚拟化功能

         a、创建虚拟机、安装centos7(保姆级教程)

                      1、 打开VMware,点击创建虚拟机

                 2、

                3、 

                4、 

                5、 

                6、 

                7、

                 8、

                 9、

                 10、

                 11、

                 12、

                13、 

                14、 

                15、 

                16、

                 17、

                 18、

                 19、点进虚拟机,按上箭头,选择centos7,回车(ctrl + alt 可以释放鼠标输入)

                20、

                21、 

                22、 

                 23、

                 24、

                25、 

 26、

                 27、

                28、 

                 29、进度条满了后,点击reboot,重启

                30、登录账户(输入密码时,密码是不显示的)ip addr 查看ip地址

         b、使用克隆的方式创建Linux虚拟机

                1、关闭刚才创建的虚拟机

                2、右键-管理-克隆

                3、

                4、 

                5、 改名称和路径

                6、

                7、开启虚拟机

                8、登录账号

                9、查看ip地址 (ip addr)

        c、使用Xshell连接Linux虚拟机

                1、左上角-文件-新建

                        2、 

                3、确定

                4、                         5、双击连接

                 6、成功连接

三、Linux命令使用

        a、文件相关的高级命令

                1.vi:文件编辑利器

                2.wc、uniq、sort、head:文件内容统计相关命令

        b、vi命令

                1.编辑文件内容

                                vi hello.txt

                                文件存在则编辑,文件不存在会自己创建文件后编辑

                                进入后,按i可编辑内容,按esc可退出编辑状态,输入 “:wq” 可保存

                                输入“:q”不保存退出,“:q!” 强制不保存退出

                2.复制粘贴

                                将光标定位到需要复制的那一行,连续按两”y"

                                再在需要粘贴的地方,按一次“p”

                3.查找字符串

                                在命令行模式下输入“\\要查找的字符串”,回车就可以查找了

                4.快速删除

                                删除当前行:将光标定位在需要删除的哪一行,连续按两次“d”

                                删除当前行下的所有行:将光标定位在需要删除的很多行中的第一行

                                连续按3次“9”,在按2次“d”

                5.查找某一行内容

                                在命令行模式下输入“:行号”,可以快速跳转到某行

                                在命令行模式下输入“set nu”,可以显示行号

                6.快速跳到文件首行和末行

                                在命令行模式下,按大写的“G”,可以快速将光标移动到最后一行

                                光标移动到第一行:按两次小写的“g”

                7.如果在编辑的时候,意外退出

                                会出现如下情况

                         解决办法:

                                1、找到这个临时文件,将它删除(默认会在原始文件一个目录中)

                                2、 问题解决

         c、文件统计相关命令

                1.wc命令的使用

                        wc -c 文件名        统计字节数量

                        wc -m 文件名        统计英文字符数量

                        wc -l 文件名          统计行数

                        wc -L 文件名        统计最长的一行有多少个字符

                        wc -w 文件名        统计单词个数,按空格切分的

                2.uniq:检查重复的行列

                        uniq 文件名        对文件中连续重复的进行去重

                        uniq -c 文件名        对文件去重后且显示重复了几次

                        uniq -u 文件名        返回文件中不重复的行

                        sort 文件名 | uniq        排序后去重

                        |        管道,可以将前面的结果传给后面的命令

                3.sort:排序

                        sort                         按照第一个字符排序

                        sort -n 文件名        按照数值排序

                        sort -nr 文件名       按照数值逆序排序

                        sort -k 列数 -nr 文件名 根据文件中的第几列,逆序排序

                4.head:取前n条数据

                        head -3 文件名        取前条数据

                        sort -nr 文件名 | head -3        取topn数据

        d、日期相关命令

                1.data:获取当前时间

                2.格式化输出:date + "%Y-%m-%d %H:%M:%S"

                3.获取前一天日期: date --date="1 days ago"

                4.获取上一个月份中有多少天:date --date="2023-03-01 1 days ago" + %d

        e、进程相关命令

                1.ps:显示进程信息

                        ps -ef 显示所有进程信息

                2.top:动态监控进程信息

                        top命令:主要作用在于动态显示系统消耗资源最多的进程信息;包括进程ID,内存占用,Cpu占用等

                        和ps命令作用基本相同,唯一的区别是top命令能够动态显示进程信息

                3.netstat:显示端口信息

                        需要使用这个命令需要在线安装:yum install -y net-tools

                        netstat -anp

                4.kill:杀掉进程

                        kill 端口号        杀掉进程,程序自己结束

                        kill -9 端口号        linux强制结束掉进程

                5.jps:显示java进程信息

                        jps:类似ps命令,不同的是ps是用来显示所有进程信息而jps只显示Java进程信息

                        jps是显示当前用户已启动的Java进程信息,信息包括进程号和简短的进程command

                        jps是java提供的命令,只有在安装配置号java环境之后才能使用

        f、linux高级命令(grep查找、sed编辑、awk分析)

                1.grep        查找

                        grep 查找字符串 文件名        在文件中查找符合条件的字符串

                        grep 正则表达式 文件名        在文件中查找符合正则表达式的字符串

                        grep -i 查找的字符串 文件名        忽略大小写查找

                        grep -i 查找的字符串 -n 文件名        显示查找的字符串在第几行

                        grep -v 查找的字符串                除了查找的字符串不显示,其他都显示

                2.sed        自动编辑

                        添加内容

                        sed '1a\\添加的内容' 文件名        在第一行后面添加内容

                        sed '1i\\添加的内容' 文件名        在第一行的前面插入内容

                        sed '$a\\添加的内容' 文件名        在最后一行后面添加内容

                        sed '1i\\添加的内容' 文件名        在最后一行的前面插入内容

                        删除内容

                        sed '1d' 文件名                        删除第一行

                        sed ‘$d’ 文件名                        删除最后一行

                        替换内容

                        sed [address]s/pattern/replacement/flags

                        address:表示指定要操作的具体行,是一个可选项

                        s:表示替换操作

                        pattern:指的是要替换的新内容

                        flags:有多种用法

                                第一种:就是flags可以表示1~512之间的任意一个数字,表示要指定替换的字符串在这一行中出现几次时才进行替换

                                第二种:就是flags可以直接表示为g,这样的意思就是对每一行所有匹配的内容全部进行替换

                                第三种:如果flags位置的值为空,则只会在第一次匹配成功时做替换操作

                3、awk        分析

                        awk 'print $1' 文件名                打印第一行的内容

                        awk -F分隔符 ‘print $1’  文件名        根据指定分隔符切割,打印第一行的内容

                        awk '($9 ~ /a/)print $1' 文件名        满足第九行数据等于a的数据打印第一行

                        

                        

                        

                        

                        

                                        

                                        

大数据之路之linux篇(代码片段)

目录1.Linux简介篇1.1为什么要学习Linux1.2Linux是什么1.3Linux创始人1.4Linux主要发行版本1.5Linux和Unix前世今生2.Linux系统基础篇2.1Linux安装2.2Linux用户管理、组管理、权限管理2.3Linux磁盘基础知识、分类、分区、挂载、卸载、扩容等操作&#... 查看详情

[学习笔记]黑马程序员-hadoop入门视频教程(代码片段)

文章目录参考资料第一章:大数据导论(p1-5)1.1企业数据分析方向1.2数据分析基本流程步骤明确分析的目的和思路数据收集数据处理数据分析数据展现报告攥写1.3大数据时代大数据定义大数据的5V特征应用场景1.4分布... 查看详情

2022年大数据基础讲课笔记

一、讲课笔记项目一、Linux基础大数据讲课笔记1.1安装配置CentOS[在OpenStack私有云上安装配置虚拟机]大数据讲课笔记1.2Linux用户操作大数据讲课笔记1.3Linux目录操作大数据讲课笔记1.4进程管理大数据讲课笔记1.5使用Vim编辑器大数据... 查看详情

2022年大数据基础讲课笔记

一、讲课笔记项目一、Linux基础大数据讲课笔记1.1安装配置CentOS[在OpenStack私有云上安装配置虚拟机]大数据讲课笔记1.2Linux用户操作大数据讲课笔记1.3Linux目录操作大数据讲课笔记1.4进程管理大数据讲课笔记1.5使用Vim编辑器大数据... 查看详情

大数据数仓基础知识学习笔记

学习数据仓库笔记,方便日后查询1、数据仓库主要架构2、数据仓库——ETL3、数据仓库建模(关系(E-R)模型、维度模型、DataVault模型)4、数据集市5、数据仓库实施步骤 查看详情

大数据数仓基础知识学习笔记

学习数据仓库笔记,方便日后查询1、数据仓库主要架构2、数据仓库——ETL3、数据仓库建模(关系(E-R)模型、维度模型、DataVault模型)4、数据集市5、数据仓库实施步骤 查看详情

大数据学习步骤,入门篇

目前大数据行业异常火爆,不少人都对大数据充满了兴趣,其中有大部分人都是之前没有接触过计算机技术的,对编程语言也不太了解,那是不是这部分零基础的朋友就学不了大数据了呢?答案当然是否定的。大数据学习并不是... 查看详情

大数据数仓基础知识学习笔记

数据仓库基础知识学习笔记【1】数据仓库数据仓库(DataWarehouse,DW)数据仓库为各个部门建立了一个统一的数据视图,解决每个部门从业务数据库抽取数据而导致的分析结果不一致问题。数仓面向于数据分析࿰... 查看详情

大数据数仓基础知识学习笔记

数据仓库基础知识学习笔记【1】数据仓库数据仓库(DataWarehouse,DW)数据仓库为各个部门建立了一个统一的数据视图,解决每个部门从业务数据库抽取数据而导致的分析结果不一致问题。数仓面向于数据分析࿰... 查看详情

学习大数据:java基础篇之封装

...行操作和访问。2、好处:(1)只能通过规定的方法访问数据(2)隐藏类的实例细节,方便修改和实现。3、封装的实现步骤(1)修改属性的可见性设为(private)(2)创建getter/setter方法(用于属性的读写)(通过这两种方法对... 查看详情

学习大数据:java基础篇之封装

...行操作和访问。2、好处:(1)只能通过规定的方法访问数据(2)隐藏类的实例细节,方便修改和实现。3、封装的实现步骤(1)修改属性的可见性设为(private)(2)创建getter/setter方法(用于属性的读写)(通过这两种方法对... 查看详情

python大数据分析学习基础篇——数据结构(代码片段)

一、函数部分1、闭包所谓闭包其实跟回调函数有有相通之处。闭包可以延长作用时间和作用域。defsay(word):defname(name):print(word,name)returnnamehi=say('你好')hi("小明")bye=say("再见")bye("小明")运行结果:... 查看详情

c语言基础学习笔记+c语言进阶学习笔记总结篇(坚持才有收获!)

【C语言基础学习笔记系列】【C语言基础学习笔记】一、初始C语言(1)【C语言基础学习笔记】一、初始C语言(2)【C语言基础学习笔记】一、初始C语言(3)【C语言基础学习笔记】一、初始C语言(总... 查看详情

学习大数据:java基础篇之反射

反射使用反射获取程序运行时的对象和类的真实信息。获取Class对象每个类被加载之后,系统会为该类生成一个对应的Class对象,通过该Class对象可以访问到JVM中的这个类。使用Class类的forName(StringclazzName)静态方法。字符串参数的... 查看详情

学习大数据:java基础篇之多态

众所周知,Java有三大特性,封装,继承,多态,封装解决了数据的安全性问题,封装解决了代码的重用问题,多态解决了程序的扩展问题,今天我们就来剖析java基础核心机制之多态,了解什么是多态,以及多态的类别以及构成动态多态的条件... 查看详情

学习大数据:java基础篇之多态

众所周知,Java有三大特性,封装,继承,多态,封装解决了数据的安全性问题,封装解决了代码的重用问题,多态解决了程序的扩展问题,今天我们就来剖析java基础核心机制之多态,了解什么是多态,以及多态的类别以及构成动态多态的条件... 查看详情

学习大数据:java基础篇之数组

Java基础——数组数组是一个语言中的基本要素,它能够用来保存和管理多个变量。例如,如果要统计三个学生的成绩,可以手动的定义三个变量a、b、c,如果要输出这三个变量的值,也可以写三个输出语句。但是,如果要管理... 查看详情

学习大数据:java基础篇之数组

Java基础——数组数组是一个语言中的基本要素,它能够用来保存和管理多个变量。例如,如果要统计三个学生的成绩,可以手动的定义三个变量a、b、c,如果要输出这三个变量的值,也可以写三个输出语句。但是,如果要管理... 查看详情