柚子快报激活码778899分享:大数据技术之
1 Shell概述2 Shell解析器3 Shell脚本入门4 Shell中的变量4.1 系统变量4.2 自定义变量4.3 特殊变量:`$n`4.4 特殊变量:`$#`4.5 特殊变量:`$*、$@`4.6 特殊变量:`$?`5 运算符6 条件判断7 流程控制(重点)7.1 if 判断7.2 case 语句7.3 for 循环7.4 while 循环8 read读取控制台输入9 函数9.1 系统自带函数9.2 自定义函数10 Shell工具(重点)10.1 cut10.2 sed10.3 awk10.4 sort11 企业真实面试题(重点)11.1 京东11.2 搜狐&和讯网11.3 新浪11.4金和网络11.5 数据库备份shell脚本的编写示例12 资料附录
1 Shell概述
大数据程序员为什么要学习Shell呢? 1)需要看懂运维人员编写的Shell程序。 2)偶尔会编写一些简单Shell程序来管理集群、提高开发效率。
2 Shell解析器
(1)Linux提供的Shell解析器有:
[root@hadoop ~]# cat /etc/shells /bin/sh/bin/bash/sbin/nologin/bin/dash/bin/tcsh/bin/csh[root@hadoop ~]#
如下图所示:
(2)bash和sh的关系
[root@hadoop ~]# cd /bin/[root@hadoop bin]# pwd/bin[root@hadoop bin]# ll | grep bash-rwxr-xr-x. 1 root root 941880 5月 11 2016 bashlrwxrwxrwx. 1 root root 4 1月 24 22:21 sh -> bash[root@hadoop bin]#
如下图所示:
(3)Centos默认的解析器是bash
[root@hadoop bin]# echo $SHELL/bin/bash[root@hadoop bin]#
如下图所示:
3 Shell脚本入门
1、脚本格式脚本以#!/bin/bash开头(表示指定解析器)2、第一个Shell脚本:helloworld(1)需求:创建一个Shell脚本,输出helloworld(2)案例实操:
[jack@hadoop datas]$ echo "hello world"hello world[jack@hadoop datas]$ touch helloworld.sh[jack@hadoop datas]$ vim helloworld.sh [jack@hadoop datas]$ cat helloworld.sh #!/bin/bashecho "hello world"[jack@hadoop datas]$
在helloworld.sh中输入如下内容:
#!/bin/bashecho "helloworld"
(3)脚本的常用执行方式第一种:采用bash或sh+脚本的相对路径或绝对路径(不用赋予脚本+x权限)sh+脚本的相对路径
[jack@hadoop datas]$ sh helloworld.sh hello world
sh+脚本的绝对路径
[jack@hadoop datas]$ sh /home/jack/datas/helloworld.sh hello world
bash+脚本的相对路径
[jack@hadoop datas]$ bash helloworld.sh hello world
bash+脚本的绝对路径
[jack@hadoop datas]$ bash /home/jack/datas/helloworld.sh hello world
第二种:采用输入脚本的相对路径或绝对路径执行脚本(脚本必须具有可执行权限+x)(a)首先要赋予helloworld.sh脚本的+x权限
[jack@hadoop datas]$ chmod 777 helloworld.sh
(b)执行脚本相对路径
[jack@hadoop datas]$ ./helloworld.sh hello world
绝对路径
[jack@hadoop datas]$ /home/jack/datas/helloworld.sh hello world
注意:第一种执行方法,本质是bash解析器帮你执行脚本,所以脚本本身不需要执行权限。第二种执行方法,本质是脚本需要自己执行,所以需要执行权限。
3、第二个Shell脚本:多命令处理(1)需求:在/home/jack/目录下创建一个banzhang.txt,在banzhang.txt文件中增加“I love lxy”。(2)案例实操:
[jack@hadoop datas]$ touch banzhang.txt[jack@hadoop datas]$ vim banzhang.txt [jack@hadoop datas]$ cat banzhang.txt #!/bin/bashcd /home/jacktouch banzhang.txtecho "I love lxy" >> banzhang.txt[jack@hadoop datas]$
在batch.sh中输入如下内容
#!/bin/bashcd /home/jacktouch banzhang.txtecho "I love lxy" >> banzhang.txt
4 Shell中的变量
4.1 系统变量
1、常用系统变量$HOME、$PWD、$SHELL、$USER等2、案例实操(1)查看系统变量的值
[jack@hadoop datas]$ echo $HOME/home/jack[jack@hadoop datas]$ echo $PWD/home/jack/datas[jack@hadoop datas]$ echo $SHELL/bin/bash[jack@hadoop datas]$ echo $USERjack
(2)显示当前Shell中所有变量:set
4.2 自定义变量
1、基本语法(1)定义变量:变量=值 (2)撤销变量:unset 变量(3)声明静态变量不赋值:readonly 变量,注意:静态变量不能unset(4)声明静态变量并赋值:readonly 变量=值,注意:静态变量不能unset,静态变量的值只能初始化一次
2、变量定义规则(1)变量名称可以由字母、数字和下划线组成,但是不能以数字开头,环境变量名建议全部大写。(2)等号两侧不能有空格。(3)在bash中,变量默认类型都是字符串类型,无法直接进行数值运算。(4)变量的值如果有空格,需要使用双引号或单引号括起来。
3、案例实操 (1)定义变量A (2)给变量A重新赋值 (3)撤销变量A (4)声明静态的变量C=4,不能unset (5)在bash中,变量默认类型都是字符串类型,无法直接进行数值运算 (6)变量的值如果有空格,需要使用双引号或单引号括起来
(7)可把变量提升为全局环境变量,可供其他Shell程序使用 export 变量名
4.3 特殊变量:`$n`
1、基本语法
$n(功能描述:n为数字,$0代表该脚本名称,$1-$9代表第一到第九个参数,十以上的参数需要用大括号包含,如${10})
2、案例实操(1)输出该脚本文件名称、输入参数1、输入参数2和输入参数3的值
4.4 特殊变量:`$#`
1、基本语法
$# (功能描述:获取所有输入参数的个数,常用于循环)
2、案例实操(1)获取输入参数的个数
4.5 特殊变量:`$*、$@`
1、基本语法
$* (功能描述:这个变量代表命令行中所有的参数,$*把所有的参数看成一个整体)$@ (功能描述:这个变量也代表命令行中所有的参数,不过$@把每个参数区分对待)
2、案例实操(1)打印输入的所有参数
4.6 特殊变量:`$?`
1、基本语法
$? (功能描述:最后一次执行的命令的返回状态。如果这个变量的值为0,证明上一个命令正确执行;如果这个变量的值为非0(具体是哪个数,由命令自己来决定),则证明上一个命令执行不正确了)
2、案例实操(1)判断helloworld.sh脚本是否正确执行
5 运算符
1、基本语法 (1)$((运算式))或$[运算式] (2)expr + , - , \*, /, % 加,减,乘,除,取余 注意:expr运算符间要有空格。
2、案例实操 (1)计算3+2的值 (2)计算3-2的值 (3)计算(2+3) x 4的值 (a)expr一步完成计算 (b)采用$[运算式]方式
6 条件判断
1、基本语法[ condition ] (注意:condition前后要有空格) 注意:条件非空即为true,[ hodoop ]返回true,[] 返回false。
2、常用判断条件
3、案例实操 (1)23是否大于等于22 (2)helloworld.sh是否具有写权限 (3)/home/jack/cls.txt 目录中的文件是否存在
(4)多条件判断(&& 表示前一条命令执行成功时,才执行后一条命令,|| 表示上一条命令执行失败后,才执行下一条命令)
7 流程控制(重点)
7.1 if 判断
1、基本语法
if [ 条件判断式 ];then 程序 fi 或者if [ 条件判断式 ] then 程序 fi
注意事项: (1)[ 条件判断式 ],中括号和条件判断式之间必须有空格。 (2)if后要有空格。
2、案例实操 (1)输入一个数字,如果是1,则输出banzhang zhen shuai,如果是2,则输出lxy zhen mei,如果是其它,什么也不输出。
if.sh
#!/bin/bashif [ $1 -eq "1" ]then echo "banzhang zhen shuai"elif [ $1 -eq "2" ]then echo "lxy zhen mei"fi
7.2 case 语句
1、基本语法
case $变量名 in "值1") 如果变量的值等于值1,则执行程序1 ;; "值2") 如果变量的值等于值2,则执行程序2 ;; ...省略其他分支... *) 如果变量的值都不是以上的值,则执行此程序 ;; esac
注意事项: 1) case行尾必须为单词“in”,每一个模式匹配必须以右括号)结束。 2) 双分号;;表示命令序列结束,相当于java中的break。 3) 最后的*)表示默认模式,相当于java中的default。
2、案例实操(1)输入一个数字,如果是1,则输出banzhang,如果是2,则输出lyx,如果是其它,输出renyao。
case.sh
#!/bin/bashcase $1 in "1") echo "banzhang" ;; "2") echo "lxy" ;; *) echo "renyao";;esac
7.3 for 循环
1、基本语法1
for ((初始值;循环控制条件;变量变化)) do 程序 done
2、案例实操(1)从1加到100
for1.sh
#!/bin/bashs=0for((i=0;i<=100;i++))do s=$[$s+$i]doneecho $s
3、基本语法2
for 变量 in 值1 值2 值3 ...do 程序 done
4、案例实操(1)打印所有的输入参数
for2.sh
#!/bin/bash#打印数字for i in $*do echo "banzhang love $i"done
(2)比较$*和$@区别(a)$*和$@都表示传递给函数或脚本的所有参数,不被双引号“”包含时,都以$1 $2 ... $n的形式输出所有参数。
for3.sh
#!/bin/bash for i in $*do echo "banzhang love $i"donefor j in $@do echo "banzhang love $j"done
(b)当它们被双引号“”包含时,$*会将所有的参数作为一个整体,以$1 $2 ... $n的形式输出所有参数;$@会将各个参数分开,以“$1” “$2”…”$n”的形式输出所有参数。
for4.sh
#!/bin/bash for i in "$*" #$*中的所有参数看成是一个整体,所以这个for循环只会循环一次 do echo "banzhang love $i"done for j in "$@" #$@中的每个参数都看成是独立的,所以“$@”中有几个参数,就会循环几次 do echo "banzhang love $j" done
7.4 while 循环
1、基本语法
while [ 条件判断式 ] do 程序done
2、案例实操(1)从1加到100
#!/bin/bashs=0i=1while [ $i -le 100 ]do s=$[$s+$i] i=$[$i+1]doneecho $s
8 read读取控制台输入
1、基本语法read 选项 参数选项: -p:指定读取值时的提示符。 -t:指定读取值时等待的时间(秒)。参数: 变量:指定读取值的变量名。
2、案例实操(1)提示7秒内,读取控制台输入的名称。
read.sh
#!/bin/bashread -t 7 -p "input your name in 7 seconds " NAMEecho $NAME
9 函数
9.1 系统自带函数
1、basename基本语法basename [string / pathname] [suffix] (功能描述:basename命令会删掉所有的前缀包括最后一个(‘/’)字符,然后将字符串显示出来。选项: suffix为后缀,如果suffix被指定了,basename会将pathname或string中的suffix去掉。2、案例实操(1)截取该/home/jack/banzhang.txt路径的文件名称
示例:
[jack@hadoop datas]$ basename /home/jack/banzhang.txt banzhang.txt[jack@hadoop datas]$ basename /home/jack/banzhang.txt .txtbanzhang
3、dirname基本语法dirname 文件绝对路径 (功能描述:从给定的包含绝对路径的文件名中去除文件名(非目录的部分),然后返回剩下的路径(目录的部分))
4、案例实操(1)获取banzhang.txt文件的路径
示例:
[jack@hadoop datas]$ dirname /home/jack/banzhang.txt /home/jack
9.2 自定义函数
1、基本语法
[ function ] funname[()]{ Action; [return int;]}funname
2、经验技巧(1)必须在调用函数地方之前,先声明函数,shell脚本是逐行运行。不会像其它语言那样先编译。(2)函数返回值,只能通过$?系统变量获得,可以显示加:return返回,如果不加,将以最后一条命令运行结果,作为返回值。return后跟数值n(0-255)。
3、案例实操(1)计算两个输入参数的和
fun.sh
#!/bin/bashfunction sum(){ s=0 s=$[ $1 + $2 ] echo "$s"}read -p "Please input the number1: " n1;read -p "Please input the number2: " n2;sum $n1 $n2;
10 Shell工具(重点)
10.1 cut
cut的工作就是“剪”,具体的说就是在文件中负责剪切数据用的。cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出。
1、基本用法cut [选项参数] filename说明:默认分隔符是制表符\t。
2、选项参数说明
3、案例实操(0)数据准备
[jack@hadoop datas]$ touch cut.txt[jack@hadoop datas]$ vim cut.txt [jack@hadoop datas]$ cat cut.txt dong shenguan zhenwo wolai laile le
(1)切割cut.txt第一列(提示:用空格作为分隔符)
[jack@hadoop datas]$ cut -f 1 -d " " cut.txt dongguanwolaile
(2)切割cut.txt第二、三列
[jack@hadoop datas]$ cut -f 2,3 -d " " cut.txtshenzhen wo lai le
原理图解:
(3)在cut.txt文件中切割出guan
[jack@hadoop datas]$ cat cut.txt dong shenguan zhenwo wolai laile le[jack@hadoop datas]$ cat cut.txt | grep guanguan zhen[jack@hadoop datas]$ cat cut.txt | grep guan | cut -f 1 -d " "guan[jack@hadoop datas]$
图解如下:
(4)选取系统PATH变量值,第2个“:”开始后的所有路径
[jack@hadoop datas]$ echo $PATH/usr/lib64/qt-3.3/bin:/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/home/jack/bin[jack@hadoop datas]$ echo $PATH | cut -d : -f 3-/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/home/jack/bin
图解如下:
(5)切割ifconfig后打印的IPV4的地址
[jack@hadoop datas]$ ifconfig eth1eth1 Link encap:Ethernet HWaddr 00:0C:29:F0:1C:55 inet addr:192.168.25.204 Bcast:192.168.25.255 Mask:255.255.255.0 inet6 addr: fe80::20c:29ff:fef0:1c55/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:8845 errors:0 dropped:0 overruns:0 frame:0 TX packets:5687 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:805027 (786.1 KiB) TX bytes:826298 (806.9 KiB)[jack@hadoop datas]$ ifconfig eth1 | grep "inet addr" inet addr:192.168.25.204 Bcast:192.168.25.255 Mask:255.255.255.0[jack@hadoop datas]$ ifconfig eth1 | grep "inet addr" | cut -d : -f 2192.168.25.204 Bcast[jack@hadoop datas]$ ifconfig eth1 | grep "inet addr" | cut -d : -f 2 | cut -d " " -f 1192.168.25.204
图解如下:
容易蒙圈的地方:
10.2 sed
sed是一种流编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”,接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。
1、基本用法sed [选项参数] 'command' filename
2、选项参数说明
3、命令功能描述
4、案例实操(0)数据准备
[jack@hadoop datas]$ touch sed.txt[jack@hadoop datas]$ vim sed.txt [jack@hadoop datas]$ cat sed.txt dong shenguan zhenwo wolai laile le
(1)将“mei nv”这个单词插入到sed.txt第二行下,打印。
[jack@hadoop datas]$ sed "2a mei nv" sed.txtdong shenguan zhenmei nvwo wolai laile le[jack@hadoop datas]$ cat sed.txt dong shenguan zhenwo wolai laile le
注意:文件并没有改变。
(2)删除sed.txt文件所有包含wo的行
[jack@hadoop datas]$ sed "/wo/d" sed.txt dong shenguan zhenlai laile le
(3)将sed.txt文件中wo替换为ni
[jack@hadoop datas]$ sed "s/wo/ni/g" sed.txt dong shenguan zhenni nilai laile le
注意:‘g’表示global,全部替换。(4)将sed.txt文件中的第二行删除并将wo替换为ni
[jack@hadoop datas]$ sed -e "2d" -e "s/wo/ni/g" sed.txt dong shenni nilai laile le
10.3 awk
一个强大的文本分析工具,把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行分析处理。
1、基本用法awk [选项参数] 'pattern1 {action1} pattern2 {action2} …' filename pattern:表示AWK在数据中查找的内容,就是匹配模式(正则匹配)。 action:在找到匹配内容时所执行的一系列命令。
2、选项参数说明
3、案例实操(0)数据准备
[jack@hadoop datas]$ pwd/home/jack/datas[jack@hadoop datas]$ sudo cp /etc/passwd ./[sudo] password for jack: [jack@hadoop datas]$
出现问题:
用户名 不在 sudoers文件中。此事将被报告。sudo命令可以让你以root身份执行命令,来完成一些我们这个帐号完成不了的任务。其实并非所有用户都能够执行sudo,因为有权限的用户都在/etc/sudoers中呢。我们可以通过编辑器来打开vim /etc/sudoers,sudoers的权限是0440,即只有root才能读。在你用root或sudo编辑后强行保存并退出(wq!)即可。打开sudoers后,像如下那样加上自己的帐号保存后就可以了。
(1)搜索passwd文件以root关键字开头的所有行,并输出该行的第7列。
[jack@hadoop datas]$ awk -F : '/^root/ {print $7}' passwd /bin/bash
(2)搜索passwd文件以root关键字开头的所有行,并输出该行的第1列和第7列,中间以“,”号分割。
[jack@hadoop datas]$ awk -F : '/^root/ {print $1","$7}' passwd root,/bin/bash
注意:只有匹配了pattern的行才会执行action。(3)只显示/etc/passwd的第一列和第七列,以逗号分割,且在所有行前面添加列名user,shell,在最后一行添加"lxy,/bin/zuimei"。
[jack@hadoop datas]$ awk -F : 'BEGIN {print "user,shell"} {print $1","$7} END {print "lxy,/bin/zuimei"}' passwduser,shellroot,/bin/bashbin,/sbin/nologin......xh,/bin/bashxq,/bin/bashlxy,/bin/zuimei
注意:BEGIN 在所有数据读取行之前执行;END 在所有数据执行之后执行。(4)将passwd文件中的用户id增加数值1并输出
[jack@hadoop datas]$ awk -F : -v i=1 '{print $3+i}' passwd 123......503504505[jack@hadoop datas]$
4、awk的内置变量
5、案例实操(1)统计passwd文件名,每行的行号,每行的列数
[jack@hadoop datas]$ awk -F : '{print "filename:" FILENAME ", linenumber:" NR ", columns:" NF}' passwd filename:passwd, linenumber:1, columns:7filename:passwd, linenumber:2, columns:7filename:passwd, linenumber:3, columns:7......filename:passwd, linenumber:33, columns:7filename:passwd, linenumber:34, columns:7filename:passwd, linenumber:35, columns:7
(2)切割IP
[jack@hadoop datas]$ ifconfig eth1 | grep "inet addr" inet addr:192.168.25.204 Bcast:192.168.25.255 Mask:255.255.255.0[jack@hadoop datas]$ ifconfig eth1 | grep "inet addr" | awk -F : '{print $2}'192.168.25.204 Bcast[jack@hadoop datas]$ ifconfig eth1 | grep "inet addr" | awk -F : '{print $2}' | awk -F " " '{print $1}'192.168.25.204
(3)查询sed.txt中空行所在的行号
[jack@hadoop datas]$ cat sed.txt dong shenguan zhenwo wolai laile le[jack@hadoop datas]$ awk '/^$/ {print NR}' sed.txt 5
10.4 sort
sort命令是在Linux里非常有用,它将文件进行排序,并将排序结果标准输出。
1、基本语法sort 选项 参数
参数:指定待排序的文件列表。
2、案例实操(0)数据准备
[jack@hadoop datas]$ touch sort.sh[jack@hadoop datas]$ vim sort.sh [jack@hadoop datas]$ cat sort.sh bb:40:5.4bd:20:4.2xz:50:2.3cls:10:3.5ss:30:1.6
(1)按照“:”分割后的第二列倒序排序。
[jack@hadoop datas]$ cat sort.sh bb:40:5.4bd:20:4.2xz:50:2.3cls:10:3.5ss:30:1.6[jack@hadoop datas]$ sort -t : -nrk 2 sort.sh xz:50:2.3bb:40:5.4ss:30:1.6bd:20:4.2cls:10:3.5[jack@hadoop datas]$
11 企业真实面试题(重点)
11.1 京东
问题1:使用Linux命令查询文件file1中空行所在的行号。
[jack@hadoop datas]$ awk '/^$/ {print NR}' file15
数据清洗(ETL):干掉 空行、null、404、500。
问题2:有文件chengji.txt内容如下:张三 40李四 50王五 60使用Linux命令计算第二列的和并输出。
[jack@hadoop datas]$ cat chengji.txt | awk -F " " '{sum+=$2} END {print sum}'
11.2 搜狐&和讯网
问题1:Shell脚本里如何检查一个文件是否存在?如果不存在该如何处理?
if [ -e file.txt ]then echo "文件存在!"else echo "文件不存在!"fi
11.3 新浪
问题1:用shell写一个脚本,对文本中无序的一列数字排序。
[root@CentOS6-2 ~]# cat test.txt98765432101[root@CentOS6-2 ~]# sort -n test.txt | awk '{a+=$0;print $0} END {print "SUM=" a}'12345678910SUM=55
11.4金和网络
问题1:请用shell脚本写出查找当前文件夹(/home/)下所有的文本文件内容中包含有字符”shen”的文件名称。
[jack@hadoop datas]$ grep -r "shen" /home//home/jack/datas/sed.txt:dong shen/home/jack/datas/cut.txt:dong shen[jack@hadoop datas]$ grep -r "shen" /home/ | cut -d ":" -f 1/home/jack/datas/sed.txt/home/jack/datas/cut.txt
注意: grep -R/-r /home/ 以递归方式读取/home/目录下的所有文件
11.5 数据库备份shell脚本的编写示例
shell脚本文件内容:
#!/bin/bash#备份路径BACKUP=/data/backup/sql/dy#当前时间DATETIME=$(date +%Y-%m-%d_%H:%M:%S)echo "===备份开始==="echo "备份文件存放于${BACKUP}/$DATETIME.tar.gz"#数据库地址HOST=localhost#数据库用户名DB_USER=root#数据库密码DB_PW=Ces123456#创建备份目录[ ! -d "${BACKUP}/$DATETIME" ] && mkdir -p "${BACKUP}/$DATETIME"#后台系统数据库DATABASE=dy_backgroundmsmysqldump -u${DB_USER} -p${DB_PW} --host=$HOST -q -R --databases $DATABASE | gzip > ${BACKUP}/$DATETIME/$DATABASE.sql.gz#投入品监管数据库DATABASE=dy_firipmysqldump -u${DB_USER} -p${DB_PW} --host=$HOST -q -R --databases $DATABASE | gzip > ${BACKUP}/$DATETIME/$DATABASE.sql.gz#压缩成tar.gz包cd $BACKUPtar -zcvf $DATETIME.tar.gz $DATETIME#删除备份目录rm -rf ${BACKUP}/$DATETIME#删除30天前备份的数据find $BACKUP -mtime +30 -name "*.tar.gz" -exec rm -rf {} \;echo "===备份成功==="注:find:linux的查找命令,用户查找指定条件的文件。-mtime:标准语句写法。+10:查找10天前的文件,这里用数字代表天数,+30表示查找30天前的文件。"*.*":希望查找的数据类型,"*.jpg"表示查找扩展名为jpg的所有文件,"*"表示查找所有文件,这个可以灵活运用,举一反三。-exec:固定写法。rm -rf:强制删除文件,包括目录。{} \; :固定写法,一对大括号+空格+\;
12 资料附录
尚硅谷大数据之Shell视频链接:链接:https://pan.baidu.com/s/1DecEi7Dq5R9Mghl6F_Csvw 密码:ucrr 视频质量:优良 视频总个数:26个 视频总时长:2:45:51 建议学习时长:1天
柚子快报激活码778899分享:大数据技术之
发表评论