1.AWK
①获取demo.csv文件中第三列数据为2的数据并输出到1.csv
cat demo.csv|awk -F “,” ‘$3==”2″ {print $1″,”$2″,”1}’ >>1.csv
②统计文件第三列为1的条数
hdfs dfs -cat /user/user-test_demo/Demo/demo.csv | awk -F “,” ‘{print $3}’ |grep 1|wc -l
③统计满足指定条件的第四列列之和
cat demo.csv|grep ,80855[0-9][0-9],|awk -F “,” -v sum=0 ‘{sum+=$4} END{print sum}’
2.SED
批量替换
sed -i ‘s/,2.000000000000000000000000000000/,2/g’ 1.csv
读取1到500行的数据
sed -n ‘1,500p’ demo.csv
3.yarn命令
①查看yarn 日志
yarn top -queues 队列名
②查看yarn 日志
yarn logs -applicationId ID号
yarn logs -applicationId application_1624327727087_151007
③杀死某个程序
yarn application -kill ID号
yarn application -kill application_1624327727087_31469
4.zip
压缩后的文件名.要压缩的文件
zip -r
zip -r Demo.zip *_demo20210620.csv
修改文件权限
chmod -R 777 Demo.zip
5.tail
通过查看日志实时追踪程序运行状态
tail -f demo.log