linux文件去重|linux 文本处理去重问题-山九号

❶ 利用linux命令行进行文本按行去重并按重复次数排序

利用linux命令行进行文本按行去重并按重复次数排序linux命令行提供了非常强大的文本处理功能，组合利用linux命令能实现好多强大的功能。本文这里举例说明如何利用linux命令行进行文本按行去重并按重复次数排序。主要用到的命令有sort，uniq和cut。其中，sort主要功能是排序，uniq主要功能是实现相邻文本行的去重，cut可以从文本行中提取相应的文本列(简单地说，就是按列操作文本行)。用于演示的测试文件内容如下：[plain]HelloWorld.AppleandNokia.HelloWorld.IwannabuyanAppledevice.TheIphoneofApplecompany.HelloWorld.TheIphoneofApplecompany.MynameisFriendfish.HelloWorld.AppleandNokia.实现命令及过程如下：[plain]1、文本行去重(1)排序由于uniq命令只能对相邻行进行去重复操作，所以在进行去重前，先要对文本行进行排序，使重复行集中到一起。$sorttest.txtAppleandNokia.AppleandNokia.HelloWorld.HelloWorld.HelloWorld.HelloWorld.IwannabuyanAppledevice.MynameisFriendfish.TheIphoneofApplecompany.TheIphoneofApplecompany.(2)去掉相邻的重复行$sorttest.txt|uniqAppleandNokia.HelloWorld.IwannabuyanAppledevice.MynameisFriendfish.TheIphoneofApplecompany.2、文本行去重并按重复次数排序(1)首先，对文本行进行去重并统计重复次数(uniq命令加-c选项可以实现对重复次数进行统计。)。$sorttest.txt|uniq-c2AppleandNokia.4HelloWorld.1IwannabuyanAppledevice.1MynameisFriendfish.2TheIphoneofApplecompany.(2)对文本行按重复次数进行排序。sort-n可以识别每行开头的数字，并按其大小对文本行进行排序。默认是按升序排列，如果想要按降序要加-r选项(sort-rn)。$sorttest.txt|uniq-c|sort-rn4HelloWorld.2TheIphoneofApplecompany.2AppleandNokia.1MynameisFriendfish.1IwannabuyanAppledevice.(3)每行前面的删除重复次数。cut命令可以按列操作文本行。可以看出前面的重复次数占8个字符，因此，可以用命令cut-c9-取出每行第9个及其以后的字符。$sorttest.txt|uniq-c|sort-rn|cut-c9-HelloWorld.TheIphoneofApplecompany.AppleandNokia.MynameisFriendfish.IwannabuyanAppledevice.下面附带说一下cut命令的使用，用法如下：[plain]cut-blist[-n][file…]cut-clist[file…]cut-flist[-ddelim][-s][file…]上面的-b、-c、-f分别表示字节、字符、字段（即byte、character、field）；list表示-b、-c、-f操作范围，-n常常表示具体数字；file表示的自然是要操作的文本文件的名称；delim（英文全写：delimiter）表示分隔符，默认情况下为TAB；-s表示不包括那些不含分隔符的行（这样有利于去掉注释和标题）三种方式中，表示从指定的范围中提取字节（-b）、或字符（-c）、或字段（-f）。范围的表示方法：n只有第n项n-从第n项一直到行尾n-m从第n项到第m项(包括m)-m从一行的开始到第m项(包括m)-从一行的开始到结束的所有项在写这篇文章的时候，用到了vim的大小写转化的快捷键：gu变小写，gU变大写。结合ctrl+v能够将一片文字中的字符进行大小写转换，非常好用。

❷ LINUX下去除文件中重复的行

比如你/etc/passwd文件中有重复的行，执行如下指令清除：cat /etc/passwd | sort -u > /tmp/passwd这样/tmp/passwd中就没有重复的行了

❸ linux 去除空行，去除重复，去除特定符号

❹ linux文件合并,关键字去重复shell脚本

看看这个：[[email protected] ~]$ join -t'|' <(sort -t'|' -k1,1 -r -k5,5 a.txt | uniq -w3 | sort -t'|' -k1,1) <(sort -t'|' -k1,1 b.txt) > c.txt[[email protected] ~]$ cat c.txt123|kkk|jjj|sss|2013-02-21 16:11:07|OFF 135|bbb|ccc|ddd|2013-01-28 16:11:07|ON456|kkk|jjj|sss|2013-01-28 16:11:07|ON789|kkk|jjj|sss|2013-02-21 16:11:07|OFF——————-另一个方案：[[email protected] ~]$ awk -F'|' 'NR==FNR{b[$1]=$2}; NR!=FNR{a[$1]=$0 OFS b[$1]; ti[$1]=(ti[$1]<$5?$5:ti[$1])}; END{for (i in a){if (a[i]~ti[i]) print a[i]}}' b.txt a.txt > c.txt[[email protected] ~]$ cat c.txt456|kkk|jjj|sss|2013-01-28 16:11:07 ON123|kkk|jjj|sss|2013-02-21 16:11:07 OFF 135|bbb|ccc|ddd|2013-01-28 16:11:07 ON789|kkk|jjj|sss|2013-02-21 16:11:07 OFF ——————-两方案都破坏原有的顺序，如果你要保持 a.txt 中的顺序，你另外做个排序吧

❺ linux 文本处理，去重问题

sortinput_file|uniq-w1

❻ linux awk去重疑问

awk 'BEGIN{var=" ' "$file" ' "}END{print var;}' "$file"题{var=" ' "$file" ' "}边符号意思第步"$file" 比a.log第二部" ' a.log' "啥意思单引号起作用cat ct.log | awk -F '{print $1 "." $3}'ct.log文件: 1997/06/30 23:54:34 +0800 cwot: fail to login jack from [email protected]

❼ linux：如何对文本里的相同行进行去重

第一个，自己写个脚本（Perl的哈希很方便）第二个，使用uniq命令可以实现

❽ linux下c语言如何去重复读数据

文件中保存的数据有实型有整型，则在读取数据时，均按浮点数据读取就好了。参考代码：#include <stdio.h>int main(){FILE *fp ;int i,n;double a[100];fp=fopen("data.txt", "r") ;if ( !fp ){printf("open file error");return -1;}i=0;while( i<100 ) //控制不能超过数组的大小{if ( fscanf(fp, "%lf",&a[i] )!= 1 ) //按浮点数读取数据break;i++;}n=i;for( i=0;i<n;i++ ) //输出读到的结果printf("%g\n", a[i] );fclose(fp);return 0;}

❾ linux中passwd文件中每一行以:为分隔符，提取出每行的最后一列，排序去重，要求去重后显示重复字段的个数

# cat /etc/passwd |cut -d':' -f7|sort|uniq -c

❿ linux文件行排序去重结果不同sort和uniq

uniq命令的帮助：-u, –unique：only print unique lines第一个方法中，你加上-u选项导致了uniq只输出唯一存在的行，有重复的行被过滤掉了所以，问题出在你的地一种方法上解决方法：uniq中不适用-u选项

未经允许不得转载：山九号 » linux文件去重|linux 文本处理去重问题

linux文件去重|linux 文本处理去重问题