Linux下删除大数据文件中部分字段重复行的方法

来源：本站整理作者：梦在深巷时间：2013-04-25 07:29:12

最近写的一个数据采集程序生成了一个含有1千多万行数据的文件，数据由4个字段组成，按照要求需要删除第二个字段重复的行，找来找去linux下也没找到合适的工具，sed/gawk等流处理工具只能针对一行一行处理，并无法找到字段重复的行。看来只好自己python一个程序了，突然想起来利用mysql，于是进行乾坤大挪移：

1. 利用mysqlimport --local dbname data.txt导入数据到表中，表名要与文件名一致
2. 执行下列sql语句(要求唯一的字段为uniqfield）

复制代码

代码如下:

use dbname;
alter table tablename add rowid int auto_increment not null;
create table t select min(rowid) as rowid from tablename group by uniqfield;
create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;
drop table tablename;
rename table t2 to tablename;

本周热门

1

解决linux 出现command not found 错误 2012/12/11
2

Linux系统下Tar文件安装方法 2013/09/11
3

Linux yum安装过程图文详解 2013/09/25
4

linux halt命令参数及用法详解(linux关机命令详解) 2013/07/23
5

linux文件系统只读 2012/11/24
6

最佳Linux文件系统清理工具 2013/04/26
7

Linux Deepin 11.12 Beta2 版本发布 2011/12/27
8

Linux如何查看机器位数 2014/04/25

本月热门

1

linux vi保存退出命令(如何退出vi) 2012/11/26
2

如何把Kali Linux安装到移动硬盘或者U盘上 2016/10/19
3

解决linux 出现command not found 错误 2012/12/11
4

Linux修改PATH三种方法 2014/04/05
5

Linux正确的读音 2014/06/22
6

linux下xhost命令报错:unable to open display的解决办法 2015/12/22
7

linux用tar解压文件无法打开显示没有该文件或目录是什么原因? 2016/07/25
8

Linux系统的dd命令使用教程 2015/12/28
9

linux系统下的df命令参数详解 2013/11/08
10

Linux常见死机原因 2013/09/09

Linux下删除大数据文件中部分字段重复行的方法

相关推荐

本周热门

本月热门