对Cloc的一点改进

这周遇到一个需求,统计一个巨大的工程的第一次提交和最后一次提交,修改了多少代码,一开始我们自然而然想到了git diff,但是git diff 既不会去除注释也不会去除空行,这就给我们造成了很大麻烦,于是我们搜索了一番github,发现了Cloc这样一个工具,自带diff两次commit的功能,非常的方便,但是当我们实地测试的时候却发现,由于我们的项目太大,直接导致一个Argument list too long error,这样一个错误。导致无法执行。经过一番搜索,我们发现要想解决这个问题,有两个选择,一是修改cloc源码,二是重新编译linux内核修改MAX_ARG_PAGES这个参数。经过一番挣扎,我觉得重新编译linux内核实在是最佳方案,不用改代码,风险最小。所以我们选择了修改Cloc源码。
首先我们找到导致报错的根本原因。

1
2
3
4
5
6
7
8
9
print "-> git_archive($File_Set[0])\n" if $opt_v > 2;
my ($Tarfh, $Tarfile) = tempfile(UNLINK => 1, SUFFIX => $ON_WINDOWS ? '.zip' : '.tar'); # delete on exit
my $cmd = "git archive -o $Tarfile $File_Set[0]";
print $cmd, "\n" if $opt_v;
system $cmd;
if (!-r $Tarfile or !-s $Tarfile) {
# not readable, or zero sized
die "Failed to create tarfile of files from git.";
}

从代码可以看出,由于程序不假思索的用system执行了$cmd,当$cmd非常庞大的时候,程序就会出错。

我们的优化方案就从这里入手,我的思路是,判断,当$cmd大于1000条文件路径时,就把$cmd拆分为数组,每一千条文件路径,合并成一条命令,也就是说,如果是999条文件路径,则程序不发生任何改变,执行下去就好。如果超出了一千,就分多次执行,最后合并执行结果。最后实验结果证明思路可行,性能略低于git diff 但是完全不影响使用。

最后,show code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
my ($Tarfh, $Tarfile) = tempfile(UNLINK => 1, SUFFIX => $ON_WINDOWS ? '.zip' : '.tar'); # delete on exit
my $cmd = "git archive -o $Tarfile $File_Set[0]";
print $cmd, "\n" if $opt_v;
# system $cmd;
# print "\n";
# print $n_sets;
# print "\n";
# print $File_Set[0];
my @cmds = split(/ /, $File_Set[0]);
my $commit_id = shift @cmds;
my $cmds_len = @cmds;
my $flag = 0;
my $onecmd = "";
# print $cmds_len, "长度\n";
# die "I kill this";
if ($cmds_len > 1000){
# print ">1000\n";
my @cmds_array;
while (@cmds > 1000){
my @tmp_list;
my @tmp_len = (1..1000);
foreach my $delcmd (@tmp_len){
push(@tmp_list, shift @cmds);
}
my $tmp_list_len = @tmp_list;
# print $tmp_list_len, "tmp list len\n";
my $tmp_cmd = join " ", @tmp_list;
push(@cmds_array, $tmp_cmd);
}
my $tmp_cmd = join " ", @cmds;
push(@cmds_array, $tmp_cmd);
my $cmds_array_len = @cmds_array;
# print $cmds_array_len, "cmds_array\n";
foreach my $c (@cmds_array) {
if ($flag == 0) {
$onecmd = "git archive -o ${Tarfile} $commit_id $c";
$flag = 1;
system $onecmd;
}else{
$onecmd = "git archive -o ${Tarfile}_extra $commit_id $c";
print $onecmd, "\n" if $opt_v;
system $onecmd;
$onecmd = "tar -A -f ${Tarfile} ${Tarfile}_extra";
print $onecmd, "\n" if $opt_v;
system $onecmd;
}
# print $flag, $onecmd, "\n";
}
}else{
system $cmd;
}

这样一个简单的命令拆分,就解决了一个很烦人的性能问题,是不是很6。
最后,本次改动已经提交Pull requests,想要获取我修改过的代码可以点击这里获取。
想要查看原版代码可以点击这里

坚持原创技术分享,您的支持将鼓励我继续创作!