JS中数组去重问题

September/15th 2010

面试前端必须准备的一个问题：怎样去掉Javascript的Array的重复项。据我所知，百度、腾讯、盛大等都在面试里出过这个题目。这个问题看起来简单，但是其实暗藏杀机。考的不仅仅是实现这个功能，更能看出你对计算机程序执行的深入理解。

我总共想出了三种算法来实现这个目的：

Array.prototype.unique1 = function()
{
	var n = []; //一个新的临时数组
	for(var i = 0; i < this.length; i++) //遍历当前数组
	{
		//如果当前数组的第i已经保存进了临时数组，那么跳过，
		//否则把当前项push到临时数组里面
		if (n.indexOf(this[i]) == -1) n.push(this[i]);
	}
	return n;
}

Array.prototype.unique2 = function()
{
	var n = {},r=[]; //n为hash表，r为临时数组
	for(var i = 0; i < this.length; i++) //遍历当前数组
	{
		if (!n[this[i]]) //如果hash表中没有当前项
		{
			n[this[i]] = true; //存入hash表
			r.push(this[i]); //把当前数组的当前项push到临时数组里面
		}
	}
	return r;
}

Array.prototype.unique3 = function()
{
	var n = [this[0]]; //结果数组
	for(var i = 1; i < this.length; i++) //从第二项开始遍历
	{
		//如果当前数组的第i项在当前数组中第一次出现的位置不是i，
		//那么表示第i项是重复的，忽略掉。否则存入结果数组
		if (this.indexOf(this[i]) == i) n.push(this[i]);
	}
	return n;
}

其中第1种和第3种方法都用到了数组的indexOf方法。此方法的目的是寻找存入参数在数组中第一次出现的位置。很显然，js引擎在实现这个方法的时候会遍历数组直到找到目标为止。所以此函数会浪费掉很多时间。而第2中方法用的是hash表。把已经出现过的通过下标的形式存入一个object内。下标的引用要比用indexOf搜索数组快的多。

为了判断这三种方法的效率如何，我做了一个测试程序，生成一个10000长度的随机数组成的数组，然后分别用几个方法来测试执行时间。结果表明第二种方法远远快于其他两种方法。但是内存占用方面应该第二种方法比较多，因为多了一个hash表。这就是所谓的空间换时间。就是这个测试页面，你也可以去看看。

2010年10月7日更新:

根据hpl大牛的思路，我写了第四种方法：

Array.prototype.unique4 = function()
{
	this.sort();
	var re=[this[0]];
	for(var i = 1; i < this.length; i++)
	{
		if( this[i] !== re[re.length-1])
		{
			re.push(this[i]);
		}
	}
	return re;
}

这个方法的思路是先把数组排序，然后比较相邻的两个值。排序的时候用的JS原生的sort方法，JS引擎内部应该是用的快速排序吧。最终测试的结果是此方法运行时间平均是第二种方法的三倍左右，不过比第一种和第三种方法快了不少。

26442 read 9 comment(s)

smallsmallwolf 2010年09月20号 20:21 回复

谢啦老大这个有用啊

liudanking 2010年10月01号 22:48 回复

你让我想起了一个“产生不重复的随机数”的问题。其实可以把你的问题归为这个问题的子问题。

hplonline 2010年10月07号 12:22 回复

还有一法是先sort再uniq，因为没有规定必须保持原数组元素的出现顺序。跟hash应该有得一拼，时间上n*logn vs n*h，空间上可以就地解决。时间上具体有多少差异就比较依赖底层怎么实现的了。

longbill 2010年10月07号 13:32 回复

@hplonline 有意思。我测试一下。

longbill 2010年10月07号 14:02 回复

@hplonline 写出来了。你看看测试页面。主要时间花在了排序上面，记得快排的时间复杂度为n*logn? 但是用hash的话，n*h 中的h不知道JS引擎怎么实现的，居然比logn小那么多。。。。

hplonline 2010年10月07号 14:40 回复

这个跟浏览器是不是也有关系哦，ff3.6.10：

method 1 used 1506ms
method 2 used 9ms
method 3 used 1919ms
method 4 used 9ms
6340/10000

longbill 2010年10月07号 14:46 回复

@hplonline 果然。在webkit核心下面，method 2 < method 4，在opera下面就 2> 4了。看来各个JS引擎的实现方式不一样啊。

Evan 2017年03月03号 11:55 回复

第二种方法，要是同时存在字符串类型的值和数值类型的值，排在后面的值会被去掉

Evan 2017年03月03号 11:56 回复

第二种方法，要是同时存在字符串类型的值和数值类型的值，排在后面的值会被去掉

添加新的评论

称呼:*
邮件:*
网站:
内容:

刘春龙的博客

PHP, Javascript and Works

推荐文章

最新微博

友情链接