自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

C#集合數(shù)據(jù)去重的五種方式及其性能對比測試分析

開發(fā) 前端
BenchmarkDotNet是一個基于.NET開源、功能全面、易于使用的性能基準(zhǔn)測試框架,它為.NET開發(fā)者提供了強(qiáng)大的性能評估和優(yōu)化能力。

前言

今天我們一起來討論一下關(guān)于C#集合數(shù)據(jù)去重的5種方式并且使用BenchmarkDotNet對這5種方式進(jìn)行性能基準(zhǔn)對比測試分析,每種方法都有其特點(diǎn)和適用場景,我們可以根據(jù)具體需求和執(zhí)行效率選擇一種進(jìn)行使用。

BenchmarkDotNet介紹

BenchmarkDotNet是一個基于.NET開源、功能全面、易于使用的性能基準(zhǔn)測試框架,它為.NET開發(fā)者提供了強(qiáng)大的性能評估和優(yōu)化能力。通過自動化測試、多平臺支持、高級統(tǒng)計分析和自定義配置等特性,BenchmarkDotNet幫助開發(fā)者更好地理解和優(yōu)化軟件系統(tǒng)的性能表現(xiàn)。

  • 使用詳細(xì)介紹:https://mp.weixin.qq.com/s/6mpHS1OVuIlBgdU71OIIOw

使用HashSet去重

C# 中的 HashSet 是一種集合類型,它確保其中的元素是唯一的,不允許重復(fù)值的存在。當(dāng)你嘗試向 HashSet 中添加一個重復(fù)的元素時,HashSet 會忽略重復(fù)的值,而不會引發(fā)錯誤。這使得 HashSet 成為一個非常方便的數(shù)據(jù)結(jié)構(gòu),用于存儲一組唯一的元素,并且在需要時可以高效地進(jìn)行查找、插入和刪除操作,注意HashSet中的元素是無序的。

/// <summary>
        /// 使用HashSet去重
        /// TODO:HashSet是一個集合類,它的特點(diǎn)是不允許重復(fù)元素,可以方便地實(shí)現(xiàn)去重功能。
        /// </summary>
        public static void HashSetDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };
            HashSet<int> uniqueData = new HashSet<int>(dataSource);

            Console.WriteLine(string.Join(", ", uniqueData));
        }

使用循環(huán)遍歷去重

/// <summary>
        /// 直接循環(huán)遍歷去重
        /// </summary>
        public static void LoopTraversalDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };
            var uniqueData = new List<int>();
            foreach (var item in dataSource)
            {
                //if (!uniqueData.Any(x => x == item))
                //if (!uniqueData.Exists(x => x == item))
                if (!uniqueData.Contains(item))
                {
                    uniqueData.Add(item);
                }
            }
            Console.WriteLine(string.Join(", ", uniqueData));
        }

使用Linq的Distinct()方法去重

Linq中的Distinct()方法用于從集合中篩選出不重復(fù)的元素。Distinct()方法基于元素的相等性來進(jìn)行篩選,并返回一個包含不重復(fù)元素的新序列。底層實(shí)現(xiàn)還是使用到了HashSet。

/// <summary>
        /// 使用Linq的Distinct()方法去重
        /// </summary>
        public static void DistinctDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };
            var uniqueData = dataSource.Distinct().ToList();

            Console.WriteLine(string.Join(", ", uniqueData));
        }

使用Linq的GroupBy()方法去重

GroupBy()方法將原始集合中的元素進(jìn)行分組,根據(jù)指定的鍵或條件進(jìn)行分組。每個分組都會有一個唯一的鍵,通過將原始集合分組并選擇每個分組中的第一個元素,實(shí)現(xiàn)了去重的效果。

/// <summary>
        /// 使用Linq的GroupBy()方法去重
        /// </summary>
        public static void GroupByDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };

            //GroupBy()方法將原始集合中的元素進(jìn)行分組,根據(jù)指定的鍵或條件進(jìn)行分組。每個分組都會有一個唯一的鍵,通過將原始集合分組并選擇每個分組中的第一個元素,實(shí)現(xiàn)了去重的效果。
            var uniqueData = dataSource.GroupBy(item => item).Select(group => group.First()).ToList();

            Console.WriteLine(string.Join(", ", uniqueData));
        }

使用自定義的比較器和循環(huán)遍歷

/// <summary>
        /// 使用自定義的比較器和循環(huán)遍歷
        /// </summary>
        public static void CustomEqualityComparerDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };
            var uniqueData = new List<int>();
            foreach (var item in dataSource)
            {
                if (!uniqueData.Contains(item, new CustomEqualityComparer()))
                {
                    uniqueData.Add(item);
                }
            }
            Console.WriteLine(string.Join(", ", uniqueData));
        }

        /// <summary>
        /// 自定義的比較器
        /// </summary>
        public class CustomEqualityComparer : IEqualityComparer<int>
        {
            public bool Equals(int x, int y)
            {
                return x == y;
            }

            public int GetHashCode(int obj)
            {
                return obj.GetHashCode();
            }
        }

性能基準(zhǔn)對比測試分析

接下來我們使用BenchmarkDotNet對這5種集合去重的方式進(jìn)行性能基準(zhǔn)對比測試分析。

測試代碼

using BenchmarkDotNet.Attributes;

namespace BenchmarkDotNetExercise
{
    [MemoryDiagnoser]//記錄內(nèi)存分配情況
    public class DataSetDeduplicationBenchmark
    {
        private List<int> dataSource;

        public DataSetDeduplicationBenchmark()
        {
            // 生成大量重復(fù)數(shù)據(jù)  
            dataSource = Enumerable.Repeat(Enumerable.Range(1, 100), 10000).SelectMany(x => x).ToList();
        }

        /// <summary>
        /// 使用HashSet去重
        /// TODO:HashSet是一個集合類,它的特點(diǎn)是不允許重復(fù)元素,可以方便地實(shí)現(xiàn)去重功能。
        /// </summary>
        [Benchmark]
        public void HashSetDuplicate()
        {
            HashSet<int> uniqueData = new HashSet<int>(dataSource);
        }

        /// <summary>
        /// 直接循環(huán)遍歷去重
        /// </summary>
        [Benchmark]
        public void LoopTraversalDuplicate()
        {
            var uniqueData = new List<int>();
            foreach (var item in dataSource)
            {
                //if (!uniqueData.Any(x => x == item))
                //if (!uniqueData.Exists(x => x == item))
                if (!uniqueData.Contains(item))
                {
                    uniqueData.Add(item);
                }
            }
        }

        /// <summary>
        /// 使用Linq的Distinct()方法去重
        /// </summary>
        [Benchmark]
        public void DistinctDuplicate()
        {
            var uniqueData = dataSource.Distinct().ToList();
        }

        /// <summary>
        /// 使用Linq的GroupBy()方法去重
        /// </summary>
        [Benchmark]
        public void GroupByDuplicate()
        {
            //GroupBy()方法將原始集合中的元素進(jìn)行分組,根據(jù)指定的鍵或條件進(jìn)行分組。每個分組都會有一個唯一的鍵,通過將原始集合分組并選擇每個分組中的第一個元素,實(shí)現(xiàn)了去重的效果。
            var uniqueData = dataSource.GroupBy(item => item).Select(group => group.First()).ToList();
        }

        /// <summary>
        /// 使用自定義的比較器和循環(huán)遍歷
        /// </summary>
        [Benchmark]
        public void CustomEqualityComparerDuplicate()
        {
            var uniqueData = new List<int>();
            foreach (var item in dataSource)
            {
                if (!uniqueData.Contains(item, new CustomEqualityComparer()))
                {
                    uniqueData.Add(item);
                }
            }
        }

        /// <summary>
        /// 自定義的比較器
        /// </summary>
        public class CustomEqualityComparer : IEqualityComparer<int>
        {
            public bool Equals(int x, int y)
            {
                return x == y;
            }

            public int GetHashCode(int obj)
            {
                return obj.GetHashCode();
            }
        }
    }
}

分析生成的報告

圖片圖片

Method

Mean

Error

StdDev

Gen0

Gen1

Gen2

Allocated

HashSetDuplicate

7.043 ms

0.0546 ms

0.0511 ms

343.7500

343.7500

343.7500

18169.63 KB

LoopTraversalDuplicate

7.385 ms

0.0309 ms

0.0274 ms

-

-

-

1.16 KB

DistinctDuplicate

7.034 ms

0.0497 ms

0.0465 ms

343.7500

343.7500

343.7500

18170.1 KB

GroupByDuplicate

12.685 ms

0.1025 ms

0.0958 ms

2265.6250

1781.2500

515.6250

12843.65 KB

CustomEqualityComparerDuplicate

25.608 ms

0.1826 ms

0.1708 ms

3812.5000

-

-

23438.68 KB

說明:

  • Mean: 所有測量值的算術(shù)平均值。
  • Error: 99.9% 置信區(qū)間的一半。
  • StdDev: 所有測量值的標(biāo)準(zhǔn)差。
  • Gen0: 第 0 代 GC 每 1000 次操作收集一次。
  • Gen1: 第 1 代 GC 每 1000 次操作收集一次。
  • Gen2: 第 2 代 GC 每 1000 次操作收集一次。
  • Allocated: 每次操作分配的內(nèi)存(僅托管內(nèi)存,包含所有內(nèi)容,1KB = 1024B)。
  • 1 ms: 1 毫秒(0.001 秒)。
責(zé)任編輯:武曉燕 來源: 追逐時光者
相關(guān)推薦

2020-11-08 14:43:25

Python列表去重編程

2024-04-24 11:24:43

C#數(shù)據(jù)去重

2025-02-13 08:13:29

C#字符串拼接

2024-12-23 07:38:20

2024-12-20 12:10:19

2009-08-18 14:14:45

C#擴(kuò)展方法性能測試

2019-12-25 09:53:01

虛擬機(jī)技術(shù)固態(tài)硬盤

2009-07-24 13:17:43

世紀(jì)互聯(lián)至強(qiáng)CloudEx

2024-06-20 11:52:44

C#占位符代碼

2016-09-13 16:51:09

JavaScriptJava數(shù)據(jù)處理

2010-01-16 11:02:12

Ubuntu性能測試

2025-04-16 08:40:00

2024-09-13 08:27:00

2018-03-01 15:20:59

iOS開發(fā)多線程

2009-09-17 18:56:22

CLR Via C#

2010-03-15 14:01:26

JavaScript

2021-08-25 10:51:53

數(shù)據(jù)分析大數(shù)據(jù)首席數(shù)據(jù)官

2023-10-26 08:28:31

Python數(shù)據(jù)去重

2018-07-30 09:06:46

大數(shù)據(jù)Hadoop數(shù)據(jù)架構(gòu)

2009-08-28 17:18:55

foreach循環(huán)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號