自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人工智能項目的十條建議—指導篇

人工智能
在制定人工智能項目方案時,確定構(gòu)建模型的目標至關重要,但這種理解只能提供成功的解決方案。

承接昨天的人工智能項目十條建議-理論篇,今天我們來說說人工智能項目的 10 條指導原則。

在制定人工智能項目方案時,確定構(gòu)建模型的目標至關重要,但這種理解只能提供成功的解決方案。在時真正按照完善的建議交付,人工智能項目團隊必須在執(zhí)行項目時遵循最佳實施路線。為了幫助能按照正確的路徑執(zhí)行,對之前提出的十條建議,現(xiàn)在一起探討一下執(zhí)行路徑

1. 了解您的問題

解決任何問題的最基本部分是確切地知道你正在解決什么問題。確保你了解你要預測的內(nèi)容、任何限制以及該項目最終目的是什么。盡早提出問題,并與同行、業(yè)務專家和最終用戶驗證你的理解。如果你發(fā)現(xiàn)答案與你的理解一致,那么你就知道你是走在正確的道路上。

2. 了解您的數(shù)據(jù)

通過了解你的數(shù)據(jù)的含義,你就能夠了解哪種模型運行良好以及使用哪些功能。數(shù)據(jù)背后的問題將影響哪個模型最成功,計算時間將影響項目成本。通過使用和創(chuàng)建有意義的功能,你可以模仿或改進人工決策。了解每個字段的含義對問題很重要,尤其是在受監(jiān)管的行業(yè)中,數(shù)據(jù)可能需要匿名化,因此不太清楚。如果你不清楚某個功能的含義,請咨詢相關業(yè)務專家。

3. 拆分OR清洗您的數(shù)據(jù)

你的模型將如何處理看不見的數(shù)據(jù)?如果它不能泛化到新數(shù)據(jù),那么它在給定數(shù)據(jù)上的表現(xiàn)并不是最重要的。我們在訓練時不能讓你的模型看到部分數(shù)據(jù),你可以驗證它在未知情況下的表現(xiàn)如何。這種方法對于選擇正確的模型架構(gòu)和調(diào)整參數(shù)以獲得最佳性能是至關重要的。

對于監(jiān)督學習問題,你需要將數(shù)據(jù)分成兩部分或三部分。

訓練數(shù)據(jù)——模型從中學習的數(shù)據(jù)——通常是隨機選擇的原始數(shù)據(jù)的 75-80%。

測試數(shù)據(jù)——你評估模型的數(shù)據(jù)——是剩余的數(shù)據(jù)。

根據(jù)你正在構(gòu)建的模型類型,你可能還需要第三個稱為驗證集的保留數(shù)據(jù),用于比較已根據(jù)測試數(shù)據(jù)調(diào)整的多個監(jiān)督學習模型。在這種情況下,你需要將非訓練數(shù)據(jù)拆分為兩個數(shù)據(jù)集,即測試和驗證。你想使用測試數(shù)據(jù)比較同一模型的迭代,并使用驗證數(shù)據(jù)比較不同模型的最終版本。

在 Python 中,正確拆分數(shù)據(jù)的最簡單的方法就是使用 Scikit-learn 的 train_test_split 函數(shù)。

4. 不要泄露測試數(shù)據(jù)

重要的是不要將測試數(shù)據(jù)中的任何信息輸入到你的模型中。這可以對整個數(shù)據(jù)集的訓練產(chǎn)生負面影響,也可以像在拆分之前執(zhí)行轉(zhuǎn)換(例如縮放)一樣微妙。例如,如果你在拆分之前對數(shù)據(jù)進行規(guī)范化,則模型正在獲取有關測試數(shù)據(jù)集的信息,因為全局最小值或最大值可能在保留的數(shù)據(jù)中。

5.使用正確的評估指標

由于每個問題都是不同的,因此必須根據(jù)上下文選擇適當?shù)脑u估方法。最幼稚—也可能是最危險的——分類指標的準確性。考慮檢測癌癥的問題。如果我們想要一個相當準確的模型,我們總是預測“不是癌癥”,因為超過 99% 的時間可以驗證我們都是正確的。然而,這不是一個非常有用的模型,我們實際上想要檢測癌癥。注意考慮在分類和回歸問題中使用哪種評估指標。

6.保持簡單

在處理問題時,重要的是為工作選擇正確的解決方案,而不是最復雜的模型。管理層、客戶,甚至你可能都想使用“最新最好的”。你需要使用最簡單(非最先進)的模型來滿足你的需求,即奧卡姆剃刀原理。這不僅會提供更多可見性并縮短培訓時間,而且實際上可以提高性能。簡而言之,不要用火箭筒射擊蒼蠅或試圖用蒼蠅拍殺死哥斯拉。

7. 不要過擬合(或欠擬合)你的模型

過度擬合,也稱為方差,會導致模型在未見過的數(shù)據(jù)上表現(xiàn)不佳。該模型只是簡單地記憶訓練數(shù)據(jù)。欠擬合,也稱為偏差,是給模型提供的信息太少,無法學習問題的正確表示。平衡這兩者——通常被稱為“偏差-方差權(quán)衡”——是人工智能過程的重要組成部分,不同的問題需要不同的平衡。

我們以一個簡單的圖像分類器為例。它的任務是對圖像中是否有狗進行分類。如果你過擬合此模型,它將無法將圖像識別為狗,除非它以前看過該確切圖像。如果你對模型進行欠擬合,即使它以前看過該特定圖像,它也可能無法將圖像識別為狗。

8. 嘗試不同的模型架構(gòu)

大多數(shù)時候,為一個問題考慮不同的模型架構(gòu)是有益的。對一個問題最有效的方法,可能對另一個問題不是很好。嘗試混合使用簡單和復雜的算法。例如,如果執(zhí)行分類模型,請嘗試像隨機森林一樣簡單和像神經(jīng)網(wǎng)絡一樣復雜的事情。有趣的是,極端梯度提升 (XGBoost) 通常遠遠優(yōu)于神經(jīng)網(wǎng)絡分類器。一個簡單的問題通常最好用一個簡單的模型來解決。

9.調(diào)整你的超參數(shù)

超參數(shù)是模型計算中使用的值。例如,決策樹的一個超參數(shù)是樹的深度,即在決定答案之前它會問多少個問題。模型的默認超參數(shù)是那些平均提供最佳性能的超參數(shù)。但是你的模型不太可能正好落在那個最佳位置。如果選擇不同的參數(shù),你的模型就可以表現(xiàn)得更好。調(diào)整超參數(shù)最常用的方法是網(wǎng)格搜索、隨機搜索和貝葉斯優(yōu)化搜索,當然還有許多其他更高級的技術(shù)。

10. 正確比較模型

機器學習的最終目標是開發(fā)一個泛化良好的模型。這就是為什么正確比較和選擇最佳模型如此重要的原因。如上所述,你需要使用與訓練超參數(shù)進行評估時使用不同的保持集。此外,你還需要使用適當?shù)慕y(tǒng)計測試來評估結(jié)果。

既然你已經(jīng)掌握了執(zhí)行人工智能項目的指導原則,請在你接下來的人工智能項目中嘗試一下。

責任編輯:姜華 來源: 今日頭條
相關推薦

2024-06-05 09:24:14

2019-02-22 19:33:40

人工智能互聯(lián)網(wǎng)投資

2023-09-22 12:04:53

Java代碼

2023-03-27 09:51:46

2021-12-19 22:44:16

Linux安全服務器

2011-07-15 17:21:46

網(wǎng)站程序

2009-05-19 10:14:44

Innodb字段MySQL

2022-10-21 16:11:52

數(shù)據(jù)治理安全IT

2022-06-10 10:33:18

人工智能機器學習機器學習模型的關鍵

2024-11-19 15:22:37

2019-03-21 15:15:38

人工智能項目開發(fā)

2023-11-10 18:03:04

業(yè)務場景SQL

2022-07-29 10:19:54

CIOIT領導者

2010-04-29 21:24:05

2012-08-02 09:14:13

編程戒律

2012-05-15 01:38:18

編程編程技巧編程觀點

2023-02-07 07:16:54

人工智能機器學習方法

2023-11-29 11:46:56

人工智能AI

2020-12-15 15:01:48

人工智能機器學習深度學習

2020-11-15 23:26:58

人工智能AI
點贊
收藏

51CTO技術(shù)棧公眾號