譯者 | 布加迪
審校 | 重樓
機(jī)器學(xué)習(xí)主要使用Python來(lái)完成。Python之所以大受歡迎,是由于它易于學(xué)習(xí),并且有許多機(jī)器學(xué)習(xí)庫(kù)。而現(xiàn)在,Rust正成為一種強(qiáng)有力的替代語(yǔ)言。Rust速度快,使用內(nèi)存安全機(jī)制,并擅長(zhǎng)同時(shí)處理多個(gè)任務(wù)。這些功能特性使Rust非常適合高性能機(jī)器學(xué)習(xí)。
Linfa是Rust中的一個(gè)庫(kù),可以幫助你構(gòu)建機(jī)器學(xué)習(xí)模型。它使你更容易用Rust創(chuàng)建和使用機(jī)器學(xué)習(xí)模型。我們在本文中將向你介紹如何使用Linfa完成兩種機(jī)器學(xué)習(xí)任務(wù):線性回歸和k-means聚類。
為什么Rust適合機(jī)器學(xué)習(xí)?
由于以下幾個(gè)優(yōu)勢(shì),Rust越來(lái)越多地被考慮用于機(jī)器學(xué)習(xí):
1. 性能:Rust是一種編譯語(yǔ)言,這使得它的性能特征接近C和C++。它可以從底層控制系統(tǒng)資源,又沒(méi)有垃圾收集器,因而非常適合機(jī)器學(xué)習(xí)之類注重性能的應(yīng)用。
2. 內(nèi)存安全:Rust的突出特性之一是它的所有權(quán)模式,這保證了內(nèi)存安全,不需要垃圾收集器。它消除了許多常見(jiàn)的編程錯(cuò)誤,比如空指針解引用或數(shù)據(jù)競(jìng)爭(zhēng)。
3. 并發(fā):Rust的并發(fā)模式確保了安全并行處理。機(jī)器學(xué)習(xí)常常涉及大型數(shù)據(jù)集和大量計(jì)算。Rust可以高效地處理多線程操作。其所有權(quán)系統(tǒng)防止了數(shù)據(jù)競(jìng)爭(zhēng)和內(nèi)存問(wèn)題。
Linfa簡(jiǎn)介
Linfa是一個(gè)面向Rust的機(jī)器學(xué)習(xí)庫(kù)。它提供各種機(jī)器學(xué)習(xí)算法,酷似Python的scikit-learn。該庫(kù)與Rust的生態(tài)系統(tǒng)很好地集成。它支持高性能數(shù)據(jù)操作、統(tǒng)計(jì)和優(yōu)化。Linfa包括線性回歸、k-means聚類和支持向量機(jī)等算法。這些實(shí)現(xiàn)高效且易于使用。開(kāi)發(fā)人員可以利用Rust的速度和安全來(lái)構(gòu)建強(qiáng)大的機(jī)器學(xué)習(xí)模型。
不妨通過(guò)兩個(gè)簡(jiǎn)單但重要的例子來(lái)探索如何使用Linfa以構(gòu)建機(jī)器學(xué)習(xí)模型:線性回歸和k-means聚類。
搭建環(huán)境
首先確保已安裝了Rust。如果沒(méi)有,使用以下命令通過(guò)rustup來(lái)安裝它:
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
接下來(lái),將Linfa和相關(guān)依賴項(xiàng)添加到你的項(xiàng)目中。打開(kāi)你的Cargo.toml文件,添加以下內(nèi)容:
[dependencies]
linfa = "0.5.0"
linfa-linear = "0.5.0" # For linear regression
linfa-clustering = "0.5.0" # For k-means clustering
ndarray = "0.15.4" # For numerical operations
ndarray-rand = "0.14.0" # For random number generation
完成這一步后,你就可以使用Linfa實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型了。
Rust的線性回歸
線性回歸是最簡(jiǎn)單、最常用的監(jiān)督學(xué)習(xí)算法之一。它通過(guò)將線性方程擬合到觀測(cè)的數(shù)據(jù)中,為因變量y與一個(gè)或多個(gè)自變量x之間的關(guān)系建立模型。在本節(jié)中,我們將探究如何使用Rust的Linfa庫(kù)實(shí)現(xiàn)線性回歸。
- 準(zhǔn)備數(shù)據(jù)
為了理解和測(cè)試線性回歸,我們需要從一個(gè)數(shù)據(jù)集入手。
use ndarray::{Array2, Axis};
fn generate_data() -> Array2 {
let x = Array2::::from_shape_vec((10, 1), vec![1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0]).unwrap();
let y = x.mapv(|v| 2.0 * v + 1.0);
let data = ndarray::stack(ndarray::Axis(1), &[x.view(), y.view()]).unwrap();
data
}
在這里,我們模擬了一個(gè)簡(jiǎn)單的數(shù)據(jù)集,其中x與y的關(guān)系遵循公式:y=2x+1。
- 訓(xùn)練模型
在準(zhǔn)備好數(shù)據(jù)集之后,我們使用Linfa的LinearRegression(線性回歸)模塊來(lái)訓(xùn)練模型。訓(xùn)練需要通過(guò)最小化預(yù)測(cè)值與實(shí)際值之間的誤差來(lái)確定線性方程(y=mx+c)的系數(shù)。使用Linfa的LinearRegression模塊,我們在這個(gè)數(shù)據(jù)集上訓(xùn)練了回歸模型。
use linfa::prelude::*;
use linfa_linear::LinearRegression;
fn train_model(data: Array2) -> LinearRegression {
let (x, y) = (data.slice(s![.., 0..1]), data.slice(s![.., 1..2]));
LinearRegression::default().fit(&x, &y).unwrap()
}
重點(diǎn):
- fit方法學(xué)習(xí)最適合數(shù)據(jù)的直線的斜率和截距。
- unwrap處理訓(xùn)練期間可能發(fā)生的任何錯(cuò)誤。
- 進(jìn)行預(yù)測(cè)
在訓(xùn)練模型之后,我們可以用它來(lái)預(yù)測(cè)新數(shù)據(jù)的結(jié)果。
fn make_predictions(model: &LinearRegression, input: Array2) -> Array2 {
model.predict(&input)
}
fn main() {
let data = generate_data();
let model = train_model(data);
let input = Array2::from_shape_vec((5, 1), vec![11.0, 12.0, 13.0, 14.0, 15.0]).unwrap();
let predictions = make_predictions(&model, input);
println!("Predictions: {:?}", predictions);
}
對(duì)于輸入值[11.0,12.0,13.0,14.0,15.0],預(yù)測(cè)結(jié)果如下:
Predictions: [[23.0], [25.0], [27.0], [29.0], [31.0]]
這個(gè)輸出對(duì)應(yīng)于y=2x+1。
Rust的K-means聚類
K -means聚類是一種無(wú)監(jiān)督學(xué)習(xí)算法,它根據(jù)相似性將數(shù)據(jù)劃分為k個(gè)聚類。
- 準(zhǔn)備數(shù)據(jù)
為了演示K-means聚類,我們使用ndarray-rand crate生成一個(gè)隨機(jī)數(shù)據(jù)集。
use ndarray::Array2;
use ndarray_rand::RandomExt;
use rand_distr::Uniform;
fn generate_random_data() -> Array2 {
let dist = Uniform::new(0.0, 10.0);
Array2::random((100, 2), dist)
}
這將創(chuàng)建隨機(jī)點(diǎn)的100x2矩陣,模擬二維數(shù)據(jù)。
- 訓(xùn)練模型
train_kmeans_model函數(shù)使用Linfa的KMeans模塊將數(shù)據(jù)分組到k=3個(gè)聚類中。
use linfa_clustering::KMeans;
use linfa::traits::Fit;
fn train_kmeans_model(data: Array2) -> KMeans {
KMeans::params(3).fit(&data).unwrap()
}
重點(diǎn):
- KMeans::params(3)表示3個(gè)聚類。
- fit方法基于數(shù)據(jù)學(xué)習(xí)聚類質(zhì)心。
- 指定聚類
在訓(xùn)練之后,我們可以將每個(gè)數(shù)據(jù)點(diǎn)分配給其中一個(gè)聚類。
fn assign_clusters(model: &KMeans, data: Array2) {
let labels = model.predict(&data);
println!("Cluster Labels: {:?}", labels);
}
fn main() {
let data = generate_random_data();
let model = train_kmeans_model(data);
assign_clusters(&model, data);
}
輸出將顯示分配給每個(gè)數(shù)據(jù)點(diǎn)的聚類標(biāo)簽。每個(gè)標(biāo)簽將對(duì)應(yīng)于三個(gè)聚類中的一個(gè)。
結(jié)論
Rust是創(chuàng)建快速機(jī)器學(xué)習(xí)模型的上佳選擇。它通過(guò)內(nèi)存安全機(jī)制確保處理數(shù)據(jù)時(shí)沒(méi)有錯(cuò)誤。Rust還可以同時(shí)使用多個(gè)線程,這在處理機(jī)器學(xué)習(xí)中的大型數(shù)據(jù)集時(shí)非常重要。
Linfa庫(kù)使得你用Rust實(shí)現(xiàn)機(jī)器學(xué)習(xí)變得更容易。它可以幫助你輕松使用線性回歸和K-means聚類等算法。Rust的所有權(quán)系統(tǒng)確保內(nèi)存安全,又不需要垃圾收集。處理多線程的功能可以防止在處理大量數(shù)據(jù)時(shí)出現(xiàn)錯(cuò)誤。
原文標(biāo)題:Building High-Performance Machine Learning Models in Rust,作者:Jayita Gulati