123,123

PCA和SVM是什么？該如何建立人臉識(shí)別模型？

2020-12-31 10:23

在本文中，我們將使用主成分分析和支持向量機(jī)來建立人臉識(shí)別模型。

首先，讓我們了解PCA和SVM是什么：

主成分分析：主成分分析（PCA）是一種機(jī)器學(xué)習(xí)算法，廣泛應(yīng)用于探索性數(shù)據(jù)分析和建立預(yù)測(cè)模型，它通常用于降維，通過將每個(gè)數(shù)據(jù)點(diǎn)投影到前幾個(gè)主成分上，以獲得低維數(shù)據(jù)，同時(shí)盡可能保留數(shù)據(jù)的變化。

Matt Brems的文章全面深入地介紹了該算法�，F(xiàn)在，讓我們用更簡(jiǎn)單的術(shù)語來理解算法：假設(shè)我們現(xiàn)在正在收集數(shù)據(jù)，我們的數(shù)據(jù)集產(chǎn)生了多個(gè)變量、多個(gè)特征，所有這些都會(huì)在不同方面影響結(jié)果。我們可能會(huì)選擇刪除某些特征，但這意味著會(huì)丟失信息。因此我們開源使用另一種減少特征數(shù)量（減少數(shù)據(jù)維數(shù)）的方法，通過提取重要信息并刪除不重要的信息來創(chuàng)建新的特征，這樣，我們的信息就不會(huì)丟失，但起到減少特征的作用，而我們模型的過擬合幾率也會(huì)減少。支持向量機(jī)支持向量機(jī)（SVM）是一種用于兩組分類問題的有監(jiān)督機(jī)器學(xué)習(xí)模型，在為每個(gè)類別提供一組帶標(biāo)簽的訓(xùn)練數(shù)據(jù)后，他們能夠?qū)π碌臏y(cè)試數(shù)據(jù)進(jìn)行分類。

支持向量機(jī)基于最大化間隔的平面對(duì)數(shù)據(jù)進(jìn)行分類，決策邊界是直的。支持向量機(jī)是一種很好的圖像分類算法，實(shí)驗(yàn)結(jié)果表明，支持向量機(jī)在經(jīng)過3－4輪相關(guān)優(yōu)化后，其搜索精度明顯高于傳統(tǒng)的查詢優(yōu)化方案，這對(duì)于圖像分割來說也是如此，包括那些使用改進(jìn)的支持向量機(jī)。Marco Peixeiro的文章解釋了需要有一個(gè)最大間隔超平面來分類數(shù)據(jù)，開源幫助你更好地理解SVM！人臉識(shí)別人臉是由許多像素組成的高維數(shù)據(jù)。高維數(shù)據(jù)很難處理，因?yàn)椴荒苡枚S數(shù)據(jù)的散點(diǎn)圖等簡(jiǎn)單技術(shù)進(jìn)行可視化。我們要做的是利用PCA對(duì)數(shù)據(jù)的高維進(jìn)行降維處理，然后將其輸入到SVM分類器中對(duì)圖像進(jìn)行分類。下面的代碼示例取自關(guān)于eigenfaces的sklearn文檔，我們將一步一步地實(shí)現(xiàn)代碼，以了解其復(fù)雜性和結(jié)果。導(dǎo)入相關(guān)庫和模塊首先，我們將導(dǎo)入所需的庫和模塊，我們將在后文深入討論我們?yōu)槭裁匆獙?dǎo)入它們。import pylab as pl
import numpy as np
from matplotlib import pyplot as plt
from sklearn．model＿selection import train＿test＿split
from sklearn．datasets import fetch＿lfw＿people
from sklearn．model＿selection import GridSearchCV
from sklearn．metrics import classification＿report
from sklearn．metrics import confusion＿matrix
from sklearn．decomposition import PCA as RandomizedPCA
from sklearn．svm import SVC

將數(shù)據(jù)加載到Numpy數(shù)組中接下來，我們將數(shù)據(jù)下載到磁盤中，并使用fetch＿lfw＿people將其作為NumPy數(shù)組加載到sklearn．datasetslfw＿people ＝ fetch＿lfw＿people（min＿faces＿per＿person＝70， resize＝0．4）

lfw數(shù)據(jù)集包括一個(gè)用于研究無約束人臉識(shí)別問題的人臉圖像數(shù)據(jù)庫，它從網(wǎng)絡(luò)收集的13000多張照片中包含了超過13000張照片，每個(gè)人臉都貼上了照片，1680個(gè)人臉在數(shù)據(jù)集中有兩張或兩張以上不同的照片。圖像采用灰度值（像素值＝0－255）。