到底什麼是 Deepfake呢 ?

最近幾天大家多少都有看到知名網紅”小玉”的新聞,他使用AI Deepfake技術將公眾人物的臉替換到不雅影片中再加以使用通訊軟體販售。總之,小玉所使用的Deepfake換臉技術到底是什麼呢 ? 它為什麼可以這麼神奇 ? 原理到底是什麼 ? 這篇文章就帶您一探究竟Deepfake的神祕面紗 ~

認識Deepfake

Deepfake發展概況

2017年開始,網路上開始出現一個新名詞Deepfake,這是一個由深度學習(Deep Learning)與偽造(Fake)兩個字所組成的混合詞,利用人工智慧的技術實現原本需要人工合成的影像,而且可以特別只運用在人臉的部分,將一張新的人臉移植到影片中的人臉上,乍看之下,難以分辨出到底是真是假。

Deepfake技術介紹

以一段影片中的人物來轉換為另一個人物的例子來做說明,簡單來說,可以把Deepfake分成五個過程,如圖1所示,其中兩個核心部分包括「人臉偵測」和「人臉轉換」。
deepfake
人臉偵測方式
在人臉偵測方式中,包含以下三個技術
1. HOG
2. 68個特徵點
3. CNN

1. HOG全名為定向梯度長方圖(Histogram of Oriented Gradient),是一種演算法,將人臉分成眼睛、眉毛、鼻子、嘴巴、下巴五個部分。先抓出圖片中的正樣本(含有人臉的部分),再計算圖像梯度的統計值,之後再找出圖片中的負樣本(不含有人臉的部分),一樣再計算統計值,最後將結果進行分類並調整負樣本。

2. 68個特徵點,是將人臉定義出68個特徵點,用於計算人臉角度,缺點為只能使用正臉,如出現側臉部分,就必須使用其他的方式協助偵測,也要注意人臉解析度太低將無法進行偵測。

3. CNN的正式名稱是「卷積神經網路(Convolutional Neural Network)」,可被用來判斷當人臉出現側臉時所使用的方法,透過名為「卷積(Convolution)」的方法,將像素值進行反覆計算以擷取特徵進行判斷。

人臉轉換過程

在人臉轉換過程的部分,則是採用AutoEncoder的方法。AutoEncoder可分為編碼(Encoder)與解碼(Decoder)兩部分,此過程也可以被理解為資料壓縮加上資料重建的過程。圖2所呈現的就是來源影像經過編碼後,若以不同的特徵來解碼重建,就會產生出相似的偽造影像。
deepfake autoencoder

如何應對Deepfake

Deepfake所引起的爭議,應對的方式分為法律及技術面,如下表
deepfake against method

結語

Deepfake這一項新技術的出現,使得在網路上所看到的每一張照片或是一部影片中出現的人物,都不一定是真實存在的。本文分析了Deepfake所可能影響的層面,並介紹Deepfake的相關技術,發現這並非是完全新創的技術,而是透過整合不同的技術所偽造。對抗Deepfake的方法,最主要的是透過法律途徑與科技技術,制定並宣導法律來避免有人使用Deepfake惡作劇或是進行詐騙行為;同時,透過科技技術協助判斷是否為Deepfake影片。截至目前為止,仍在持續強化與制定相關規範,好讓Deepfake能夠朝正向來運用,為科技發展帶來實質價值。
本篇為GYWANG於去年與實驗室成員撰寫投稿網管人雜誌的Deepfake背景文章,因應最近的時事,GYWANG決定把雜誌再翻出來講解,藉機會讓大家對於最近很火紅的Deepfake名詞有更深入的認識,有興趣觀看全文的朋友也可以點擊上方的引用文獻觀看,覺得文章不錯的朋友也可以幫我分享轉發或在底下留言交流Deepfake的相關技術唷 ~