隐私是人類和組織的基本權利。對於個人而言,隱私幫助人們自由表達自己,而不必向第三方透露任何不想分享的信息。對於當今的大多數組織而言,數據被視為主要商品,數據隱私對於保護這一商品至關重要。密碼朋克運動和數據商品化加速了密碼學原語的研究和發展。
密碼學是一個相當廣泛的領域,當我們在計算的背景下看待密碼學時,我們已經看到許多不同的方案,例如零知識證明、同態加密、Secret共享等,這些方案自1960年代誕生以來一直在不斷改進。這些方案對於解鎖私人計算方法至關重要(數據之所以是主要商品,那是因為人們可以從中發現生成洞察)。直到今天,Private計算領域在多方計算和零知識證明方面有了顯著發展,但輸入數據本身始終存在隱私問題。
當最重要的商品公開時,任何數據所有者要在沒有法律協議的情況下將此數據的計算外包出去是非常困難的。今天,每個人都依賴於數據隱私的合規標準,如針對健康數據的HIPAA和專門針對歐洲地區數據隱私的GDPR等。
在區塊鏈領域,我們更相信技術的完整性,而不是監管機構的完整性。作為去許可和所有權最大化的信徒,如果我們相信用戶擁有數據的未來,就需要無信任的方法來對這些數據進行計算。在2009年Craig Gentry的工作之前,在加密數據上執行計算這一概念一直沒有突破。這是第一次有人能夠在密文(即加密數據)上執行計算(加法和乘法)。
全同態加密(FHE)的工作原理
那麼,這種允許計算機在不了解輸入的情況下執行計算的“魔法數學”到底是什麼呢?全同態加密(FHE)是一類加密方案,它允許在加密數據(密文)上執行計算而無需解密數據,為隱私和數據保護打開了一系列用例。
在FHE過程中,當數據被加密時,會向原始數據添加稱為噪音的額外數據。這就是加密數據的過程。
每次執行同態計算(加法或乘法)時,都會添加額外的噪音。如果計算過於複雜,每次都添加噪音,最終解密密文就會變得非常困難(這在計算上非常繁重)。這種過程更適合加法,因為噪音呈線性增長,而對於乘法,噪音呈指數增長。因此,如果有複雜的多項式乘法,解密輸出將非常困難。
如果噪音是主要問題,並且其增長使FHE變得難以使用,就必須加以控制。這催生了一種稱為“Bootstrapping”的新過程。引導是一種使用新密鑰對加密數據進行加密並在加密中解密的過程。這非常重要,因為它顯著減少了計算開銷以及最終輸出的解密開銷。雖然Bootstrapping 減少了最終的解密開銷,但在過程中會有大量的操作開銷。這可能既昂貴又耗時。
目前主要的FHE方案有:BFV、BGV、CKKS、FHEW、TFHE。除了TFHE,這些方案的縮寫都是其論文作者的名字。
可以將這些方案視為同一國家中講的不同語言,每種語言都針對不同的優化。理想狀態是統一這個國家,即所有這些語言都能被同一台機器理解。許多FHE工作組正在努力實現這些不同方案的可組合性。像SEAL(結合BFV和CKKS方案)和HElib(BGV + 近似數CKKS)這樣的庫幫助實現FHE方案或不同計算的方案組合。例如,Zama的Concrete庫是一個針對TFHE的Rust編譯器。FHE 在 Crypto 和 AI Infra 与应用中的关键角色
如今,密碼學與人工智能的交匯正如火如荼。儘管不深入探討這一交匯,但值得注意的是,新模型和數據集的創新將由多個參與方的開源合作推動。除了計算之外,最終最重要的是數據,這些數據是這個合作管道中最重要的部分。人工智能應用和模型的有用性最終取決於其所訓練的數據,無論是基礎模型、微調模型還是人工智能代理。保持這些數據的安全和私密性,可以為開源合作打開一個巨大的設計空間,同時允許數據所有者持續從訓練模型或最終應用中獲利。如果這些數據本質上是公開的,將很難進行貨幣化(因為任何人都可以訪問有價值的數據集),因此這些數據更可能被嚴格保護。
在這種情況下,FHE 可以發揮關鍵作用。在理想狀態下,它可以在不透露底層數據集的情況下訓練模型,這或可以解鎖數據集的貨幣化,極大地促進數據集所有者之間的開源合作。