網路抓取訓練生成式 AI 模型的合法依據
英國資訊專員辦公室(Information Commissioner's Office, ICO)自 2024 年 1 月開始展開一系列關於生成式人工智慧與資料保護間的新技術與新問題的公眾諮詢,第一個問題即是《訓練生成式人工智慧模型時從網際網路抓取資料的合法基礎》(The lawful basis for web scraping to train generative AI models)。
生成AI模型的開發涉及多個階段,首先是收集和預處理訓練資料。大多數開發者依賴公開可存取的來源作為訓練資料。根據UK GDPR,開發者在訓練模型時需要確保處理個人數據符合 UK GDPR 的合法性原則。因此,在使用網路抓取數據訓練生成AI模型時,開發者必須通過三部分測試,
- 首先為《目的測試》(Purpose test):是否有正當利益?;
- 其次,則為《必要性測試》(Necessity test):鑒於目的,網頁抓取是否必要?;
- 最終,則是《平衡測試》(Balancing test):個人權利是否淩駕於生成式人工智慧開發者的利益之上?
而 ICO 表示,如果生成式 AI 開發人員認真對待其法律義務,並能夠在實踐中證明和證明這一點,那麼在網路抓取資料上訓練生成式 AI 模型則應是可行的。
留言