跟蹤機器學習數據集中使用的數據可能是一項艱巨的任務,但是隨著法規(guī)和公眾審查的加劇,律師表示這可能是保持合規(guī)性的有用工具。
上周,F(xiàn)acebook Inc.與其他開發(fā)人員一起尋求更好地跟蹤數據集中使用的數據。在題為“放射性數據:通過培訓進行追蹤”的研究論文中,F(xiàn)acebook宣布了一種追蹤用于培訓軟件數據集中的圖像的新方法。
可以肯定的是,F(xiàn)acebook并不是第一個宣布提供對數據集透明性的方法的公司。Facebook在其報告中強調了許多數據跟蹤機制,包括水印,差異隱私和成員推斷。
Legaltech News聯(lián)系的律師說,隨著監(jiān)管和公眾對數據隱私的壓力日增,確認整個軟件開發(fā)過程中數據集中特定信息的使用可能是必要的??梢岳么祟愋畔⒆鳛閷嶓w不符合公司或法規(guī)隱私政策的證據。
就在本月,F(xiàn)acebook同意就違反生物識別信息隱私法(BIPA)達成5.5億美元的和解,針對涉嫌違反伊利諾伊州法律的行為,谷歌也收到了類似的集體訴訟。
但是,喬治敦大學法律中心教授Anupam Chander指出,弄清楚在機器學習數據集中使用了哪些數據,很可能會被用于“受約束的情況”,以確保未經其許可就不會使用公司的數據,從而不提高透明度。數據主體。
錢德(Chander)引用了面部識別應用程序Clearview的最新消息,因為執(zhí)法公司希望阻止Facebook,YouTube和Venmo從數十億張圖像中獲取其執(zhí)法客戶。
“您會看到Clearview數據集,而Facebook反對使用其數據,因此這是另一種方式來證明Clearview或某些第三方供應商使用了經過操縱以產生這些類型結果的Facebook圖像。”
盡管數據跟蹤方法可以幫助公司追蹤其數據的使用情況,但錢德表示,F(xiàn)acebook的方法可能無法發(fā)現(xiàn)有偏見的數據。
“您需要能夠在不更改結果的情況下更改(以便識別)下劃線數據,這是[Facebook]論文的承諾。……在決定有關信貸或就業(yè)的決定時,要在不實質性影響結果的情況下更改底線數據可能并不容易,”他說。
盡管如此,隨著公司糾結于了解如何使用其數據以及潛在的公眾強烈反對,Riesen指出,為數據集提供透明性可能會將軟件見解泄露給競爭對手。
“這可能會向競爭對手公開有關您打算成為競爭優(yōu)勢或商業(yè)秘密的專有機器學習和AI算法的信息。這可能會導致競爭對手研究您的算法如何處理某些數據。”他說。