欧美伊人色综合久久精品,永久免费的污网站在线观看,图片区国产激情一区二区三区,亚洲欧美自拍另类欧美亚洲中文字

          您的位置:首頁(yè)>大學(xué)生活>

          估計(jì)數(shù)據(jù)的信息量

          并非所有數(shù)據(jù)都是平等的。但是任何一條數(shù)據(jù)可能包含多少信息呢?這個(gè)問(wèn)題對(duì)于醫(yī)學(xué)測(cè)試、設(shè)計(jì)科學(xué)實(shí)驗(yàn),甚至對(duì)于人類日常學(xué)習(xí)和思考都至關(guān)重要。麻省理工學(xué)院的研究人員開(kāi)發(fā)了一種新的方法來(lái)解決這個(gè)問(wèn)題,在醫(yī)學(xué)、科學(xué)發(fā)現(xiàn)、認(rèn)知科學(xué)和人工智能方面開(kāi)辟了新的應(yīng)用。

          從理論上講,已故麻省理工學(xué)院名譽(yù)教授克勞德·香農(nóng)在1948年發(fā)表的論文“通信的數(shù)學(xué)理論”明確地回答了這個(gè)問(wèn)題。香農(nóng)的突破性成果之一是熵的概念,它使我們能夠量化任何隨機(jī)對(duì)象中固有的信息量,包括模擬觀察數(shù)據(jù)的隨機(jī)變量。香農(nóng)的成果奠定了信息論和現(xiàn)代電信的基礎(chǔ)。熵的概念也被證明是計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)的核心。

          估計(jì)熵的挑戰(zhàn)

          不幸的是,香農(nóng)公式的使用很快就會(huì)變得難以計(jì)算。它需要精確計(jì)算數(shù)據(jù)的概率,這反過(guò)來(lái)又需要計(jì)算數(shù)據(jù)在概率模型下可能出現(xiàn)的所有可能方式。如果數(shù)據(jù)生成過(guò)程非常簡(jiǎn)單——例如,單次拋硬幣或擲骰子——那么計(jì)算熵就很簡(jiǎn)單了。但是考慮醫(yī)學(xué)檢測(cè)的問(wèn)題,陽(yáng)性檢測(cè)結(jié)果是數(shù)百個(gè)相互作用變量的結(jié)果,這些變量都是未知的。只有10個(gè)未知數(shù),數(shù)據(jù)已經(jīng)有1000種可能的解釋。有幾百個(gè),可能的解釋比已知宇宙中的原子還要多,這使得計(jì)算熵完全是一個(gè)難以解決的問(wèn)題。

          麻省理工學(xué)院的研究人員開(kāi)發(fā)了一種新方法,通過(guò)使用概率推理來(lái)估計(jì)許多信息量(例如香農(nóng)熵)的良好近似值。這項(xiàng)工作出現(xiàn)在作者FerasSaad博士在AISTATS2022上發(fā)表的一篇論文中。電氣工程和計(jì)算機(jī)科學(xué)的候選人;Marco-CusumanoTowner,博士;和VikashMansinghka博士,腦與認(rèn)知科學(xué)系的首席研究科學(xué)家。關(guān)鍵的見(jiàn)解是,而不是枚舉所有解釋,而是使用概率推理算法首先推斷哪些解釋是可能的,然后使用這些可能的解釋來(lái)構(gòu)建高質(zhì)量的熵估計(jì)。該論文表明,這種基于推理的方法可以比以前的方法更快、更準(zhǔn)確。

          在概率模型中估計(jì)熵和信息從根本上說(shuō)是困難的,因?yàn)樗ǔP枰鉀Q高維積分問(wèn)題。許多以前的工作已經(jīng)為某些特殊情況開(kāi)發(fā)了這些量的估計(jì)器,但是通過(guò)推理的熵的新估計(jì)器(EEVI)提供了第一種方法,可以在廣泛的信息理論量上提供明確的上限和下限。上下界意味著雖然我們不知道真正的熵,但我們可以得到一個(gè)小于它的數(shù)和一個(gè)大于它的數(shù)。

          “由于三個(gè)原因,我們的方法提供的熵的上限和下限特別有用,”Saad說(shuō)。“首先,上限和下限之間的差異給出了我們應(yīng)該對(duì)估計(jì)有多大信心的定量感覺(jué)。其次,通過(guò)使用更多的計(jì)算工作,我們可以將兩個(gè)界限之間的差異推向零,這“擠壓”了真實(shí)的“第三,我們可以組合這些界限來(lái)形成對(duì)許多其他數(shù)量的估計(jì),這些數(shù)量告訴我們模型中不同變量之間的信息量。”

          使用數(shù)據(jù)驅(qū)動(dòng)的專家系統(tǒng)解決基本問(wèn)題

          Saad說(shuō),他對(duì)這種方法在機(jī)器輔助醫(yī)療診斷等領(lǐng)域查詢概率模型的可能性感到最興奮。他說(shuō),EEVI方法的一個(gè)目標(biāo)是能夠使用豐富的生成模型來(lái)解決新的查詢,這些模型已經(jīng)由醫(yī)學(xué)領(lǐng)域的專家開(kāi)發(fā),用于肝病和糖尿病等疾病。例如,假設(shè)我們有一個(gè)患者具有一組觀察到的屬性(身高、體重、年齡等)和觀察到的癥狀(惡心、血壓等)。鑒于這些屬性和癥狀,EEVI可用于幫助確定醫(yī)生應(yīng)針對(duì)癥狀進(jìn)行哪些醫(yī)學(xué)檢查,以最大限度地了解特定肝病(如肝硬化或原發(fā)性膽汁性膽管炎)是否存在。

          對(duì)于胰島素診斷,作者展示了如何使用計(jì)算最佳時(shí)間的方法來(lái)進(jìn)行血糖測(cè)量,從而最大限度地了解患者的胰島素敏感性信息,并給出專家構(gòu)建的胰島素代謝概率模型和患者的個(gè)性化膳食和藥物時(shí)間表。隨著血糖監(jiān)測(cè)等常規(guī)醫(yī)療跟蹤從醫(yī)生辦公室轉(zhuǎn)向可穿戴設(shè)備,如果可以提前準(zhǔn)確估計(jì)數(shù)據(jù)的價(jià)值,那么改進(jìn)數(shù)據(jù)采集的機(jī)會(huì)就會(huì)更多。

          該論文的資深作者VikashMansinghka補(bǔ)充說(shuō):“我們已經(jīng)證明,概率推理算法可用于估計(jì)AI工程師通常認(rèn)為難以計(jì)算的信息度量的嚴(yán)格界限。這開(kāi)辟了許多新的應(yīng)用。它還表明推理可能比我們想象的更具有計(jì)算基礎(chǔ)。它還有助于解釋人類大腦如何能夠如此普遍地估計(jì)信息的價(jià)值,作為日常認(rèn)知的核心組成部分,并幫助我們?cè)O(shè)計(jì)具有這些能力。”

          在AISTATS2022上發(fā)表了論文“通過(guò)概率模型中的推理來(lái)估計(jì)熵和信息”。

          免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!