聚慕 - 專業(yè)醫(yī)療器械服務(wù)商
設(shè)為首頁(yè) 收藏本頁(yè) 人事招聘 關(guān)于聚慕
400-901-5099
全部商品分類(lèi)
臨床ai陷入“模型吞噬模型的世界”,大模型預(yù)測(cè)能力并不靠譜?
發(fā)布時(shí)間:2023-10-13 09:45:46

越來(lái)越多的AI工具被用于從敗血癥到中風(fēng)等等一切疾病的預(yù)測(cè),希望能夠及早提供護(hù)理,挽救生命。

但隨著時(shí)間的推移,有新的研究表明,這些預(yù)測(cè)模型很可能伴隨著其本身的成功而墮入深淵——由于預(yù)測(cè)成功,導(dǎo)致其表現(xiàn)急劇下降,并產(chǎn)生不準(zhǔn)確的、潛在有害的結(jié)果。

這項(xiàng)新研究于近日發(fā)表在《內(nèi)科年鑒》上。西奈山伊坎醫(yī)學(xué)院數(shù)據(jù)驅(qū)動(dòng)和數(shù)字醫(yī)學(xué)講師、這項(xiàng)新研究的作者Akhil Vaid說(shuō):“在測(cè)試模型時(shí),沒(méi)有辦法解釋這一點(diǎn)。你不能進(jìn)行驗(yàn)證研究,不能進(jìn)行外部驗(yàn)證,不能進(jìn)行臨床試驗(yàn),因?yàn)樗麄冎粫?huì)告訴你這個(gè)模型是有效的。一旦它開(kāi)始工作,問(wèn)題就會(huì)出現(xiàn)?!?/p>

Vaid 和他在西奈山的同事模擬了兩種模型的部署,預(yù)測(cè)患者在進(jìn)入 ICU 后五天內(nèi)死亡和急性腎損傷的風(fēng)險(xiǎn)。

他們的模擬中,假設(shè)這些模型做到了他們預(yù)期應(yīng)該做的事情,即通過(guò)識(shí)別患者進(jìn)行早期干預(yù)來(lái)降低死亡和腎損傷。

但是,當(dāng)患者開(kāi)始好轉(zhuǎn)時(shí),這些模型在預(yù)測(cè)腎衰竭和死亡率的可能性方面就變得不那么準(zhǔn)確了。即便重新訓(xùn)練模型,或是用其他方法來(lái)阻止預(yù)測(cè)能力的衰退,都無(wú)濟(jì)于事。

很少有醫(yī)療衛(wèi)生系統(tǒng)會(huì)隨著時(shí)間的推移去跟蹤AI模型的性能,上述新研究成為了一個(gè)警示,并且提出了問(wèn)題——AI預(yù)測(cè)模型潛在的性能下降對(duì)患者意味著什么,特別是在部署了多個(gè)AI系統(tǒng)的環(huán)境中,這些系統(tǒng)可能會(huì)影響患者的治療效果,并且隨著時(shí)間的推移,它們彼此之間的性能表現(xiàn)也會(huì)互相影響。

去年,美國(guó)醫(yī)療媒體STAT和麻省理工學(xué)院的一項(xiàng)調(diào)查,通過(guò)測(cè)試三種預(yù)測(cè)算法的性能,捕捉到了模型性能如何隨著時(shí)間的推移而下降。在過(guò)去的十年中,預(yù)測(cè)敗血癥、住院時(shí)間和死亡率的準(zhǔn)確性確實(shí)存在明顯差異。導(dǎo)致這一問(wèn)題的罪魁禍?zhǔn)资桥R床變化的組合、醫(yī)院使用新的醫(yī)學(xué)編碼標(biāo)準(zhǔn)、以及來(lái)自新社區(qū)的患者大量涌入。

模型出現(xiàn)這樣的故障是由于“數(shù)據(jù)漂移”造成的。約翰·霍普金斯大學(xué)醫(yī)學(xué)院傳染病與健康信息學(xué)研究員Matthew?。遥铮猓椋睿螅铮睿彩俏髂紊窖芯康淖髡咧?,他表示:“關(guān)于輸入數(shù)據(jù)如何隨著時(shí)間的推移而變化,并產(chǎn)生令人意想不到的輸出,人們進(jìn)行了很多討論?!?/p>

這項(xiàng)新的研究發(fā)現(xiàn)了一個(gè)反常的問(wèn)題,隨著時(shí)間的推移,預(yù)測(cè)模型的性能可能會(huì)下降。成功的預(yù)測(cè)模型卻創(chuàng)建了這樣一個(gè)反饋循環(huán):隨著AI幫助推動(dòng)干預(yù)措施以保持患者的健康,那么系統(tǒng)內(nèi)的電子健康記錄可能就會(huì)開(kāi)始反映較低的腎損傷率或死亡率,然后隨著時(shí)間的推移這些數(shù)據(jù)被用于重新訓(xùn)練模型。

Vaid:“只要你的數(shù)據(jù)受到了模型輸出的污染或破壞,那么你就會(huì)遇到問(wèn)題。”

研究人員基于當(dāng)今的AI醫(yī)療衛(wèi)生系統(tǒng),展示了該問(wèn)題在三種情況下是如何出現(xiàn)的。

首先,他們自己部署了死亡率預(yù)測(cè)模型,并根據(jù)新的患者數(shù)據(jù)對(duì)其進(jìn)行了重新訓(xùn)練——這是避免數(shù)據(jù)漂移的常見(jiàn)策略。然后,與直覺(jué)相反,他們發(fā)現(xiàn),利用模型幫助過(guò)的患者數(shù)據(jù)重新訓(xùn)練出的模型,可能會(huì)低估死亡風(fēng)險(xiǎn),并且模型的特異性驟降至?。常梗ァ#郑幔椋湔f(shuō):“這太大了,意味著一旦你重新訓(xùn)練你的模型,它實(shí)際上就沒(méi)用了。”

在另外兩種情況下,急性腎損傷預(yù)測(cè)因子和死亡率預(yù)測(cè)因子一起使用。當(dāng)腎臟模型的預(yù)測(cè)幫助患者避免急性腎損傷時(shí),它也降低了死亡率——因此當(dāng)后來(lái)再使用這些數(shù)據(jù)創(chuàng)建死亡率預(yù)測(cè)因子時(shí),其特異性就受到了影響。當(dāng)兩個(gè)模型同時(shí)部署時(shí),每個(gè)模型各自所驅(qū)動(dòng)的醫(yī)療保健變化都會(huì)使其他模型的預(yù)測(cè)失效。

Vaid 表示,他與聲稱已同時(shí)部署 15 或?。玻啊€(gè)模型的衛(wèi)生系統(tǒng)進(jìn)行了交談。他表示,這會(huì)導(dǎo)致一些可怕的錯(cuò)誤,衛(wèi)生系統(tǒng)使用預(yù)測(cè)模型的時(shí)間越長(zhǎng),而不考慮性能下降的反饋循環(huán),它們的可靠性就越低,這就像一顆定時(shí)炸彈。

范德比爾特大學(xué)醫(yī)學(xué)中心生物醫(yī)學(xué)信息學(xué)教授 Sharon?。模幔觯椋蟆”硎荆骸拔覀?cè)缇鸵庾R(shí)到,影響患者預(yù)后和?。牛龋摇?shù)據(jù)下游反饋的成功實(shí)施,需要新的方法來(lái)更新模型?!薄 埃粒晒ぞ甙错樞蚧蛘咄瑫r(shí)部署的交互效果,對(duì)于需要?jiǎng)?chuàng)新解決方案的模型管理者來(lái)說(shuō),這是另一個(gè)復(fù)雜的問(wèn)題?!?/p>

資深作者、西奈山數(shù)據(jù)驅(qū)動(dòng)和數(shù)字醫(yī)學(xué)部門(mén)的系統(tǒng)主管Girish?。危幔洌耄幔颍睿楸硎?,雖然許多衛(wèi)生系統(tǒng)都在思考如何管理數(shù)據(jù)漂移等問(wèn)題,但還沒(méi)有人想過(guò)如何管理這么多模型同時(shí)運(yùn)行的性能,并且連續(xù)幾代的患者數(shù)據(jù)都受到影響,在沒(méi)有適當(dāng)監(jiān)控、適當(dāng)測(cè)試、適當(dāng)驗(yàn)證系統(tǒng)的情況下引入了一堆模型,所有這些模型都在相互作用,并且影響臨床醫(yī)生和患者。

加州大學(xué)伯克利分校和加州大學(xué)舊金山分校計(jì)算精準(zhǔn)健康助理教授Adam Yala稱,這項(xiàng)研究引起了臨床界的注意?!斑@是一個(gè)被嚴(yán)重低估的問(wèn)題,我們目前的最佳實(shí)踐、模型監(jiān)控、監(jiān)管實(shí)踐,以及我們構(gòu)建的工具,都沒(méi)有解決這個(gè)問(wèn)題。”

作者承認(rèn),真實(shí)世界的性能下降可能與他們的模擬有所不同,上述模擬是基于西奈山和貝斯以色列女執(zhí)事醫(yī)療中心的130000名ICU住院患者進(jìn)行的。他們必須猜測(cè)衛(wèi)生系統(tǒng)內(nèi)的模型依從性是什么樣的,以及臨床干預(yù)措施在減少腎臟損傷和死亡方面的效果如何。

Yala說(shuō):“一定是存在局限性的,因?yàn)楦深A(yù)措施是模擬的,但這不是重點(diǎn),重點(diǎn)是表明存在這樣一個(gè)真實(shí)的現(xiàn)象,我們所做的任何事情目前都無(wú)法解決解決這個(gè)問(wèn)題?!?/p>

為了在模型的性能開(kāi)始受到影響時(shí)捕捉到它們,衛(wèi)生系統(tǒng)必須主動(dòng)跟蹤各類(lèi)指標(biāo),但許多系統(tǒng)并沒(méi)有這樣做。Robinson說(shuō):“機(jī)構(gòu)可能會(huì)為了資金或噱頭來(lái)創(chuàng)建、部署模型,但是后續(xù)觀察這些模型隨著隨著時(shí)間的推移性能表現(xiàn)如何,這類(lèi)工作卻沒(méi)有那么令人興奮。”

西奈山的研究表明,即使監(jiān)測(cè)發(fā)現(xiàn)模型的性能下降,也很難糾正這種數(shù)據(jù)污染,因?yàn)樵俅斡?xùn)練并不能恢復(fù)模型的性能。當(dāng)衛(wèi)生系統(tǒng)訓(xùn)練新模型或重新訓(xùn)練舊模型時(shí),他們需要確保使用的患者數(shù)據(jù)沒(méi)有被先前AI工具的實(shí)施所破壞,這意味著他們必須更加嚴(yán)格地跟蹤醫(yī)生何時(shí)以及如何使用AI預(yù)測(cè)來(lái)做出臨床決策。

Robinson和他的論文合著者認(rèn)為,采用新的變量來(lái)重新訓(xùn)練模型可能會(huì)有所幫助。Vaid則表示,需要制定相關(guān)的法規(guī)對(duì)此進(jìn)行監(jiān)管。

今年3月,FDA發(fā)布了指導(dǎo)草案,試圖解決臨床AI性能隨著時(shí)間的推移而下降的現(xiàn)實(shí),為開(kāi)發(fā)者提供了一個(gè)以預(yù)定方式更新模型的框架,而不需要機(jī)構(gòu)對(duì)每次更改進(jìn)行審查。但新的研究表明,“變更控制計(jì)劃”中的步驟,包括模型再訓(xùn)練,仍然不應(yīng)該隨意地實(shí)施。

Nadkarni說(shuō):“還需要深入考慮。FDA的計(jì)劃目前包括再培訓(xùn)、評(píng)估和更新,但在不考慮預(yù)測(cè)性能、干預(yù)效果和依從性的情況下大規(guī)模實(shí)施這些計(jì)劃實(shí)際上可能會(huì)使問(wèn)題變得更糟。”

隨著許多衛(wèi)生系統(tǒng)繼續(xù)推遲對(duì)現(xiàn)有人工智能模型的評(píng)估,Robinson指出,這些問(wèn)題擴(kuò)展到由大型語(yǔ)言模型支持的下一代臨床工具。隨著時(shí)間的推移,接受AI生成輸出訓(xùn)練的大模型的表現(xiàn)越來(lái)越差。“隨著放射學(xué)報(bào)告、病理學(xué)報(bào)告甚至臨床記錄越來(lái)越多地由大模型構(gòu)建,未來(lái)的迭代將接受這些數(shù)據(jù)的訓(xùn)練,而且可能會(huì)產(chǎn)生意想不到的后果。

Vaid 說(shuō)得更簡(jiǎn)單——我們生活在一個(gè)模型吞噬模型的世界。

注:文章來(lái)源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系刪除

為您找貨 · 告訴我們您想要找什么商品?我們將盡快給您答復(fù)。
* 商品名稱:
* 您想了解:
  • 商品資料
  • 貨期
  • 價(jià)格
  • 安調(diào)
  • 其他
* 手機(jī)號(hào)碼:
* 姓名: