Sunday, Apr 12, 2026

Science特刊：人工智慧如何幫助我們預見未來丨下篇

2017/02/04 來源：億歐網

【編者按】預見未來，是一件玄幻而神奇的事情。但是近年來機器學習技術取得巨大突破，它可能會廣泛應用在科學發現預測、政治預測、社會事件預測乃至人類文明發展的預測上。近日，Science推出了一個關於「預測（prediction）」的專題，通過多篇文章解讀了上述多個領域的研究進展和面臨的挑戰。本文為下篇。

本文轉載自science，作者BARBARA R. JASNY/RICHARD STONE，機器之心翻譯，億歐編輯，供行業內人士參考。

三、超越預測：使用大數據解決政策問題

最近，科學、產業以及政府領域分析的爆炸增長，以尋求「大數據（big data）」的幫助來解決各種問題。日益增長的大數據應用使用了有監督的機器學習（SML/supervised machine learning）工具。在描述這一工具有望用來解決臨床醫學問題時，Obermeyer等人評論到：「機器學習……就像醫生通過實習獲得進步那樣來解決問題：從數據中學習規則。開始是病人觀測值，然後算法篩選大量變量、尋找可靠的預測結果的組合……機器學習的優勢就是可以處理大量預測因素（predictor）——有時還驚人地預測因素比觀測值還多，並以非線性、高度交互的方式將它們組合起來。」

SML技術最初出現在計算機科學和工程學領域，已被廣泛用於工程應用，比如搜尋引擎和圖像分類。最近，用這一方法解決科學和政策問題的應用數量也越來越多。在公共領域，這一方法模型已經被用於刑事司法制度（2）；使用移動數據、衛星圖像或谷歌街景（3、4、5）預測經濟狀況；分配城市火警、健康監察點等，以及各種城市應用。該技術已經被用於分類文本中的政治偏見（8）以及評論中的情感分析。在醫學領域，基於有監督的機器學習預測算法已經被醫院用於按照病人的併發症的風險預測病情，優先安排病人的醫療干預(10)，該技術還被廣泛用於多種其它醫療應用，包括個性化醫療（1）。

有監督的機器學習的迅速普及部分歸功於數據、計算技術以及資源、數據分析技術、開源軟體方面的進步。另一個因素這些技術被設計用來解決的問題很簡單。現成的預測技術要發揮作用幾乎不用什麼假設（assumption）：環境必須穩定、其行為正被研究的單元個體不會互動或相互干擾。在許多應用中，SML可以被對問題領域所知甚少的科學家成功地加以應用。比如，Kaggle公司主辦的預測競賽中，贊助商提供數據組，來自世界各地的選手提交的作品常常能成功預測，無論其關於問題的背景多麼有限。

然而，對純預測方法的局限性的關注要少得多。當這一方法被用於現成的預測，而沒有理解基本假設或確保滿足諸如穩定性等條件時，結論的有效性和有用性就會受到損害。一個更加深入的擔憂時，只使用預測技術是否就能解決給定問題，或者是否需要對干擾的因果效應（causal effect）進行評估的統計方法。

Kleinberg等人（11）強調了這一情況，現有的SML技術可以部分（但無法全部）解決健康政策領域的資源分配問題。他們考慮的問題是決定是否通過醫療保險給否則不合格的病人做髖關節置換手術。他們使用SML預測概率（一個要進行關節置換手術的患者是否會因其他因素在一年內死亡），以及識別那些處在特殊高風險，不該進行關節置換手術的患者。他們認為：「好處會隨著時間的推移自然顯現，因此，如果某人能獲得夠久來享受手術的好處，那麼手術才有意義；給不久就會死亡的病人置換關節沒什麼價值——浪費金錢，給生命的最後徒增不必要的痛苦。」

這類問題中，聚焦預測的基本原理是很明顯的；我們知道，一個干預的平均影響，在某種世界狀態下，也是負面的（如果病人很快死亡），因此，預測世界狀態足以用來預測是否放棄手術這一決定。不過，作者強調了這一事實：純粹的預測方法並不能解決更加複雜的問題，比如，在那些可能存活超過一年的病人中，哪些病人該被給予最高的手術優先性。一個完整的資源分配問題需要評估手術效果的異質性，比如，因為一些病人有更高的手術併發症。將稀缺資源優化分配給手術效果能最大改善其福利的病人，是一個更加困難的問題，這個問題太長需要回答反事實的問題：採取那些以前從未實施過的各種替代分配政策後，會發生什麼？

在另一個資源分配樣例中，產業領域很常見，就是使用SML預測客戶流失（即消費者放棄一家公司服務）的概率，然後公司對那些具有高度流失風險的用戶給予干預（比如擴大銷售人員的服務範圍），以這樣的方式解決問題。Ascarza (12) 記錄了採取這類舉措的公司，然後使用借鑑自因果推理論文獻的方法提供了經驗證明：根據一個簡單的預測模型來分配資源，並非最優的做法。高度流失用戶組群和最優可能回應干預組群之間的重合只有50%。因此，將留住用戶的問題視為一個預測問題，為公司帶來了更低的回報。

公共領域的資源分配問題是指一個城市應該優化分配監察點的地點，以最小化安全或健康問題。紐約的Firecast算法是根據預測的違反概率來分配火警監察點。Glaeser等人(6)發明了一個類似的系統用於分配健康監測點（這對波士頓餐廳）的位置，該系統得到了應用，初步估計每次檢查後，30%到50%的違法情況得到了改善。

如何優化監測點分配的決策問題將直接歸於預測領域——如果以下簡化假設為真：（1）被檢查單個單位的行為是固定的；（2）識別出問題時，能立刻低成本加以解決，成本並不因為單位（unit）不同而所有不同。知道哪個單位更有可能違法，等於知道哪個單位應該得到監察。不過，更加現實的環境還集成了不同單位的異質性：一個建築可能因為老化的電路而處在更高的失火風險中，但另一些考慮會讓置換老線路變得困難。另一些單位的預測風險更低，但是，更容易做出實質改善，改善成本也低廉。另一個考慮是回應（responsiveness）。如果違法被處以罰金，一些公司會比其他公司對罰金更加敏感。整體說來，解決城市監察點分配的問題包括評估監察政策的因果性：在新的監測點分配機制下，你希望這個城市裡單位（比如，食物中毒率）的整體質量有什麼樣的提升？

因此，預測和因果推論是本質不同的兩個問題（儘管密切相關）。只有分析師超過這些預測方法來做出假設時，因果推理才是可能的；這些假設通常不能被直接測試，因此需要領域專家來進行驗證。已經有關於因果推論的橫跨多學科（社會科學、計算機科學、醫學、統計學、工程學以及流行病學）大型文獻來分析這類問題（參看Imbens and Rubin (13)）。使用並非從隨機測試中獲取的數據來評估因果關係的辦法之一就是針對導致微分檢測概率（differential inspection probabilities）的因素進行調整，然後根據特定餐館健康結果預測檢查的效果（或許使用審計）。近期的方法進展關注的是調節大數據應用中觀察到的混雜因素（比如，14–16）這一文獻的主題之一就是現有的來自SML的預測模型招致了因果效果預測中的偏差問題，但是，持續有效的因果估計能夠通過修改SML技術得以實現。

另一個用於估計因果效應的方法就是利用設計好的實驗。Blake et al.(17)使用了一個以城市為基礎的雙重差法（difference-in-difference methodology）來評估eBay的搜索廣告的效果（因果）。就像許多搜索廣告商，eBay靠歷史數據來測量搜索廣告的好處，不過，也確實試著區分開因果性和關聯性。而且，eBay使用一個簡單的預測模型（其中，點擊被用來預測銷售）測量了廣告的效果，他們發現廣告點擊的投入回報（也就是說，由點擊所貢獻的eBay銷售與廣告點擊成本之比）大約為1400%。

通過使用實驗數據測量廣告效果，作者發現真實的投入回報為63%。天真的分析和實驗結果之間存在鴻溝的部分原因是許多點擊eBay搜索廣告的用戶本來是要從eBay買東西的。儘管點擊廣告強烈預示著一次交易——消費者通常會在點擊之後迅速購物——實驗揭示出，一次點擊很難說有大的因果效應，因為不管怎麼說，點擊的消費者很可能要購物。

除了資源分配問題之外，純預測和因果推斷之間的區別幾十年來一直是很多領域內方法和經驗研究的主題。經濟學對這個區別特別關注，或許是因為一些最基本的經濟問題，如在不同的價格下消費者的需求變化，不能通過純預測模型來得到答案。舉個例子，同一個產品在不同（假定的）的價格水平下，消費者的購買量是多少？雖然這個問題似乎看起來可以直接套用SML，將價格水平設置為一個說明性的特徵（feature）來預測出銷售量的「結果」。在實際操作時，如果SML被用作一個估計價格與銷售量之間的因果效應的方法，這個方法將會很失敗。假設，一個分析師有酒店價格和入住率的歷史數據。一般情況下，價格和入住量是正相關的，因為酒店既有的價格政策（經常通過利潤管理軟體來制定）明確規定當酒店預訂越來越滿時酒店提高價格。直接套用SML技術的應用是為回答以下類型的問題所設計：如果一個分析師被告知在某天，客房價格非比尋常的高，那麼這天最準確的入住量預測是多少？正確的答案是入住量將很可能很高。相反，改變價格政策的影響問題是一個因果問題，並且一般經驗表明如果公司執行一項新政策來系統性的提高酒店所有服務價格的5%，那麼酒店將很可能會有更多房間被入住。另一個不同系列的統計技術將可以用於回答這樣的問題，或許可以利用數據中「自然的實驗」即一個被稱之為「工具變量」的方法[13是對這些技術的回顧]。最近，一些作者將SML的優勢同這些傳統小數據系列的方法結合起來了，為了用於估計典型因果效應和私人化的因果效應估計。

預測與因果推斷之間的區別之外，僅為預測而做的方法優化也不能顧及到其他因素，這些因素可能在數據驅動的政策分析或者資源分配上很重要。例如，動機和可操控性可以很重要。如果一個建築或者餐廳所有者依據這些特徵，預料到被審查的可能性很小，他或她將減少安全措施上的投入。

在一個數據驅動政策的例子中，可操作性發揮了作用，不列顛哥倫比亞的市場定價系統（MPS）被用於對國有土地的木材收購的定價，這些國有土地是在長期租約下被分配給木材公司的。MPS構建出一個可以預測的模型，這個模型所運用的數據來自拍賣中木材的售價，該模型可以用於預測如果將長期租約下的一片土地的收穫木材拍賣所可能達到的價格。但是，一個租約持有者潛在很可能有在拍賣中人為低價競標的動機，從而達到影響模型對長期租約下收穫木材的價格預測，也即降低了他們長期租約下收穫木材的成本。作為模型選擇過程的一部分，MPS的預測模型服從於仿真情境，使得任何單個大型木材公司都能實現各自的可操作性。這個已經實現的模型並不是一個具有最好的預測性能的模型，最好的預測模型具有期望擁有的魯棒性而不是可操作性。

在實際運用統計模型時，很多其他需要考慮的問題湧現出來。有時候讓利益相關者理解一個已做出的決定的緣由是很重要的，或者決策者可能需要記住一個決策規則（如醫生）。基於透明度和可解釋性的考慮，或許會導致分析師們偏好模型的簡單性而犧牲模型的預測能力。另外一個需要考慮的是公平性或者說歧視。美國貸放款的消費者保護法禁止實際應用中有依據種族的歧視。一些公司可能希望運用SML方法從工作申請者中挑選出可以面試的申請者；但是他們可能希望在算法中設置多樣性目標，或者最起碼可以阻止性別和種族的不平等。在SML的文獻中可以看到這些問題在最近受到關注（如21）。

總的來說，大數據如果想要在商業、科學以及政策上實現其全部潛力，從有監督的機器學習的文獻來看，需要有由新的計算機算法所構建的多學科方法；同時還能帶來使用經驗證據來引導政策的數十年多學科研究的方法和實際學習。一個不成熟的但是快速成長的研究採取了這樣的一個方法：例如，2016年的ICML（International Conference on Machine Learning）對SML方法的因果推斷（casual inference）、可解釋性（interpretability）以及可靠性（reliability）分別組建研討會，雖然谷歌（22）、Facebook（23）和微軟（24）的多學科研究團隊已經開發出了可以使用的工具包，且這些工具包擁有為實現因果推斷、實驗性的設計以及估計最優資源分布政策的可擴展算法。隨著其他領域持續加入和SM研究團體一起用大數據來尋求現實世界政策問題的解決方案，我們預計數據驅動的政策在算法提升和成功實現上將會有更大的機會。

四、預測人類行為：下一個前沿

機器學習的進步正在變革我們對線下（offline）和線上（online）人類行為的理解。從訓練集中分類我們感興趣的對象，無論這些對象是恐怖分子、需要維護的機器或包含惡意連結的電子郵件，其都代表了這一領域內的巨大成功。或許不存在一種機器學習算法能將所有都做好。雖然精度是至關重要的，但是可接受的精度程度是隨著研究問題的變化而變化的，僅僅只有精度是遠遠不夠的。研究人員經常解釋為什麼他們的預測是正確的，但是從不解釋為什麼他們的預測可能也是錯誤的。那麼決策制定者同時了解這兩部分的原因將有利於他們制定更好的決策。特別是在高風險的情況下，預測必須同時提供相應的解釋，這樣才能為進一步研究提供更深入場景理解。

預測模型還必須為潛在的未來行動提供一個或多個解決方案，這樣決策者才能更好地決策。如今的機器學習方法並不一定滿足這三個標準。因為構成理想的預測算法還是取決於現實應用。通常，利益相關集團（如社會媒體平台和搜尋引擎）將對精度有不同的定義，從而滿足其特定的需求。此外，行業專家可以使用領域內廣博的知識建議在數據集內包含相關的獨立變量。通常，他們將使用由預測模型生成的技術精度測量和他們的學科中的內容結合起來解釋預測結果，所有這些都表明在現實世界體系中，計算機科學家需要和其他利益相關者進行合作而取得深遠影響的結果。

在我們看來，下一代的預測模型需要解決以下四個主要的挑戰。

首先，更多數據總會獲得更好的預測模型這一格言並不總是正確的，因為數據中的噪點可能會壓垮預測模型。處理噪點、不完整和不一致數據的能力將會是下一代預測模型的核心。例如，在推特上識別「bots」就是尋求在政治候選人上持正觀點，而忽略尋求其它結果的大量「bots」。例如傳播垃圾郵件、尋求在其他主題上影響他們的觀點或欺騙用戶點擊連結從而為他們創造利潤的機器人。此外，許多推特的數據是受到限制的，在一些情況下甚至會故意產生誤導。所以機器人開發者就需要確保他們的機器人逃避檢測。

第二個挑戰是罕見事件預測。例如，公司監控其內部網絡來識別可能會竊取機密的用戶將會包含所有公司雇員的在公司內部網絡活動的信息，其範圍包括從對員工的郵件分析、上傳（到網站）到下載到內存存儲設備等。許多雇員對公司是誠實的，只有一小部分可能會存在問題。在這樣一個案例中，機器學習算法將很難從無辜用戶（這種情況下，數據稱為「不平衡」）中分離清楚那些「稀有」的個例，並且預測模型一般表現不太好。

預測新現象時保持模型的準確性是重要的第三步。社會運動常被分為五個步驟：導火索、社會動盪增加、發展組織核心成員、組織的維持和終止（假如運動最終消亡了）。當事件還處於早期階段（如有人開始在Twitter上抱怨），準確預測之後發展的動向可以讓我們在其後更加激烈的衝突中受益。

第四個因素是人類的行為是動態變化的。我們的對手（如惡意軟體開發者或恐怖分子）會不斷適應環境。因此，高階預測（關於預測模型的預測）的形式成為了關鍵。我們需要預測模型何時出錯，或何時人們行的為將發生改變，因此我們在太多錯誤發生之前就可以開發出新的預測模型。OpFake Android惡意軟體的開發者最初設計這個病毒自動從受感染的手機發送簡訊給高價付費服務號碼。後來，開發者調整了策略，也開始涉足銀行卡欺詐。我們迫切地需要開發可以在發生時或甚至在發生之前識別這些危險行為的預測模型。

開源數據的爆炸和機器學習的發展徹底改變了我們分析人類行為的方式。在未來的幾年裡，隨著物聯網的發展，這種多樣性會出現又一次爆炸——異構數據。我們可能會遇到與不完整，不一致，不平衡和混亂數據相關的問題。生成準確預測和高質量分析的能力，包括對預測的支持和證據，以及提供可操作決策的能力，將是決定性的，因為機器學習系統將無處不在。一個數據驅動，多學科，多利益相關者的方法對於預測未來的模型而言至關重要。

五、特刊其他幾篇文章的摘要

（一）在線民調：人民的脈搏

在線民調系統會成為民調預測工具，甚至替代品嗎？傳統的民意調查，無論是通過電話還是面對面的問詢都是費時費力的方式。而且這類方式的有效回復率已經下跌至10%以下，只能為分析者提供一個帶偏見的小型樣本。而在線民調的方法，如Twitter分析可以讓研究人員直接研究數百萬群眾的政治觀點，實時更新，而且數據是免費的。然而無論傳統還是Twitter民調都沒有預測出去年11月份的美國大選結果。網絡看起來仍然無法讓我們摸清人民的脈搏。但社會科學家相信它終究會是正確的方式。

（二）社會系統的預測與解釋

社會科學研究者一直在尋求人類和社會現象機制的合理解釋，卻往往忽視了預測準確性。我們認為，社會科學越來越多的計算性質已經開始扭轉對於預測的偏見了。但是仍有三個重要問題亟待解決：首先，目前用於評估預測的方法必須進行標準化；第二，複雜社會系統中預測準確性的理論限制必須得到更好地表徵，從而設置對可以預測或解釋的預期；第三，在評估解釋時，預測準確性和可解釋性必須被視為補充，而不是替代。解決這三大問題將使我們獲得更好，更可重複和更有意義的社會科學。

（三）通過預測競賽將概率判斷用於政策辯論

政策辯論經常會受到不準確預測的影響，這讓決策者難以評估和改進政策。一項由美國情報機構贊助的錦標賽展示了人們可以通過使用概率模擬來進行預測——即使是那些看似「獨特」的事件。同時，它也證明了比賽是生產知識的有效工具。根據關於問責制影響的文獻，作者認為競賽具有很大潛力，可以作為消除政治辯論和解決政策爭端的工具。

喜歡這篇文章嗎？快分享吧

您可能感興趣

免責聲明：本文內容來源于億歐網，文章觀點不代表壹讀立場，如若侵犯到您的權益，或涉不實謠言，敬請向我們提出檢舉。

台灣正體

URL: https://read01.com/LR6koP.html

⇱ Science特刊：人工智慧如何幫助我們預見未來丨下篇 - 壹讀

Science特刊：人工智慧如何幫助我們預見未來丨下篇