一部關於數據及其技術、政治和倫理影響的恢弘歷史
追溯從理性時代到當今演算法時代的數據及其分析應用的發展
理解數據發展的起源,並思考數據在歷史中的地位
探討數據造成的影響,思考演算法與人工智慧帶來的隱憂
分析大企業與政府如何形塑大規模監控,並反思科技造成的困境
透過歷史視角,全面展現數據科學的發展歷程,深入探討社會影響
從可以為旅客辦理登機或識別無證居民的人臉識別技術,到決定誰能獲得貸款、誰能獲得保釋的自動化決策系統,我們每個人都生活在一個由數據賦能的演算法所主導的世界中。然而,這些技術並非憑空出現,而是一段延續了數世紀的歷史之一部分,從美國憲法中確立的人口普查,到維多利亞時代英國優生學的誕生,再到谷歌搜索的發展。
基於他們在哥倫比亞大學開設的熱門課程,兩位作者克里斯.威金斯(Chris Wiggins)和馬修.瓊斯(Matthew L. Jones)深入闡述了數據資料長期以來如何被用作論證真理的工具和武器,以及重組或捍衛權力的手段。他們探討了數據是如何被創造和整理的,以及為應對這些數據而發展出的新數學和計算技術如何進一步塑造了人類、思想、社會、情報、軍事行動和經濟。
儘管技術和數學是其核心,但數據的故事最終關乎國家、企業和個人之間的不穩定博弈。作者在追溯資料的歷史軌跡並展望未來時,特別關注以下問題:新的技術和科學能力是如何發展的?誰支持、推動或資助了這些新能力或轉變?這些發展又是如何改變了參與者、資源運用和影響的對象?
透過兩位作者追溯數據資料的發展軌跡──它來自何處,可能去向何方──我們就能明白,如何以目標導向和明確目的、有意識地將數據資料的發展,引導向我們共同選擇的方向。
【為何要讀這本書?】
關鍵問題探討:
⟡ 新的技術和科學能力是如何發展的?
⟡ 誰支持、推進或資助了這些能力或轉變?
⟡ 這些變化如何改變了人們能做什麼,基於什麼,對誰做什麼?
【你會讀到】
⟡ 數據收集和分析如何從國家工具演變為企業權力的核心
⟡ 數據收集、分析和決策使用的關鍵轉變
⟡ 資料隱私、企業利益和國家權力之間的持續緊張關係
⟡ 統計方法、機器學習和人工智能的發展
【掛名推薦】(依姓氏筆畫排列)
孔令傑 國立臺灣大學資訊管理學系副教授
吳齊殷 中央研究院社會所專任研究員
郭文華 國立陽明交通大學科技與社會研究所教授
彭松嶽 國立陽明交通大學科技與社會所副教授
葉志良 元智大學資訊傳播學系助理教授、臺灣匯流研究學會秘書長、資訊社會研究期刊副主編
劉靜怡 國立臺灣大學國家發展研究所特聘教授、中研院法律學研究所及資創中心合聘研究員
【本書內容】
1. 數據科學的歷史演變
✧ 從十八世紀末開始,統計學和數據分析逐漸成為理解和管理社會的重要工具
✧ 早期主要用於國家治理、人口普查等政府用途
✧ 隨著技術發展,數據分析逐漸擴展到商業、科研等領域
2. 關鍵歷史階段
2-1 早期階段(十八─十九世紀)
✧ 比利時天文學家凱特爾首次將統計方法應用於社會研究
✧ 高爾頓和皮爾森發展了相關性分析等統計工具
✧ 數據開始被用於種族主義和優生學論證
2-2二戰時期
✧ 布萊切利園密碼破譯工作推動了大規模數據處理
✧ 發展了新的計算方法和機器
✧ 奠定了現代數據科學的基礎
2-3 現代發展
✧ 從單純的統計分析發展為機器學習和人工智能
✧ 數據科學在商業和社會中的應用日益廣泛
✧ 引發了隱私、倫理等爭議
3. 主要爭議與挑戰
✧ 數據隱私和個人權利保護
✧ 算法偏見和歧視問題
✧ 數據科學的倫理規範
✧ 大型科技公司對數據的壟斷
4. 未來展望
✧ 需要平衡技術發展和倫理約束
✧ 加強數據治理和監管
✧ 促進數據科學的負責任發展
5. 核心觀點
✧ 數據科學的發展與社會權力結構密切相關
✧ 科技技術進步需要考慮倫理和社會影響
✧ 數據分析方法的選擇反映了特定的價值觀和目標
【好評推薦】
「範圍廣泛……深入淺出地探討了統計學和數據的歷史,為資訊及其控制權的爭論提供了背景脈絡。」
――《科克斯書評》(Kirkus Reviews)
「見解深刻,成功闡明了數據在現代決策中的特權地位並非偶然。研究透徹且論述精闢,這是一本傑出的作品。」
―― 《出版者週刊》(Publishers Weekly)
「這是首次全面審視數據的歷史,以及權力如何在塑造這段歷史中扮演關鍵角色。對於任何數據科學家而言,這都是一本必讀之作,幫助我們了解現況由來,以及如何確保數據能造福所有人。」
―― DJ Patil,前美國首席數據科學家
「兩位作者以驚人的功力將數據置於脈絡中,讓我們看清塑造當今現實的價值觀、政治和爭議。這本書堪比一整個學期的課程內容,卻以適合度假閱讀的敘事方式呈現。」
―― danah boyd,數據與社會(Data & Society)研究所創辦人兼主席
「有時候,理解現在和準備未來的最佳方式就是回顧過去。這個洞見正是《數據與權力》的核心。這是一部雄心勃勃且深思熟慮的作品……它將改變你看待數據與社會關係的方式。」
―― Matthew J. Salganik,普林斯頓大學社會學系教授,《逐位而行:數位時代的社會研究》(Bit by Bit)作者
「這是一部重要且權威的歷史著作,探討數據權力的增長、新技術如何改變社會,以及我們必須採取什麼行動來確保當今技術能反映我們的規範和價值觀。」
―― Renee DiResta,史丹福大學網路觀察站技術研究經理
「雄心勃勃且大膽創新……對所有關心數據如何改變我們生活的人來說,這都是一本必讀之作。」
―― Gina Neff,劍橋大學Minderoo科技與民主中心執行長
【讀者評論】
「我剛讀完,強烈推薦這本書,因為它深入了解了以數據為中心的世界中,數據的歷史和影響以及數據驅動的決策。」
「這本書對於統計科學發展的一些歷史綜合無疑具有啟發性。回顧幾百年前並繼續研究統計學、純數學、科學、工程和數據(資料)科學的演變,可能是一項超出當今任何人的複雜任務,但本書中進行了一些富有洞察力的討論。」
克里斯.威金斯(Chris Wiggins)、馬修.瓊斯(Matthew L. Jones)
克里斯.威金斯(Chris Wiggins)
哥倫比亞大學應用數學系副教授,紐約時報首席數據科學家。
馬修.瓊斯(Matthew L. Jones)
普林斯頓大學歷史系教授,曾是古根漢獎學金研究員。
吳國慶
中興外文、北藝大戲劇所畢業。專精設計、電腦與科普書籍翻譯,譯作計有《我們為何吃太多》、《解構商業圖像設計準則》、《區塊鏈的商業應用成功實例》、《身為自己》、《中文數位探索》(臺灣商務出版)….等五十餘本。
譯案合作:heting.translation@gmail.com
(續作者序)
背景
關於「數據如何產生」的課程構想,來自2015年11月的一場小型晚宴中的對話,與會者是幾位來自哥倫比亞大學,擁有工程和人文雙重背景的大學生。
兩人結合的互補觀點,應該可以提供一個相當有用的視角,對於工程師和非科技專業的學生來說,都是極具新意的研究素材。
當我們在2017年1月第一次教這門課時,很快就意識到學生不僅對我們如何走到這一步很感興趣,也想尋求一個可分析和可操作的框架,用來理解數據的倫理和政治。2 「 政治」在這裡的意思並非狹義上的「投票」,而是指與權力「動態」(譯注:例如,權力的分配、轉移、增強或減弱等。)相關的那種含義。我們的目標是提供一個框架來理解數據在「重組權力」方面,例如,企業權力、國家權力和人民權力,所持續發揮的作用。歷史的軌跡提供了關鍵的槓桿作用,指引我們走向對於現況的共同理解,並給予我們塑造未來的武器和工具。
關於本書
每段歷史都有它的起點,我們認為十八世紀末剛好是個有用的起點,大約就是「統計」這個名詞首次出現在英語裡的時候。我們的故事建立在收集數據的艱苦作業,包括必須建立可以收集和公開數據的基礎設施,以及開發用於研究數據的新數學和電腦科技—包括對於數據的全新理解和提出主張,並使用這些主張來做出決策的方法。無論好壞,這些決策往往會大幅改變生活。在每一章裡,我們都會切入一場知識上的轉變關鍵。我們會討論一種新科技或科學能力是如何開發出來的;誰支持、推進或資助了這種能力與轉變;這種轉變受到什麼爭議;以及新能力將如何重組權力—亦即改變了誰可以做什麼,用什麼來做和對誰做等。3 我們不僅會關注軍事或金融權力的重組,更會關注那些在倫理和政治傾向上的轉變,也就是那些在數據影響下的受害者,被支持者或妨礙正義等轉變。*
《數據與權力》從數據原先被用在國家治理中開始,轉向數據被用於改善社會,然後到經過數學洗禮後的數據,創建出一個名為「數理統計」的新學術領域。第二部分(Part 2)的展開,是以數據在第二次世界大戰中破譯密碼的軍事應用,伴隨著同時誕生的數位電腦為主。我們將從英國的布萊切利園(Bletchley Park),一路追溯到美國的貝爾實驗室,再到第二次世界大戰後,數據在商業和工程上的應用。將重點擺在從企業權力過渡到國家權力和「人民權力」的反應,我們在此探討了數位化、個人資料紀錄對隱私影響的理解,尤其是在1970年代作為防止國家權力過度
擴張的公眾對「個人隱私」的要求。我們也追溯到「人工智慧」領域的首度誕生、消亡以及後來從灰燼中崛起,來自基於不斷成長,關於人民、消費者和軍事對手的資料庫形式的「機器學習」領域。
本書最後一部分則把過去、現在和未來聯繫在一起。我們將探討數據和權力如何從國家關注轉變為企業關注,方法是透過觀察財務安排和商業模式,到底如何讓單一公司能夠在數據驅動技術的幫助下,迅速主導整個產業。倫理問題的激烈辯論,圍繞在對於企業權力的許多潛在補救措施上;我們還追溯了研究應用倫理的歷史,以及它如何影響數據驅動演算法變成產品的部署過程,並藉此塑造出我們的個人和政治現實。
最後,我們討論了數據的「未來」。雖然做出預測非常困難,但有個比較尖銳的方法可以統整我們對於未來的理解,也就是描述當前權力之間的競爭,以及這些競爭將在哪些領域做出決策。我們也在本書結尾時討論了我們認為當前企業權力、國家權力和人民權力之間最重要的鬥爭,以及新的團結形式的可能性。如何解決這些衝突,將會塑造我們的集體未來,使其更趨向於正義—或更遠離。
我們的目標是對歷史有一個可以實際運用的理解。我們不會迴避自己作為公民、科技專家和個人的角色;我們是這些產品的使用者──正如早在1970年代就曾被指出的,既然我們身處一個廣告經濟體之中,因此我們本身當然也是產品。
我們(兩位作者)為本書帶來了兩種互補的觀點,每種觀點都有其局限和偏差。威金斯(Wiggins)作為哥倫比亞大學的教職員,二十多年來一直在開發用於理解生物學和健康本身的機器學習法;自2013 年以來,他擔任《紐約時報》的首席資料科學家,開發和推出各種機器學習方法和產品。
而位處C.P.斯諾* 的「兩種文化」(two cultures,譯注:他認為科學與人文漸行漸遠,科學家不懂藝術,藝術家不懂科學的現象)的另一端,瓊斯(Jones)則是一位科學史學家,他追踪了數學思維方法和論證方法到底如何從十七世紀的「科學革命」開始,成為研究自然和政治的重要權威途徑。
特別是在檢視數據有哪些用途會加劇差異時,我們大量引用許多學者和社會運動者們(activists,譯注:指那些挺身對抗數據影響的人)極富啟發性的著述,因為他們揭露了這些過程。
有許多(甚至可以說絕大多數)最有力也最閃耀的批評者,都來自與我們—兩位終身教職的白人男性學者,截然不同的背景和經歷。我們的工作建立自、並得益於他們的努力和洞察。我們將為讀者們指出關於數據驅動演算法和科技對於全球影響的重要優秀文獻,以及數據在我們的社會、經濟和教育機構組織中的歷史。本書大量的當代材料,主要來自於對於美國的研究。但我們也提供附注,不僅記載何處可以了解到更多我們在課堂上討論和在學術出版物中撰寫的主題,也提供許多重要的作品和學術文獻出處,我們鼓勵讀者參閱以獲得更深的理解。
我們試圖清楚描繪出企業權力、國家權力和人民權力之間的歷史和當前的緊張關係,並將重點關注於數據在建立真相和塑造這些權力彼此鬥爭中的作用。我們希望能夠展現人類如何集體走到目前現況,以便說明那些小巧合、主觀設計的選項和欺瞞,如何僵化至讓事情看起來變成「一定是這樣」理所當然的無解情況。而理解了這些轉變和偶然性,將有助於了解人類在過去如何解決類似的問題。這樣反過來又可以幫助我們,想到如何打破和重設那些有時看起來賦予無助者力量──但更多時候卻是在強化當權者權力的系統。
前言
2018年4月的一個清晨,春日的和煦陽光照進哥倫比亞大學舍默霍恩樓一間研究室的東側窗內。我(威金斯)走向黑板,解釋所謂「量化具體化」(quantitative reification)的神奇過程,簡單的說,就是數值(量化)與經驗觀察(具體化)的對應,到底是如何開始流行的。我用阿道夫·凱特爾(Adolphe Quetelet,編按:比利時天文學家)的故事說明,他嘗試透過蘇格蘭士兵身體各個部位測量所得的「數據」研究,揭示「理想人類」的特徵。我在黑板上畫出一條不朽的「常態曲線」(normal curve),這種曲線會被數學家稱為「高斯曲線」(Gaussian curve),在智商測試中則會被稱為極具爭議性的「鐘形曲線」(bell curve,譯注:因曲線形狀類似鐘形),而對自然科學家而言,常態分布曲線資料揭開了一些真實的、甚至是超越真實的事物。接著我轉身看向學生,希望在他們的眼中看到跟我同樣興奮之情。一位跟我對上眼的同學舉起雙手問:「我們現在可以談談臉書(Facebook)嗎?」
這是因為當天早上,報紙和數位新聞媒體都預告了一場即將在華盛頓掀起的熱烈風波,而且很可能會揭開所有被隱匿的事。新聞中表情傲慢的CEO,來自矽谷一家能夠改變文化現象的科技公司,他被傳喚到了美國參議院。因為代表了所有公民的參議員們,試圖了解幾百萬人(包括我們的學生)的個人資料,到底如何被洩露。《紐約時報》》(The New York Times)解釋,這些資料被用於違反個人隱私和政治手段上的惡意目的。1等到該週國會聽證會結束時,學生們都已了解到我們所選出的官員,對於數位媒體的實際理解,與學生們在成長過程中,從演算法獲得的個人知識之間,有著巨大的差異。
數據的故事充滿爭論:爭著定義什麼是真實的,爭著利用數據來增加個人權力,有時也爭著利用演算法和數據來照亮黑暗並保護弱勢者。本書源於我們對幾百位好奇學生的教學,以及我們自身的經歷:作為科學史學家和現職資料科學家*,並作為試圖理解我們如何生活在這個演算法驅動的現實下的公民,以及我們如何選擇以不同的方式生活。就像所有科技的使用者、開發者和受眾一樣,我們也試圖理解這一切的走向,以及我們將如何共同塑造那個未來。我們想講述的是一個關於理念和科技之間的故事,同時也是一場關於真理和權力的歷史。
放下粉筆時,我們應該都同意凱特爾所想像的數據時代即將來臨。不過首先,我們必須解釋一個默默無聞的比利時天文學家,為何會與資料的故事關聯在一起:資料及其分析方法,如何從本應是由國家關注的焦點,轉移到了大學、軍隊和私人企業上。
對於圍繞著我們,幾乎無所不在的「數據驅動演算法」決策系統,我們在此使用「數據」(data)作為其簡稱。我們將探討數據如何被創造與管理,以及新的數學和電腦科技如何發展,並利用這些數據的處理來塑造人類、思想、社會、軍事行動和經濟。隨著數據而來的便是權力,包括塑造被當成是真實事物的權力等。雖然其核心是科技和數學,但數據的故事最終將涉及到國家、企業和個人之間的一場不穩定博弈。
因此在那天早上,我們不僅談論了數據,還談論了在一個由數據主導的世界裡的各種利害關係。