過去一年里,人工智能、數(shù)據(jù)科學、機器學習研究有哪些重大進展?在接下來的 2021 年又有哪些主要趨勢?
2020 年終于要結束了。也許這不會是誰都喜歡的一年,但 2020 在我們的領域中確實有了一些顯著的進步,而 2021 也有一些值得期待的重要趨勢。作為年終的傳統(tǒng),我們的專家們再次發(fā)表了他們的看法。請繼續(xù)閱讀以了解更多信息。
絕對沒有人會感到懊惱,2020 年終于接近尾聲了。新冠肺炎大流行幾乎完全定義了這一年,猶如過山車一般。但在 2020 年也發(fā)生了其他一些事情,包括人工智能、數(shù)據(jù)科學和機器學習等領域。為此,現(xiàn)在是 KDnuggets 年度年終專家進行分析和預測的時候了。
人工智能、數(shù)據(jù)科學、機器學習研究在 2020 有哪些重大進展?2021 年趨勢如何?
過去一年最引人注目的發(fā)展和預測 包括許多研究領域的持續(xù)進步,特別是自然語言處理。盡管人們對 2020 年在自然語言處理方面取得的巨大進展是否像最初(或者現(xiàn)在)那樣令人生畏仍存在爭議,但毫無疑問,2020 年的自然語言處理研究仍然受到了持續(xù)而強烈的關注。不難猜測,這種情況也將持續(xù)到 2021 年。
像倫理和多樣性這樣的主題已經(jīng)在 2019 年占據(jù)了中心舞臺,在過去的一年中,它們已經(jīng)占據(jù)了中心舞臺。人們似乎已經(jīng)從將多樣性、倫理學以及相關的主題看作是邊緣問題,轉向將它們與技術一起作為機器學習的核心考慮。我們希望這一趨勢能夠持續(xù)到 2021 年甚至更久。
對于 202 1 年的主要發(fā)展 趨勢,我們的專家小組如何看待?他們認為 2021 年的主要趨勢是什么?
這一年,我們的小組由以下成員組成:Dan Becker、Pedro Domingos、Ajit Jaokar、Ines Montani、Brandon Rohrer、Dipanjan Sarkar、Rosaria Silipo、Rachael Tatman 和 Daniel Tunkelang 組成。
相對于過去的幾年,我們更要感謝我們的作家們,在這個動蕩的時代,在百忙之中抽出時間和我們的讀者們分享他們的觀點。
本文是未來一周發(fā)布的三篇系列文章中的第一篇— 研究篇。盡管這三篇文章被分為研究、技術和行業(yè)三個領域,但它們之間存在相當多的重疊,這是可以理解的,因此,我們建議,在這三篇文章全部發(fā)表后,請閱讀所有文章。
閑話少敘,下面是專家小組今年提出的 2020 年的主要趨勢和 2021 年的預測。
Dan Becker(@dan_s_becker):Decision AI 的創(chuàng)始人,此前曾創(chuàng)立 Kaggle Learn。
今年的機器學習研究遵循了以下既定的主題:
Transformer:GPT-3 是今年所有開發(fā)項目中最受關注的項目,它展示了 Transformer 模型的不斷發(fā)展,該模型經(jīng)過了大規(guī)模語料庫的訓練。同時,我們還看到了首次成功地將 Transformer 用于計算機視覺方面的實驗,而計算機視覺在歷史上是由卷積網(wǎng)絡主導的。
生成模型:像 Vid2Player 這樣的研究表明,計算機生成的視頻的質量水平超出了我們過去所看到的水平。生成式模型的社會影響將是巨大而難以預測的。
強化學習:我發(fā)現(xiàn),與前幾年相比,2020 年人們對強化學習的關注度有所下降。但是在統(tǒng)一政策下,跨任務的遷移學習看起來非常有前途。我預計這在未來幾年內的重要性會低于 GPT-3,但在更長的時間范圍內,可能會變得重要得多。大多數(shù)人并沒有意識到,一旦強化學習能夠更可靠地工作,它就會產生巨大的影響。
2021 年:
概率編程和貝葉斯模型:我們已經(jīng)看到了很多新的概率編程語言的實驗。這讓我想起五年前我在深度學習框架中看到的實驗。因此,我希望概率編程是 2021 年的一個主要趨勢,盡管它也需要對用戶進行更多的教育,以利用新工具。
GPT-4:隨著越來越多的人使用 GPT-3 進行實驗,我想我們會發(fā)現(xiàn)它有點不夠實用。從最近的趨勢推斷來看,GPT-4 將會好得多,并有可能越過實際有用的門檻。
用于結構化數(shù)據(jù)的 GPU:NVIDIA RAPIDS 團隊正在開發(fā)數(shù)據(jù)科學工具,這些工具有望突飛猛進,超越我們在過去十年中所見到的任何一種工具。我的感覺是,這個軟件還沒有準備好進入黃金時代,但到了 2021 年可能會實現(xiàn)。
AutoML 變得乏味:大多數(shù)數(shù)據(jù)科學家仍在通過臨時實驗來調整參數(shù)。用更多的自動化解決方案只是個時間問題,明年也許就會實現(xiàn)了。
強化學習變得實際有用:這是我最興奮的地方。傳統(tǒng)的機器學習專注于預測,但很少有數(shù)據(jù)科學家優(yōu)化決策層,將這些預測轉化為現(xiàn)實世界的業(yè)務決策。這造成了模型準確而無用。到 2021 年,我們將會看到思維方式的轉變,即在復雜環(huán)境中使用模型來做出優(yōu)化決策。
Pedro Domingos(@pmddomingos):華盛頓大學計算機科學與工程系教授。
依我看,2020 年的主要發(fā)展是以圖神經(jīng)網(wǎng)絡和神經(jīng)符號人工智能作為主要研究方向的出現(xiàn)。到 2021 年,我們將會看到后者包含前者。圖神經(jīng)網(wǎng)絡是一種有限的關系學習形式,不久之后,我們就可以用神經(jīng)符號方法來完成圖神經(jīng)網(wǎng)絡的所有功能。
之后,需要為特定應用打開具有代表性的功能表盤,這通常是過度控制和擴展性的常見問題。到了高級階段,神經(jīng)符號人工智能可以把我們帶到人類級別的人工智能,這是一個萬億級的問題。
Ajit Jaokar(@ajitjaokar):牛津大學《人工智能:云端和邊緣的實現(xiàn)》(Artificial Intelligence: Cloud and Edge implementations)課程的課程總監(jiān)、企業(yè)家。
2020 年是新冠肺炎疫情爆發(fā)的一年,但也是科技領域的一年。通過 MLOps 的部署,人工智能逐漸成熟。云計算平臺(如:AWS、Azure、GCP)也在人工智能的各個領域推動創(chuàng)新,包括在邊緣設備上使用人工智能。在 NVIDIA 收購了 ARM 之后,我期待著這個領域出現(xiàn)更多的創(chuàng)新。
自然語言處理 (GPT-3 和其他模型) 是人工智能領域的主要趨勢。對于 2021 年來說,真正的問題是:小樣本學習模型(比如 GPT-3)是否會改變模型的構建的方式?不像傳統(tǒng)的用數(shù)據(jù)反映來建立模型,我們可以把它顛倒過來。只要用一個很大的模型就可以認為是向前傳遞的,即模型 → 問題 → 推理。
當然,我們需要一個像 GPT-3 這樣的大型預訓練模型。假如這一趨勢真的開始的話,那么接下來的兩年里,人工智能將會發(fā)生改變。
到 2021 年,傳統(tǒng)的機器學習模型可能會成為一種商品,也就是說,每個人都可以使用某種形式的基本機器學習或深度學習。這樣我們就可以從數(shù)據(jù)科學轉向決策科學。
數(shù)據(jù)科學的輸出是一個具有性能指標(例如準確性)的模型。有了決策科學,我們能夠進一步提出行動建議并執(zhí)行這些行動。也就是說,諸如強化學習等算法將在 2021 年或更長時間內成為主流。
Ines Montani(@_inesmontani):Explosion 的聯(lián)合創(chuàng)始人,從事人工智能和自然語言處理技術的軟件開發(fā)者。
2020 年是不平凡的一年,盡管我們在這一領域看到了許多令人振奮的進展,但我認為,最重要的進展是鞏固而非革命。這一技術在前幾年發(fā)展迅速,對于很多公司來說,等待是明智的選擇。如今,計算方式發(fā)生了變化,人們對哪些項目可能會成功有了更好的了解。
構建原型并將機器學習應用于業(yè)務問題從未如此簡單,但是縮小原型設計和將成功的項目交付給生產之間的差距仍然是一個挑戰(zhàn)。到 2021 年,我們將會看到越來越多的人開始關注機器學習項目的整個生命周期:從原型到生產,從迭代開發(fā)到持續(xù)維護和監(jiān)控。
Brandon Rohrer :iRobot 的首席數(shù)據(jù)科學家,也是端到端機器學習的講師
卷積和遞歸神經(jīng)網(wǎng)絡已經(jīng)開始顯示,它們并不能像我們所希望的那樣很好地解決每一個問題。今年有兩篇論文總結了這一趨勢。這篇題為《硬件彩票》(The Hardware Lottery)的論文,描述了哪些算法能夠嶄露頭角并成為根深蒂固的行業(yè)標準,這其中有多少偶然性。
此外,這篇題為《描述不足對現(xiàn)代機器學習的可信度提出了挑戰(zhàn)》(Underspecification Presents Challenges for Credibility in Modern Machine Learning)的論文,則對我們一直以來評估模型和衡量進展的方式提出了嚴厲的批評。這些都是好事。在 2021 年,如果我們選擇的話,我們可以投資于探索并解決一系列的新問題。
此外,由于新冠肺炎疫情使我們別無選擇,我們開始開發(fā)用于遠程教學、分布式團隊和異步工作的工具和實踐。2020 年的機器學習研究環(huán)境會讓我們 2019 年的自己都認不出來。我預測,到 2021 年,在線教學和協(xié)作的質量和質量將翻一番。
Dipanjan Sarkar:Applied Materials 數(shù)據(jù)科學負責人、Google 機器學習領域的開發(fā)專家、出版作家和顧問。
根據(jù)我去年的預測,2020 年理所當然地成為了自然語言處理的一年,而 Transformer 為輕松解決答題、搜索和翻譯等棘手問題鋪平了道路??山忉尩娜斯ぶ悄芤惨呀?jīng)開始走出“期望膨脹”的 Gartner 技術成熟度曲線(Gartner Hype Cycle)階段,有許多實用的實現(xiàn)可用來解釋各種問題和數(shù)據(jù)的復雜模型。
對于 2021 年,我相信我們將看到強大而高效的模型的出現(xiàn),特別是對于視覺和自然語言處理方面。在 DistilBERT、Reformer 和 Performer 等高效 Transformer 模型中,我們已經(jīng)看到了進展。像 TensorFlow 這樣的深度學習框架,通過 TFLite 和 TF.js 專注于移動設備和物聯(lián)網(wǎng)設備上的機器學習,而在邊緣設備和設備上的計算,正是市場所需要的。
我還預見在深度學習領域中,與無監(jiān)督和自監(jiān)督學習相關的領域將會出現(xiàn)更多的進展,像 SimCLR、SimSiam 和 SwAV 這樣的方法論在預訓練模型方面取得了巨大的成功,從而在適應階段提供更好的性能。
最后,但并非最不重要的是,低代碼自動機器學習平臺和負責任的人工智能也是另外兩個值得關注的領域,因為我們肯定會在這方面取得一些有興趣的進展。
Rosaria Silipo(@dmr_rosaria):KNIME 首席數(shù)據(jù)科學家。
在這個奇怪的 2020 年,由于存在著對未來的不確定性因素,人們的注意力已經(jīng)集中到為數(shù)據(jù)科學解決方案做好準備并取得成果:安全部署、應用監(jiān)控和安全解決方案。到 2021 年,這種趨勢可能會持續(xù)下去。
在數(shù)據(jù)科學項目中,部署仍然是關鍵階段,在此階段之前的步驟中,所有未被注意到的錯誤都將重現(xiàn)。所以,除了傳統(tǒng)的企業(yè)級功能外,我們也開始覺得有必要從訓練環(huán)境中生產應用程序,以避免在遷移過程中出現(xiàn)不必要的錯誤。
2021 年的一些重點還將放在數(shù)據(jù)分析過程的解釋上,特別是在生命科學中,通過機器學習可解釋性(machine learning interpretability,MLI)或可解釋人工智能(eXplainable AI,XAI)技術來實現(xiàn)黑箱模型。
說句題外話,我真的懷疑,如果世界上許多國家持續(xù)存在新冠肺炎疫情而不得不隔離的話,那么關于機器學習和人工智能方面的書籍數(shù)量將會暴增。
RachaelTatman(@rctatman):Rasa 的開發(fā)倡導者,從事自然語言處理方面的工作。
我知道很多人可能會認為 GPT-3 是今年自然語言處理的一大新進展,但我認為它不過是現(xiàn)有自然語言處理方法的一個非常直接的擴展,對絕大多數(shù)自然語言處理應用來說,它是完全不切實際的。更讓我感到興奮的是,專注于小型、高效模型的趨勢越來越明顯,而且性能依然良好。
第一次 SustainNLP 研討會(https://sites.google.com/view/sustainlp2020/home)就是一個很好的例子。我認為,從研究的角度來看,找到用有限的數(shù)據(jù)和計算資源來獲得真正優(yōu)秀的模型性能的方法,既是一個巨大的挑戰(zhàn),但也是真正有意義的一件事。
Daniel Tunkelang:獨立顧問,專門從事搜索、發(fā)現(xiàn)和機器學習 / 人工智能。
與此同時,2020 年一直被新冠肺炎大流行所主導。盡管人工智能在抗擊病毒方面發(fā)揮了作用,但更有趣的是,由于這場大流行,大多數(shù)從事或研究機器學習的人都是居家工作的。
如果在大流行過后,遠程工作和教育的主流接受依然存在(這看起來是可能的),那么我們就可以預見到兩種相互競爭的趨勢。一方面,人工智能的專業(yè)知識將會真正全球化,而不會成為一個特定的中心。另一方面,科技巨頭則會犧牲較小的地區(qū)公司為代價,在全球范圍內招募人才。
但是,隨著遠程工作推動了人工智能的全球化,美國與中國之間日益加劇的沖突也導致了人工智能走向分裂??磥恚磥硎晡覀兒苡锌赡軙谌斯ぶ悄苘妭涓傎愔卸冗^。
又及:11 月 30 日,也就是本篇文章的投稿截止日,DeepMind 的研究人員宣布,他們的 AlphaFold 系統(tǒng)以革命性的精度和速度預測蛋白質折疊大挑戰(zhàn),并解決了蛋白質結構預測的關鍵評估(Critical Assessment of protein Structure Prediction,CASP)大挑戰(zhàn)。要理解這一消息還為時尚早,但它的確可能會成為 2020 年人工智能領域最大的突破。
作者介紹:
Matthew Mayo,機器學習研究員、KDnuggets 編輯,KDnuggets 是開創(chuàng)性的在線數(shù)據(jù)科學和機器學習資源網(wǎng)站。他對無監(jiān)督學習、深度神經(jīng)網(wǎng)絡、自然語言處理、算法設計和優(yōu)化以及數(shù)據(jù)處理和分析的分布式方法特別感興趣。他擁有計算機科學碩士學位和數(shù)據(jù)挖掘的研究生文憑。