蛋白質(zhì)語(yǔ)言模型 ProGen----生物界的ChatGPT來(lái)了!
人工智能 ProGen 助力特定功能蛋白質(zhì)設(shè)計(jì)
人工智能已經(jīng)將蛋白質(zhì)工程研究的時(shí)間縮短了數(shù)年。深度學(xué)習(xí)語(yǔ)言模型在各種生物技術(shù)應(yīng)用中顯示出前景,包括蛋白質(zhì)設(shè)計(jì)和工程。
現(xiàn)在,來(lái)自 Salesforce Research、Tierra Biosciences 和加州大學(xué)的研究團(tuán)隊(duì)在實(shí)驗(yàn)室中合成了由 AI 模型預(yù)測(cè)的蛋白質(zhì),并發(fā)現(xiàn)它們與天然對(duì)應(yīng)物一樣有效。他們開(kāi)發(fā)出一種名為 ProGen 的蛋白質(zhì)工程深度學(xué)習(xí)語(yǔ)言模型。ProGen 接受了來(lái)自公開(kāi)的已測(cè)序天然蛋白質(zhì)數(shù)據(jù)庫(kù)中的 2.8 億個(gè)原始蛋白質(zhì)序列的訓(xùn)練,從頭開(kāi)始生成人工蛋白質(zhì)序列。最新方法有望用于研制新藥。
科學(xué)家表示,這項(xiàng)新技術(shù)可能比獲得諾貝爾獎(jiǎng)的蛋白質(zhì)設(shè)計(jì)技術(shù)定向進(jìn)化更強(qiáng)大,它將通過(guò)加速可用于幾乎任何事物的新蛋白質(zhì)的開(kāi)發(fā),這些新蛋白質(zhì)幾乎可以用于從治療到降解塑料的任何領(lǐng)域。從而為已有 50 年歷史的蛋白質(zhì)工程領(lǐng)域注入活力。
該研究以「Large language models generate functional protein sequences across diverse families」為題,于 2023 年 1 月 26 日發(fā)布在《Nature Biotechnology》上。
Large language models generate functional protein sequences across diverse families
Ali Madani, Ben Krause, Eric R. Greene, Subu Subramanian, Benjamin P. Mohr, James M. Holton, Jose Luis Olmos Jr., Caiming Xiong, Zachary Z. Sun, Richard Socher, James S. Fraser & Nikhil Naik
Nature Biotechnology (2023)
Abstract
Deep-learning language models have shown promise in various biotechnological applications, including protein design and engineering. Here we describe ProGen, a language model that can generate protein sequences with a predictable function across large protein families, akin to generating grammatically and semantically correct natural language sentences on diverse topics. The model was trained on 280 million protein sequences from >19,000 families and is augmented with control tags specifying protein properties. ProGen can be further fine-tuned to curated sequences and tags to improve controllable generation performance of proteins from families with sufficient homologous samples. Artificial proteins fine-tuned to five distinct lysozyme families showed similar catalytic efficiencies as natural lysozymes, with sequence identity to natural proteins as low as 31.4%. ProGen is readily adapted to diverse protein families, as we demonstrate with chorismate mutase and malate dehydrogenase.
蛋白質(zhì)工程的傳統(tǒng)方法是對(duì)天然蛋白質(zhì)序列進(jìn)行迭代誘變和選擇,以鑒定具有所需功能和結(jié)構(gòu)特性的蛋白質(zhì)。相比之下,合理或從頭設(shè)計(jì)蛋白質(zhì)的方法旨在提高創(chuàng)造具有所需特性的新蛋白質(zhì)的效率和精度。
基于結(jié)構(gòu)的從頭設(shè)計(jì)方法采用基于生物物理原理的模擬,而協(xié)同進(jìn)化方法則從進(jìn)化序列數(shù)據(jù)中建立統(tǒng)計(jì)模型,以指定具有所需功能或穩(wěn)定性的新序列。結(jié)構(gòu)和共同進(jìn)化的方法都有一定的局限性。
最近,深度神經(jīng)網(wǎng)絡(luò)已顯示出作為蛋白質(zhì)科學(xué)和工程的生成和判別模型的前景。它們學(xué)習(xí)復(fù)雜表示的能力對(duì)于有效地利用指數(shù)級(jí)增長(zhǎng)的多樣化和相對(duì)未注釋的蛋白質(zhì)數(shù)據(jù)來(lái)源可能是至關(guān)重要的——公共數(shù)據(jù)庫(kù)包含數(shù)百萬(wàn)個(gè)未對(duì)齊的原始蛋白質(zhì)序列
ProGen:蛋白質(zhì)語(yǔ)言模型
受到基于深度學(xué)習(xí)的自然語(yǔ)言模型的成功啟發(fā),該研究團(tuán)隊(duì)開(kāi)發(fā)了 ProGen,這是一種蛋白質(zhì)語(yǔ)言模型,在數(shù)百萬(wàn)個(gè)原始蛋白質(zhì)序列上訓(xùn)練,可生成跨多個(gè)家族和功能的人造蛋白質(zhì)。
圖 1:使用條件語(yǔ)言建模的人工蛋白質(zhì)生成。(來(lái)源:論文)
ProGen 通過(guò)學(xué)習(xí)在給定原始序列中過(guò)去的氨基酸的情況下,預(yù)測(cè)下一個(gè)氨基酸的概率來(lái)迭代優(yōu)化,沒(méi)有明確的結(jié)構(gòu)信息或成對(duì)協(xié)同進(jìn)化假設(shè)。ProGen 以這種無(wú)監(jiān)督的方式從一個(gè)大型、多樣的蛋白質(zhì)序列數(shù)據(jù)庫(kù)中進(jìn)行訓(xùn)練,學(xué)習(xí)了一種通用的、域獨(dú)立的蛋白質(zhì)表示,它包含局部和全局結(jié)構(gòu)基序,類(lèi)似于學(xué)習(xí)語(yǔ)義和語(yǔ)法規(guī)則的自然語(yǔ)言模型。訓(xùn)練后,ProGen 可以提示從頭開(kāi)始為任何蛋白質(zhì)家族生成全長(zhǎng)蛋白質(zhì)序列,與天然蛋白質(zhì)具有不同程度的相似性。
ProGen 是一個(gè) 12 億參數(shù)的神經(jīng)網(wǎng)絡(luò),使用包含 2.8 億個(gè)蛋白質(zhì)序列的公開(kāi)數(shù)據(jù)集進(jìn)行訓(xùn)練。ProGen 的一個(gè)關(guān)鍵組成部分是條件生成,即由屬性標(biāo)簽控制的序列生成作為語(yǔ)言模型的輸入提供。在自然語(yǔ)言的情況下,這些控制標(biāo)簽可能是風(fēng)格、主題、日期和其他實(shí)體。對(duì)于蛋白質(zhì),控制標(biāo)簽是蛋白質(zhì)家族、生物過(guò)程和分子功能等屬性,可用于公共蛋白質(zhì)數(shù)據(jù)庫(kù)中的大部分序列。
為了創(chuàng)建模型,科學(xué)家們只需將 2.8 億種不同蛋白質(zhì)的氨基酸序列輸入機(jī)器學(xué)習(xí)模型,讓它「消化」信息幾周。然后,他們通過(guò)使用來(lái)自五個(gè)溶菌酶家族的 56,000 個(gè)序列以及有關(guān)這些蛋白質(zhì)的一些上下文信息來(lái)啟動(dòng)模型,從而對(duì)模型進(jìn)行微調(diào)。
該模型迅速生成了一百萬(wàn)個(gè)序列,研究團(tuán)隊(duì)根據(jù)它們與天然蛋白質(zhì)序列的相似程度以及 AI 蛋白質(zhì)的潛在氨基酸「語(yǔ)法」和「語(yǔ)義」的自然程度,選擇了 100 個(gè)進(jìn)行測(cè)試。
圖 2:生成的人工抗菌蛋白多種多樣,在該實(shí)驗(yàn)系統(tǒng)中表達(dá)良好。(來(lái)源:論文)
從頭開(kāi)始生成人工蛋白質(zhì)序列
為了評(píng)估功能,通過(guò)無(wú)細(xì)胞蛋白合成和親和層析來(lái)合成和純化全長(zhǎng)基因。在 100 種天然蛋白質(zhì)的陽(yáng)性對(duì)照集中,72% 的表達(dá)良好。ProGen 生成的蛋白質(zhì)在所有序列同一性箱中與任何已知的天然蛋白質(zhì)的表達(dá)同樣好。此外,使用 bmDCA7(一種基于直接耦合分析的統(tǒng)計(jì)模型) 設(shè)計(jì)了人工蛋白質(zhì),bmDCA 無(wú)法適應(yīng)五個(gè)溶菌酶家族中的三個(gè),并且對(duì)其余兩個(gè)蛋白質(zhì)家族表現(xiàn)出 60% 的可檢測(cè)表達(dá)(30/50 蛋白質(zhì))。這些結(jié)果表明,與一批天然蛋白質(zhì)相比,ProGen 可以生成結(jié)構(gòu)良好折疊的人工蛋白質(zhì),即使序列對(duì)齊大小和質(zhì)量限制了替代方法的成功,也能正確表達(dá)。
在第一批由 Tierra Biosciences 進(jìn)行體外篩選的 100 種蛋白質(zhì)中,該團(tuán)隊(duì)制作了五種人工蛋白質(zhì)以在細(xì)胞中進(jìn)行測(cè)試,并將它們的活性與雞蛋清中發(fā)現(xiàn)的一種酶(稱(chēng)為雞蛋清溶菌酶,HEWL)進(jìn)行比較。在人類(lèi)的眼淚、唾液和牛奶中發(fā)現(xiàn)了類(lèi)似的溶菌酶,它們可以抵御細(xì)菌和真菌。
圖 3:人工蛋白質(zhì)序列具有功能,同時(shí)與任何已知蛋白質(zhì)的同一性低至 31%,表現(xiàn)出與高度進(jìn)化的天然蛋白質(zhì)相當(dāng)?shù)拇呋?,并展示與已知天然折疊相似的結(jié)構(gòu)。(來(lái)源:論文)
結(jié)果表明,ProGen 生成的蛋白質(zhì)序列不僅可以很好地表達(dá),而且可以維持跨蛋白質(zhì)家族的不同序列景觀的酶功能。
其中兩種人工酶能夠以與 HEWL 相當(dāng)?shù)幕钚苑纸饧?xì)菌的細(xì)胞壁,但它們的序列彼此只有約 18% 相同。這兩個(gè)序列與任何已知蛋白質(zhì)的同一性約為 90% 和 70%。
天然蛋白質(zhì)中的一個(gè)突變就可以使其停止工作,但在另一輪篩選中,研究小組發(fā)現(xiàn),即使只有 31.4% 的序列與任何已知的天然蛋白質(zhì)相似,AI 生成的酶仍顯示出活性。
為了解通用序列數(shù)據(jù)集和目標(biāo)蛋白質(zhì)家族序列對(duì) ProGen 生成能力的相對(duì)影響,研究人員使用分支酸變位酶(CM) 和蘋(píng)果酸脫氫酶(MDH)實(shí)驗(yàn)測(cè)量的測(cè)定數(shù)據(jù)進(jìn)行了兩項(xiàng)消融研究。
結(jié)果表明,訓(xùn)練策略的兩個(gè)組成部分——對(duì)通用序列數(shù)據(jù)集的初始訓(xùn)練和對(duì)感興趣的蛋白質(zhì)家族的微調(diào)——對(duì)最終模型性能有顯著貢獻(xiàn)。使用包含許多蛋白質(zhì)家族的通用序列數(shù)據(jù)集進(jìn)行訓(xùn)練,使 ProGen 能夠?qū)W習(xí)編碼內(nèi)在生物學(xué)特性的通用且可轉(zhuǎn)移的序列表示。對(duì)感興趣的蛋白質(zhì)家族進(jìn)行微調(diào)可以引導(dǎo)這種表示,以提高局部序列鄰域的生成質(zhì)量。
正在進(jìn)入蛋白質(zhì)設(shè)計(jì)的新時(shí)代
Salesforce Research 的研究主管 Nikhil Naik 表示,他們的目標(biāo)是證明可以利用公開(kāi)可用的蛋白質(zhì)數(shù)據(jù),將大型語(yǔ)言模型部署到蛋白質(zhì)設(shè)計(jì)問(wèn)題中?!讣热晃覀円呀?jīng)證明 ProGen 有能力產(chǎn)生新的蛋白質(zhì),我們已經(jīng)公開(kāi)發(fā)布了這些模型,以便其他人可以在我們的研究基礎(chǔ)上進(jìn)行構(gòu)建?!?/span>
「開(kāi)箱即用地從頭開(kāi)始生成功能性蛋白質(zhì)的能力,表明我們正在進(jìn)入蛋白質(zhì)設(shè)計(jì)的新時(shí)代,」該論文的第一作者,Profluent Bio 創(chuàng)始人、Salesforce Research 前研究科學(xué)家 Ali Madani 博士說(shuō),「這是蛋白質(zhì)工程師可用的多功能新工具,我們期待看到治療應(yīng)用?!?/span>
與此同時(shí),研究人員仍在繼續(xù)改進(jìn) ProGen,試圖突破更多的限制和挑戰(zhàn)。其中之一便它非常地依賴(lài)數(shù)據(jù)。
「我們已經(jīng)探索了通過(guò)加入基于結(jié)構(gòu)的信息來(lái)改善序列的設(shè)計(jì),」Naik 說(shuō),「我們還在研究當(dāng)你沒(méi)有太多關(guān)于某個(gè)特定蛋白質(zhì)家族或領(lǐng)域的數(shù)據(jù)時(shí),如何提高模型的生成能力?!?/span>
值得注意的是,還有一些初創(chuàng)公司也在嘗試相似的技術(shù),比如 Cradle,以及自生物技術(shù)孵化器 Flagship Pioneering 的 Generate Biomedicines,不過(guò)這些研究都還未經(jīng)過(guò)同行評(píng)審。