咨詢熱線:025-58361106-801   Email: info@njpeptide.com

中文      English

總機(jī):025-58361106-801

傳真:025-58361107-806

Email:info@njpeptide.com

地址:南京市化學(xué)工業(yè)園區(qū)方水路158號(hào)三樓


最新資訊

您當(dāng)前的位置:首頁 > 關(guān)于我們 > 最新資訊


生物界的ChatGPT來了! 蛋白質(zhì)語言模型 ProGen助力特定功能蛋白質(zhì)設(shè)計(jì)!


人工智能已經(jīng)將蛋白質(zhì)工程研究的時(shí)間縮短了數(shù)年。深度學(xué)習(xí)語言模型在各種生物技術(shù)應(yīng)用中顯示出前景,包括蛋白質(zhì)設(shè)計(jì)和工程。


現(xiàn)在,來自 Salesforce Research、Tierra Biosciences 和加州大學(xué)的研究團(tuán)隊(duì)在實(shí)驗(yàn)室中合成了由 AI 模型預(yù)測(cè)的蛋白質(zhì),并發(fā)現(xiàn)它們與天然對(duì)應(yīng)物一樣有效。他們開發(fā)出一種名為 ProGen 的蛋白質(zhì)工程深度學(xué)習(xí)語言模型。ProGen 接受了來自公開的已測(cè)序天然蛋白質(zhì)數(shù)據(jù)庫中的 2.8 億個(gè)原始蛋白質(zhì)序列的訓(xùn)練,從頭開始生成人工蛋白質(zhì)序列。最新方法有望用于研制新藥。


科學(xué)家表示,這項(xiàng)新技術(shù)可能比獲得諾貝爾獎(jiǎng)的蛋白質(zhì)設(shè)計(jì)技術(shù)定向進(jìn)化更強(qiáng)大,它將通過加速可用于幾乎任何事物的新蛋白質(zhì)的開發(fā),這些新蛋白質(zhì)幾乎可以用于從治療到降解塑料的任何領(lǐng)域。從而為已有 50 年歷史的蛋白質(zhì)工程領(lǐng)域注入活力。


該研究以「Large language models generate functional protein sequences across diverse families」為題,于 2023 年 1 月 26 日發(fā)布在《Nature Biotechnology》上。

 Large language models generate functional protein sequences across diverse families
Ali Madani, Ben Krause, Eric R. Greene, Subu Subramanian, Benjamin P. Mohr, James M. Holton, Jose Luis Olmos Jr., Caiming Xiong, Zachary Z. Sun, Richard Socher, James S. Fraser & Nikhil Naik 
Nature Biotechnology (2023)


Abstract
Deep-learning language models have shown promise in various biotechnological applications, including protein design and engineering. Here we describe ProGen, a language model that can generate protein sequences with a predictable function across large protein families, akin to generating grammatically and semantically correct natural language sentences on diverse topics. The model was trained on 280 million protein sequences from >19,000 families and is augmented with control tags specifying protein properties. ProGen can be further fine-tuned to curated sequences and tags to improve controllable generation performance of proteins from families with sufficient homologous samples. Artificial proteins fine-tuned to five distinct lysozyme families showed similar catalytic efficiencies as natural lysozymes, with sequence identity to natural proteins as low as 31.4%.  ProGen is readily adapted to diverse protein families, as we demonstrate with chorismate mutase and malate dehydrogenase.


蛋白質(zhì)工程的傳統(tǒng)方法是對(duì)天然蛋白質(zhì)序列進(jìn)行迭代誘變和選擇,以鑒定具有所需功能和結(jié)構(gòu)特性的蛋白質(zhì)。相比之下,合理或從頭設(shè)計(jì)蛋白質(zhì)的方法旨在提高創(chuàng)造具有所需特性的新蛋白質(zhì)的效率和精度。


基于結(jié)構(gòu)的從頭設(shè)計(jì)方法采用基于生物物理原理的模擬,而協(xié)同進(jìn)化方法則從進(jìn)化序列數(shù)據(jù)中建立統(tǒng)計(jì)模型,以指定具有所需功能或穩(wěn)定性的新序列。結(jié)構(gòu)和共同進(jìn)化的方法都有一定的局限性。


最近,深度神經(jīng)網(wǎng)絡(luò)已顯示出作為蛋白質(zhì)科學(xué)和工程的生成和判別模型的前景。它們學(xué)習(xí)復(fù)雜表示的能力對(duì)于有效地利用指數(shù)級(jí)增長的多樣化和相對(duì)未注釋的蛋白質(zhì)數(shù)據(jù)來源可能是至關(guān)重要的——公共數(shù)據(jù)庫包含數(shù)百萬個(gè)未對(duì)齊的原始蛋白質(zhì)序列


ProGen:蛋白質(zhì)語言模型


受到基于深度學(xué)習(xí)的自然語言模型的成功啟發(fā),該研究團(tuán)隊(duì)開發(fā)了 ProGen,這是一種蛋白質(zhì)語言模型,在數(shù)百萬個(gè)原始蛋白質(zhì)序列上訓(xùn)練,可生成跨多個(gè)家族和功能的人造蛋白質(zhì)。




圖 1:使用條件語言建模的人工蛋白質(zhì)生成。(來源:論文)


ProGen 通過學(xué)習(xí)在給定原始序列中過去的氨基酸的情況下,預(yù)測(cè)下一個(gè)氨基酸的概率來迭代優(yōu)化,沒有明確的結(jié)構(gòu)信息或成對(duì)協(xié)同進(jìn)化假設(shè)。ProGen 以這種無監(jiān)督的方式從一個(gè)大型、多樣的蛋白質(zhì)序列數(shù)據(jù)庫中進(jìn)行訓(xùn)練,學(xué)習(xí)了一種通用的、域獨(dú)立的蛋白質(zhì)表示,它包含局部和全局結(jié)構(gòu)基序,類似于學(xué)習(xí)語義和語法規(guī)則的自然語言模型。訓(xùn)練后,ProGen 可以提示從頭開始為任何蛋白質(zhì)家族生成全長蛋白質(zhì)序列,與天然蛋白質(zhì)具有不同程度的相似性。


ProGen 是一個(gè) 12 億參數(shù)的神經(jīng)網(wǎng)絡(luò),使用包含 2.8 億個(gè)蛋白質(zhì)序列的公開數(shù)據(jù)集進(jìn)行訓(xùn)練。ProGen 的一個(gè)關(guān)鍵組成部分是條件生成,即由屬性標(biāo)簽控制的序列生成作為語言模型的輸入提供。在自然語言的情況下,這些控制標(biāo)簽可能是風(fēng)格、主題、日期和其他實(shí)體。對(duì)于蛋白質(zhì),控制標(biāo)簽是蛋白質(zhì)家族、生物過程和分子功能等屬性,可用于公共蛋白質(zhì)數(shù)據(jù)庫中的大部分序列。


為了創(chuàng)建模型,科學(xué)家們只需將 2.8 億種不同蛋白質(zhì)的氨基酸序列輸入機(jī)器學(xué)習(xí)模型,讓它「消化」信息幾周。然后,他們通過使用來自五個(gè)溶菌酶家族的 56,000 個(gè)序列以及有關(guān)這些蛋白質(zhì)的一些上下文信息來啟動(dòng)模型,從而對(duì)模型進(jìn)行微調(diào)。


該模型迅速生成了一百萬個(gè)序列,研究團(tuán)隊(duì)根據(jù)它們與天然蛋白質(zhì)序列的相似程度以及 AI 蛋白質(zhì)的潛在氨基酸「語法」和「語義」的自然程度,選擇了 100 個(gè)進(jìn)行測(cè)試。




圖 2:生成的人工抗菌蛋白多種多樣,在該實(shí)驗(yàn)系統(tǒng)中表達(dá)良好。(來源:論文)


從頭開始生成人工蛋白質(zhì)序列


為了評(píng)估功能,通過無細(xì)胞蛋白合成和親和層析來合成和純化全長基因。在 100 種天然蛋白質(zhì)的陽性對(duì)照集中,72% 的表達(dá)良好。ProGen 生成的蛋白質(zhì)在所有序列同一性箱中與任何已知的天然蛋白質(zhì)的表達(dá)同樣好。此外,使用 bmDCA7(一種基于直接耦合分析的統(tǒng)計(jì)模型) 設(shè)計(jì)了人工蛋白質(zhì),bmDCA 無法適應(yīng)五個(gè)溶菌酶家族中的三個(gè),并且對(duì)其余兩個(gè)蛋白質(zhì)家族表現(xiàn)出 60% 的可檢測(cè)表達(dá)(30/50 蛋白質(zhì))。這些結(jié)果表明,與一批天然蛋白質(zhì)相比,ProGen 可以生成結(jié)構(gòu)良好折疊的人工蛋白質(zhì),即使序列對(duì)齊大小和質(zhì)量限制了替代方法的成功,也能正確表達(dá)。


在第一批由 Tierra Biosciences 進(jìn)行體外篩選的 100 種蛋白質(zhì)中,該團(tuán)隊(duì)制作了五種人工蛋白質(zhì)以在細(xì)胞中進(jìn)行測(cè)試,并將它們的活性與雞蛋清中發(fā)現(xiàn)的一種酶(稱為雞蛋清溶菌酶,HEWL)進(jìn)行比較。在人類的眼淚、唾液和牛奶中發(fā)現(xiàn)了類似的溶菌酶,它們可以抵御細(xì)菌和真菌。




圖 3:人工蛋白質(zhì)序列具有功能,同時(shí)與任何已知蛋白質(zhì)的同一性低至 31%,表現(xiàn)出與高度進(jìn)化的天然蛋白質(zhì)相當(dāng)?shù)拇呋?,并展示與已知天然折疊相似的結(jié)構(gòu)。(來源:論文)


結(jié)果表明,ProGen 生成的蛋白質(zhì)序列不僅可以很好地表達(dá),而且可以維持跨蛋白質(zhì)家族的不同序列景觀的酶功能。


其中兩種人工酶能夠以與 HEWL 相當(dāng)?shù)幕钚苑纸饧?xì)菌的細(xì)胞壁,但它們的序列彼此只有約 18% 相同。這兩個(gè)序列與任何已知蛋白質(zhì)的同一性約為 90% 和 70%。


天然蛋白質(zhì)中的一個(gè)突變就可以使其停止工作,但在另一輪篩選中,研究小組發(fā)現(xiàn),即使只有 31.4% 的序列與任何已知的天然蛋白質(zhì)相似,AI 生成的酶仍顯示出活性。


為了解通用序列數(shù)據(jù)集和目標(biāo)蛋白質(zhì)家族序列對(duì) ProGen 生成能力的相對(duì)影響,研究人員使用分支酸變位酶(CM) 和蘋果酸脫氫酶(MDH)實(shí)驗(yàn)測(cè)量的測(cè)定數(shù)據(jù)進(jìn)行了兩項(xiàng)消融研究。


結(jié)果表明,訓(xùn)練策略的兩個(gè)組成部分——對(duì)通用序列數(shù)據(jù)集的初始訓(xùn)練和對(duì)感興趣的蛋白質(zhì)家族的微調(diào)——對(duì)最終模型性能有顯著貢獻(xiàn)。使用包含許多蛋白質(zhì)家族的通用序列數(shù)據(jù)集進(jìn)行訓(xùn)練,使 ProGen 能夠?qū)W習(xí)編碼內(nèi)在生物學(xué)特性的通用且可轉(zhuǎn)移的序列表示。對(duì)感興趣的蛋白質(zhì)家族進(jìn)行微調(diào)可以引導(dǎo)這種表示,以提高局部序列鄰域的生成質(zhì)量。


正在進(jìn)入蛋白質(zhì)設(shè)計(jì)的新時(shí)代

Salesforce Research 的研究主管 Nikhil Naik 表示,他們的目標(biāo)是證明可以利用公開可用的蛋白質(zhì)數(shù)據(jù),將大型語言模型部署到蛋白質(zhì)設(shè)計(jì)問題中?!讣热晃覀円呀?jīng)證明 ProGen 有能力產(chǎn)生新的蛋白質(zhì),我們已經(jīng)公開發(fā)布了這些模型,以便其他人可以在我們的研究基礎(chǔ)上進(jìn)行構(gòu)建?!?/span>


  「開箱即用地從頭開始生成功能性蛋白質(zhì)的能力,表明我們正在進(jìn)入蛋白質(zhì)設(shè)計(jì)的新時(shí)代,」該論文的第一作者,Profluent Bio 創(chuàng)始人、Salesforce Research 前研究科學(xué)家 Ali Madani 博士說,「這是蛋白質(zhì)工程師可用的多功能新工具,我們期待看到治療應(yīng)用?!?/span>
 

    與此同時(shí),研究人員仍在繼續(xù)改進(jìn) ProGen,試圖突破更多的限制和挑戰(zhàn)。其中之一便它非常地依賴數(shù)據(jù)。


  「我們已經(jīng)探索了通過加入基于結(jié)構(gòu)的信息來改善序列的設(shè)計(jì),」Naik 說,「我們還在研究當(dāng)你沒有太多關(guān)于某個(gè)特定蛋白質(zhì)家族或領(lǐng)域的數(shù)據(jù)時(shí),如何提高模型的生成能力。」


    值得注意的是,還有一些初創(chuàng)公司也在嘗試相似的技術(shù),比如 Cradle,以及自生物技術(shù)孵化器 Flagship Pioneering 的 Generate Biomedicines,不過這些研究都還未經(jīng)過同行評(píng)審。


生物界的ChatGPT來了! 蛋白質(zhì)語言模型 ProGen助力特定功能蛋白質(zhì)設(shè)計(jì)!

產(chǎn)品反饋單 | 尊敬的客戶,如果您對(duì)南京肽業(yè)生物科技有限公司 的產(chǎn)品和服務(wù)有不滿意的地方,請(qǐng)您在這里對(duì)我們的產(chǎn)品和服務(wù)質(zhì)量進(jìn)行建議、監(jiān)督和投訴。
99精品国产在这里白浆,亚洲av日韩精品久久久久久,亚洲国产精品无码中文字满,国产在线精品一区二区不卡麻豆,92成人午夜福利一区二区,亚洲高清成人aⅴ片在线观看,亚洲精品第一国产综合精品99 ,亚洲香蕉成人AV网站在线观看,欧美成人在线视频,国产高潮流白浆免费观看
亚洲国产精品无码久久久蜜芽| 精品综合久久久久久888蜜芽| 又爽又黄又无遮挡网站| 亚洲AV无码码潮喷在线观看 | 在线精品亚洲一区二区绿巨人| 国产精品自在在线午夜| 色婷婷久久免费网站| 亚洲欧美激情在线一区| 中文字幕久久波多野结衣av| 免费萌白酱国产一区二区三区| 国产超碰人人模人人爽人人添| 伊人色综合久久天天网蜜月| 国产97色在线 | 亚洲| 好好的日视频www| 国产AV 一区二区三区| 久久亚洲精品无码AⅤ电影| 亚洲精品乱码久久久久久自慰| 亚洲欧美成人另类激情| 黑森林精选av导航| 日本欧美大码A在线观看| 欧美激情视频一区二区三区免费| 色综合AV综合无码综合网站| 无码专区aaaaaa免费视频| 2021年最新久久久视精品爱| 国产微拍一区二区在线观看| 亚洲欧美高清在线| 天天干天天干天天插| 97久久人人妻人人玩人人爽精品 | 欧美成人a√在线观看| 久久精品亚洲中文字幕无码网站| 天堂v亚洲国产ⅴ第一次| 亚洲AV极品视觉盛宴分类| 亚洲欧美中文日韩v日本| 欧美色图亚洲天堂| 国内精品久久人妻无码大片| 国产成人精品日本亚洲蜜芽TV| 尤物在线免费视频| 久久av无码αv高潮αv喷吹| 久久久久亚洲AV无码专区网站| 成人又黄又爽又色的视频| 伊人丁香婷婷综合一区二区|