密蘇里大學許東：大模型時代，Prompt 為生物信息學研究帶來新動力丨IJAIRR

本文作者：岑大師

2024-07-28 09:58

導語：在生物信息學領域，Prompt不再是煉金術。

自ChatGPT在2022年橫空出世，人工智能領域便迎來了一場新的革命。大語言模型（LLMs）以其卓越的文本處理能力，迅速成為研究者和開發者的新寵。隨著這些模型的崛起，如何與它們有效交互的問題也日益凸顯，提示詞（Prompt）的概念逐漸成為研究的熱點。

但什么是提示詞？在早期的計算機交互中，提示詞是指在提示符（如MS Dos的C:>或Python的>>>）左側，用戶輸入以激發系統做出響應的指令。而在大模型的語境中，提示詞則是一種引導性的語句或問題，它猶如魔法咒語，激發著大語言模型的潛能，引導它們按照我們的指令生成文本、回答問題或執行任務。

在與大語言模型的互動中，提示詞就像是一把打開知識寶庫的鑰匙。它不僅是一座溝通的橋梁，更是挖掘語言模型深層潛力的工具。ChatGPT的創始人Sam Altman將提示詞工程（Prompt Engineering）視為一種用自然語言編程的黑科技，認為這是一種能夠帶來高回報的技能。

能否讓ChatGPT或其他大語言模型給出滿意的答案，很大程度上取決于你如何巧妙地使用提示詞。隨著人工智能生成內容（AIGC）時代的到來，提示詞的價值和重要性愈發凸顯。

然而，Prompt技術的復雜性遠超我們的想象。早期的研究者們在探索Prompt技術時，仿佛是在進行一場煉金術式的探索，充滿了不確定性和偶然性。他們通過不斷嘗試不同的提示詞，試圖找到能夠激發大語言模型最佳表現的“魔法咒語”。這種方法雖然在某些情況下能夠奏效，但卻缺乏系統性和可復制性。

為了讓Prompt技術更進一步，它必須經歷一場“從煉金術到化學”的系統發展過程。這意味著我們需要將Prompt技術從一種基于經驗的技藝，轉變為一門基于科學原理的工程學科。這需要對現有的Prompt技術進行深入的分析和總結，建立起一套完整的理論體系和方法論。

例如：不同的提示詞是如何影響大語言模型的理解和生成的？在不同的應用場景下，應該以什么樣的原則，去設計和優化提示詞？近日，相關論文之一《Iterative Prompt Refinement for Mining Gene Relationships from ChatGPT》，上線期刊《International Journal of Artificial Intelligence and Robotics Research》（IJAIRR）。

該論文聚焦于大語言模型在生物信息學領域的應用，主要研究了如何利用大型語言模型（如ChatGPT）來挖掘基因關系，并提出了一種迭代提示優化技術來提高預測基因關系的準確性。論文為生物信息學研究者使用ChatGPT改善工作流程、提高工作效率提供了一種新的思路。

借論文上線，密蘇里大學哥倫比亞分校計算機系許東教授向雷峰網(公眾號：雷峰網)-AI科技評論分享了人工智能大型模型在生命科學領域的影響，以及他對如何更好地將大型語言模型應用于生物信息學研究的思考。

密蘇里大學許東：大模型時代，Prompt 為生物信息學研究帶來新動力丨IJAIRR

論文鏈接：https://gairdao.com/doi/10.1142/S2972335324500054

論文引用鏈接：https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500054&area=0000000000000001

生物信息學：迎接第二次繁榮期

回望上個世紀90年代，那是一個被形象地稱為生物信息學研究的“寒武紀”時期。人類基因組計劃的啟動、全球蛋白質結構預測競賽的舉辦，以及生物學信息量的爆炸性增長，加之信息技術的跨時代發展，共同為生物信息學帶來了第一次黃金時代，使其成為當時的前沿學科之一。如今，隨著人工智能技術的突破，特別是AI大模型在生物信息學中的應用，我們有望迎來生物信息學的第二個繁榮期。

許東教授正是上世紀90年代生物信息學黃金期的親歷者之一。他指出，在生命科學領域，人工智能大型模型的應用已經變得日益廣泛，其應用主要集中在以下幾個方面：

蛋白質模型：通過利用蛋白質序列訓練出的大模型，可以進行各種蛋白質預測任務，包括新蛋白質的設計；

單細胞模型：單細胞數據量巨大，通常一個單細胞實驗就涉及數千到數百萬個細胞。基于單細胞轉錄組數據訓練的大模型，能夠進行大規模的單細胞數據分析；

醫學多模態模型：通過整合醫學文本（如病歷、醫生筆記）、圖像和其他檢查報告等多種數據類型，訓練出的大模型，可以用于醫學數據分析；

除了上述三個主要領域外，其他如核酸定位、蛋白質與DNA/RNA的相互作用等方面，也有研究者在開發相應的大模型。這些應用場景能夠輔助生物信息學家以更快、更精確的方式處理生物信息學問題，從而提升研究效率并降低成本。

然而，盡管AI大模型在生物信息學領域的應用已經取得了一定的進展，但大模型在生物信息學領域的應用目前仍處于早期發展階段，并存在著許多挑戰。首先遇到的一個問題是，AI大模型需要大量高質量的生物信息學數據，但這些數據的質量和完整性可能存在問題；同時目前AI大模型的解釋性和可解釋性可能存在問題，“幻覺”的存在嚴重影響著研究的可靠性。

如何解決上述問題，讓AI大模型在生物信息學研究中發揮更大作用？許東告訴雷峰網-AI科技評論，Prompt技術為生物信息學領域提供了一種靈活且易于實施的方法，尤其在數據資源有限的情況下，Prompt技術仍可能成為主流方法之一。

用提示學習提升AI模型的精準度

在機器學習領域，將Prompt從“基于經驗”轉變為“基于科學原理”的做法被稱為“提示學習”。聊天機器人之所以在很大程度上依賴于提示，是因為ChatGPT的預訓練模型中存在大量知識，為了更好地利用這些知識和能力，OpenAI采用了基于人類反饋強化學習（RLHF）方法，通過人類輸入來“比對”語言從而達到人機交互的目的。因此，必須仔細設計聊天機器人的提示，以獲得有價值、準確和穩健的響應。

提示學習的核心在于將用戶輸入的文本轉化為特定的提示（prompt）格式。這一過程通常包括兩種模式：第一種是自編碼模式，采用文本中間占位符的自然語言模板，讓大模型在指定占位符讓生成答案文本。第二種是自回歸模式，給大模型提供問題與背景信息，讓大模型自由發揮生成答案文本。這些方法實質上是為預訓練語言模型設計任務，包括輸入模板、標簽樣式以及模型輸出與標簽的對應關系。

論文的研究正是在此基礎上，將自回歸模式的提示學習用于復雜的生物信息學場景中，并利用迭代提示優化、思維鏈等技術，通過與ChatGPT的交互，逐步優化提示，以提高預測基因關系的準確性。

密蘇里大學許東：大模型時代，Prompt 為生物信息學研究帶來新動力丨IJAIRR

（利用 GPT 模型進行基因關系挖掘的迭代提示細化框架。該方法利用 GPT-4 的高級邏輯能力來自主改進提示，并利用 GPT-3.5 的低成本和高速進行初始基于事實的查詢處理。）

這項工作的關鍵點之一是元提示設計（Meta-Prompt Design）：元提示為對話機器人設定角色，提示來指導GPT-4進行提示優化，增強回答的專業性。元提示包含具體指令，如改變角色、省略細節等，以提高提示的有效性。

另一關鍵點則是迭代優化技術的引入，利用GPT-4的能力進行迭代提示優化。首先使用GPT-3.5生成基因關系提示，然后評估這些提示的效果（如F-1分數、精確度和召回率）；將預測結果與實際數據（如KEGG數據庫）進行比較，識別錯誤和不足，然后將這些反饋信息用于進一步優化提示；最后將優化后的模型應用于KEGG Pathway Database進行基準測試，以驗證其在解析復雜基因關系和疾病相關途徑方面的有效性。

此外，論文還引入了思維鏈（Chain-of-Thought）和思維樹（Tree-of-Thought）策略，引導ChatGPT進行更深入的邏輯推理，提高答案的準確性和深度；同時將復雜問題分解為更易于管理的子問題序列，逐步引導ChatGPT構建更完整的答案，這種方法特別適用于復雜的基因關系網絡構建。

實驗結果表明，通過迭代提示優化技術，ChatGPT在預測基因關系方面的準確性顯著提高。特別是在復雜基因關系和疾病相關途徑的解析中，展示了其潛力和有效性。

生物信息學研究的新動力

“Prompt技術在生物信息學領域具有顯著的優勢。”許東告訴AI科技評論，首先，Prompt技術的數據需求低，不需要大量的數據即可進行訓練，因此在小數據集上表現出色。這對于生物信息學領域尤為重要，因為許多生物醫學數據集規模有限；其次，由于是在大型預訓練模型的基礎上進行操作，Prompt技術易于實施和應用；最后，生物信息學中許多問題本質上是小數據問題，Prompt技術因此具有廣泛的應用前景和場景。

在解釋迭代提示優化技術如何有效解決大型語言模型中的“幻覺”問題時，許東認為，不僅僅是大型語言模型，人類自身在某些情況下也會出現類似的“幻覺”現象。例如，人們可能會錯誤地回憶某些事件的細節，這并非有意誤導，而是記憶出現了偏差。

大型語言模型的“幻覺”原因大致可分為三類：1）誤解用戶問題；2）訓練數據的混淆導致生成回答時出現混淆；3）缺乏反思能力，未能有效識別和糾正自身的錯誤。而迭代提示優化技術正是針對這三類原因對癥下藥，通過迭代優化，模型能夠更準確地理解用戶的問題和提示，減少誤解；同時增強知識概括，有助于模型更好地概括和區分訓練數據中的知識，避免信息混淆；最后，迭代優化使模型具備更強的、類似于人類的思考過程自我反思能力，能夠識別并改進生成的回答。

與傳統方法相比，迭代提示優化技術通過模擬人類的學習和思考過程，使模型在處理復雜問題時更為高效和協調。這種方法比傳統的基于規則的系統更具靈活性和適應性，能夠處理更廣泛的任務和數據類型。因此，通過這種方法，大型語言模型在生成回答時的準確性和可靠性得到了顯著提升，減少了“幻覺”現象的發生，從而在生物信息學等領域展現出更大的應用潛力。

許東同時還表示，盡管Prompt技術的應用前景廣闊，但其自身也存在一定的局限性，如高度依賴于訓練數據的質量和代表性、泛化能力受限等，同時在論文中許東也提到，模型的性能波動和對訓練數據的敏感性表明需要進一步的優化和迭代策略。未來的工作可能包括模型定制、更先進的迭代提示算法開發以及在更廣泛的研究問題中評估方法的有效性。

“雖然并非所有問題都適合這種方法，但可能相當比例的問題，可能通過大模型和Prompt技術得到更準確的解決方案。”談及Prompt技術在生物信息學領域的未來潛力，許東充滿信心。“大模型在很多領域還有著很大的優化空間，例如現在缺乏專門的生物信息學的大模型，而隨著大模型的發展，Prompt技術將在這些模型上發揮更大的作用。”

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

岑大師

發私信

當月熱門文章