AI繪畫入門:Stable Diffusion與Midjourney零基礎完全指南

AI繪畫入門:Stable Diffusion與Midjourney零基礎完全指南

2025/12/5
13 分鐘閱讀
0 次瀏覽
AI繪畫入門:Stable Diffusion與Midjourney零基礎完全指南

從零開始學AI繪畫:Stable Diffusion與Midjourney新手入門完全指南

教學概述#

本教學旨在為零基礎的初學者提供一份詳盡的AI繪畫入門指南,重點介紹Stable Diffusion和Midjourney這兩款當前最流行的AI繪畫工具。教學的目標是幫助讀者快速掌握AI繪畫的基本原理和操作方法,能夠獨立生成高品質的圖像作品。

本教學適用於對AI繪畫感興趣,但缺乏相關經驗的初學者。無論您是設計師、藝術家,還是僅僅對AI技術充滿好奇,都可以透過本教學學習AI繪畫的基本技能。

透過本教學的學習,您將能夠:

  • 了解AI繪畫的基本概念和原理。
  • 掌握Stable Diffusion和Midjourney的安裝、配置和基本操作。
  • 學會使用提示詞(Prompt)來引導AI生成所需的圖像。
  • 掌握一些常用的圖像處理技巧,提升AI繪畫作品的品質。
  • 了解AI繪畫的倫理問題和發展趨勢。

我們將會一步步引導您,從環境配置到提示詞的編寫,再到後期處理,最終讓您能夠創作出令人驚豔的AI藝術作品。即使您沒有任何程式設計或藝術基礎,也能輕鬆上手。

前置準備#

在開始AI繪畫之旅前,我們需要做一些準備工作。這包括所需的工具、環境配置以及一些基礎知識的儲備。這些準備工作能夠確保您在後續的學習過程中更加順利。

所需工具#

  • 一台電腦: 建議配置至少8GB記憶體,顯卡最好是NVIDIA GPU(至少4GB顯存),這對於Stable Diffusion的運行至關重要。Midjourney在Discord上運行,對電腦配置要求較低。
  • Stable Diffusion: 需要下載Stable Diffusion的安裝包,通常是WebUI版本,例如AUTOMATIC1111的Stable Diffusion web UI。
  • Midjourney: 需要註冊Discord帳號,並加入Midjourney的官方伺服器。
  • 圖像處理軟體: 例如Photoshop、GIMP等,用於對生成的圖像進行後期處理。
  • VPN(可選): 如果您所在的地區訪問某些網站或服務受限,可能需要使用VPN。

環境配置#

  • 安裝Python: Stable Diffusion依賴Python環境,建議安裝Python 3.10版本。
  • 安裝Git: 用於從GitHub上下載Stable Diffusion的WebUI。
  • 安裝CUDA Toolkit(可選): 如果您的電腦有NVIDIA GPU,安裝CUDA Toolkit可以顯著提升Stable Diffusion的運行速度。
  • 下載Stable Diffusion模型: 需要下載Stable Diffusion的模型檔案,例如SD v1.5、SDXL等。這些模型檔案通常很大,需要耐心等待下載完成。
  • 配置Stable Diffusion WebUI: 將下載的模型檔案放入正確的資料夾,並根據您的電腦配置修改WebUI的啟動參數。

基礎知識#

  • 提示詞(Prompt): 提示詞是引導AI生成圖像的關鍵,需要用簡潔明瞭的語言描述您想要生成的圖像內容、風格和細節。
  • Stable Diffusion參數: 了解Stable Diffusion的常用參數,例如採樣方法、採樣步數、CFG Scale等,可以幫助您更好地控制圖像的生成過程。
  • 圖像處理基礎: 了解一些基本的圖像處理概念,例如解析度、色彩模式、圖層等,可以幫助您更好地進行後期處理。
  • Discord使用: 熟悉Discord的基本操作,例如加入伺服器、發送訊息、使用指令等,是使用Midjourney的前提。

核心概念講解#

理解AI繪畫的核心概念是掌握這項技術的關鍵。以下是一些必須掌握的基本概念,它們將幫助您更好地理解Stable Diffusion和Midjourney的工作原理。

擴散模型(Diffusion Model)#

擴散模型是Stable Diffusion的核心技術。它透過一個正向擴散過程,逐漸將圖像變為隨機雜訊,然後再透過一個反向擴散過程,從雜訊中重建出圖像。這個過程類似於將圖像打碎成碎片,然後再將碎片拼湊起來。Stable Diffusion透過學習大量的圖像數據,掌握了從雜訊中重建圖像的能力。

提示詞工程(Prompt Engineering)#

提示詞是引導AI生成圖像的關鍵。一個好的提示詞可以清晰地表達您想要生成的圖像內容、風格和細節。提示詞工程是指透過設計和優化提示詞,來控制AI生成圖像的過程。這包括選擇合適的關鍵詞、調整關鍵詞的順序、使用修飾詞等。

採樣方法(Sampling Method)#

採樣方法決定了Stable Diffusion如何從雜訊中重建圖像。不同的採樣方法會產生不同的圖像效果。常用的採樣方法包括Euler a、DPM++ 2M Karras等。每種採樣方法都有其優缺點,需要根據具體的圖像生成需求進行選擇。

採樣步數(Sampling Steps)#

採樣步數是指Stable Diffusion進行反向擴散的次數。採樣步數越多,圖像的細節就越豐富,但同時也會增加計算量和生成時間。通常情況下,20-50步是一個比較合適的範圍。

CFG Scale#

CFG Scale(Classifier-Free Guidance Scale)控制了AI對提示詞的遵循程度。CFG Scale越大,AI就越會按照提示詞的要求生成圖像,但同時也可能導致圖像失真。通常情況下,7-12是一個比較合適的範圍。

潛在空間(Latent Space)#

Stable Diffusion不是直接在像素空間中進行圖像生成,而是在一個低維的潛在空間中進行。這樣做可以大大減少計算量,並提高圖像生成的效率。潛在空間可以理解為圖像的一種壓縮表示,它保留了圖像的主要特徵,但去除了冗餘資訊。

文生圖(Text-to-Image)#

文生圖是指透過輸入一段文字描述,讓AI生成相應的圖像。Stable Diffusion和Midjourney都是文生圖模型。文生圖技術是AI繪畫的核心,它使得人們可以透過簡單的文字描述,創造出各種各樣的圖像作品。

步驟一:Stable Diffusion WebUI安裝與配置#

本章節將詳細介紹如何在本地安裝和配置Stable Diffusion WebUI,讓您能夠順利運行Stable Diffusion並開始您的AI繪畫之旅。我們以AUTOMATIC1111的Stable Diffusion web UI為例進行講解。

下載Stable Diffusion WebUI#

  1. 安裝Git: 如果您尚未安裝Git,請先下載並安裝Git。Git是一個版本控制系統,用於從GitHub上下載Stable Diffusion WebUI。

  2. 克隆倉庫: 打開命令行終端,輸入以下命令,將Stable Diffusion WebUI的倉庫克隆到本地:

    git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
    

    這將在當前目錄下創建一個名為stable-diffusion-webui的資料夾,並將WebUI的所有檔案下載到該資料夾中。

  3. 切換到WebUI目錄: 使用cd命令切換到WebUI目錄:

    cd stable-diffusion-webui
    

安裝依賴#

  1. 運行安裝腳本: 在WebUI目錄下,運行webui-user.bat(Windows)或webui.sh(Linux/macOS)腳本。這個腳本會自動安裝Stable Diffusion WebUI所需的依賴,包括Python環境、各種Python庫等。

    • Windows: 雙擊 webui-user.bat 即可運行。
    • Linux/macOS: 在終端輸入 sh webui.sh 並回車。

    這個過程可能需要一段時間,具體取決於您的網路速度和電腦配置。請耐心等待,直到腳本運行完成。

下載模型檔案#

  1. 下載模型: 從Hugging Face等網站下載Stable Diffusion的模型檔案,例如sd-v1-5-full-ema.ckptsd_xl_base_1.0.safetensors。這些模型檔案通常很大,需要耐心等待下載完成。
  2. 放置模型檔案: 將下載的模型檔案放入stable-diffusion-webui/models/Stable-diffusion目錄下。

啟動WebUI#

  1. 運行啟動腳本: 再次運行webui-user.bat(Windows)或webui.sh(Linux/macOS)腳本。這將啟動Stable Diffusion WebUI。

    • Windows: 雙擊 webui-user.bat 即可運行。
    • Linux/macOS: 在終端輸入 sh webui.sh 並回車。
  2. 訪問WebUI: 打開瀏覽器,輸入http://127.0.0.1:7860,即可訪問Stable Diffusion WebUI。

注意事項#

  • 顯存不足: 如果您的電腦顯存不足,可能會遇到錯誤。您可以嘗試修改WebUI的啟動參數,例如添加--lowvram--medvram選項,以降低顯存佔用。
  • 網路問題: 在下載依賴和模型檔案時,可能會遇到網路問題。您可以嘗試使用VPN或更換鏡像源來解決。
  • 更新WebUI: 定期更新Stable Diffusion WebUI,可以獲得最新的功能和修復。您可以使用git pull命令來更新WebUI。

步驟二:Midjourney快速上手#

Midjourney是一款基於Discord的AI繪畫工具,使用起來非常簡單方便。本章節將介紹如何快速上手Midjourney,生成您的第一張AI藝術作品。

註冊Discord帳號並加入Midjourney伺服器#

  1. 註冊Discord帳號: 如果您還沒有Discord帳號,請訪問Discord官網(https://discord.com/)註冊一個帳號。
  2. 加入Midjourney伺服器: 訪問Midjourney官網(https://www.midjourney.com/),點擊“Join the Beta”按鈕,按照提示加入Midjourney的Discord伺服器。

使用Midjourney生成圖像#

  1. 進入新手頻道: 在Midjourney伺服器中,找到標有“#newbies”的頻道。這些頻道是專門為新手提供的,您可以在這裡嘗試生成圖像。
  2. 使用/imagine指令: 在聊天框中輸入/imagine,然後輸入您的提示詞。例如:/imagine a beautiful landscape with mountains and a lake
  3. 等待生成: Midjourney會根據您的提示詞生成四張圖像。這個過程可能需要幾分鐘時間。
  4. 選擇和放大圖像: 在生成的四張圖像下方,有U1、U2、U3、U4按鈕,分別對應放大第一張、第二張、第三張、第四張圖像。點擊相應的按鈕,即可放大您喜歡的圖像。
  5. 進行變體: 在生成的四張圖像下方,還有V1、V2、V3、V4按鈕,分別對應對第一張、第二張、第三張、第四張圖像進行變體。點擊相應的按鈕,Midjourney會生成與您選擇的圖像相似的四張新圖像。

常用指令#

  • /imagine: 根據提示詞生成圖像。
  • /info: 查看您的Midjourney帳號資訊,包括剩餘的生成次數。
  • /help: 查看Midjourney的幫助文檔。
  • /settings: 設置Midjourney的參數,例如風格、品質等。

注意事項#

  • 免費試用: Midjourney提供免費試用,但免費試用次數有限。如果您想繼續使用Midjourney,需要購買訂閱。
  • 提示詞技巧: 提示詞越詳細,生成的圖像就越符合您的預期。您可以嘗試使用不同的關鍵詞、修飾詞和風格描述來優化您的提示詞。
  • 社群互動: Midjourney的Discord伺服器是一個活躍的社群。您可以在這裡與其他用戶交流經驗、分享作品,並學習新的技巧。

步驟三:提示詞編寫技巧#

提示詞是AI繪畫的靈魂。一個好的提示詞能夠引導AI生成令人驚豔的作品,而一個糟糕的提示詞則可能導致令人失望的結果。本章節將介紹一些提示詞編寫的技巧,幫助您更好地駕馭AI繪畫。

提示詞的結構#

一個典型的提示詞通常包含以下幾個部分:

  • 主體(Subject): 您想要描繪的主要對象,例如人物、動物、風景等。
  • 環境(Environment): 主體所處的環境,例如室內、室外、城市、鄉村等。
  • 風格(Style): 圖像的風格,例如寫實、卡通、油畫、水彩等。
  • 光線(Lighting): 圖像的光線效果,例如日出、日落、夜晚、聚光燈等。
  • 細節(Details): 圖像的細節描述,例如顏色、材質、紋理等。
  • 藝術家(Artist): 模仿特定藝術家的風格,例如梵谷、莫內、達芬奇等。

提示詞的編寫技巧#

  • 使用簡潔明瞭的語言: 避免使用過於複雜或含糊不清的詞語。
  • 使用具體的描述: 盡量使用具體的描述,例如“一隻黑色的貓坐在紅色的沙發上”,而不是“一隻貓坐在沙發上”。
  • 使用修飾詞: 使用修飾詞可以增強提示詞的表達力,例如“一隻可愛的黑色的貓坐在舒適的紅色的沙發上”。
  • 使用權重: 您可以使用權重來強調某些關鍵詞的重要性。例如,在Stable Diffusion中,您可以使用(關鍵詞:1.5)來增加關鍵詞的權重。
  • 使用負面提示詞: 使用負面提示詞可以避免AI生成您不想要的內容。例如,在Stable Diffusion中,您可以使用negative prompt: blurry, ugly, distorted來避免生成模糊、醜陋或扭曲的圖像。
  • 參考其他作品: 您可以參考其他藝術作品或攝影作品,從中汲取靈感,並將其轉化為提示詞。
  • 不斷嘗試和調整: 提示詞的編寫是一個不斷嘗試和調整的過程。您需要根據生成的圖像效果,不斷優化您的提示詞。

示例#

以下是一些提示詞的示例:

  • a portrait of a young woman with long hair, realistic, soft lighting, detailed face, by Artgerm and Alphonse Mucha
  • a futuristic city at night, neon lights, cyberpunk style, detailed architecture, by Syd Mead
  • a landscape painting of a forest in autumn, vibrant colors, impressionistic style, by Claude Monet
  • a cute cartoon character of a cat, big eyes, smiling face, colorful background

提示詞工具#

  • Lexica.art: 一個強大的提示詞搜索引擎,可以幫助您找到靈感。
  • PromptBase: 一個提示詞市場,您可以在這裡購買或出售提示詞。

步驟四:常用參數調整與優化#

Stable Diffusion擁有眾多參數,理解並掌握這些參數的調整,能夠幫助您更好地控制圖像生成的過程,從而獲得更符合您預期的結果。本章節將介紹一些常用的參數,以及如何調整和優化這些參數。

採樣方法(Sampling Method)#

  • Euler a: 一種快速且高效的採樣方法,適合生成風格化的圖像。
  • DPM++ 2M Karras: 一種高品質的採樣方法,適合生成細節豐富的圖像。
  • LMS: 一種較為穩定的採樣方法,適合生成寫實的圖像。

選擇合適的採樣方法取決於您想要生成的圖像風格和品質。一般来说,DPM++ 2M Karras是最好的選擇,但如果您的電腦配置較低,可以嘗試使用Euler a。

採樣步數(Sampling Steps)#

採樣步數越多,圖像的細節就越豐富,但同時也會增加計算量和生成時間。通常情況下,20-50步是一個比較合適的範圍。對於簡單的圖像,20步可能就足夠了,但對於複雜的圖像,可能需要50步或更多。

CFG Scale#

CFG Scale控制了AI對提示詞的遵循程度。CFG Scale越大,AI就越會按照提示詞的要求生成圖像,但同時也可能導致圖像失真。通常情況下,7-12是一個比較合適的範圍。如果您想要AI更自由地發揮,可以降低CFG Scale。

種子(Seed)#

種子決定了圖像生成的隨機性。使用相同的種子和提示詞,可以生成相同的圖像。這對於重複生成圖像或進行比較非常有用。如果您想要生成不同的圖像,可以更改種子。

解析度(Resolution)#

解析度決定了圖像的大小。解析度越高,圖像的細節就越豐富,但同時也會增加計算量。通常情況下,512x512或768x768是一個比較合適的

AI繪畫入門:Stable Diffusion與Midjourney零基礎完全指南 | EndTo.AI