AI繪畫入門:Stable Diffusion與Midjourney零基礎完全指南
從零開始學AI繪畫:Stable Diffusion與Midjourney新手入門完全指南
教學概述#
本教學旨在為零基礎的初學者提供一份詳盡的AI繪畫入門指南,重點介紹Stable Diffusion和Midjourney這兩款當前最流行的AI繪畫工具。教學的目標是幫助讀者快速掌握AI繪畫的基本原理和操作方法,能夠獨立生成高品質的圖像作品。
本教學適用於對AI繪畫感興趣,但缺乏相關經驗的初學者。無論您是設計師、藝術家,還是僅僅對AI技術充滿好奇,都可以透過本教學學習AI繪畫的基本技能。
透過本教學的學習,您將能夠:
- 了解AI繪畫的基本概念和原理。
- 掌握Stable Diffusion和Midjourney的安裝、配置和基本操作。
- 學會使用提示詞(Prompt)來引導AI生成所需的圖像。
- 掌握一些常用的圖像處理技巧,提升AI繪畫作品的品質。
- 了解AI繪畫的倫理問題和發展趨勢。
我們將會一步步引導您,從環境配置到提示詞的編寫,再到後期處理,最終讓您能夠創作出令人驚豔的AI藝術作品。即使您沒有任何程式設計或藝術基礎,也能輕鬆上手。
前置準備#
在開始AI繪畫之旅前,我們需要做一些準備工作。這包括所需的工具、環境配置以及一些基礎知識的儲備。這些準備工作能夠確保您在後續的學習過程中更加順利。
所需工具#
- 一台電腦: 建議配置至少8GB記憶體,顯卡最好是NVIDIA GPU(至少4GB顯存),這對於Stable Diffusion的運行至關重要。Midjourney在Discord上運行,對電腦配置要求較低。
- Stable Diffusion: 需要下載Stable Diffusion的安裝包,通常是WebUI版本,例如AUTOMATIC1111的Stable Diffusion web UI。
- Midjourney: 需要註冊Discord帳號,並加入Midjourney的官方伺服器。
- 圖像處理軟體: 例如Photoshop、GIMP等,用於對生成的圖像進行後期處理。
- VPN(可選): 如果您所在的地區訪問某些網站或服務受限,可能需要使用VPN。
環境配置#
- 安裝Python: Stable Diffusion依賴Python環境,建議安裝Python 3.10版本。
- 安裝Git: 用於從GitHub上下載Stable Diffusion的WebUI。
- 安裝CUDA Toolkit(可選): 如果您的電腦有NVIDIA GPU,安裝CUDA Toolkit可以顯著提升Stable Diffusion的運行速度。
- 下載Stable Diffusion模型: 需要下載Stable Diffusion的模型檔案,例如SD v1.5、SDXL等。這些模型檔案通常很大,需要耐心等待下載完成。
- 配置Stable Diffusion WebUI: 將下載的模型檔案放入正確的資料夾,並根據您的電腦配置修改WebUI的啟動參數。
基礎知識#
- 提示詞(Prompt): 提示詞是引導AI生成圖像的關鍵,需要用簡潔明瞭的語言描述您想要生成的圖像內容、風格和細節。
- Stable Diffusion參數: 了解Stable Diffusion的常用參數,例如採樣方法、採樣步數、CFG Scale等,可以幫助您更好地控制圖像的生成過程。
- 圖像處理基礎: 了解一些基本的圖像處理概念,例如解析度、色彩模式、圖層等,可以幫助您更好地進行後期處理。
- Discord使用: 熟悉Discord的基本操作,例如加入伺服器、發送訊息、使用指令等,是使用Midjourney的前提。
核心概念講解#
理解AI繪畫的核心概念是掌握這項技術的關鍵。以下是一些必須掌握的基本概念,它們將幫助您更好地理解Stable Diffusion和Midjourney的工作原理。
擴散模型(Diffusion Model)#
擴散模型是Stable Diffusion的核心技術。它透過一個正向擴散過程,逐漸將圖像變為隨機雜訊,然後再透過一個反向擴散過程,從雜訊中重建出圖像。這個過程類似於將圖像打碎成碎片,然後再將碎片拼湊起來。Stable Diffusion透過學習大量的圖像數據,掌握了從雜訊中重建圖像的能力。
提示詞工程(Prompt Engineering)#
提示詞是引導AI生成圖像的關鍵。一個好的提示詞可以清晰地表達您想要生成的圖像內容、風格和細節。提示詞工程是指透過設計和優化提示詞,來控制AI生成圖像的過程。這包括選擇合適的關鍵詞、調整關鍵詞的順序、使用修飾詞等。
採樣方法(Sampling Method)#
採樣方法決定了Stable Diffusion如何從雜訊中重建圖像。不同的採樣方法會產生不同的圖像效果。常用的採樣方法包括Euler a、DPM++ 2M Karras等。每種採樣方法都有其優缺點,需要根據具體的圖像生成需求進行選擇。
採樣步數(Sampling Steps)#
採樣步數是指Stable Diffusion進行反向擴散的次數。採樣步數越多,圖像的細節就越豐富,但同時也會增加計算量和生成時間。通常情況下,20-50步是一個比較合適的範圍。
CFG Scale#
CFG Scale(Classifier-Free Guidance Scale)控制了AI對提示詞的遵循程度。CFG Scale越大,AI就越會按照提示詞的要求生成圖像,但同時也可能導致圖像失真。通常情況下,7-12是一個比較合適的範圍。
潛在空間(Latent Space)#
Stable Diffusion不是直接在像素空間中進行圖像生成,而是在一個低維的潛在空間中進行。這樣做可以大大減少計算量,並提高圖像生成的效率。潛在空間可以理解為圖像的一種壓縮表示,它保留了圖像的主要特徵,但去除了冗餘資訊。
文生圖(Text-to-Image)#
文生圖是指透過輸入一段文字描述,讓AI生成相應的圖像。Stable Diffusion和Midjourney都是文生圖模型。文生圖技術是AI繪畫的核心,它使得人們可以透過簡單的文字描述,創造出各種各樣的圖像作品。
步驟一:Stable Diffusion WebUI安裝與配置#
本章節將詳細介紹如何在本地安裝和配置Stable Diffusion WebUI,讓您能夠順利運行Stable Diffusion並開始您的AI繪畫之旅。我們以AUTOMATIC1111的Stable Diffusion web UI為例進行講解。
下載Stable Diffusion WebUI#
-
安裝Git: 如果您尚未安裝Git,請先下載並安裝Git。Git是一個版本控制系統,用於從GitHub上下載Stable Diffusion WebUI。
-
克隆倉庫: 打開命令行終端,輸入以下命令,將Stable Diffusion WebUI的倉庫克隆到本地:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git這將在當前目錄下創建一個名為
stable-diffusion-webui的資料夾,並將WebUI的所有檔案下載到該資料夾中。 -
切換到WebUI目錄: 使用
cd命令切換到WebUI目錄:cd stable-diffusion-webui
安裝依賴#
-
運行安裝腳本: 在WebUI目錄下,運行
webui-user.bat(Windows)或webui.sh(Linux/macOS)腳本。這個腳本會自動安裝Stable Diffusion WebUI所需的依賴,包括Python環境、各種Python庫等。- Windows: 雙擊
webui-user.bat即可運行。 - Linux/macOS: 在終端輸入
sh webui.sh並回車。
這個過程可能需要一段時間,具體取決於您的網路速度和電腦配置。請耐心等待,直到腳本運行完成。
- Windows: 雙擊
下載模型檔案#
- 下載模型: 從Hugging Face等網站下載Stable Diffusion的模型檔案,例如
sd-v1-5-full-ema.ckpt或sd_xl_base_1.0.safetensors。這些模型檔案通常很大,需要耐心等待下載完成。 - 放置模型檔案: 將下載的模型檔案放入
stable-diffusion-webui/models/Stable-diffusion目錄下。
啟動WebUI#
-
運行啟動腳本: 再次運行
webui-user.bat(Windows)或webui.sh(Linux/macOS)腳本。這將啟動Stable Diffusion WebUI。- Windows: 雙擊
webui-user.bat即可運行。 - Linux/macOS: 在終端輸入
sh webui.sh並回車。
- Windows: 雙擊
-
訪問WebUI: 打開瀏覽器,輸入
http://127.0.0.1:7860,即可訪問Stable Diffusion WebUI。
注意事項#
- 顯存不足: 如果您的電腦顯存不足,可能會遇到錯誤。您可以嘗試修改WebUI的啟動參數,例如添加
--lowvram或--medvram選項,以降低顯存佔用。 - 網路問題: 在下載依賴和模型檔案時,可能會遇到網路問題。您可以嘗試使用VPN或更換鏡像源來解決。
- 更新WebUI: 定期更新Stable Diffusion WebUI,可以獲得最新的功能和修復。您可以使用
git pull命令來更新WebUI。
步驟二:Midjourney快速上手#
Midjourney是一款基於Discord的AI繪畫工具,使用起來非常簡單方便。本章節將介紹如何快速上手Midjourney,生成您的第一張AI藝術作品。
註冊Discord帳號並加入Midjourney伺服器#
- 註冊Discord帳號: 如果您還沒有Discord帳號,請訪問Discord官網(https://discord.com/)註冊一個帳號。
- 加入Midjourney伺服器: 訪問Midjourney官網(https://www.midjourney.com/),點擊“Join the Beta”按鈕,按照提示加入Midjourney的Discord伺服器。
使用Midjourney生成圖像#
- 進入新手頻道: 在Midjourney伺服器中,找到標有“#newbies”的頻道。這些頻道是專門為新手提供的,您可以在這裡嘗試生成圖像。
- 使用
/imagine指令: 在聊天框中輸入/imagine,然後輸入您的提示詞。例如:/imagine a beautiful landscape with mountains and a lake。 - 等待生成: Midjourney會根據您的提示詞生成四張圖像。這個過程可能需要幾分鐘時間。
- 選擇和放大圖像: 在生成的四張圖像下方,有U1、U2、U3、U4按鈕,分別對應放大第一張、第二張、第三張、第四張圖像。點擊相應的按鈕,即可放大您喜歡的圖像。
- 進行變體: 在生成的四張圖像下方,還有V1、V2、V3、V4按鈕,分別對應對第一張、第二張、第三張、第四張圖像進行變體。點擊相應的按鈕,Midjourney會生成與您選擇的圖像相似的四張新圖像。
常用指令#
/imagine: 根據提示詞生成圖像。/info: 查看您的Midjourney帳號資訊,包括剩餘的生成次數。/help: 查看Midjourney的幫助文檔。/settings: 設置Midjourney的參數,例如風格、品質等。
注意事項#
- 免費試用: Midjourney提供免費試用,但免費試用次數有限。如果您想繼續使用Midjourney,需要購買訂閱。
- 提示詞技巧: 提示詞越詳細,生成的圖像就越符合您的預期。您可以嘗試使用不同的關鍵詞、修飾詞和風格描述來優化您的提示詞。
- 社群互動: Midjourney的Discord伺服器是一個活躍的社群。您可以在這裡與其他用戶交流經驗、分享作品,並學習新的技巧。
步驟三:提示詞編寫技巧#
提示詞是AI繪畫的靈魂。一個好的提示詞能夠引導AI生成令人驚豔的作品,而一個糟糕的提示詞則可能導致令人失望的結果。本章節將介紹一些提示詞編寫的技巧,幫助您更好地駕馭AI繪畫。
提示詞的結構#
一個典型的提示詞通常包含以下幾個部分:
- 主體(Subject): 您想要描繪的主要對象,例如人物、動物、風景等。
- 環境(Environment): 主體所處的環境,例如室內、室外、城市、鄉村等。
- 風格(Style): 圖像的風格,例如寫實、卡通、油畫、水彩等。
- 光線(Lighting): 圖像的光線效果,例如日出、日落、夜晚、聚光燈等。
- 細節(Details): 圖像的細節描述,例如顏色、材質、紋理等。
- 藝術家(Artist): 模仿特定藝術家的風格,例如梵谷、莫內、達芬奇等。
提示詞的編寫技巧#
- 使用簡潔明瞭的語言: 避免使用過於複雜或含糊不清的詞語。
- 使用具體的描述: 盡量使用具體的描述,例如“一隻黑色的貓坐在紅色的沙發上”,而不是“一隻貓坐在沙發上”。
- 使用修飾詞: 使用修飾詞可以增強提示詞的表達力,例如“一隻可愛的黑色的貓坐在舒適的紅色的沙發上”。
- 使用權重: 您可以使用權重來強調某些關鍵詞的重要性。例如,在Stable Diffusion中,您可以使用
(關鍵詞:1.5)來增加關鍵詞的權重。 - 使用負面提示詞: 使用負面提示詞可以避免AI生成您不想要的內容。例如,在Stable Diffusion中,您可以使用
negative prompt: blurry, ugly, distorted來避免生成模糊、醜陋或扭曲的圖像。 - 參考其他作品: 您可以參考其他藝術作品或攝影作品,從中汲取靈感,並將其轉化為提示詞。
- 不斷嘗試和調整: 提示詞的編寫是一個不斷嘗試和調整的過程。您需要根據生成的圖像效果,不斷優化您的提示詞。
示例#
以下是一些提示詞的示例:
a portrait of a young woman with long hair, realistic, soft lighting, detailed face, by Artgerm and Alphonse Muchaa futuristic city at night, neon lights, cyberpunk style, detailed architecture, by Syd Meada landscape painting of a forest in autumn, vibrant colors, impressionistic style, by Claude Moneta cute cartoon character of a cat, big eyes, smiling face, colorful background
提示詞工具#
- Lexica.art: 一個強大的提示詞搜索引擎,可以幫助您找到靈感。
- PromptBase: 一個提示詞市場,您可以在這裡購買或出售提示詞。
步驟四:常用參數調整與優化#
Stable Diffusion擁有眾多參數,理解並掌握這些參數的調整,能夠幫助您更好地控制圖像生成的過程,從而獲得更符合您預期的結果。本章節將介紹一些常用的參數,以及如何調整和優化這些參數。
採樣方法(Sampling Method)#
- Euler a: 一種快速且高效的採樣方法,適合生成風格化的圖像。
- DPM++ 2M Karras: 一種高品質的採樣方法,適合生成細節豐富的圖像。
- LMS: 一種較為穩定的採樣方法,適合生成寫實的圖像。
選擇合適的採樣方法取決於您想要生成的圖像風格和品質。一般来说,DPM++ 2M Karras是最好的選擇,但如果您的電腦配置較低,可以嘗試使用Euler a。
採樣步數(Sampling Steps)#
採樣步數越多,圖像的細節就越豐富,但同時也會增加計算量和生成時間。通常情況下,20-50步是一個比較合適的範圍。對於簡單的圖像,20步可能就足夠了,但對於複雜的圖像,可能需要50步或更多。
CFG Scale#
CFG Scale控制了AI對提示詞的遵循程度。CFG Scale越大,AI就越會按照提示詞的要求生成圖像,但同時也可能導致圖像失真。通常情況下,7-12是一個比較合適的範圍。如果您想要AI更自由地發揮,可以降低CFG Scale。
種子(Seed)#
種子決定了圖像生成的隨機性。使用相同的種子和提示詞,可以生成相同的圖像。這對於重複生成圖像或進行比較非常有用。如果您想要生成不同的圖像,可以更改種子。
解析度(Resolution)#
解析度決定了圖像的大小。解析度越高,圖像的細節就越豐富,但同時也會增加計算量。通常情況下,512x512或768x768是一個比較合適的