AI绘画入门:Stable Diffusion与Midjourney零基础完全指南

AI绘画入门:Stable Diffusion与Midjourney零基础完全指南

2025/12/5
13 分钟阅读
0 次浏览
AI绘画入门:Stable Diffusion与Midjourney零基础完全指南

从零开始学AI绘画:Stable Diffusion与Midjourney新手入门完全指南

教程概述#

本教程旨在为零基础的初学者提供一份详尽的AI绘画入门指南,重点介绍Stable Diffusion和Midjourney这两款当前最流行的AI绘画工具。教程的目标是帮助读者快速掌握AI绘画的基本原理和操作方法,能够独立生成高质量的图像作品。

本教程适用于对AI绘画感兴趣,但缺乏相关经验的初学者。无论您是设计师、艺术家,还是仅仅对AI技术充满好奇,都可以通过本教程学习AI绘画的基本技能。

通过本教程的学习,您将能够:

  • 了解AI绘画的基本概念和原理。
  • 掌握Stable Diffusion和Midjourney的安装、配置和基本操作。
  • 学会使用提示词(Prompt)来引导AI生成所需的图像。
  • 掌握一些常用的图像处理技巧,提升AI绘画作品的质量。
  • 了解AI绘画的伦理问题和发展趋势。

我们将会一步步引导您,从环境配置到提示词的编写,再到后期处理,最终让您能够创作出令人惊艳的AI艺术作品。即使您没有任何编程或艺术基础,也能轻松上手。

前置准备#

在开始AI绘画之旅前,我们需要做一些准备工作。这包括所需的工具、环境配置以及一些基础知识的储备。这些准备工作能够确保您在后续的学习过程中更加顺利。

所需工具#

  • 一台电脑: 建议配置至少8GB内存,显卡最好是NVIDIA GPU(至少4GB显存),这对于Stable Diffusion的运行至关重要。Midjourney在Discord上运行,对电脑配置要求较低。
  • Stable Diffusion: 需要下载Stable Diffusion的安装包,通常是WebUI版本,例如AUTOMATIC1111的Stable Diffusion web UI。
  • Midjourney: 需要注册Discord账号,并加入Midjourney的官方服务器。
  • 图像处理软件: 例如Photoshop、GIMP等,用于对生成的图像进行后期处理。
  • VPN(可选): 如果您所在的地区访问某些网站或服务受限,可能需要使用VPN。

环境配置#

  • 安装Python: Stable Diffusion依赖Python环境,建议安装Python 3.10版本。
  • 安装Git: 用于从GitHub上下载Stable Diffusion的WebUI。
  • 安装CUDA Toolkit(可选): 如果您的电脑有NVIDIA GPU,安装CUDA Toolkit可以显著提升Stable Diffusion的运行速度。
  • 下载Stable Diffusion模型: 需要下载Stable Diffusion的模型文件,例如SD v1.5、SDXL等。这些模型文件通常很大,需要耐心等待下载完成。
  • 配置Stable Diffusion WebUI: 将下载的模型文件放入正确的文件夹,并根据您的电脑配置修改WebUI的启动参数。

基础知识#

  • 提示词(Prompt): 提示词是引导AI生成图像的关键,需要用简洁明了的语言描述您想要生成的图像内容、风格和细节。
  • Stable Diffusion参数: 了解Stable Diffusion的常用参数,例如采样方法、采样步数、CFG Scale等,可以帮助您更好地控制图像的生成过程。
  • 图像处理基础: 了解一些基本的图像处理概念,例如分辨率、色彩模式、图层等,可以帮助您更好地进行后期处理。
  • Discord使用: 熟悉Discord的基本操作,例如加入服务器、发送消息、使用指令等,是使用Midjourney的前提。

核心概念讲解#

理解AI绘画的核心概念是掌握这项技术的关键。以下是一些必须掌握的基本概念,它们将帮助您更好地理解Stable Diffusion和Midjourney的工作原理。

扩散模型(Diffusion Model)#

扩散模型是Stable Diffusion的核心技术。它通过一个正向扩散过程,逐渐将图像变为随机噪声,然后再通过一个反向扩散过程,从噪声中重建出图像。这个过程类似于将图像打碎成碎片,然后再将碎片拼凑起来。Stable Diffusion通过学习大量的图像数据,掌握了从噪声中重建图像的能力。

提示词工程(Prompt Engineering)#

提示词是引导AI生成图像的关键。一个好的提示词可以清晰地表达您想要生成的图像内容、风格和细节。提示词工程是指通过设计和优化提示词,来控制AI生成图像的过程。这包括选择合适的关键词、调整关键词的顺序、使用修饰词等。

采样方法(Sampling Method)#

采样方法决定了Stable Diffusion如何从噪声中重建图像。不同的采样方法会产生不同的图像效果。常用的采样方法包括Euler a、DPM++ 2M Karras等。每种采样方法都有其优缺点,需要根据具体的图像生成需求进行选择。

采样步数(Sampling Steps)#

采样步数是指Stable Diffusion进行反向扩散的次数。采样步数越多,图像的细节就越丰富,但同时也会增加计算量和生成时间。通常情况下,20-50步是一个比较合适的范围。

CFG Scale#

CFG Scale(Classifier-Free Guidance Scale)控制了AI对提示词的遵循程度。CFG Scale越大,AI就越会按照提示词的要求生成图像,但同时也可能导致图像失真。通常情况下,7-12是一个比较合适的范围。

潜在空间(Latent Space)#

Stable Diffusion不是直接在像素空间中进行图像生成,而是在一个低维的潜在空间中进行。这样做可以大大减少计算量,并提高图像生成的效率。潜在空间可以理解为图像的一种压缩表示,它保留了图像的主要特征,但去除了冗余信息。

文生图(Text-to-Image)#

文生图是指通过输入一段文字描述,让AI生成相应的图像。Stable Diffusion和Midjourney都是文生图模型。文生图技术是AI绘画的核心,它使得人们可以通过简单的文字描述,创造出各种各样的图像作品。

步骤一:Stable Diffusion WebUI安装与配置#

本章节将详细介绍如何在本地安装和配置Stable Diffusion WebUI,让您能够顺利运行Stable Diffusion并开始您的AI绘画之旅。我们以AUTOMATIC1111的Stable Diffusion web UI为例进行讲解。

下载Stable Diffusion WebUI#

  1. 安装Git: 如果您尚未安装Git,请先下载并安装Git。Git是一个版本控制系统,用于从GitHub上下载Stable Diffusion WebUI。

  2. 克隆仓库: 打开命令行终端,输入以下命令,将Stable Diffusion WebUI的仓库克隆到本地:

    git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
    

    这将在当前目录下创建一个名为stable-diffusion-webui的文件夹,并将WebUI的所有文件下载到该文件夹中。

  3. 切换到WebUI目录: 使用cd命令切换到WebUI目录:

    cd stable-diffusion-webui
    

安装依赖#

  1. 运行安装脚本: 在WebUI目录下,运行webui-user.bat(Windows)或webui.sh(Linux/macOS)脚本。这个脚本会自动安装Stable Diffusion WebUI所需的依赖,包括Python环境、各种Python库等。

    • Windows: 双击 webui-user.bat 即可运行。
    • Linux/macOS: 在终端输入 sh webui.sh 并回车。

    这个过程可能需要一段时间,具体取决于您的网络速度和电脑配置。请耐心等待,直到脚本运行完成。

下载模型文件#

  1. 下载模型: 从Hugging Face等网站下载Stable Diffusion的模型文件,例如sd-v1-5-full-ema.ckptsd_xl_base_1.0.safetensors。这些模型文件通常很大,需要耐心等待下载完成。
  2. 放置模型文件: 将下载的模型文件放入stable-diffusion-webui/models/Stable-diffusion目录下。

启动WebUI#

  1. 运行启动脚本: 再次运行webui-user.bat(Windows)或webui.sh(Linux/macOS)脚本。这将启动Stable Diffusion WebUI。

    • Windows: 双击 webui-user.bat 即可运行。
    • Linux/macOS: 在终端输入 sh webui.sh 并回车。
  2. 访问WebUI: 打开浏览器,输入http://127.0.0.1:7860,即可访问Stable Diffusion WebUI。

注意事项#

  • 显存不足: 如果您的电脑显存不足,可能会遇到错误。您可以尝试修改WebUI的启动参数,例如添加--lowvram--medvram选项,以降低显存占用。
  • 网络问题: 在下载依赖和模型文件时,可能会遇到网络问题。您可以尝试使用VPN或更换镜像源来解决。
  • 更新WebUI: 定期更新Stable Diffusion WebUI,可以获得最新的功能和修复。您可以使用git pull命令来更新WebUI。

步骤二:Midjourney快速上手#

Midjourney是一款基于Discord的AI绘画工具,使用起来非常简单方便。本章节将介绍如何快速上手Midjourney,生成您的第一张AI艺术作品。

注册Discord账号并加入Midjourney服务器#

  1. 注册Discord账号: 如果您还没有Discord账号,请访问Discord官网(https://discord.com/)注册一个账号。
  2. 加入Midjourney服务器: 访问Midjourney官网(https://www.midjourney.com/),点击“Join the Beta”按钮,按照提示加入Midjourney的Discord服务器。

使用Midjourney生成图像#

  1. 进入新手频道: 在Midjourney服务器中,找到标有“#newbies”的频道。这些频道是专门为新手提供的,您可以在这里尝试生成图像。
  2. 使用/imagine指令: 在聊天框中输入/imagine,然后输入您的提示词。例如:/imagine a beautiful landscape with mountains and a lake
  3. 等待生成: Midjourney会根据您的提示词生成四张图像。这个过程可能需要几分钟时间。
  4. 选择和放大图像: 在生成的四张图像下方,有U1、U2、U3、U4按钮,分别对应放大第一张、第二张、第三张、第四张图像。点击相应的按钮,即可放大您喜欢的图像。
  5. 进行变体: 在生成的四张图像下方,还有V1、V2、V3、V4按钮,分别对应对第一张、第二张、第三张、第四张图像进行变体。点击相应的按钮,Midjourney会生成与您选择的图像相似的四张新图像。

常用指令#

  • /imagine: 根据提示词生成图像。
  • /info: 查看您的Midjourney账号信息,包括剩余的生成次数。
  • /help: 查看Midjourney的帮助文档。
  • /settings: 设置Midjourney的参数,例如风格、质量等。

注意事项#

  • 免费试用: Midjourney提供免费试用,但免费试用次数有限。如果您想继续使用Midjourney,需要购买订阅。
  • 提示词技巧: 提示词越详细,生成的图像就越符合您的预期。您可以尝试使用不同的关键词、修饰词和风格描述来优化您的提示词。
  • 社区互动: Midjourney的Discord服务器是一个活跃的社区。您可以在这里与其他用户交流经验、分享作品,并学习新的技巧。

步骤三:提示词编写技巧#

提示词是AI绘画的灵魂。一个好的提示词能够引导AI生成令人惊艳的作品,而一个糟糕的提示词则可能导致令人失望的结果。本章节将介绍一些提示词编写的技巧,帮助您更好地驾驭AI绘画。

提示词的结构#

一个典型的提示词通常包含以下几个部分:

  • 主体(Subject): 您想要描绘的主要对象,例如人物、动物、风景等。
  • 环境(Environment): 主体所处的环境,例如室内、室外、城市、乡村等。
  • 风格(Style): 图像的风格,例如写实、卡通、油画、水彩等。
  • 光线(Lighting): 图像的光线效果,例如日出、日落、夜晚、聚光灯等。
  • 细节(Details): 图像的细节描述,例如颜色、材质、纹理等。
  • 艺术家(Artist): 模仿特定艺术家的风格,例如梵高、莫奈、达芬奇等。

提示词的编写技巧#

  • 使用简洁明了的语言: 避免使用过于复杂或含糊不清的词语。
  • 使用具体的描述: 尽量使用具体的描述,例如“一只黑色的猫坐在红色的沙发上”,而不是“一只猫坐在沙发上”。
  • 使用修饰词: 使用修饰词可以增强提示词的表达力,例如“一只可爱的黑色的猫坐在舒适的红色的沙发上”。
  • 使用权重: 您可以使用权重来强调某些关键词的重要性。例如,在Stable Diffusion中,您可以使用(关键词:1.5)来增加关键词的权重。
  • 使用负面提示词: 使用负面提示词可以避免AI生成您不想要的内容。例如,在Stable Diffusion中,您可以使用negative prompt: blurry, ugly, distorted来避免生成模糊、丑陋或扭曲的图像。
  • 参考其他作品: 您可以参考其他艺术作品或摄影作品,从中汲取灵感,并将其转化为提示词。
  • 不断尝试和调整: 提示词的编写是一个不断尝试和调整的过程。您需要根据生成的图像效果,不断优化您的提示词。

示例#

以下是一些提示词的示例:

  • a portrait of a young woman with long hair, realistic, soft lighting, detailed face, by Artgerm and Alphonse Mucha
  • a futuristic city at night, neon lights, cyberpunk style, detailed architecture, by Syd Mead
  • a landscape painting of a forest in autumn, vibrant colors, impressionistic style, by Claude Monet
  • a cute cartoon character of a cat, big eyes, smiling face, colorful background

提示词工具#

  • Lexica.art: 一个强大的提示词搜索引擎,可以帮助您找到灵感。
  • PromptBase: 一个提示词市场,您可以在这里购买或出售提示词。

步骤四:常用参数调整与优化#

Stable Diffusion拥有众多参数,理解并掌握这些参数的调整,能够帮助您更好地控制图像生成的过程,从而获得更符合您预期的结果。本章节将介绍一些常用的参数,以及如何调整和优化这些参数。

采样方法(Sampling Method)#

  • Euler a: 一种快速且高效的采样方法,适合生成风格化的图像。
  • DPM++ 2M Karras: 一种高质量的采样方法,适合生成细节丰富的图像。
  • LMS: 一种较为稳定的采样方法,适合生成写实的图像。

选择合适的采样方法取决于您想要生成的图像风格和质量。一般来说,DPM++ 2M Karras是最好的选择,但如果您的电脑配置较低,可以尝试使用Euler a。

采样步数(Sampling Steps)#

采样步数越多,图像的细节就越丰富,但同时也会增加计算量和生成时间。通常情况下,20-50步是一个比较合适的范围。对于简单的图像,20步可能就足够了,但对于复杂的图像,可能需要50步或更多。

CFG Scale#

CFG Scale控制了AI对提示词的遵循程度。CFG Scale越大,AI就越会按照提示词的要求生成图像,但同时也可能导致图像失真。通常情况下,7-12是一个比较合适的范围。如果您想要AI更自由地发挥,可以降低CFG Scale。

种子(Seed)#

种子决定了图像生成的随机性。使用相同的种子和提示词,可以生成相同的图像。这对于重复生成图像或进行比较非常有用。如果您想要生成不同的图像,可以更改种子。

分辨率(Resolution)#

分辨率决定了图像的大小。分辨率越高,图像的细节就越丰富,但同时也会增加计算量。通常情况下,512x512或768x768是一个比较合适的范围。如果您想要生成更高分辨率的图像,可以尝试使用“放大”功能。

批量数量(Batch Count)和批量大小(Batch Size)#

批量数量决定了一次生成多少张图像。批量大小决定了每次生成多少张图像。批量数量和批量大小都会影响图像生成的效率。如果您想要生成多张图像,可以增加批量数量。如果您想要提高图像生成的效率,可以增加批量大小,但需要注意显存占用。

优化技巧#

  • 使用合理的参数范围: 不要将参数设置得过高或过低。
  • 根据图像类型调整参数: 不同的图像类型需要不同的参数设置。
  • 多进行实验: 不断尝试不同的参数设置,找到最适合您的图像风格的参数。
  • 参考其他用户的设置: 可以在网上找到其他用户的参数设置,作为参考。

常见问题与解决方案#

在使用Stable Diffusion和Midjourney的过程中,您可能会遇到各种各样的问题。本章节将列出一些常见问题,并提供相应的解决方案。

问题1:Stable Diffusion WebUI无法启动?#

可能原因:

  • Python环境配置错误。
  • 缺少必要的依赖。
  • 显存不足。
  • 网络问题。

解决方案:

  • 检查Python环境是否正确安装,版本是否符合要求。
  • 重新运行webui-user.batwebui.sh脚本,安装所有依赖。
  • 尝试添加--lowvram--medvram选项,降低显存占用。
  • 检查网络连接是否正常,尝试使用VPN或更换镜像源。

问题2:生成的图像质量很差?#

可能原因:

  • 提示词不够详细或清晰。
  • 采样步数不足。
  • CFG Scale设置不合理。
  • 使用了不合适的采样方法。
  • 模型文件损坏。

解决方案:

  • 优化提示词,使用更详细和清晰的描述。
  • 增加采样步数。
  • 调整CFG Scale到合适的范围。
  • 尝试使用不同的采样方法。
  • 重新下载模型文件。

问题3:Midjourney生成图像速度很慢?#

可能原因:

  • 服务器繁忙。
  • 您的订阅等级较低。
  • 您使用了过多的参数。

解决方案:

  • 避开高峰期使用Midjourney。
  • 升级您的订阅等级。
  • 减少使用的参数数量。

问题4:生成的图像出现扭曲或变形?#

可能原因:

  • 提示词中存在冲突的描述。
  • CFG Scale设置过高。
  • 模型文件存在问题。

解决方案:

  • 检查提示词,避免使用冲突的描述。
  • 降低CFG Scale。
  • 尝试使用不同的模型文件。

问题5:如何生成特定风格的图像?#

解决方案:

  • 在提示词中明确指定风格,例如“油画风格”、“水彩风格”、“赛博朋克风格”等。
  • 模仿特定艺术家的风格,例如“by Van Gogh”、“by Monet”、“by Da Vinci”等。
  • 使用风格迁移技术,将现有图像的风格应用到生成的图像中。

进阶技巧与最佳实践#

掌握了AI绘画的基本操作后,您可以尝试一些进阶技巧,以提升您的创作水平。

图像修复(Inpainting)#

图像修复是指对图像的局部区域进行修改和完善。Stable Diffusion提供了图像修复功能,您可以使用该功能来修复图像中的缺陷、添加新的元素或修改现有的元素。

姿势控制(ControlNet)#

ControlNet是一种强大的姿势控制工具,可以控制AI生成图像的姿势、结构和细节。您可以使用ControlNet来生成具有特定姿势的人物、建筑或物体。

放大(Upscaling)#

放大是指提高图像的分辨率。Stable Diffusion提供了放大功能,您可以使用该功能将低分辨率的图像放大到高分辨率,而不会损失太多细节。

使用LoRA模型#

LoRA(Low-Rank Adaptation)是一种轻量级的模型微调技术,可以用于在Stable Diffusion中添加新的风格或对象。您可以下载和使用其他人训练好的LoRA模型,也可以自己训练LoRA模型。

组合使用不同的AI工具#

您可以将Stable Diffusion和Midjourney等不同的AI工具组合使用,以获得更好的效果。例如,您可以使用Midjourney生成初步的图像,然后使用Stable Diffusion进行细节调整和修复。

学习优秀作品#

多学习和分析优秀的AI绘画作品,可以帮助您提高审美水平和创作能力。您可以关注一些AI艺术社区,例如ArtStation、DeviantArt等,从中汲取灵感。

总结与延伸学习#

恭喜您完成了本教程的学习!通过本教程,您已经掌握了AI绘画的基本概念和操作方法,能够独立生成高质量的图像作品。

回顾一下本教程的要点:

  • 前置准备: 安装所需的工具和配置环境。
  • 核心概念: 理解扩散模型、提示词工程等核心概念。
  • Stable Diffusion WebUI: 掌握Stable Diffusion WebUI的安装、配置和基本操作。
  • Midjourney: 掌握Midjourney的使用方法,快速生成图像。
  • 提示词编写: 学会编写清晰、详细和有效的提示词。
  • 参数调整: 掌握常用参数的调整和优化技巧。
  • 常见问题: 了解常见问题和解决方案。
  • 进阶技巧: 学习图像修复、姿势控制等进阶技巧。

如果您想继续深入学习AI绘画,可以参考以下资源:

AI绘画是一个充满潜力和机遇的领域。希望您能够继续探索和实践,创造出更多令人惊艳的AI艺术作品!

AI绘画入门:Stable Diffusion与Midjourney零基础完全指南 | EndTo.AI