Using ChatGPT and Midjourney for Image-to-Image Generation

•

今天又試了一些新的玩法，這次我想讓 ChatGPT 搭配 Midjourney 最近新上線的 /describe 功能一起以圖產圖。測試後覺得效果還是很不錯，所以又寫了一篇文分享簡單的做法與心得，完整可複製版 prompt 請點連結： pinchlime.com/blog/let-chatgpt-boost-midjourney-image-to-image/ 推文串有簡單摘要 👇

目前以我的理解， Midjourney 的以圖產圖必須搭配某段文字描述，沒辦法直接丟一張圖，就產一張 AI 變化版。不過剛好本週推出了 /describe 的新功能，使用者只要上傳一張圖片，Midjourney 就會識別這張圖片，並且回傳給使用者四段稍微有點不同的描述。 docs.midjourney.com/docs/image-prompts 2/n

使用者可以接著透過這些描述產圖，例如，我上傳了 Pink Floyd 的 Wish You Were Here 這張專輯的封面， Midjourney 就產出了四段不同的描述。接著，我只要點選下方的任何一個數字，就可以依照該描述在 Midjourney 裡面產圖。 3/n

不過，在我測試了幾張圖之後，我發現這樣做的效果大概只到 70 分的程度，常常四個按鈕都試了以後，發現每個都有一些好的地方，但也都有一些不足的地方。如下圖，左上是第一組，右上是第二組，左下是第三組，右下是第四組： 4/n

我猜想可能是因為 describe 這個功能才剛推出，或者是 Midjourney 是想透過這個方式來訓練他們的「圖生文」模型，還沒完全釋放出最精準的辨識能力。總之我對於 describe 功能還沒有到非常滿意，但此時我又想到了 ChatGPT ！ 5/n

我想到的是，我現在已經有四段彼此相關的某個描述了，好像很適合透過 ChatGPT 把它們組合在一起。因此我就以下列這段 Prompt 簡單嘗試了效果。依照這個 Prompt ， ChatGPT 會嘗試組合他接收到的四個描述，轉化為一個新的版本。 6/n

接著，我再拿這段 prompt 直接丟給 Midjourney 產圖，我覺得表現好像更好了。 7/n

其中我最喜歡的是第二張，因此我請它 upscale 放大，成品如下圖： 8/n

我也透過這個方式再測試了兩張 Pink Floyd 的專輯封面，發現透過 ChatGPT 融合過後的版本都更接近原版一些，這邊就直接貼我最喜歡的原版＆成品對照，左邊都是原圖，右邊是 Midjourney 產出的圖。 Animals 9/n

The Division Bell 10/n

我自己對這次嘗試還蠻滿意的，雖然可能是因為 Midjourney 本來就相對熟悉 Pink Floyd 的封面美術風格，但我試了直接放專輯名稱去跑，效果也沒有 ChatGPT 加持的版本好。 ChatGPT 真的很適合拿來處理這種整合、重組文字的工作，我相信若再測試更多輪，人工微調 prompt ，它整合的效果會更好。 11/n