Typefully
@WuPingJu
Log in
Using ChatGPT and Midjourney for Image-to-Image Generation
Share
•
2 years ago
•
View on X
今天又試了一些新的玩法,這次我想讓 ChatGPT 搭配 Midjourney 最近新上線的 /describe 功能一起以圖產圖。 測試後覺得效果還是很不錯,所以又寫了一篇文分享簡單的做法與心得,完整可複製版 prompt 請點連結:
pinchlime.com/blog/let-chatgpt-boost-midjourney-image-to-image/
推文串有簡單摘要 👇
目前以我的理解, Midjourney 的以圖產圖必須搭配某段文字描述,沒辦法直接丟一張圖,就產一張 AI 變化版。 不過剛好本週推出了 /describe 的新功能,使用者只要上傳一張圖片,Midjourney 就會識別這張圖片,並且回傳給使用者四段稍微有點不同的描述。
docs.midjourney.com/docs/image-prompts
2/n
使用者可以接著透過這些描述產圖,例如,我上傳了 Pink Floyd 的 Wish You Were Here 這張專輯的封面, Midjourney 就產出了四段不同的描述。 接著,我只要點選下方的任何一個數字,就可以依照該描述在 Midjourney 裡面產圖。 3/n
不過,在我測試了幾張圖之後,我發現這樣做的效果大概只到 70 分的程度,常常四個按鈕都試了以後,發現每個都有一些好的地方,但也都有一些不足的地方。如下圖,左上是第一組,右上是第二組,左下是第三組,右下是第四組: 4/n
我猜想可能是因為 describe 這個功能才剛推出,或者是 Midjourney 是想透過這個方式來訓練他們的「圖生文」模型,還沒完全釋放出最精準的辨識能力。 總之我對於 describe 功能還沒有到非常滿意,但此時我又想到了 ChatGPT ! 5/n
我想到的是,我現在已經有四段彼此相關的某個描述了,好像很適合透過 ChatGPT 把它們組合在一起。 因此我就以下列這段 Prompt 簡單嘗試了效果。 依照這個 Prompt , ChatGPT 會嘗試組合他接收到的四個描述,轉化為一個新的版本。 6/n
接著,我再拿這段 prompt 直接丟給 Midjourney 產圖,我覺得表現好像更好了。 7/n
其中我最喜歡的是第二張,因此我請它 upscale 放大,成品如下圖: 8/n
我也透過這個方式再測試了兩張 Pink Floyd 的專輯封面,發現透過 ChatGPT 融合過後的版本都更接近原版一些,這邊就直接貼我最喜歡的原版&成品對照,左邊都是原圖,右邊是 Midjourney 產出的圖。 Animals 9/n
The Division Bell 10/n
我自己對這次嘗試還蠻滿意的,雖然可能是因為 Midjourney 本來就相對熟悉 Pink Floyd 的封面美術風格, 但我試了直接放專輯名稱去跑,效果也沒有 ChatGPT 加持的版本好。 ChatGPT 真的很適合拿來處理這種整合、重組文字的工作,我相信若再測試更多輪,人工微調 prompt ,它整合的效果會更好。 11/n