مقایسه دو غول هوش مصنوعی تولید عکس (Midjourney و ChatGPT )

مقایسه دو غول تولید عکس Midjourney و ChatGPT

آخرین بروزرسانی: ۱۱ خرداد ۱۴۰۴

هوش مصنوعی

آنچه در این پست میخوانید

این روزا دنیای هوش مصنوعی حسابی ترکونده و یکی از باحال‌ترین بخش‌هاش، همین توانایی هوش مصنوعی تو ساخت عکسه. دیگه لازم نیست نقاش حرفه‌ای باشی یا ساعت‌ها پای نرم‌افزارهای پیچیده بشینی تا ایده‌های بصریت رو عملی کنی؛ فقط کافیه کلمات رو بلد باشی و بدونی چطوری با این ابزارهای هوشمند حرف بزنی. این پیشرفت‌ها، خلاقیت رو برای کلی آدم، از بازاریاب و معلم گرفته تا هنرمند و آدمای علاقه‌مند، راحت‌تر کرده. در واقع، دیگه مهم نیست چقدر تو نقاشی ماهری؛ مهم اینه که چقدر می‌تونی با هوش مصنوعی خوب ارتباط برقرار کنی (که بهش میگن مهندسی پرامپت). این تغییر، باعث شده کلی آدم بیشتر به این ابزارها رو بیارن و خب، نیاز به یه راهنمای خوب برای انتخاب ابزار مناسب هم بیشتر شده.

تو این بین، دو تا اسم گنده بیشتر از بقیه تو چشم میان: میدجورنی (Midjourney) و DALL-E 3. میدجورنی، که بیشتر تو دیسکورد کار می‌کنه و دیوید هولز سال ۲۰۲۲ راه‌اندازیش کرده، به عنوان یه ابزار خفن برای ساخت عکس‌های هنری و اغلب سورئال شناخته میشه. از اون طرف، DALL-E 3، که محصول شرکت OpenAI هست و خیلی راحت از طریق ChatGPT در دسترسه، به خاطر دقت بالاش تو فهمیدن دستورات و ساخت عکس‌های واقعی معروفه. DALL-E 3 چون نسخه جدیدتره، تو فهم زبان عادی خیلی پیشرفت کرده و بهتر می‌تونه جزئیات پرامپت‌ها رو دنبال کنه. انتخاب بین این دو تا غول هوش مصنوعی معمولاً به یه چیز اساسی برمی‌گرده: تفسیر هنری یا دقت کلمه‌به‌کلمه. همین تفاوت تو طرز فکر، ویژگی‌ها، نقاط قوت و کاربردهای ایده‌آل هر کدوم رو شکل داده.

میدجورنی: هنرمند رویاپرداز

میدجورنی یه هوش مصنوعی تولید عکسه که بیشتر از طریق پلتفرم دیسکورد (Discord) فعالیت می‌کنه. البته تازگی‌ها یه رابط کاربری وب هم براش اومده ، ولی ریشه‌هاش تو دیسکورد، یه مدل توسعه و تعامل خاص بر پایه جامعه کاربری رو براش ساخته که روی خروجی هنری و کاربرهاش تأثیر گذاشته. این ابزار از یه تکنیک به اسم “شبکه‌های مولد تخاصمی” (GANs) استفاده می‌کنه تا از توضیحات متنی، عکس بسازه. روش کارش اینجوریه که کاربر یه دستور متنی (پرامپت) رو وارد می‌کنه و میدجورنی چهار تا نسخه مختلف از عکس مورد نظر رو تولید می‌کنه که کاربر می‌تونه از بینشون انتخاب کنه، کیفیتشون رو ببره بالا یا تغییرات بیشتری روشون اعمال کنه. محیط دیسکورد، با قابلیت‌های اشتراک‌گذاری و تعامل بالا، یه فضای خلاقانه، مشترک و عمومی رو ترویج می‌کنه که به طور طبیعی به “توسعه بر پایه جامعه” و “یه عالمه کاربر فعال برای الهام گرفتن و پشتیبانی” منجر شده.

نقاط قوت: قلم‌موی جادویی

میدجورنی به خاطر سبک هنری خاص و اغلب سورئال، رویایی، سینمایی و با جزئیات بالاش شناخته شده. این ابزار می‌تونه عکس‌هایی با کیفیت بصری خیره‌کننده و جزئیات دقیق تولید کنه. کلی سبک هنری مختلف رو هم پشتیبانی می‌کنه، از واقع‌گرایی گرفته تا سبک‌های خاص و انتزاعی. این قابلیت به میدجورنی اجازه میده که مثل یه شریک خلاق عمل کنه و پرامپت‌ها رو با آزادی هنری تفسیر کنه، نه اینکه دقیقاً به دستورالعمل‌ها پایبند باشه. این ویژگی باعث میشه برای ایده‌پردازی و کشف مفاهیم بصری جدید عالی باشه، حتی اگه گاهی اوقات از دستورالعمل‌های کلمه‌به‌کلمه منحرف بشه.

میدجورنی قابلیت‌های پیشرفته‌ای برای کنترل خلاقانه به کاربرها میده. ابزارهایی مثل Upscale (افزایش کیفیت و ابعاد عکس)، Variations (ساخت نسخه‌های مختلف از یه عکس)، Vary Region (ویرایش بخش‌های خاصی از عکس)، Remix (ترکیب عکس‌ها و پرامپت‌ها)، Style Reference (حفظ سبک یه عکس مرجع) و Character Reference (حفظ شخصیت تو عکس‌های مختلف) به کاربر کنترل خلاقانه بیشتری میدن. قابلیت “Outpainting” هم برای گسترش بوم عکس و اضافه کردن جزئیات جدید به اطراف عکس موجود کاربرد داره. تازه، حالت “Draft Mode” که تازگی‌ها معرفی شده، امکان تولید سریع‌تر و ارزون‌تر ایده‌های اولیه رو فراهم می‌کنه. این ابزارها به کاربرها اجازه میدن تا با تکرار و تغییرات، به نتایج دلخواه خودشون نزدیک بشن.

DALL-E 3 جدیدترین مدل تولید عکس از OpenAI هست که مستقیم تو ChatGPT ادغام شده. این ادغام عمیق، روش دسترسی کاربرها به این ابزار قدرتمند تولید عکس رو به طور اساسی تغییر داده. تو این روش، ChatGPT مثل یه “شریک خلاق” عمل می‌کنه و پرامپت‌های متنی کاربر رو به طور خودکار به توضیحات دقیق‌تر و کامل‌تری برای DALL-E 3 تبدیل می‌کنه. این فرآیند خودکار باعث میشه دستورات بهتر فهمیده بشن و دقیق‌تر دنبال بشن و چالش “دقت پرامپت” که تو مدل‌های قبلی وجود داشت رو تا حد زیادی حل می‌کنه. این یکپارچگی، مهندسی پیچیده پرامپت رو به یه فرآیند مکالمه‌ای تبدیل کرده و برای کلی آدم که از قبل با هوش مصنوعی مکالمه‌ای آشنا هستن، خیلی راحت‌ترش کرده.

نقاط قوت: دقت و کارایی

DALL-E 3 تو فهمیدن جزئیات و ظرافت‌های پرامپت‌ها خیلی قویه و عکس‌ها رو با دقت بالایی تولید می‌کنه که کاملاً با توضیحات متنی جور در میان. این ویژگی باعث میشه برای تولید عکس‌هایی که نیاز به دقت و وفاداری به جزئیات دارن، عالی باشه. مثلاً، اگه ازش بخوای “یه غروب خورشید نارنجی پر جنب و جوش که سایه‌های بلندی رو روی دریای آروم میندازه” رو به تصویر بکشه، DALL-E 3 تضمین می‌کنه که همه این عناصر – غروب خورشید، دریا و سایه‌ها – تو عکس باشن.

از اونجایی که DALL-E 3 بخشی از اکوسیستم ChatGPT هست، دسترسی بهش خیلی آسونه و رابط کاربری آشنا و روونی داره. این سهولت دسترسی، مخصوصاً برای کاربرهای جدید یا کسایی که قبلاً با ChatGPT کار کردن، یه مزیت بزرگه. کاربرها می‌تونن خیلی راحت از طریق وب یا موبایل بهش دسترسی پیدا کنن و حتی از طریق Bing Image Creator یا Perplexity Pro هم قابل استفاده‌ست.

DALL-E 3 قابلیت “Inpainting” رو داخل ChatGPT ارائه میده که به کاربرها اجازه میده بخش‌های خاصی از عکس رو بدون نیاز به شروع دوباره ویرایش کنن. این قابلیت، انعطاف‌پذیری بیشتری تو فرآیند ویرایش فراهم می‌کنه.

نقاط ضعف:

با وجود دقت بالا تو فهمیدن دستورات، DALL-E 3 ممکنه تو تولید عکس از مفاهیم خیلی انتزاعی یا پرامپت‌های پیچیده که نیاز به تفسیر خلاقانه دارن، به مشکل بخوره. گاهی اوقات جزئیات مهمی رو از دست میده یا ترکیب‌های غیرمنطقی ایجاد می‌کنه، مثل عدم نمایش خودروهای پرنده تو یه شهر سایبرپانک. این نشون میده که فهم هوش مصنوعی هنوز آماریه و نه معنایی؛ می‌تونه دستورالعمل‌ها رو با دقت دنبال کنه اگه با داده‌های آموزشیش جور دربیان، اما با تناقضات منطقی، استثنائات ضمنی یا ترکیب‌های جدید به مشکل می‌خوره.

یکی از محدودیت‌های اصلی DALL-E 3، مثل میدجورنی، ناتوانیش تو تولید متن خوانا و دقیق داخل عکس‌هاست. تو آزمایش‌ها، DALL-E 3 فقط تو یه مورد از چهار عکس تونسته متن خوانا (“HELLO WORLD!”) تولید کنه، در حالی که بقیه عکس‌ها غلط املایی یا متن‌های نامفهوم داشتن. همچنین، تو شمردن دقیق اشیاء یا قرار دادن اونا تو موقعیت‌های هندسی خاص، چالش‌هایی داره.

تو بعضی موارد، مخصوصاً تو جزئیات چهره‌های انسانی یا عناصر پیچیده، عکس‌های DALL-E 3 ممکنه کمی مصنوعی به نظر برسن. جزئیات چهره‌ها تو فاصله دور هم ممکنه خراب بشن. این نشون میده که برای خیلی از کارهای خلاقانه، نظارت انسانی و پس‌پردازش هنوز لازمه.

نتیجه‌گیری: انتخاب شما

خلاصه اینکه، هیچ “برنده” مطلقی تو مقایسه بین میدجورنی و DALL-E 3 وجود نداره. انتخاب بین این دو ابزار قدرتمند به نیازها، سبک کاری و اولویت‌های شخصی تو بستگی داره. این یعنی “بهترین” ابزار یه چیز ثابتی نیست و به نیازهای خاص پروژه، روش کار و ملاحظات اخلاقی (مثل حریم خصوصی) کاربر بستگی داره.

میدجورنی: برای هنرمندان، طراحان و هر کسی که دنبال خلاقیت بی‌حد و مرز، سبک‌های هنری خاص و الهام گرفتن از جامعه‌ست، بهترین گزینه‌ست. اگه دنبال یه “همکار هنری” هستی که ایده‌هات رو به روش‌های بصری خیره‌کننده تفسیر کنه و بهت اجازه بده مرزهای خلاقیت رو جابجا کنی، میدجورنی انتخاب توئه.

DALL-E 3: برای بازاریاب‌ها، کسب‌وکارها، تولیدکننده‌های محتوا و کاربرهایی که به دقت بالا تو پیروی از دستورات، راحتی استفاده و حریم خصوصی پیش‌فرض اهمیت میدن، عالیه. اگه دنبال یه “مهندس دقیق” هستی که دستوراتت رو با وفاداری بالا اجرا کنه و بهت امکان تولید سریع و قابل اعتماد عکس‌ها رو بده، DALL-E 3 انتخاب توئه.

بهترین راه برای تصمیم‌گیری، تجربه شخصیه. اگهچه میدجورنی نسخه رایگان نداره، اما DALL-E 3 از طریق Bing Image Creator و نسخه رایگان ChatGPT در دسترسه تا بتونی امتحانش کنی و با قابلیت‌هاش آشنا بشی. با هر دو ابزار بازی کن، پرامپت‌های مختلف رو امتحان کن و ببین کدوم یکی با جریان خلاقیت تو سازگارتره. دنیای هوش مصنوعی تولید عکس تازه داره شروع میشه و هر دو غول هم دارن سریع پیشرفت می‌کنن، پس آشنایی با اونا می‌تونه تو آینده هم خیلی ارزشمند باشه.

به این آموزش چه امتیازی میدی؟

میانگین امتیازات / 5. تعداد رای ها

تو اولین نفری باش که بهمون امتیاز میدی !

محمد جواد احمدی

حدود 4 سالی هست که در زمینه طراحی و گرافیک به صورت تخصصی فعالیت میکنم و علاقه زیادی به کسب تجربه در زمینه طراحی سایت و همچنین ui / ux دارم. همیشه سعی داشتم تا افراد زیادی رو با دنیای طراحی و گرافیک آشنا کنم و برای رسیدن به این هدفم ، بهترین آموزش ها و مقاله ها را در این حوزه تولید میکنم.

مقایسه دو غول هوش مصنوعی تولید عکس (Midjourney و ChatGPT )

میدجورنی: هنرمند رویاپرداز

نقاط قوت: قلم‌موی جادویی

نقاط ضعف

DALL-E 3 (از طریق ChatGPT): مهندس دقیق و سریع

نقاط قوت: دقت و کارایی

نقاط ضعف:

نتیجه‌گیری: انتخاب شما

نظرات

سوالات و نظراتتون رو با ما به اشتراک بذارید

لغو پاسخ

شبکه های اجتماعی