به تازگی مدل هوش مصنوعی Flux برای تبدیل متن به تصویر معرفی شده است. این مدل با دارا بودن 12 میلیارد پارامتر، به عنوان بزرگترین مدل متن باز در این حوزه شناخته شده است. عملکرد Flux در مقایسه با سایر رقبا، از جمله Midjourney، برتر بوده و توانایی رقابت با تمام مدل های موجود را دارد. برای اطلاعات بیشتر، می توانید به وب سایت روکیدا مراجعه کنید.
بر اساس گزارشی از techradar، Flux در سه نسخه متفاوت عرضه شده است. نسخه اول، Flux Dev، به صورت متن باز در اختیار توسعه دهندگان قرار گرفته است. نسخه دوم، Flux Schnell، با عملکردی تا ده برابر سریع تر، ارائه شده است. نسخه سوم، Flux Pro، به صورت اختصاصی و از طریق API در دسترس قرار گرفته است.
تفاوت های Flux با سایر مدل ها
یکی از ویژگی های اصلی که Flux را از مدل های دیگر مانند Midjourney متمایز می کند، متن باز بودن آن است. این مدل را می توان بر روی سیستم های نسبتاً قوی اجرا کرد. نسخه های Flux Dev و Flux Schnell در حال حاضر برای دانلود در پلتفرم Hugging Face موجود هستند.
سازندگان Flux ادعا می کنند که در تست های بنچمارک، این مدل 12 میلیارد پارامتری در زمینه های مختلف از جمله کیفیت بصری، وفاداری به درخواست کاربر، تایپوگرافی و تنوع خروجی، عملکرد بهتری نسبت به مدل های معروفی مانند Dall-E 3 (HD)، Midjourney v6.0 و SD3 Ultra داشته است. البته لازم به ذکر است که در برخی از موارد مانند تصویر بالا، ممکن است نقص هایی مانند داشتن یک پای اضافه در زن مشاهده شود.
نیازمندی های سخت افزاری و نسخه های پیشنهادی هوش مصنوعی Flux
اگر قصد دارید مدل متن باز Flux را روی سیستم خود اجرا کنید، باید از پردازشگر گرافیکی قدرتمندی برخوردار باشید. این مدل حدود 23 گیگابایت حجم دارد و برای اجرای آن به 24 گیگابایت VRAM نیاز است. البته امکان استفاده از پلتفرم های آنلاین مانند NightCafe و Based Labs نیز برای تولید تصاویر از Flux وجود دارد.
به طور کلی، نسخه پرو Flux می تواند به عنوان رقیب جدی برای مدل هایی مانند Midjourney و سایر مدل های پولی در نظر گرفته شود. با این حال، افرادی که سیستم های گرافیکی متوسطی دارند، می توانند از مدل های سبک تری مانند SD3 یا SDXL استفاده کنند.