اگر تا پیش از این تولید ویدئو با هوش مصنوعی به سختافزارهای قوی نیاز داشت، بهتر است بدانید حالا انجام این کار با کارتهای گرافیک 6 گیگابایتی رایج امکان پذیر است. این نوآوری ساخت ویدئو با مدلهای دیفیوشن (diffusion) بدون نیاز به حجم زیادی حافظه ویدئویی را فراهم کرده است.
در هفتهای که گذشت، لومین ژانگ از گیتهاب، با همکاری مانیش آگراوالا از دانشگاه استنفورد، معماری جدیدی به نام FramePack را معرفی کردند؛ روشی نوآورانه برای ساخت ویدیوهای مبتنی بر مدلهای دیفیوشن که بهرهوری پردازشی را بالا برده و امکان تولید ویدیوهایی بلندتر و با کیفیتتر را فراهم میسازد.
بر اساس این طرح، یک مدل با ۱۳ میلیارد پارامتر که با معماری FramePack توسعه داده شده، میتواند یک کلیپ ۶۰ ثانیهای را با تنها ۶ گیگابایت حافظه گرافیکی تولید کند. اهمیت موضوع اینجاست که 6 گیگابایت حافظه ویدئویی در بیشتر کارتهای گرافیک میانرده به راحتی یافت میشود.
حل یک چالش دیرینه در مدلهای دیفیوشن
مدلهای ویدیویی مبتنی بر دیفیوشن معمولاً برای ساخت هر فریم به دادههایی از فریمهای قبلی نیاز دارند. این موضوع باعث میشود با افزایش طول ویدیو، نیاز به حافظه گرافیکی هم به طرز چشمگیری افزایش یابد. مدلهای متداول اغلب به حداقل ۱۲ گیگابایت حافظه ویدئویی نیاز دارند؛ در غیر این صورت، کیفیت پایینتر ویدیو یا محدودیت در مدتزمان آن اجتنابناپذیر است.
FramePack اما رویکرد متفاوتی دارد. این معماری فریمها را بر اساس اهمیتشان فشردهسازی میکند. به این ترتیب، میزان حافظه مورد نیاز کاهش مییابد بدون آنکه کیفیت به شکل محسوسی افت کند. نویسندگان مقاله اشاره کردهاند که بار پردازشی FramePack با مدلهای دیفیوشن تصویری قابل مقایسه است.
از نظر سختافزاری، این سیستم به کارتهای گرافیک سری RTX 30، 40 یا 50 با پشتیبانی از FP16 و BF16 نیاز دارد. هنوز پشتیبانی از ریزمعماریهای قدیمیتر مانند Turing یا سختافزارهای AMD و Intel تأیید نشده است. این نرمافزار همچنین با سیستمعامل لینوکس سازگار است.
کارت گرافیک RTX 4090 انویدیا دارای سرعت پردازشی حدود ۰٫۶ فریم در ثانیه است، بنابراین زمان رندر بسته به مدل کارت گرافیک شما متفاوت خواهد بود. با این حال فریمها به محض تولید، نمایش داده میشوند و بازخورد بصری آنی در اختیار کاربر قرار میگیرد.
اگرچه محدودیت ۳۰ فریم بر ثانیه در مدل فعلی ممکن است برای برخی کاربران چالشبرانگیز باشد، اما دستاورد اصلی FramePack در کاهش وابستگی به سرویسهای گرانقیمت ابری و فراهمکردن امکان تولید محتوای هوش مصنوعی در سطح محلی است.
حتی اگر تولید محتوا شغل اصلی شما نباشد، این فناوری میتواند ابزاری سرگرمکننده برای ساخت GIF، میم یا ویدئوهای شخصی سرگرم کننده باشد. آنچه مسلم است، FramePack در حال باز کردن دریچهای تازه به روی آیندهی تولید ویدیو با هوش مصنوعی است.