گوگل 2 مدل هوش مصنوعی برای تبدیل متن به ویدئو ارائه داد

1401/07/16 چاپ صفحه اشتراک گذاری

شرکت گوگل اخیرا 2 مدل هوش مصنوعی برای تبدیل متن به ویدئو به‌ نمایش گذاشت که توضیحات متنی ورودی را به ویدئو تبدیل می‌کنند. تمرکز گوگل از ارائه‌ی این مدل‌ها، ارتقا و افزایش کیفیت و افزایش طول ویدئوها خواهد بود. گوگل درحالی دست به این اقدام زد که متا به‌عنوان شرکت مادر فیس‌بوک هفته‌ی قبل مدل هوش مصنوعی جدیدی به‌ نمایش گذاشت که توضیحات متنی را به ویدئوهای کوتاه و بدون‌ صدا تبدیل می‌کند. به نظر می‌رسد گوگل نیز روی چنین سیستمی فعالیت می‌کند؛ زیرا 2 مدل هوش مصنوعی جدید برای تبدیل متن به ویدئو به‌ نمایش گذاشته که یکی از آن‌ها روی کیفیت عکس‌ها و تصاویر متمرکز است و دیگری برای تولید کلیپ‌های طولانی‌تر مورد توجه قرار گرفته است.

گوگل 2 مدل هوش مصنوعی برای تبدیل متن به ویدئو ارائه داد

مدل Imagen Video

Imagen Video، مدل هوش مصنوعی گوگل برای ساخت ویدئوهای با کیفیت است.
در واقع سیستم یادشده به‌ عنوان تکنیک و روشی در سیستم تصویربه‌تصویر قبلی گوگل فعالیت می‌کند، ولی دسته‌ای از اجزای جدید را به‌کار می‌گیرد تا فریم‌های ثابت را به حرکت روان تبدیل کند.
براساس ‌نوشته‌ی ورج، نتایج حاصل‌شده از هوش مصنوعی گوگل مانند مدل Make-A-Video متا، شگفت‌انگیز و دربرخی موارد نیز ناامیدکننده است.
قانع‌کننده‌ترین نمونه‌ی آن، ویدئوهایی است که انیمیشن‌ها را تکرار می‌کنند که از جمله می‌توان به جوانه‌های سبزی که کلمات Imagen را تشکیل می‌دهند یا مجسمه‌های چوبی که در فضا موج‌سواری می‌کند اشاره کرد.
زیرا الزاماً انتظار نداریم چنین ویدئوهایی از قوانین سخت‌گیرانه ترکیب زمانی و مکانی پیروی کنند.
در واقع این انیمیشن‌ها می‌توانند کمی آهسته‌تر اجرا شوند.

گوگل 2 مدل هوش مصنوعی برای تبدیل متن به ویدئو ارائه داد

نظر محققان درباره‌ی مدل Imagen Video

محققان گوگل درباره این مدل می‌گویند که مدل Imagen Video ویدئوهایی با 16 فریم و سرعت 3 فریم‌برثانیه را با وضوح 24 در 48 پیکسل ارائه می‌دهد.
محتوای یادشده در مرحله‌ی بعد با مدل‌های افزایش وضوح تصویر برپایه‌ی هوش مصنوعی پردازش می‌شود و در این گام خروجی به 128 فریم با سرعت 24 فریم‌برثانیه و وضوح 1280 در 768 پیکسل بهبود می‌یابد.
این وضوح بالاتر از مدل Make-A-Video متا (768 در 768 پیکسل) خواهد بود.
Imagen Video یک پروژه‌ی تحقیقاتی به‌ حساب می‌آید و گوگل با انتشار ندادن آن برای عموم کاربران، از آسیب‌های احتمالی آن روی جامعه جلوگیری می‌کند.
گفتنی است هوش مصنوعی Make-A-Video متا نیز دردسترس عموم قرار ندارد و به‌همین روش محدود شده است.
مدل‌های یادشده مانند سیستم‌های تبدیل متن به تصویر در آینده‌ی نزدیک پیش‌از انتشار عمومی به‌ عنوان مدل‌های منبع‌باز دردسترس محققان دیگر قرار خواهند گرفت و در آن زمان، چالش‌های امنیتی و اخلاقی جدیدی درباره‌ی استفاده از آن‌ها به‌ وجود خواهد آمد.

گوگل 2 مدل هوش مصنوعی برای تبدیل متن به ویدئو ارائه داد

مدل دیگری از تبدیل متن به ویدئو

همچنین گوگل به‌ جز Imagen Video، تیم جداگانه‌ای از محققان خود را برای توسعه‌ی مدل تبدیل متن به ویدئو دیگری موسوم به Phenaki به‌کار گرفته است.
این مدل نسبت به Imagen Video، با تمرکز بر ایجاد ویدئوهای طولانی‌تر توسعه داده شده و دستورالعمل‌های دقیقی را اجرا می‌کند.
محققان در مقاله‌ی مربوط به توضیح مدل Phenaki می‌گویند شیوه‌ی آن‌ها می‌تواند ویدئوهایی با طول بسیار زیاد ایجاد کند و در واقع محدودیتی از لحاظ طول ویدئو در آن وجود ندارد.
علاوه‌بر این آنان اعلام کرده‌اند نسخه‌های آینده‌ی این مدل بخشی از ابزارهای گسترده برای هنرمندان و کاربران عادی خواهد بود که روش‌های جدیدی برای بیان خلاقیت‌ها عرضه می‌کنند.

علی حبیبی