شرکت گوگل اخیرا 2 مدل هوش مصنوعی برای تبدیل متن به ویدئو به نمایش گذاشت که توضیحات متنی ورودی را به ویدئو تبدیل میکنند. تمرکز گوگل از ارائهی این مدلها، ارتقا و افزایش کیفیت و افزایش طول ویدئوها خواهد بود. گوگل درحالی دست به این اقدام زد که متا بهعنوان شرکت مادر فیسبوک هفتهی قبل مدل هوش مصنوعی جدیدی به نمایش گذاشت که توضیحات متنی را به ویدئوهای کوتاه و بدون صدا تبدیل میکند. به نظر میرسد گوگل نیز روی چنین سیستمی فعالیت میکند؛ زیرا 2 مدل هوش مصنوعی جدید برای تبدیل متن به ویدئو به نمایش گذاشته که یکی از آنها روی کیفیت عکسها و تصاویر متمرکز است و دیگری برای تولید کلیپهای طولانیتر مورد توجه قرار گرفته است.
مدل Imagen Video
Imagen Video، مدل هوش مصنوعی گوگل برای ساخت ویدئوهای با کیفیت است.
در واقع سیستم یادشده به عنوان تکنیک و روشی در سیستم تصویربهتصویر قبلی گوگل فعالیت میکند، ولی دستهای از اجزای جدید را بهکار میگیرد تا فریمهای ثابت را به حرکت روان تبدیل کند.
براساس نوشتهی ورج، نتایج حاصلشده از هوش مصنوعی گوگل مانند مدل Make-A-Video متا، شگفتانگیز و دربرخی موارد نیز ناامیدکننده است.
قانعکنندهترین نمونهی آن، ویدئوهایی است که انیمیشنها را تکرار میکنند که از جمله میتوان به جوانههای سبزی که کلمات Imagen را تشکیل میدهند یا مجسمههای چوبی که در فضا موجسواری میکند اشاره کرد.
زیرا الزاماً انتظار نداریم چنین ویدئوهایی از قوانین سختگیرانه ترکیب زمانی و مکانی پیروی کنند.
در واقع این انیمیشنها میتوانند کمی آهستهتر اجرا شوند.
نظر محققان دربارهی مدل Imagen Video
محققان گوگل درباره این مدل میگویند که مدل Imagen Video ویدئوهایی با 16 فریم و سرعت 3 فریمبرثانیه را با وضوح 24 در 48 پیکسل ارائه میدهد.
محتوای یادشده در مرحلهی بعد با مدلهای افزایش وضوح تصویر برپایهی هوش مصنوعی پردازش میشود و در این گام خروجی به 128 فریم با سرعت 24 فریمبرثانیه و وضوح 1280 در 768 پیکسل بهبود مییابد.
این وضوح بالاتر از مدل Make-A-Video متا (768 در 768 پیکسل) خواهد بود.
Imagen Video یک پروژهی تحقیقاتی به حساب میآید و گوگل با انتشار ندادن آن برای عموم کاربران، از آسیبهای احتمالی آن روی جامعه جلوگیری میکند.
گفتنی است هوش مصنوعی Make-A-Video متا نیز دردسترس عموم قرار ندارد و بههمین روش محدود شده است.
مدلهای یادشده مانند سیستمهای تبدیل متن به تصویر در آیندهی نزدیک پیشاز انتشار عمومی به عنوان مدلهای منبعباز دردسترس محققان دیگر قرار خواهند گرفت و در آن زمان، چالشهای امنیتی و اخلاقی جدیدی دربارهی استفاده از آنها به وجود خواهد آمد.
مدل دیگری از تبدیل متن به ویدئو
همچنین گوگل به جز Imagen Video، تیم جداگانهای از محققان خود را برای توسعهی مدل تبدیل متن به ویدئو دیگری موسوم به Phenaki بهکار گرفته است.
این مدل نسبت به Imagen Video، با تمرکز بر ایجاد ویدئوهای طولانیتر توسعه داده شده و دستورالعملهای دقیقی را اجرا میکند.
محققان در مقالهی مربوط به توضیح مدل Phenaki میگویند شیوهی آنها میتواند ویدئوهایی با طول بسیار زیاد ایجاد کند و در واقع محدودیتی از لحاظ طول ویدئو در آن وجود ندارد.
علاوهبر این آنان اعلام کردهاند نسخههای آیندهی این مدل بخشی از ابزارهای گسترده برای هنرمندان و کاربران عادی خواهد بود که روشهای جدیدی برای بیان خلاقیتها عرضه میکنند.
علی حبیبی
شما هم میتوانید در مورد این کالا نظر بدهید
برای ثبت نظرات، نقد و بررسی شما لازم است ابتدا وارد حساب کاربری خود شوید.
افزودن نظر جدید