نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
به گزارش بهار زاگرس، پس از آن که DALL-E هوش مصنوعی تبدیل متن به تصویر را تولید کرد، دیگر شرکتها قدمی فراتر برداشته و شروع به ساخت مدلهای تبدیل متن به تصویر متفاوتی کردند. در حالی که هنوز هم ممکن است نتایج کمی ناقص به نظر برسند، اما چندین مدل هوش مصنوعی وجود دارند که دارای درجه بالایی از کنترل و توانایی تولید فیلم در سبکهای هنری مختلف هستند.
در اینجا شش مدل جدید هوش مصنوعی مناسب تبدیل متن به ویدیو را معرفی میکنیم.
شرکت OpenAI خالق چتجیپیتی بهتازگی “سورا”، مدل جدید تبدیل متن به ویدیو خود را به نمایش گذاشته است. این مدل “درکی عمیق از زبان” دارد و میتواند “شخصیتهای قابل قبولی را ایجاد کند که احساسات را بیان میکنند.”
گوگل هوش مصنوعی ویدیویی خود به نام Lumiere را دارد که توسط یک مدل انتشار جدید به نام Space-Time-U-Net طراحی شده است. لومیر مکان اشیاء را در یک ویدیو مشخص میکند و نحوه حرکت و تغییر همزمان آنها را ردیابی میکند. لومیر هنوز برای کاربران عادی آماده نشده است. اما به مهارت گوگل در ایجاد نیروگاه ویدئویی هوش مصنوعی اشاره میکند که ممکن است از مدلهای عمومی موجود مانند Runway و Pika پیشی بگیرد. گوگل طی دو سال اخیر جهش فنی در بازی های ویدئویی هوش مصنوعی نیز داشته است.
VideoPoet یک مدل زبان بزرگ است که بر روی مجموعه داده عظیمی از فیلمها، تصاویر، صدا و متن آموزش داده شده است. این مدل میتواند وظایف مختلف تولید ویدیو را انجام دهد، از تبدیل متن یا تصاویر به ویدیو گرفته تا جذابتر کردن ویدیوها با سبک، رنگآمیزی درونی و بیرونی ویدیو، و ویدیو به صدا.
این مدل بر اساس یک ایده ساده ساخته شده است: تبدیل هر مدل زبان خودبازگشتی به یک سیستم تولید ویدئو. مدلهای زبان خودبازگشتی میتوانند متن و کد را بطور بینظیری ایجاد کنند. اما وقتی نوبت به ویدیو میرسد، آنها به یک مانع برمیخورند. برای مقابله با آن، VideoPoet از چند واسطه استفاده میکند که میتواند ویدیو، تصویر و کلیپهای صوتی را به زبانی که میفهمد تبدیل کند.
مدل هوش مصنوعی متا شامل دو مرحله است. ابتدا از متن یک عکس میسازد. سپس، از آن متن و تصویر برای ایجاد یک ویدیوی درجه یک استفاده میکند. نکته جالب اینکه ۸۱ درصد کاربران Emu Video را به Imagen Video Google ترجیح میدهند، ۹۰ درصد آن را به PYOCO NVIDIA ترجیح میدهند و ۹۶ درصد میگویند که بهتر از Make-A-Video خود متا است. نه فقط این، بلکه حتی گزینههای تجاری مانند RunwayML’s Gen2 و Pika Labs را نیز شکست میدهد.
تیم پشتیبان Phenaki Video از Mask GIT برای تولید ویدیوهای هدایتشده متنی در PyTorch استفاده کرد. این مدل میتواند ویدیوهایی با هدایت متن تولید کرده که تا مدت زمان ۲ دقیقهای، بسازد Phenaki همه کاره است و برای محققان جهت آموزش متن به تصویر و متن به ویدئو باز است. آنها میتوانند با تصاویر شروع کرده و سپس برای آموزش بدون قید و شرط روی تنظیم ویدیو تمرکز کنند.
گروهی از محققان دانشگاه Tsinghua در پکن CogVideo را توسعه دادند که یک مدل تولید متن به ویدئوی از قبل آموزش دیده در مقیاس بزرگ است. آنها این مدل را با استفاده از یک مدل از پیش آموزش داده شده متن به تصویر به نام CogView2 ساختند تا از آموختههای قبلی خود، استفاده کنند.
عملیات بازیابی، تعویض و نصب مجدد قطعات رشته شلنگ بیرونی (OUTER HOSE STRING) پایانه صادراتی SBM توسط متخصصان تعمیرات زیر آب شرکت نفت فلات قاره ایران در منطقه عملیاتی لاوان انجام شد.
در دهمین اجلاس سراسری «نشان عالی مدیر سال»، نشان عالی مدیر سال به مهندس حسن شهرویی، مدیرعامل شرکت بهرهبرداری نفت و گاز کارون، اعطا شد.
روابطعمومی شرکت بهرهبرداری نفت و گاز کارون در بیستودومین دوره جشنواره برترینهای روابطعمومی ایران موفق به کسب دو عنوان برتر شد.
یک مطالعه جدید از دانشگاه فلایندرز اطلاعات تازهای درباره اینکه چگونه دو نوشیدنی محبوب جهان، قهوه و چای، میتوانند بر سلامت استخوان زنان مسن تاثیر بگذارند ارائه کرده است.
Δ