فهرست مطالب
یک بار دیگر OpenAI، شرکت توسعهدهنده چتجیپیتی (Chat GPT)، دنیای تکنولوژی را با رونمایی از یک هوش مصنوعی جدید، تحت تاثیر قرار داد. یک مدل هوش مصنوعی تولیدکننده ویدیو به نام SORA که می تواند با استفاده از متن ساده، ویدیوهای کوتاه بسیار واقعی ایجاد کند. اگرچه این محصول هنوز در دسترس عموم قرار نگرفته اما انتشار برخی از نمونههای تولیدشده با آن توسط تیم توسعه، باعث حیرت کاربران شده است. در ادامه به این میپردازیم که این هوش مصنوعی جدید یعنی SORA چیست و چگونه کار میکند. همچنین نظر برخی از افراد متخصص را درباره این محصول بررسی میکنیم.
تبدیل یک متن ساده به ویدیو
مدت زیادی از معرفی و عرضه چتبات GPT توسط OpenAI نگذشته بود که این شرکت از محصول جدید خود، یک هوش مصنوعی بسیار قدرتمند برای تبدیل متن به ویدیو پرده برداشت. در روز پنجشنبه 15 فوریه 2024 (26 بهمن 1402)، حساب رسمی شرکت OpenAI در پلتفرم X، پستی را منتشر کرد که علاوه بر یک متن، شامل ویدیویی دلنواز از یک منظرهای برفی در یک شهر بود. متن این پست اشاره میکرد که این شرکت یک مدل هوش مصنوعی جدید به نام SORA را توسعه داده است که میتواند ویدیوهای حداکثر 60 ثانیهای ایجاد کند و صحنههای بسیار دقیق، حرکات پیچیده دوربین و شخصیتهای متعدد با حرکات و احساسات کاملا زنده را در آن به تصویر بکشد. بهتر است قبل از هر توضیح دیگری این ویدیو را ببینید.
در کمال تعجب باید بگوییم که این ویدیو تنها با ارائه یک متن ساده انگلیسی به SORA تولید شده است. برای درک بهتر شگفتی این محصول، پیشنهاد میکنیم که ترجمه فارسی متن اولیه را بخوانید و آن را با جزییات داخل ویدیو مقایسه کنید:
“شهر زیبا و برفی توکیو، شلوغ است. دوربین در یک خیابان شلوغ، چند نفر را دنبال می کند که از هوای زیبا و برفی لذت می برند و از فروشگاههای اطراف خرید می کنند. گلبرگ های زیبای ساکورا همراه با دانه های برف در میان باد حرکت میکنند”.
حالا بیایید کمی دقیقتر به بررسی این محصول جذاب و ویژگیهای آن بپردازیم.
SORA چیست ؟
بنا به تعریف سایت رسمی OpenAI، سورا (SORA) یک مدل هوش مصنوعی است که می تواند صحنه های واقعی و تخیلی را با استفاده از دستورهای متنی ایجاد کند. در واقع SORA یک متن توضیحی را از کاربر دریافت میکند و مطابق آن، یک ویدیو به طول حداکثر یک دقیقه و با جزییات بالا و دقیق تولید مینماید. همچنین OpenAI مدعی شد که مدل هوش مصنوعی SORA قادر است صحنههایی شبیه به فیلمهای واقعی را با رزولوشن تا 1920x1080p ایجاد کند. این صحنه ها می تواند شامل شخصیت های متعدد، انواع خاص حرکت و جزئیات دقیق سوژه و پس زمینه باشد.
SORA چگونه کار میکند؟
بسیار شبیه محصول قبلی OpenAI یعنی Dall-E 3 که متن را به تصویر تبدیل میکرد، SORA نیز بر روی مدلی که به عنوان Diffusion Model شناخته می شود، عمل می کند.
Diffusion در اینجا به یک مدل هوش مصنوعی مولد اشاره دارد که خروجی خود را با تولید یک ویدیو یا یک تصویر به شکلی که ابتدا شبیه یک “نویز (Noise)” است، ایجاد می کند. سپس به تدریج آن را طی چندین مرحله با “حذف نویز”، تغییر داده و به خروجی نهایی نزدیکتر میکند. OpenAI میگوید Sora بر اساس تحقیقات گذشته از مدلهای ChatGPT و Dall-E 3 ساخته شده است و ادعا میکند این ویژگی، به SORA کمک میکند ورودیهای کاربر را به شکل درستتری نمایان کند.
در تصویر پایین مشاهده میکنیم که تصاویر تولید شده توسط SORA، در ابتدا و قبل از پردازشهای متعدد، وضوح و دقت کمتری دارند و با پردازش بیشتر، کیفیت و جزییات تصویر بهبود یافته است.
البته از طرفی OpenAI اعتراف میکند که SORA همچنان در محرحله توسعه قرار دارد و دارای چندین نقطه ضعف است. به همین دلیل ممکن است در شبیهسازی فیزیک یک صحنه پیچیده به طور دقیق دچار چالش شود زیرا گاهاً نمیتواند تاثیر اجزا بر یکدیگر را به شکل صحیح درک کند. OpenAI برای مثال تصویر زیر را منتشر کرده که در آن حرکت فرد روی تردمیل، به صورت برعکس و اشتباه نشان داده میشود.
همچنین بخوانید: 3 مورد از بهترین ارزهای دیجیتال که میتواند شما را در سال 2024 ثروتمند کند!
کاربردهای SORA چیست؟
از زمانی که OpenAI، چتبات GPT را معرفی کرد تا به امروز، تغییر و تحولات بسیاری در نحوه استفاده از آن شکل گرفت. افراد و شرکتها میتوانند GPTهای مخصوص به خود را آموزش دهند و ا آنها در راستای اهداف خود استفاده کنند. بنابراین اکنون که تازه چند روز از رونمایی محدود هوش مصنوعی SORA میگذرد، کمی زود است که درباره کاربردها و پتانسیلهای آن نظر دهیم.
اما وبسایت رسمی OpenAI توضیح میدهد که SORA علاوه بر اینکه میتواند از دستورهای متنی یک ویدیو تولید کند، میتواند یک تصویر ثابت موجود را بگیرد و محتوای آن تصویر را با دقت و توجه به جزئیات دقیق متحرک کرده و با آن یک ویدیو تولید نماید. این مدل هوش مصنوعی همچنین میتواند یک ویدیوی موجود را بگیرد و زمان آن را گسترش دهد یا فریمهای از دست رفته آن را دوباره و از نو تولید کند.
نظر متخصصان درباره SORA
ده ها دموی ویدیویی در پلتفرم X منتشر شده است که نمونههای تولید شده توسط Sora را نشان میدهد و Sora اکنون با بیش از 173000 پست در X ترند است. Sam Altman، مدیر عامل OpenAI، برای نشان دادن تواناییهای مدل جدید این شرکت، اعلام کرد درخواستهای متنی تولید ویدیوی سفارشی از سوی کاربران را در X میپذیرد. او در ادامه در مجموع هفت ویدیوی تولید شده توسط Sora را به اشتراک گذاشت که نتیجه آن کاربران را به شدت شگفت زده کرد.
Jim Fan، محقق ارشد شرکت Nvidia ، در پستی در 15 فوریه در پلتفرم X، اعلام کرد که هر کسی که فکر میکند SORA فقط یک «اسباببازی خلاقانه» دیگر مانند Dall-E 3 است، سخت در اشتباه است. او در ادامه توضیح میدهد که : “SORA یک موتور فیزیک مبتنی بر داده است که بسیاری از جهانهای واقعی یا خیالی را شبیه سازی میکند”. Jim Fan با اشاره به یکی از ویدیوهای تولیدشده توسط SORA، میگوید: “تعجب نمیکنم اگر SORA توسط تعداد زیادی از دادههای مصنوعی با استفاده از موتور Unreal Engine 5 توسعه و آموزش دیده باشد. به نظر همین اتفاق افتاده است!”
این ویدیو را به همراه دستور متنی تولید آن مشاهده کنید:
متن درخواست شده: “نمایی نزدیک از دو کشتی دزد دریایی که در حال نبرد با یکدیگر همزمان با حرکت در داخل یک فنجان قهوه هستند”.
از نظر Fan، هوش مصنوعی SORA فراتر از یک ابزار تولید ویدیو و بیشتر یک «موتور فیزیک مبتنی بر داده» است. زیرا این مدل نه تنها ویدیوهای انتزاعی تولید میکند، بلکه بهطور قطعی فیزیک اشیا را نیز در خود صحنه ایجاد مینماید. مفسر و تحلیلکننده فناوری هوش مصنوعی، Mckay Wrigley به همراه بسیاری دیگر از کاربران نوشته است که ویدیوی تولید شده توسط SORA جای هیچ حرفی برای باقی نگذاشته است.
آیا استفاده از SORA برای عموم ممکن است؟
OpenAI گفته که مدل جدید هوش مصنوعی آن در حال حاضر فقط برای “Red Teamers” (اصطلاح فناوری برای محققان امنیت سایبری) برای ارزیابی و شناسایی آسیبها یا ریسکها قابل دسترسی است. این دسترسی همچنین به برخی طراحان، هنرمندان تجسمی و فیلمسازان برای دریافت بازخورد، داده شده اما OpenAI نام این اشخاص را فاش نکرده است. بنابراین به نظر میرسد تا زمانی که این محصول در دسترس عموم قرار بگیرد، مدت زیادی باقی مانده است.
همچنین تاکنون تاریخی نیز برای عرضه رسمی SORA توسط تیم توسعهدهنده اعلام نشده استو انتظار میرود با توجه به پیچیدگیها و تکنولوؤی بسیار بالای این محصول، عرضه آن کمی به طول بیانجامد و حتی در سال 2024 نیز شاهد در دسترس قرار گرفتن آن نباشیم.
ریسکهای استفاده از SORA چیست؟
در دسامبر 2023، گزارشی از دانشگاه استنفورد منتشر شد که نشان میداد ابزارهای تولید تصویر مبتنی بر هوش مصنوعی با استفاده از پایگاهداده هوش مصنوعی Laion بر روی هزاران تصویر با موضوع کودکآزاری در حال توسعه هستند. این مسئله نگرانیهای اخلاقی و قانونی جدی را برای فناوری تبدیل متن به تصویر ایجاد میکند.
همچنین هنگامی که ابزارهای هوش مصنوعی تبدیل متن به عکس مانند Dall-E بر سر زبانها افتادند، این هجمه علیه آنها شکل گرفت که تصاویر تولید شده توسط آنها میتواند در راستای اهداف ناپسندی مانند کلاهبرداری و … مورد استفاده قرار بگیرد. ایجاد تعادل میان گسترش استفاده از یک تکنولوژی جدید و مدیریت ریسکهای آن، چالشی است احتمالا که بر سر راه SORA نیز وجود خواهد داشت.
جمعبندی
پیشرفت مدلها و ابزارهای هوش مصنوعی در ماه ها و سالهای گذشته، خیره کننده بوده است. این ابزار نحوه و تعریف انجام بسیاری از فعالیتها را برای انسان تغییر دادهاند. اما مدل هوش مصنوعی SORA به نظر بسیار پیچیدهتر از آن است که بتوان به راحتی آن را تحلیل و بررسی کرد. در نتیجه باید منتظر ماند و دید که شرکت OpenAI چه زمانی قصد دارد این محصول خارقالعاده را به صورت رسمی منتشر کند. تا ان زمان پیشنهاد میکنیم سری به وبسایت رسمی OpenAI بزنید و از تصاویر منحصر به فرد خلق شده توسط SORA، لذت ببرید.