SORA چیست؟ | یک هوش مصنوعی جدید که ویدیوهای کاملاً واقعی تولید می کند!

فهرست مطالب

تبدیل یک متن ساده به ویدیو
SORA چیست ؟
SORA چگونه کار می‌کند؟
کاربردهای SORA چیست؟
نظر متخصصان درباره SORA
آیا استفاده از SORA برای عموم ممکن است؟
ریسک‌های استفاده از SORA چیست؟
جمع‌بندی

یک بار دیگر OpenAI، شرکت توسعه‌دهنده چت‌جی‌پی‌تی (Chat GPT)، دنیای تکنولوژی را با رونمایی از یک هوش مصنوعی جدید، تحت تاثیر قرار داد. یک مدل هوش مصنوعی تولیدکننده ویدیو به نام SORA که می تواند با استفاده از متن ساده، ویدیوهای کوتاه بسیار واقعی ایجاد کند. اگرچه این محصول هنوز در دسترس عموم قرار نگرفته اما انتشار برخی از نمونه‌های تولیدشده با آن توسط تیم توسعه، باعث حیرت کاربران شده است. در ادامه به این می‌پردازیم که این هوش مصنوعی جدید یعنی SORA چیست و چگونه کار می‌کند. همچنین نظر برخی از افراد متخصص را درباره این محصول بررسی می‌کنیم.

تبدیل یک متن ساده به ویدیو

مدت زیادی از معرفی و عرضه چت‌بات GPT توسط OpenAI نگذشته بود که این شرکت از محصول جدید خود، یک هوش مصنوعی بسیار قدرتمند برای تبدیل متن به ویدیو پرده برداشت. در روز پنجشنبه 15 فوریه 2024 (26 بهمن 1402)، حساب رسمی شرکت OpenAI در پلتفرم X، پستی را منتشر کرد که علاوه بر یک متن، شامل ویدیویی دلنواز از یک منظره‌ای برفی در یک شهر بود. متن این پست اشاره می‌کرد که این شرکت یک مدل هوش مصنوعی جدید به نام SORA را توسعه داده است که می‌تواند ویدیوهای حداکثر 60 ثانیه‌ای ایجاد کند و صحنه‌های بسیار دقیق، حرکات پیچیده دوربین و شخصیت‌های متعدد با حرکات و احساسات کاملا زنده را در آن به تصویر بکشد. بهتر است قبل از هر توضیح دیگری این ویدیو را ببینید.

در کمال تعجب باید بگوییم که این ویدیو تنها با ارائه یک متن ساده انگلیسی به SORA تولید شده است. برای درک بهتر شگفتی این محصول، پیشنهاد می‌کنیم که ترجمه فارسی متن اولیه را بخوانید و آن را با جزییات داخل ویدیو مقایسه کنید:
“شهر زیبا و برفی توکیو، شلوغ است. دوربین در یک خیابان شلوغ، چند نفر را دنبال می کند که از هوای زیبا و برفی لذت می برند و از فروشگاه‌های اطراف خرید می کنند. گلبرگ های زیبای ساکورا همراه با دانه های برف در میان باد حرکت می‌کنند”.

حالا بیایید کمی دقیق‌تر به بررسی این محصول جذاب و ویژگی‌های آن بپردازیم.

همچنین بخوانید: هدست اپل ویژن پرو | تجربه متفاوت حضور در دنیای متاورس

SORA چیست ؟

بنا به تعریف سایت رسمی OpenAI، سورا (SORA) یک مدل هوش مصنوعی است که می تواند صحنه های واقعی و تخیلی را با استفاده از دستورهای متنی ایجاد کند. در واقع SORA یک متن توضیحی را از کاربر دریافت می‌کند و مطابق آن، یک ویدیو به طول حداکثر یک دقیقه و با جزییات بالا و دقیق تولید می‌نماید. همچنین OpenAI مدعی شد که مدل هوش مصنوعی SORA قادر است صحنه‌هایی شبیه به فیلم‌های واقعی را با رزولوشن تا 1920x1080p ایجاد کند. این صحنه ها می تواند شامل شخصیت های متعدد، انواع خاص حرکت و جزئیات دقیق سوژه و پس زمینه باشد.

SORA چگونه کار می‌کند؟

بسیار شبیه محصول قبلی OpenAI یعنی Dall-E 3 که متن را به تصویر تبدیل می‌کرد، SORA نیز بر روی مدلی که به عنوان Diffusion Model شناخته می شود، عمل می کند.

Diffusion در اینجا به یک مدل هوش مصنوعی مولد اشاره دارد که خروجی خود را با تولید یک ویدیو یا یک تصویر به شکلی که ابتدا شبیه یک “نویز (Noise)” است، ایجاد می کند. سپس به تدریج آن را طی چندین مرحله با “حذف نویز”، تغییر داده و به خروجی نهایی نزدیک‌تر می‌کند. OpenAI می‌گوید Sora بر اساس تحقیقات گذشته از مدل‌های ChatGPT و Dall-E 3 ساخته شده است و ادعا می‌کند این ویژگی، به SORA کمک می‌کند ورودی‌های کاربر را به شکل درست‌تری نمایان کند.

در تصویر پایین مشاهده می‌کنیم که تصاویر تولید شده توسط SORA، در ابتدا و قبل از پردازش‌های متعدد، وضوح و دقت کمتری دارند و با پردازش بیشتر، کیفیت و جزییات تصویر بهبود یافته است.

البته از طرفی OpenAI اعتراف می‌کند که SORA همچنان در محرحله توسعه قرار دارد و دارای چندین نقطه ضعف است. به همین دلیل ممکن است در شبیه‌سازی فیزیک یک صحنه پیچیده به طور دقیق دچار چالش شود زیرا گاهاً نمی‌تواند تاثیر اجزا بر یکدیگر را به شکل صحیح درک کند. OpenAI برای مثال تصویر زیر را منتشر کرده که در آن حرکت فرد روی تردمیل، به صورت برعکس و اشتباه نشان داده می‌شود.

همچنین بخوانید: 3 مورد از بهترین ارزهای دیجیتال که می‌تواند شما را در سال 2024 ثروتمند کند!

کاربردهای SORA چیست؟

از زمانی که OpenAI، چت‌بات GPT را معرفی کرد تا به امروز، تغییر و تحولات بسیاری در نحوه استفاده از آن شکل گرفت. افراد و شرکت‌ها می‌توانند GPTهای مخصوص به خود را آموزش دهند و ا آن‌ها در راستای اهداف خود استفاده کنند. بنابراین اکنون که تازه چند روز از رونمایی محدود هوش مصنوعی SORA می‌گذرد، کمی زود است که درباره کاربردها و پتانسیل‌های آن نظر دهیم.

اما وبسایت رسمی OpenAI توضیح می‌دهد که SORA علاوه بر اینکه می‌تواند از دستورهای متنی یک ویدیو تولید کند، می‌تواند یک تصویر ثابت موجود را بگیرد و محتوای آن تصویر را با دقت و توجه به جزئیات دقیق متحرک کرده و با آن یک ویدیو تولید نماید. این مدل هوش مصنوعی همچنین می‌تواند یک ویدیوی موجود را بگیرد و زمان آن را گسترش دهد یا فریم‌های از دست رفته آن را دوباره و از نو تولید کند.

نظر متخصصان درباره SORA

ده ها دموی ویدیویی در پلتفرم X منتشر شده است که نمونه‌های تولید شده توسط Sora را نشان می‌دهد و Sora اکنون با بیش از 173000 پست در X ترند است. Sam Altman، مدیر عامل OpenAI، برای نشان دادن توانایی‌های مدل جدید این شرکت، اعلام کرد درخواست‌های متنی تولید ویدیوی سفارشی از سوی کاربران را در X می‌پذیرد. او در ادامه در مجموع هفت ویدیوی تولید شده توسط Sora را به اشتراک گذاشت که نتیجه آن کاربران را به شدت شگفت زده کرد.

Jim Fan، محقق ارشد شرکت Nvidia ، در پستی در 15 فوریه در پلتفرم X، اعلام کرد که هر کسی که فکر می‌کند SORA فقط یک «اسباب‌بازی خلاقانه» دیگر مانند Dall-E 3 است، سخت در اشتباه است. او در ادامه توضیح می‌دهد که : “SORA یک موتور فیزیک مبتنی بر داده است که بسیاری از جهان‌های واقعی یا خیالی را شبیه سازی می‌کند”. Jim Fan با اشاره به یکی از ویدیوهای تولیدشده توسط SORA، می‌گوید: “تعجب نمی‌کنم اگر SORA توسط تعداد زیادی از داده‌های مصنوعی با استفاده از موتور Unreal Engine 5 توسعه و آموزش دیده باشد. به نظر همین اتفاق افتاده است!”

این ویدیو را به همراه دستور متنی تولید آن مشاهده کنید:

متن درخواست‌ شده: “نمایی نزدیک از دو کشتی دزد دریایی که در حال نبرد با یکدیگر همزمان با حرکت در داخل یک فنجان قهوه هستند”.

از نظر Fan، هوش مصنوعی SORA فراتر از یک ابزار تولید ویدیو و بیشتر یک «موتور فیزیک مبتنی بر داده» است. زیرا این مدل نه تنها ویدیوهای انتزاعی تولید می‌کند، بلکه به‌طور قطعی فیزیک اشیا را نیز در خود صحنه ایجاد می‌نماید. مفسر و تحلیل‌کننده فناوری هوش مصنوعی، Mckay Wrigley به همراه بسیاری دیگر از کاربران نوشته است که ویدیوی تولید شده توسط SORA جای هیچ حرفی برای باقی نگذاشته است.

همچنین بخوانید: آینده قیمت سولانا | ارزش بازار سولانا، BNB را پشت سر گذاشت!

آیا استفاده از SORA برای عموم ممکن است؟

OpenAI گفته که مدل جدید هوش مصنوعی آن در حال حاضر فقط برای “Red Teamers” (اصطلاح فناوری برای محققان امنیت سایبری) برای ارزیابی و شناسایی آسیب‌ها یا ریسک‌ها قابل دسترسی است. این دسترسی همچنین به برخی طراحان، هنرمندان تجسمی و فیلمسازان برای دریافت بازخورد، داده شده اما OpenAI نام این اشخاص را فاش نکرده است. بنابراین به نظر می‌رسد تا زمانی که این محصول در دسترس عموم قرار بگیرد، مدت زیادی باقی مانده است.

همچنین تاکنون تاریخی نیز برای عرضه رسمی SORA توسط تیم توسعه‌دهنده اعلام نشده استو انتظار می‌رود با توجه به پیچیدگی‌ها و تکنولوؤی بسیار بالای این محصول، عرضه آن کمی به طول بیانجامد و حتی در سال 2024 نیز شاهد در دسترس قرار گرفتن آن نباشیم.

ریسک‌های استفاده از SORA چیست؟

در دسامبر 2023، گزارشی از دانشگاه استنفورد منتشر شد که نشان می‌داد ابزارهای تولید تصویر مبتنی بر هوش مصنوعی با استفاده از پایگاه‌داده هوش مصنوعی Laion بر روی هزاران تصویر با موضوع کودک‌آزاری در حال توسعه هستند. این مسئله نگرانی‌های اخلاقی و قانونی جدی را برای فناوری تبدیل متن به تصویر ایجاد می‌کند.

همچنین هنگامی که ابزارهای هوش مصنوعی تبدیل متن به عکس مانند Dall-E بر سر زبان‌ها افتادند، این هجمه علیه آن‌ها شکل گرفت که تصاویر تولید شده توسط آن‌ها می‌تواند در راستای اهداف ناپسندی مانند کلاه‌برداری و … مورد استفاده قرار بگیرد. ایجاد تعادل میان گسترش استفاده از یک تکنولوژی جدید و مدیریت ریسک‌های آن، چالشی است احتمالا که بر سر راه SORA نیز وجود خواهد داشت.

جمع‌بندی

پیشرفت مدل‌ها و ابزارهای هوش مصنوعی در ماه ها و سال‌های گذشته، خیره کننده بوده است. این ابزار نحوه و تعریف انجام بسیاری از فعالیت‌ها را برای انسان تغییر داده‌اند. اما مدل هوش مصنوعی SORA به نظر بسیار پیچیده‌تر از آن است که بتوان به راحتی آن را تحلیل و بررسی کرد. در نتیجه باید منتظر ماند و دید که شرکت OpenAI چه زمانی قصد دارد این محصول خارق‌العاده را به صورت رسمی منتشر کند. تا ان زمان پیشنهاد می‌کنیم سری به وبسایت رسمی OpenAI بزنید و از تصاویر منحصر به فرد خلق‌ شده توسط SORA، لذت ببرید.