تبدیل فیلم به متن، رویایی که به واقعیت پیوست

**Setare** · #1 06-05-2010

پژوهشگران یو.سی.ال.ای نرم‌افزاری نوشته‌اند که وقایع ثبت شده توسط دوربین‌های نظارتی را تشخیص و آن‌ها را به صورت فایل متنی مرتب می‌کند. با کمک این دستاورد، جستجو در فیلم‌های امنیتی به سادگی جستجوی اینترنتی خواهد بود.

فریبا فرهادیان: دانشمندان دانشگاه کالیفرنیا در لس‌آنجلس (یو.سی.ال.ای) موفق به ساخت سیستمی شده‌اند که قادر است توصیفی واقعی از اتفاقاتی را که در فیلم رخ می‌دهد، تولید کند. البته این سیستم هنوز به مرحله‌ای نرسیده که قابلیت تجاری شدن را داشته باشد.

به گزارش تکنولوژی رویو وابسته به ام.آی.تی، دراین سیستم یک نرم‌افزار می‌تواند از طریق تصاویر و فیلم‌های جمع‌آوری شده، کار جستجو را انجام دهد. سانگ شون زو، مدیر ارشد این تحقیق و استاد آمار و علوم کامپیوتری دانشگاه یو.سی.ال.ای، یکی از مشکلات موجود در زمینه کار با فیلم‌ها و تصاویری را که توسط دوربین‌های پایشی گرفته شده‌اند، سخت بودن جستجو در مضمون آن‌ها بیان می‌کند. به همین دلیل، وی و همکارانش سیستمی را با نام I2T (تبدیل تصویر به متن) طراحی کرده‌اند تا بتوانند روال این کار را تغییر دهند.

داده‌های ورودی به این سیستم درواقع همان تصاویر و فریم‌های ویدیویی هستند و خروجی آن، خلاصه‌ای از آن‌چه در فیلم رخ داده است! به این ترتیب تنها با استفاده از یک جستجوی متنی ساده می‌توان فیلمی با موضوعی خاص را پیدا کرد. زو معتقد است با کمک این سیستم می‌توان تعداد دوربین‌های مراقبتی در خیابان‌ها و یا سایت‌های نظامی را با ثابت نگاه داشتن پرسنل و ماموران کنترل، افزایش داد.

اصلی‌ترین بخش این سیستم، بخشی به نام تجزیه‌کننده تصویر است. این بخش پس‌زمینه و اشیایی مثل خودروها و یا درختان و افراد را از تصویر حذف می‌کند. حتی به کمک آن می‌توان اعضای مختلف بدن یک شخص و یا چرخ‌های خودرو را نیز جدا کرد. پس از تجزیه تصویر می‌توان معنی و مفهوم مجوعه شکل‌ها را معین کرد که این، مهم‌ترین قسمت کار است.

پایه‌های انجام چنین کاری در سال 2005 توسط زو گذاشته شد. وی در این سال، موسسه‌ای غیرانتفاعی با نام لوتوس را در چین تاسیس کرد و با حمایت دولت این کشور، افرادی را که فارغ‌التحصیل رشته هنر بودند، استخدام کرد و از آنها خواست یک مجموعه تصویر را تفسیر کنند. نتیجه کار وی تولید یک بانک اطلاعاتی خوب با بیش از 2 میلیون تصویر با اشیایی طبقه‌بندی شده بر پایه دیتابیس ووردنت‌پرینستون بود که می‌توانست کلمات انگلیسی را به گروه‌هایی بر اساس معنای آن‌ها طبقه‌بندی کند.

این سیستم هم‌چنین می‌تواند با استفاده از الگوریتم‌هایی خاص، حرکت اشیا را در فریم‌های متوالی توصیف کند و مثلا نتیجه کار را به صورت جملاتی مثل 'قایق 1، قایق 2 را تعقیب می‌کند' بیرون دهد.

موسسه لوتوس قصد دارد این سیستم را با افزودن به تعداد تصاویر آن ارتقا بخشد.

زو کیم، محقق دانشگاه کالیفرنیا که روی استفاده از دید کامپیوتری در کمک به پایش ترافیک و ردیابی خودروها کار می‌کند، معتقد است اگر تجزیه تصاویر با دقت بالایی انجام شود؛ افراد نابینا هم می‌توانند مفهوم تصاویر روی شبکه را بفهمند. البته وی خاطرنشان می‌کند که انسان موجودی وابسته به بینایی است و در بسیاری از حالات می‌توان انتظار داشت که آن‌ها بیشتر از این‌که به سیستم‌های کامپیوتری اعتماد داشته باشند، ترجیح می‌دهند خودشان وقایع رخ داده در فیلم یا تصویر را تفسیر کنند.
منبع