سیستم یادگیری ماشین به طور موثر فعالیت های خود را با رعایت اشیاء تغییر در تنها چند فریم کلیدی به رسمیت میشناسد.
با توجه به تنها چند فریم از یک ویدیو، انسانها معمولا میتوانند تصور کنند که چه اتفاقی میافتد و روی صفحه نمایش اتفاق میافتد. اگر یک قاب اولیه از قوطی های انباشته، یک قاب متوسط با یک انگشت در پایه پشته ببینیم و یک قدم عقب نشان دادن قوطی های سرازیر شده، میتوانیم حدس بزنیم که انگشت قوطیها را از بین برد. با این حال، کامپیوترها با این مفهوم مبارزه میکنند.
محققان MIT در یک مقاله که در کنفرانس اروپایی کنفرانس کامپیوتری این هفته ارائه شده است، یک ماژول افزودنی را پشتیبانی میکند که به سیستم های هوش مصنوعی به نام شبکه های عصبی کانولوشن یا CNNها کمک میکند تا شکاف بین فریم های ویدیویی را تا حد زیادی تشخیص دهند.
ماژول محققان، به نام شبکه ارتباطات موقتی (TRN)، یاد میگیرد که چگونه اشیا در زمان های مختلف در یک ویدیو تغییر میکنند. این کار را با تجزیه و تحلیل چند فریم اصلی نشان میدهد که فعالیت در مراحل مختلف فیلم - مانند اشیاء انباشته شده که پس از آن پایین آمدند. با استفاده از همان فرآیند، میتواند همان نوع فعالیت را در یک ویدیو جدید تشخیص دهد.
در آزمایشات، ماژول مدل های موجود را با یک حاشیه بزرگ در شناختن صدها فعالیت اساسی از جمله اشیاء پیکسلی که آنها را میسوزاند، چیزی را در هوا ریختن و دادن انگشت شست. این نیز دقیق تر پیش بینی میکند که در ویدیوی بعدی چه اتفاقی خواهد افتاد - نشان دادن، برای مثال، دو دست، یک پاره کوچک در یک ورق کاغذ - با توجه به تعداد کمی از فریم های اولیه.
یک روز، این ماژول میتواند برای کمک به روباتها در درک آنچه در اطراف آنها اتفاق میافتد استفاده شود.
بولی ژو، دانشجوی سابق دانشجوی کارشناسی ارشد علوم کامپیوتر و آزمایشگاه هوش مصنوعی (CSAIL) که در حال حاضر استادیار علوم رایانه است میگوید سیستم از طریق تمام فریمها عبور نمیکند - فریم های کلیدی را جمع میکند و با استفاده از رابطه زمانی از فریمها متوجه میشوند که چه چیزی اتفاق میافتد. این باعث افزایش کارایی سیستم میشود و به طور دقیق اجرا میشود.
همکاران در این مقاله آنتونیو تورلالبا، پژوهشگر اصلی CSAIL است که همچنین استاد گروه مهندسی برق و علوم کامپیوتری است.
برداشتن فریم های کلیدی.
امروزه دو ماژول مشترک CNN که برای شناسایی فعالیت استفاده میشوند، دچار کمبود کارایی و دقت هستند. یک مدل دقیق است، اما قبل از ایجاد یک پیش بینی، هر قاب ویدئویی را تجزیه و تحلیل میکند، که به صورت محاسباتی گران و آهسته است. نوع دیگر، به نام دو جریان شبکه، دقیق تر اما کارآمدتر است. این یک جریان برای استخراج ویژگی های یک فریم ویدئو استفاده میکند و سپس نتایج را با جریان های نوری ادغام میکند، جریان اطلاعات استخراج شده در مورد حرکت هر پیکسل. جریان های نوری نیز برای استخراج گران محسوب میشوند، بنابراین مدل هنوز کارآمد نیست.
ژو میگوید: ما چیزی را میخواستیم که بین این دو مدل کار میکند - کارایی و دقت است.
محققان ماژول خود را در سه مجموعه داده های مرتب شده از ویدیوهای کوتاه فعالیت های مختلف انجام دادند. اولین مجموعه داده، به نام Something-Something ساخته شده توسط شرکت TwentyBN، دارای بیش از 200،000 فیلم در 174 دسته عمل میکند، مانند جابجایی یک شی به طوری که آن را میافتد و یا بلند کردن یک شی. مجموعه داده دوم، Jester، حاوی نزدیک به 150،000 فیلم با 27 حرکات مختلف مختلف است، مانند دادن انگشت شست یا کشیدن چپ. سومین Charades که توسط محققان دانشگاه Carnegie Mellon ساخته شده است، نزدیک به 10،000 فیلم از 157 فعالیت دسته بندی شده مانند حمل دوچرخه یا بازی بسکتبال.
هنگامی که یک فایل ویدئویی داده میشود، ماژول محقق به طور همزمان پردازش فریم های سفارش داده - در گروه های دو، سه و چهار - فاصله زمانی. سپس آن را به سرعت یک احتمال را تعیین میکند که تبدیل شیء در آن فریمها با یک کلاس خاص فعالیت مرتبط است. به عنوان مثال، اگر دو فریم را پردازش میکند، جایی که فریم بعدی یک شی را در پایین صفحه نشان میدهد و پیشتر شیء را در بالا نشان میدهد، آن احتمال احتمال را به کلاس فعالیت اختصاص میدهد. اگر یک قاب سوم یک شی را در وسط صفحه نشان میدهد، این احتمال حتی بیشتر افزایش مییابد و غیره. از این، ویژگی های تبدیل شی را در فریم هایی که اکثر کلاس های خاصی از فعالیت را نشان میدهند، یاد میگیرد.
فعالیت های شناخت و پیش بینی.
در آزمایش، سی ان ان مجهز به ماژول های جدید با دقت بسیاری از فعالیت های دو فریم با استفاده از به رسمیت شناخته شده اما افزایش دقت نمونه برداری بیشتر فریم. برای شوخ، ماژول دقت بالای 95 درصد در به رسمیت شناختن فعالیت، ضرب و شتم از چندین مدل موجود به دست آورد.
آن حتی حدس زده مبهم در سمت راست طبقه بندی: چیزی--چیزی به عنوان مثال، شامل اقدامات مانند تظاهر به باز کردن یک کتاب در مقابل باز کردن کتاب. تشخیص بین دو ماژول فقط چند بیشتر کلیدی فریم، که نشان داد، به عنوان مثال، دست نزدیک کتاب در چهارچوب اولیه و سپس در کتاب، سپس منتقل شده از کتاب در قاب بعد نمونه.
برخی از مدل های تشخیص فعالیت نیز پردازش فریم های کلیدی اما روابط در فریم های که باعث کاهش دقت خود را در نظر نمی. گزارش محققان است که ماژول TRN خود را تقریبا در دقت بیش از کسانی که مدل های قاب کلیدی در تست های خاصی دو برابر.
ماژول نیز outperformed مدل در پیش بینی فعالیت فریم محدود داده شده. پس از 25 درصد اول فریم پردازش، ماژول دقت حاصل چند درصد امتیاز بالاتر از مدل پایه. با 50 درصد فریم آن را به دست دقت 10 تا 40 درصد. مثالها عبارتند از: تعیین که کاغذ فقط کمی پاره شود می، بر اساس چگونه دو دست بر روی کاغذ در فریم های اولیه قرار و پیش بینی دست بالا نشان داده شده رو به جلو، پایین کش رفتن می.
که برای برنامه های کاربردی رباتیک مهم ژو میگوید:. [ربات] پیش بینی و پیش بینی وقتی یک عمل خاص چه در اوایل اتفاقی میخواهید. .
بعد، محققان این هدف که بهبود ماژول پختگی. اولین قدم در پیاده سازی شی تشخیص همراه با به رسمیت شناختن فعالیت. سپس، آنها امید به بصری فیزیک، معنی آن درک دنیای واقعی ویژگیهای فیزیکی اشیاء کمک اضافه. زیرا ما میدانیم بسیاری از فیزیک در داخل این فیلم، ما ماژول به چنین قوانین فیزیک و در استفاده از آن در فیلم های جدید با توجه به آموزش میتواند، میگوید ژو. ما همچنین مدل و منبع تمام کد باز. درک فعالیت منطقهای هیجان انگیز از هوش مصنوعی در حال حاضر است.
لطفاً در مورد مطلب فوق ستاره بدهید :
طراحی سایت کمک به کامپیوتر ها برای پر کردن شکاف بین فریم های تصویر با سیستم یادگیری ماشین Rated 4.7 / 5 based on 12 reviews.
آیا این مقاله برای شما مفید بود؟