مدل یادگیری برای انتخاب اشیاء در یک تصویر، با استفاده از توصیف های گفتاری.
دانشمندان کامپیوتر MIT یک سیستم ایجاد کردهاند که یادگیری برای شناسایی اشیاء در یک تصویر بر اساس توصیف سخنرانی تصویر انجام میگیرد. با توجه به یک تصویر و یک عنوان صوتی، مدل در زمان واقعی مناطق مورد نظر تصویری که در حال توصیف است، برجسته میشود.
بر خلاف فناوری تشخیص گفتار فعلی، این مدل نیازی به رونویسی دستی و حاشیه نویسی از نمونه هایی است که در آن آموزش دیده اند. در عوض، واژهها به طور مستقیم از کلیپ های سخنرانی ضبط شده و اشیاء در تصاویر خام یاد میگیرند و آنها را با هم مرتبط میکند.
این مدل در حال حاضر تنها چند صد کلمه و نوع شیء را میشناسد. اما محققان امیدوارند که یک روز تکنیک تشخیص چهره ترکیبی خود بتواند ساعتهای کار دست کاری را بی شمار و درب های جدید را در تشخیص گفتار و تصویر باز کند.
برای مثال، سیستم های تشخیص گفتار مانند Siri و Google Voice نیازمند رونویسی هزاران ساعت ضبط صدا است. با استفاده از این داده ها، سیستم یادگیری سیگنال های گفتاری را با کلمات خاصی میآموزد. چنین رویکردی به ویژه مشکل ساز میشود زمانی که، بگوئیم، اصطلاحات جدید به زبان ما وارد میشوند و سیستمها باید دوباره آموزش داده شوند.
ما میخواستیم تشخیص گفتار را به شیوهای طبیعی تر به کار گیریم، استفاده از سیگنال های اضافی و اطلاعاتی که انسانها از آن بهره مند شوند، اما الگوریتم های یادگیری ماشین به طور معمول به آنها دسترسی ندارند. دیوید هاروات، پژوهشگر علوم آزمایشگاهی هوش مصنوعی و آزمایشگاه هوش مصنوعی (CSAIL) و سیستم های زبان گفتاری، میگوید: ما این ایده را برای آموزش یک مدل به شیوهای مشابه راه رفتن کودک در سرتاسر جهان به کار گرفتیم. هاروات مقالهای را توصیف کرد که در کنفرانس اختراعات کامپیوتری اروپا ارائه شده بود.
در مقاله، محققان مدل خود را بر روی تصویر یک دختر جوان با موهای بلوند و چشم آبی نشان میدهند، لباس آبی پوشانند، با یک فانوس دریایی سفید با سقف قرمز در پس زمینه. این مدل آموخته است که پیکسل هایی که در تصویر قرار دارند، مربوط به کلمات دختر، موهای بلوند، چشم آبی، لباس آبی، خانه سفید و سقف قرمز هستند. وقتی یک عنوان صوتی گفته شد، مدل هر کدام از این اجسام را در تصویر مشخص کرد.
یک برنامه امیدوارکننده یادگیری ترجمه بین زبان های مختلف است، بدون نیاز به یک سخنرانی دو زبانه. از حدود 7000 زبان در سراسر جهان صحبت میکنند، فقط 100 یا بیشتر داده های رونویسی برای تشخیص گفتار را دارند. با این حال، در شرایطی که دو نفر از زبانهای مختلف زبان یک تصویر مشابه را توصیف میکنند، در نظر بگیرید. اگر مدل سیگنال های گفتاری را از زبان A یاد بگیرد که به اشیاء در تصویر متصل است و سیگنال هایی را در زبان B که با همان اشیاء مطابقت دارد، یاد میگیرد، میتواند این دو سیگنال و کلمات مرتبط را فرض کند - ترجمه های یکدیگر هستند.
هاروات میگوید: با اشاره به گوشی های هوشمند ساختگی در رمان های راهنماهای حماسی کهکشان که زبان های مختلف را به کاربر میدهد این برنامه نوشته شده است.
همکاران CSAIL عبارتند از: دانشجوی کارشناسی ارشد Adria Recasens.
انجمن های صوتی و تصویری.
این کار بر روی یک مدل پیشین که توسط Harwath، Glass و Torralba ساخته شده است گسترش مییابد که گفتار را با گروه های تصاویر وابسته به موضوع مرتبط میکند. در تحقیق قبلی، آنها تصاویری از صحنهها را از یک پایگاه داده طبقه بندی شده بر روی پلت فرم کامیون قرار دادند. آنها پس از آن افراد را به تصویر کشیدند، به طوری که اگر آنها را به یک کودک روایت میکرد، حدود 10 ثانیه طول میکشید. آنها بیش از 200،000 جفت تصاویر و فایل صوتی را در صدها دسته مختلف، مانند سواحل، مراکز خرید، خیابان های شهر و اتاق خواب به آن دادند.
سپس یک مدل از دو شبکه عصبی کانولوشن جداگانه (CNNs). یکی از پردازش تصاویر، و یکی پردازش طیف، نمایش بصری از سیگنال های صوتی به آنها در طول زمان متفاوت دادند. بالاترین لایه مدل، خروجی های این دو شبکه را محاسبه میکند و الگوهای گفتار را با داده های تصویر نشان میدهد.
مثلا محققان میتوانند الگوی مدل A و تصویر A را که صحیح است، استفاده کنند. سپس، آنها یک برداشت تصادفی B با تصویر A، که یک جفت نادرست است، میخورند. پس از مقایسه هزاران عبارات اشتباه با تصویر A، مدل، سیگنال های گفتاری مربوط به تصویر A را یاد میگیرد، و این سیگنالها را با کلمات در زیرنویسها مرتبط میکند. همانطور که در یک مطالعه 2016 توضیح داده شد، برای مثال، مدل یادآور شد، برای انتخاب سیگنال مربوط به کلمه آب و برای بازیابی تصاویر با آبهای بدن.
هاروث میگوید: اما راهی برای گفتن نداشت، این دقیقا همان لحظهای است که یک نفر گفته یک کلمه خاص که به آن پچ های خاصی اشاره میکند.
ساخت یک مسابقه.
در مقاله جدید، محققان مدل را تغییر دادند تا کلمات خاصی را با تکه های خاص پیکسل مرتبط کنند. محققان این مدل را در همان پایگاه داده آموزش داده اند، اما با مجموع جدیدی از 400،000 جفت های عنوان تصویری. آنها 1000 آزمایش جفتی برای آزمایش انجام دادند.
در آموزش، مدل به طور مشابه تصاویر و عبارات صحیح و نادرست را ارائه میدهد. اما این بار، تصویر CNN تجزیه و تحلیل تصویر را به یک شبکه از سلول متشکل از تکه های پیکسل تقسیم میکند. CNN تجزیه و تحلیل صدا تجزیه اسپکترومتر را به بخش هایی از جمله یک ثانیه برای ضبط یک یا دو کلمه تقسیم میکند.
با جفت تصویر صحیح، مدل با اولین سلول شبکه به بخش اول صوتی منطبق است، سپس همان سلول با بخش دوم صوتی و غیره را در هر سلول از طریق هر سلول شبکه و در سراسر همه. برای هر بخش سلولی و صوتی، نمره مشابهی را به وجود میآورد، بسته به اینکه چقدر سیگنال مربوط به شی است.
چالش این است که در طول آموزش، این مدل دسترسی به هیچ اطلاعات هماهنگی درست بین گفتار و تصویر ندارد. هاروات میگوید: بزرگترین سهم کاغذ، نشان میدهد که این ترازهای متقابل [صوتی و تصویری] میتواند به طور خودکار به وسیلهی آموزش شبکه، تصاویر و عناوین مربوط به یکدیگر و جفت ها.
نویسندگان این ارتباط خودکار یادگیری را بین یک شکل موج سخن گفته با تصویر پیکسل یک matchmap دوگانه میکنند. پس از آموزش در هزاران جفت عناوین تصویری، شبکه آن دسته بندیها را به واژه های خاصی که اشیاء خاص در آن نقشه مسابقه را محدود میکند، محدود میکند.
هاروث میگوید: این نوعی مانند انفجار بزرگ است، جایی که ماده واقعا پراکنده شده است، اما پس از آن به سیارات و ستارگان هم رسیده است. پیش بینیها در همه جا پراکنده میشوند، اما، همانطور که شما از طریق آموزش میروند، آنها را به ترازی تبدیل میکنند که مبنای معنی معنایی بین کلمات و اشیاء بصری است.
لطفاً در مورد مطلب فوق ستاره بدهید :
طراحی سایت سیستم جدید یادگیری ماشین با توجه به گفتار و تشخیص موضوع همزمان Rated 4.7 / 5 based on 12 reviews.
آیا این مقاله برای شما مفید بود؟