سیستم جدید ممکن است حدود 7000 زبان گفتاری را به ترجمه کامپیوتری سوق دهد.
محققان MIT یک مدل ترجمه لغت به لغت جدید را به دست آوردهاند که بدین معنی است که بدون نیاز به حاشیه نویسیها و راهنمایی های انسانی اجرا میشود که میتواند سریع تر و کارآمدتر ترجمه های کامپیوتری زبان های بسیار بیشتر باشد.
سیستم های ترجمه از گوگل، فیس بوک و آمازون نیاز به مدل های آموزشی برای جستجوی الگوهای در میلیونها اسناد مانند اسناد قانونی و سیاسی یا مقالات خبری که به زبان های مختلف توسط انسان ترجمه شده اند. با توجه به کلمات جدید در یک زبان، آنها میتوانند کلمات و عبارات مشابه را در زبان دیگر پیدا کنند.
اما این داده های ترجمهای زمان گیر و دشوار است برای جمع آوری، و به سادگی ممکن است برای بسیاری از 7،000 زبان صحبت میکنند در سراسر جهان وجود ندارد. به تازگی، محققان در حال توسعه مدل های یکپارچهای هستند که ترجمهها را بین متون در دو زبان انجام میدهند، اما بدون اطلاعات ترجمه مستقیم بین این دو.
در این مقاله که در این کنفرانس در مورد روش های تجربی در پردازش زبان طبیعی ارائه شده است، محققان از MIT کامپیوتر علم و آزمایشگاه هوش مصنوعی (CSAIL) مدل ارائه میکنند که سریع تر و کارآمد تر از این مدل تک لاین.
این مدل متریک را در آمار، به نام فاصله Gromov-Wasserstein است، که اساسا فاصله های بین نقاط در یک فضای محاسباتی را اندازه گیری میکند و با نقاط مشابه به فاصلهای دیگر در فضای دیگری. آنها این تکنیک را به کلمه تعبیرهای دو زبان اعمال میکنند که کلمات آن به صورت بردارها اساسا نشان داده میشوند، آرایهای از اعداد با کلمات معانی مشابه که با یکدیگر نزدیک تر میشوند. در انجام این کار، مدل به سرعت کلمات و یا بردارها را در هر دو مفهومی که بیشتر با فاصله های نسبی ارتباط دارند، تطبیق میدهد، به این معنی که آنها احتمالا ترجمه های مستقیم هستند.
در آزمایشات، مدل محققان به گونهای دقیق به عنوان مدل های تک لاین که از لحاظ تکنولوژی پیشرفته تر است و گاهی دقیق تر، اما بسیار سریع تر و با استفاده از تنها یک درصد از قدرت محاسبات.
نویسندگان Tommi Jaakkola، پژوهشگر CSAIL و پروفسور توماس سیبل در این مقاله میگویند که این مدل در دو زبان به عنوان مجموعه بردارها و نقشهها [آن بردارها] را از مجموعهای به مجموعه دیگر به طور عمده حفظ میکند. این رویکرد میتواند به زبان های کم منابع و یا گویشها کمک کند، تا زمانی که با محتوای یکزبانی کافی عرضه شوند.
دیوید آلوارز ملیس، دانشجوی دکترا CSAIL میگوید: این مدل یک گام به سوی یکی از اهداف اصلی ترجمه ماشین است که به طور کامل کنترل نشده است، اما میگوید: اگر شما اطلاعاتی ندارید که با دو زبان منطبق باشد، میتوانید دو زبان را.
روابط مهم بیشتر است.
هم ترازی کلمه برای ترجمه دستگاه بدون نظارت یک مفهوم جدید نیست. کارهای اخیر، شبکه های عصبی را به منظور تطابق بردارها به طور مستقیم در تعبیر کلمه یا ماتریس، از دو زبان به هم متصل میکنند. اما این روشها برای تمرین دقیق درست کردن دقیق و دقیق، که در آن ناکارآمد و وقت گیر است، نیاز به تمرین زیاد در طول تمرین دارند.
از سوی دیگر اندازه گیری و تطابق بردارها بر اساس فاصله های ارتباطی یک روش بسیار کارآمد است که نیازی به تنظیم دقیق ندارد. مهم نیست که کدام واژهگرها در یک ماتریس معین قرار بگیرند، رابطه بین کلمات، به معنی فاصله آنها، باقی خواهد ماند. به عنوان مثال، بردار برای پدر ممکن است در مناطق کاملا متفاوتی در دو ماتریس قرار بگیرد. اما بردارهای پدر و مادر به احتمال زیاد همیشه با یکدیگر همخوانی خواهند داشت.
آلوارز ملیس میگوید این فاصلهها غیرمستقیم است. با نگاه کردن به فاصله، و نه موقعیت مطلق بردارها، شما میتوانید هم ترازی را جست و خیز و مستقیم به مطابقت با مطابقت بین بردارها.
جایی که Gromov-Wasserstein در دست دارد. این تکنیک در علوم رایانهای استفاده شده است، برای مثال، کمک میکند تا پیکسل های تصویر را در طراحی گرافیک ترمیم کند. الورز-ملیس میگوید: اگر نقاط یا کلمات وجود داشته باشد که در یک فضای نزدیک به هم قرار گرفته اند، گراموف واسرشتاین به طور خودکار تلاش میکند تا خوشه متناظر با نقاط در فضای دیگر را پیدا کند.
برای آموزش و تست، محققان از یک مجموعه دادهای از واژه های حاوی کلمه عمومی استفاده میکردند که FASTTEXT نام دارد، با 110 زبان زوج. در این تعبیرات و دیگران، کلمات که بیشتر و بیشتر در متون مشابه ظاهر میشوند، دارای بردارهای مشابه هستند. مادر و پدر معمولا با هم نزدیک هستند، اما هر دو دورتر از خانه، میگویند.
ارائه یک ترجمه نرم افزاری.
مدل یادداشت بردارهایی است که نزدیک به هم هستند اما متفاوت از دیگران هستند، و یک احتمال را تعیین میکند که به طور مشابه بردارها در تعبیه دیگر متناظر. Alvarez-Melis میگوید که نوعی مانند یک ترجمه نرم، به این دلیل است که به جای ترجمه یک کلمه تنها به شما میگوید که این بردار یا کلمه، دارای یک مکاتبات قوی با این کلمه یا کلمات در زبان دیگر است.
نمونه خواهد بود در ماه سال، که نزدیک به هم در زبان ظاهر میشود. مدل خوشه بردار 12 است که در تعبیه یک خوشه و خوشه قابل ملاحظهای مشابه در ارایه دیگر را ببینید. مدل نمیداند این ماه هستند, ملیس آلوارز میگوید. آن فقط خوشه 12 امتیاز است که همتراز با خوشه 12 امتیاز در دیگر زبان, اما آنها متفاوت به بقیه کلمات، بنابراین آنها احتمالا با هم خوب میداند. با پیدا کردن این مکاتبات را برای هر کلمه، آن سپس فضای کل به طور همزمان را همتراز میکند.
محققان امید به کار به عنوان بررسی امکان سنجی میگوید: Jaakkola Gromov Wasserstein روش اعمال سیستم های ترجمه ماشینی برای اجرای سریع تر، موثر تر و دسترسی به بسیاری از زبان های بیشتر در خدمت به.
علاوه بر این، خود را گرفتن ممکن است مدل است که آن را به طور خودکار به تولید ارزش است که میتواند به عنوان تعیین کمیت، در مقیاس عددی شباهت بین زبان تفسیر. این ممکن است مفید برای مطالعات زبانشناسی، محققان میگویند. مدل محاسبه دور همه بردار از یکدیگر در دو embeddings است که ساختار جمله و عوامل دیگر بستگی دارد. اگر بردار همه واقعا نزدیک آنها نزدیک به 0 نمره و دورتر از هم جدا هستند، بالاتر امتیاز. نمره مشابه زبان های رومی مانند فرانسه و ایتالیایی، به عنوان مثال، نزدیک به 1 در حالی که نمرات کلاسیک چینی 6 تا 9 با زبانهای دیگر.
این به شما شماره خوب و ساده برای زبان شباهت دارد و میتواند مورد استفاده قرار گیرد به منظور جلب بینش در مورد روابط بین زبان میدهد، ملیس آلوارز میگوید.
لطفاً در مورد مطلب فوق ستاره بدهید :
طراحی سایت سیستم جدید برای سریع تر و کارآمد تر کردن ترجمه بیشتر زبان ها هموار می کند Rated 4.1 / 5 based on 5 reviews.
آیا این مقاله برای شما مفید بود؟