برخی از مردم رویا پردازی میکنند و برخی دیگر رویاها را به واقعیت میرسانند. درک شدن یکی از ویژگیهای انسان است. این مساله که رایانه بتواند درک کند و به سوالات ما پاسخ دهد یک رویا بود.
امروز در جیب هر کدام از ما یک تلفن هوشمند وجود دارد. یک رایانه کوچک که هر روز قدرتمندتر میشود. تلفن هوشمند میتواند کلماتی که میگوییم را به خوبی تشخیص دهد.
آیا از آیفون 13 استفاده میکنید؟ سیری به کمک تراشه قدرتمند آیفون کلمات را بهتر از هر زمان تشخیص میدهد. شاید باور نکنید اما فناوری تشخیص گفتار از دهه 1950 در حال توسعه بوده است.
برای آشنایی با دنیای تشخیص گفتار چند قدم با روکیدا همراه شوید.
1. اولین رایانهها که گوش میکردند
آنها در دهه 1950 تا 1980 میلادی ساخته شدند. یک بازی بزرگ با نامهای بزرگ گره خورده است. بِل را میشناسید؟ این شرکت با “آدری” پیشتاز ماجرا شد.
سیستم آدری اعداد را با دقت 97 تا 99 درصد تشخیص داد. دسترسی به آن ساده نبود. یک رایانه غول پیکر را با هزینههای سرسام آور تصور کنید. استفاده از آن حتی برای موارد تخصصی گران بود.
آیبیام در سال 1962 با “شوباکس” وارد شد. سیستم او اعداد و اصطلاحات ساده ریاضی را تشخیص میداد. ژاپنیها رویای بزرگتری داشتند. رایانه آنها برای بخش بندی یک خط از گفتار تلاش میکرد.
فناوری آنها هدف تشخیص انواع صدا را دنبال کرد. وزارت دفاع آمریکا در دهه 1970 با طرح SUR وارد شد. تامین مالی سنگین آن انجام شد و نتیجه کار “هارپی” نام داشت. هارپی 1011 کلمه را تشخیص داد.
توان درک نسخه آمریکاییها درست مانند یک کودک سه ساله بود. تشخیص گفتار بسیار جذاب است و پتانسیل بزرگی داشت اما دسترسی به آن هیچ گاه ساده نبود.
مدلهای پنهان مارکوف منبع قدرت هارپی بود. آن مدلها در ادامه باعث پیشرفت و توسعه تشخیص گفتار شد. اولین مورد قابل اجرا تانگورا از آیبیام بود. تانگورا یاد میگرفت.
به کمک یادگیری مناسب، 20 هزار کلمه را تشخیص داد. تانگورا تمام آن 20 هزار کلمه را به زمان انگلیسی تشخیص داده و تایپ میکند. آیا رایانه آیبیام کافی بود؟ برای استفاده در دنیای تجاری کافی نبود.
2. در سطح مصرف کننده
از دهه 1990 تا 2010 اتفاق افتاد. مبتکر و متخصص آیبیام گفت: ما فکر میکردیم تقلید ماشین از مردم اشتباه است. در نهایت اگر یک خودرو مجبور به حرکت باشد، این کار را با چرخها انجام میدهد. او راه نمیرود.
تجزیه و تحلیل آماری باعث پیشرفت فناوری تشخیص گفتار شد. در سال 1990 نرم افزار “دراگون دیکتِیت” راه اندازی شد: اولین نرم افزار تشخیص گفتار تجاری.
برای خرید آن باید 8000 دلار پرداخت میکردیم. تا بهروزرسانی بعدی دراگون در سال 1997، کاربران باید بین هر سه کلمه صبر میکردند.
پروژه تشخیص گفتار گوگل از سال 2004 آغاز شد. جست و جوی صوتی گوگل از سال 2007 در دسترس کاربران قرار گرفت. سیستم گوگل همچنان در حال یادگیری است.
اپل با سیری و مایکروسافت با کورتانا بازی را دنبال کردند. در سال 2010 با معرفی یادگیری عمیق و شبکه عصبی (RNN) یک جهش بزرگ اتفاق افتاد. به عبارتی محاسبات ارزان شد.
پیشرفت حداکثری تشخیص گفتار در 5 سال اخیر اتفاق افتاده است. آن را حتی در یک بلندگو هوشمند ارزان قیمت مشاهده میکنیم. رایانش ابری برای هرچه سادهتر شدن پردازش وارد بازی شد.
امروز شما میتوانید دستگاه خود را با صدای خودتان آموزش دهید. تشخیص صدا آنقدر دقیق شده است که میتوانید قفل آیفون خود را به کمک آن باز کنید.
بر اساس نظر کارشناسان تا پایان دهه 2020 تشخیص گفتار به اوج خود میرسد. 99 درصد کار را رایانهها انجام میدهند و تنها کار انسانها کنترل آن است.
ایجاد یک نسخه از متن پادکستها کار دشواری نخواهد بود. جلسات کاری امروز مجازی برگذار میشوند، یک نسخه کاغذی لازم ندارید؟ هر آنچه گفته میشود را میتوانیم به زبان کلمات در لحظه دنبال کنیم.
روند قانونی خودکار را تصور کنید. تبدیل گفتار به متن اگر قابل اعتماد باشد میتواند ایجاد اسناد را از آب خوردن، آسانتر کند. تصمیم گیری آسان را دوست ندارید؟ فناوری دیگر در انحصار بزرگان نیست.
منبع: techradar.com