رایانه چطور به صدای شما گوش می دهد؟ 2 قدم و تمام ماجرا

توسط Avatar photoامیرحسین حیدرزاده
3 دقیقه

برخی از مردم رویا پردازی می‌کنند و برخی دیگر رویاها را به واقعیت می‌رسانند. درک شدن یکی از ویژگی‌های انسان است. این مساله که رایانه بتواند درک کند و به سوالات ما پاسخ دهد یک رویا بود.

امروز در جیب هر کدام از ما یک تلفن هوشمند وجود دارد. یک رایانه کوچک که هر روز قدرتمندتر می‌شود. تلفن هوشمند می‌تواند کلماتی که می‌گوییم را به خوبی تشخیص دهد.

آیا از آیفون 13 استفاده می‌کنید؟ سیری به کمک تراشه قدرتمند آیفون کلمات را بهتر از هر زمان تشخیص می‌دهد. شاید باور نکنید اما فناوری تشخیص گفتار از دهه 1950 در حال توسعه بوده است.

برای آشنایی با دنیای تشخیص گفتار چند قدم با روکیدا همراه شوید.

1. اولین رایانه‌ها که گوش می‌کردند

DptzXTvui9FRiCEUjzErDF 970 80.jpg

آن‌ها در دهه 1950 تا 1980 میلادی ساخته شدند. یک بازی بزرگ با نام‌های بزرگ گره خورده است. بِل را می‌شناسید؟ این شرکت با “آدری” پیشتاز ماجرا شد.

سیستم آدری اعداد را با دقت 97 تا 99 درصد تشخیص داد. دسترسی به آن ساده نبود. یک رایانه غول پیکر را با هزینه‌های سرسام آور تصور کنید. استفاده از آن حتی برای موارد تخصصی گران بود.

آی‌بی‌ام در سال 1962 با “شوباکس” وارد شد. سیستم او اعداد و اصطلاحات ساده ریاضی را تشخیص می‌داد. ژاپنی‌ها رویای بزرگ‌تری داشتند. رایانه آن‌ها برای بخش بندی یک خط از گفتار تلاش می‌کرد.

فناوری آن‌ها هدف تشخیص انواع صدا را دنبال کرد. وزارت دفاع آمریکا در دهه 1970 با طرح SUR وارد شد. تامین مالی سنگین آن انجام شد و نتیجه کار “هارپی” نام داشت. هارپی 1011 کلمه را تشخیص داد.

رایانه چطور به صدای شما گوش می دهد؟ 2 قدم و تمام ماجرا

توان درک نسخه آمریکایی‌ها درست مانند یک کودک سه ساله بود. تشخیص گفتار بسیار جذاب است و پتانسیل بزرگی داشت اما دسترسی به آن هیچ گاه ساده نبود.

مدل‌های پنهان مارکوف منبع قدرت هارپی بود. آن‌ مدل‌ها در ادامه باعث پیشرفت و توسعه تشخیص گفتار شد. اولین مورد قابل اجرا تانگورا از آی‌بی‌ام بود. تانگورا یاد می‌گرفت.

به کمک یادگیری مناسب، 20 هزار کلمه را تشخیص داد. تانگورا تمام آن 20 هزار کلمه را به زمان انگلیسی تشخیص داده و تایپ می‌کند. آیا رایانه آی‌بی‌ام کافی بود؟ برای استفاده در دنیای تجاری کافی نبود.

2. در سطح مصرف کننده

از دهه 1990 تا 2010 اتفاق افتاد. مبتکر و متخصص آی‌بی‌ام گفت: ما فکر می‌کردیم تقلید ماشین از مردم اشتباه است. در نهایت اگر یک خودرو مجبور به حرکت باشد، این کار را با چرخ‌ها انجام می‌دهد. او راه نمی‌رود.

تجزیه و تحلیل آماری باعث پیشرفت فناوری تشخیص گفتار شد. در سال 1990 نرم افزار “دراگون دیکتِیت” راه اندازی شد: اولین نرم افزار تشخیص گفتار تجاری.

برای خرید آن باید 8000 دلار پرداخت می‌کردیم. تا به‌روزرسانی بعدی دراگون در سال 1997، کاربران باید بین هر سه کلمه صبر می‌کردند.

پروژه تشخیص گفتار گوگل از سال 2004 آغاز شد. جست و جوی صوتی گوگل از سال 2007 در دسترس کاربران قرار گرفت. سیستم گوگل هم‌چنان در حال یادگیری است.

اپل با سیری و مایکروسافت با کورتانا بازی را دنبال کردند. در سال 2010 با معرفی یادگیری عمیق و شبکه عصبی (RNN) یک جهش بزرگ اتفاق افتاد. به عبارتی محاسبات ارزان شد.

رایانه چطور به صدای شما گوش می دهد؟ 2 قدم و تمام ماجرا

پیشرفت حداکثری تشخیص گفتار در 5 سال اخیر اتفاق افتاده است. آن را حتی در یک بلندگو هوشمند ارزان قیمت مشاهده می‌کنیم. رایانش ابری برای هرچه ساده‌تر شدن پردازش وارد بازی شد.

امروز شما می‌توانید دستگاه خود را با صدای خودتان آموزش دهید. تشخیص صدا آنقدر دقیق شده است که می‌توانید قفل آیفون خود را به کمک آن باز کنید.

بر اساس نظر کارشناسان تا پایان دهه 2020 تشخیص گفتار به اوج خود می‌رسد. 99 درصد کار را رایانه‌ها انجام می‌دهند و تنها کار انسان‌ها کنترل آن است.

rendered

ایجاد یک نسخه  از متن پادکست‌ها کار دشواری نخواهد بود. جلسات کاری امروز مجازی برگذار می‌شوند، یک نسخه کاغذی لازم ندارید؟ هر آنچه گفته می‌شود را می‌توانیم به زبان کلمات در لحظه دنبال کنیم.

روند قانونی خودکار را تصور کنید. تبدیل گفتار به متن اگر قابل اعتماد باشد می‌تواند ایجاد اسناد را از آب خوردن، آسان‌تر کند. تصمیم گیری آسان را دوست ندارید؟ فناوری دیگر در انحصار بزرگان نیست.

منبع: techradar.com

مطالب مرتبط

دیدگاه شما چیست؟