رایانه چطور به صدای شما گوش می دهد؟ ۲ قدم و تمام ماجرا

by امیرحسین حیدرزاده

برخی از مردم رویا پردازی می‌کنند و برخی دیگر رویاها را به واقعیت می‌رسانند. درک شدن یکی از ویژگی‌های انسان است. این مساله که رایانه بتواند درک کند و به سوالات ما پاسخ دهد یک رویا بود.

امروز در جیب هر کدام از ما یک تلفن هوشمند وجود دارد. یک رایانه کوچک که هر روز قدرتمندتر می‌شود. تلفن هوشمند می‌تواند کلماتی که می‌گوییم را به خوبی تشخیص دهد.

آیا از آیفون ۱۳ استفاده می‌کنید؟ سیری به کمک تراشه قدرتمند آیفون کلمات را بهتر از هر زمان تشخیص می‌دهد. شاید باور نکنید اما فناوری تشخیص گفتار از دهه ۱۹۵۰ در حال توسعه بوده است.

برای آشنایی با دنیای تشخیص گفتار چند قدم با روکیدا همراه شوید.

۱. اولین رایانه‌ها که گوش می‌کردند

DptzXTvui9FRiCEUjzErDF 970 80.jpg

آن‌ها در دهه ۱۹۵۰ تا ۱۹۸۰ میلادی ساخته شدند. یک بازی بزرگ با نام‌های بزرگ گره خورده است. بِل را می‌شناسید؟ این شرکت با “آدری” پیشتاز ماجرا شد.

سیستم آدری اعداد را با دقت ۹۷ تا ۹۹ درصد تشخیص داد. دسترسی به آن ساده نبود. یک رایانه غول پیکر را با هزینه‌های سرسام آور تصور کنید. استفاده از آن حتی برای موارد تخصصی گران بود.

آی‌بی‌ام در سال ۱۹۶۲ با “شوباکس” وارد شد. سیستم او اعداد و اصطلاحات ساده ریاضی را تشخیص می‌داد. ژاپنی‌ها رویای بزرگ‌تری داشتند. رایانه آن‌ها برای بخش بندی یک خط از گفتار تلاش می‌کرد.

فناوری آن‌ها هدف تشخیص انواع صدا را دنبال کرد. وزارت دفاع آمریکا در دهه ۱۹۷۰ با طرح SUR وارد شد. تامین مالی سنگین آن انجام شد و نتیجه کار “هارپی” نام داشت. هارپی ۱۰۱۱ کلمه را تشخیص داد.

رایانه چطور به صدای شما گوش می دهد؟ 2 قدم و تمام ماجرا

توان درک نسخه آمریکایی‌ها درست مانند یک کودک سه ساله بود. تشخیص گفتار بسیار جذاب است و پتانسیل بزرگی داشت اما دسترسی به آن هیچ گاه ساده نبود.

مدل‌های پنهان مارکوف منبع قدرت هارپی بود. آن‌ مدل‌ها در ادامه باعث پیشرفت و توسعه تشخیص گفتار شد. اولین مورد قابل اجرا تانگورا از آی‌بی‌ام بود. تانگورا یاد می‌گرفت.

به کمک یادگیری مناسب، ۲۰ هزار کلمه را تشخیص داد. تانگورا تمام آن ۲۰ هزار کلمه را به زمان انگلیسی تشخیص داده و تایپ می‌کند. آیا رایانه آی‌بی‌ام کافی بود؟ برای استفاده در دنیای تجاری کافی نبود.

۲. در سطح مصرف کننده

از دهه ۱۹۹۰ تا ۲۰۱۰ اتفاق افتاد. مبتکر و متخصص آی‌بی‌ام گفت: ما فکر می‌کردیم تقلید ماشین از مردم اشتباه است. در نهایت اگر یک خودرو مجبور به حرکت باشد، این کار را با چرخ‌ها انجام می‌دهد. او راه نمی‌رود.

تجزیه و تحلیل آماری باعث پیشرفت فناوری تشخیص گفتار شد. در سال ۱۹۹۰ نرم افزار “دراگون دیکتِیت” راه اندازی شد: اولین نرم افزار تشخیص گفتار تجاری.

برای خرید آن باید ۸۰۰۰ دلار پرداخت می‌کردیم. تا به‌روزرسانی بعدی دراگون در سال ۱۹۹۷، کاربران باید بین هر سه کلمه صبر می‌کردند.

پروژه تشخیص گفتار گوگل از سال ۲۰۰۴ آغاز شد. جست و جوی صوتی گوگل از سال ۲۰۰۷ در دسترس کاربران قرار گرفت. سیستم گوگل هم‌چنان در حال یادگیری است.

اپل با سیری و مایکروسافت با کورتانا بازی را دنبال کردند. در سال ۲۰۱۰ با معرفی یادگیری عمیق و شبکه عصبی (RNN) یک جهش بزرگ اتفاق افتاد. به عبارتی محاسبات ارزان شد.

رایانه چطور به صدای شما گوش می دهد؟ 2 قدم و تمام ماجرا

پیشرفت حداکثری تشخیص گفتار در ۵ سال اخیر اتفاق افتاده است. آن را حتی در یک بلندگو هوشمند ارزان قیمت مشاهده می‌کنیم. رایانش ابری برای هرچه ساده‌تر شدن پردازش وارد بازی شد.

امروز شما می‌توانید دستگاه خود را با صدای خودتان آموزش دهید. تشخیص صدا آنقدر دقیق شده است که می‌توانید قفل آیفون خود را به کمک آن باز کنید.

بر اساس نظر کارشناسان تا پایان دهه ۲۰۲۰ تشخیص گفتار به اوج خود می‌رسد. ۹۹ درصد کار را رایانه‌ها انجام می‌دهند و تنها کار انسان‌ها کنترل آن است.

rendered

ایجاد یک نسخه  از متن پادکست‌ها کار دشواری نخواهد بود. جلسات کاری امروز مجازی برگذار می‌شوند، یک نسخه کاغذی لازم ندارید؟ هر آنچه گفته می‌شود را می‌توانیم به زبان کلمات در لحظه دنبال کنیم.

روند قانونی خودکار را تصور کنید. تبدیل گفتار به متن اگر قابل اعتماد باشد می‌تواند ایجاد اسناد را از آب خوردن، آسان‌تر کند. تصمیم گیری آسان را دوست ندارید؟ فناوری دیگر در انحصار بزرگان نیست.

منبع: techradar.com

You may also like

Leave a Comment