فناوری جذاب تشخیص گفتار چگونه ابداع شد؟ با تاریخچه یکی از فناوری‌های انقلابی آشنا شوید

توسط سمیرا گلکار
6 دقیقه

فناوری تشخیص گفتار و صدا تاریخچه توسعه غنی داشته که در نهایت آن را به چیزی که امروز می‌شناسیم تبدیل کرده است. در واقع این فناوری نقش مهمی در زندگی مدرن دارد و امکان صحبت کردن با دستگاه‌های مختلف را برای ما فراهم می‌کند. در این مطلب به بررسی خط سیر تکامل این فناوری به مرور زمان می‌پردازیم.

1952: سیستم Audrey

اولین گام در حوزه شناسایی صدا در اوایل دهه 50 میلادی برداشته شد. در سال 1952 آزمایشگاه Bell اولین سیستمی را طراحی کرد که قابلیت شناسایی صدای انسان را داشت و آن را Audrey نامید. این نام به نوعی چکیده کلمات Automatic Digit Recognition به معنای تشخیص خودکار ارقام بود. گرچه این حرکت یک اختراع مهم محسوب می‌شد اما محدودیت‌های مهمی داشت.

مهم ترین محدودیت این بود که Audrey فقط قابلیت تشخیص اعداد صفر تا 9 را داشت نه کلمات را. وقتی شخصی عددی را بیان می‌کرد، Audrey با روشن کردن یکی از 10 چراغی که هر کدام متناظر با یک عدد بودند، بازخورد نشان می‌داد.

فناوری جذاب تشخیص گفتار چگونه ابداع شد؟ با تاریخچه یکی از فناوری‌های انقلابی آشنا شوید 1

گرچه این سیستم قابلیت تشخیص اعداد با دقت 90 درصد را داشت اما محدود به تشخیص یک نوع صدای خاص بود. به همین دلیل تنها شخصی که می‌توانست از آن استفاده کند، HK Davis یکی از طراحان آن بود. وقتی یک عدد بیان می‌شد، باید حداقل 300 میلی ثانیه تا بیان عدد بعدی فاصله وجود داشت.

علاوه بر عملکرد، کاربرد این فناوری هم محدود بود. این سیستم به جز تشخیص اعداد کاربرد خاص دیگری نداشت. یکی از کاربردهای این سیستم می‌توانست شماره گیری اعداد باشد اما شماره گیری با دست بسیار سریع تر و راحت تر انجام می‌شد. گرچه Audrey حضور چندان پرثمری نداشت اما نقطه عطف بسیار مهمی در پیشرفت و دستاوردهای انسانی تلقی می‌شد.

1962: شوباکس آی‌بی‌ام

فناوری جذاب تشخیص گفتار چگونه ابداع شد؟ با تاریخچه یکی از فناوری‌های انقلابی آشنا شوید 4

یک دهه پس از Audrey، آی‌بی‌ام یک سیستم تشخیص صدا را طراحی کرد. این شرکت در نمایشگاه جهانی سال 1962، یک سیستم تشخیص صدا به اسم شوباکس (Shoebox) را به نمایش گذاشت. کار اصلی شوباکس هم مثل Audrey تشخیص اعداد صفر تا نه بود اما می‌توانست 6 کلمه دیگر که مربوط به عملیات ساده مثل جمع، تفریق، مجموع کل و غیره بودند را هم تشخیص دهد.

شوباکس یک ماشین محاسباتی بود که می‌توانست مسائل ریاضی ساده را حل کند. خروجی این سیستم به جای چراغ روی کاغذ چاپ می‌شد. این قابلیت‌ها شوباکس را به یک ماشین حساب مفید تبدیل کردند اما باز هم لازم بود که بین بیان کلمات مختلف یک فاصله وجود داشته باشد.

1971: سیستم تشخیص تماس خودکار آی‌بی‌ام

پس از Audrey و شوباکس، سایر مؤسسات تحقیقاتی هم شروع به طراحی فناوری تشخیص صدا کردند. اما این تلاش‌ها در دهه 1970 اوج گرفت یعنی زمانی که شرکت آی‌بی‌ام یک اختراع کاملاً جدید را به بازار عرضه کرد. این اختراع که سیستم تشخیص تماس خودکار نام داشت، اولین سیستم تشخیص صدایی بود که بر روی سیستم تلفن استفاده می‌شد.

در این سیستم مهندسان با کامپیوتری در رالی کالیفرنیای شمالی تماس می‌گرفتند. تماس گیرنده می‌توانست یکی از 5 هزار کلمه مشخص شده در واژه نامه این سیستم را بیان کند تا سیستم هم در پاسخ این کلمه را تشخیص داده و تکرار کند.

1976: هارپی

در اوایل دهه 70 میلادی، وزارت دفاع آمریکا هم جذب فناوری تشخیص صدا شد. آژانس پروژه‌های تحقیقاتی دفاعی پیشرفته این کشور در سال 1971 طرح تحقیقاتی تشخیص گفتار (به اختصار SUR) را راه اندازی کرد. این طرح برای چند شرکت و دانشگاه تأمین سرمایه می‌کرد تا به تحقیق و توسعه پروژه‌های تشخیص صدا کمک کند.

در سال 1976، دانشگاه کارنگی ملون توانست با کمک بودجه SUR سیستم هارپی (Harpy) را طراحی کند. این سیستم گام مهمی در زمینه تشخیص صدا محسوب می‌شد و قابلیت تشخیص کلمات و اعداد را داشت اما از این جهت منحصربفرد بود که می‌توانست جملات کامل را تشخیص دهد.

هارپی لغت نامه‌ای متشکل از حدود 1011 کلمه داشت که طبق آنچه در مقاله B. Lowerre و R. Reddy آمده، این یعنی بیشتر از 1 تریلیون جمله مختلف. بعداً در این نشریه اعلام شد که هارپی توانایی تشخیص کلمات با دقت 93.77 درصد را دارد.

فناوری جذاب تشخیص گفتار چگونه ابداع شد؟ با تاریخچه یکی از فناوری‌های انقلابی آشنا شوید 2

1980: روش مارکوفی مخفی

دهه 1980 برای فناوری تشخیص صدا از اهمیت زیادی برخوردار بود چون در این دهه بود که روش مارکوفی مخفی (به اختصار HMM) ابداع شد. نیروی اصلی که به طراحی این مفهوم کمک کرد، بحث احتمالات بود.

هر زمان که سیستمی یک واج را ثبت می‌کند (که کوچکترین عنصر گفتار است)، در رابطه با اینکه بعد از آن چه واجی قرار می‌گیرد، یک احتمال مشخص وجود دارد. HMM از این احتمالات برای تعیین واجی که به احتمال زیاد پس از واج فعلی قرار می‌گیرد استفاده می‌کند. اکثر سیستم‌های تشخیص گفتار امروزی همچنان از HMM استفاده می‌کنند.

1990: رسیدن فناوری تشخیص صدا به بازار مصرفی

از زمان شکل گیری مفهوم تشخیص صدا، تلاش برای پیدا کردن جایگاه آن در بازار مصرف شروع شد. در دهه 80 میلادی، آی‌بی‌ام پیش نمونه‌ای از یک کامپیوتر را به نمایش گذاشت که می‌توانست تبدیل گفتار به متن را انجام دهد اما در اوایل دهه 90 میلادی بود که کم کم کاربرد این فناوری در زندگی روزمره مشاهده شد.

فناوری جذاب تشخیص گفتار چگونه ابداع شد؟ با تاریخچه یکی از فناوری‌های انقلابی آشنا شوید 3

در سال 1990، Dragon Systems اولین نرم‌افزار تبدیل گفتار به متن را معرفی کرد که Dragon Dictate نام داشت و در اصل برای ویندوز طراحی شده بود. این نرم‌افزار 9 هزار دلاری از نظر فراهم کردن امکان استفاده از فناوری تشخیص صدا برای عموم مردم انقلابی شد اما یک ایراد داشت. این نرم‌افزار از گفتار گسسته استفاده می‌کرد یعنی کاربران باید بین هر کلمه توقف می‌کردند تا نرم‌افزار صحبت‌های آنها را تشخیص دهد.

در سال 1996 آی‌بی‌ام با Medspeak وارد این صنعت شد. Medspeak هم یک نرم‌افزار تبدیل گفتار به متن بود اما مشکل نرم‌افزار Dragon Dictate یعنی پشتیبانی از گفتار گسسته را نداشت. در عوض این سیستم قابلیت تشخیص گفتار پیوسته را داشت که همین ویژگی آن را تبدیل به یک محصول بسیار جذاب تر می‌کرد.

2010: دختری به اسم Siri

در دهه 2000 میلادی فناوری تشخیص صدا محبوبیت زیادی پیدا کرد. این فناوری در نرم‌افزارها و سخت‌افزارهای جدیدی پیاده شد و یکی از گام‌های مهم در انقلاب تشخیص صدا، دستیار دیجیتال Siri بود. در سال 2010 شرکتی به اسم Siri این دستیار صوتی را به صورت یک اپلیکیشن iOS رونمایی کرد.

در آن زمان، Siri یک نرم‌افزار جالب بود که می‌توانست صحبت‌های گوینده را تشخیص داده و یک پاسخ هوشمندانه به آن ارائه کند. این نرم‌افزار به قدری جالب بود که اپل در همان سال شرکت Siri را خرید و با کمی تغییر آن را تبدیل به نرم‌افزاری کرد که امروزه می‌شناسیم.

در واقع با کمک اپل بود که Siri این صدای خاص (با گویندگی سوزان بنت) را به همراه یکسری قابلیت جدید پیدا کرد. در این سیستم برای کنترل اکثر عملکردها از پردازش زبان طبیعی استفاده می‌شود.

2010: چهار دستیار صوتی بزرگ

همانطور که در جریان هستید، چهار نرم‌افزار تشخیص صدا و دستیار صوتی برتری که امروزه در بازار وجود دارند، عبارتند از:

  • Siri تقریباً در همه محصولات اپل از جمله مدل‌های مختلف آیفون، آیپد، آیپاد و مک وجود دارد.
  • دستیار گوگل تقریباً در همه دستگاه‌های اندروید موجود در بازار که تعدادشان به بیشتر از 3 میلیارد عدد می‌رسد وجود دارد. بعلاوه کاربران می‌توانند از فرمان‌های آن در بسیاری از سرویس‌های گوگل از جمله گوگل هوم استفاده کنند.
  • آمازون الکسا هم یک دستیار صوتی برجسته و مهم است. امکان دانلود این دستیار برای دستگاه‌های اندروید، اپل و حتی بعضی لپ تاپ‌های لنوو وجود دارد.
  • بیکس باس جدیدترین عضو در فهرست دستیارهای صوتی است که توسط سامسونگ طراحی شده و تقریباً در همه گوشی‌ها و تبلت‌های این شرکت وجود دارد.

تاریخچه‌ای غنی

فناوری تشخیص صدا نسبت به دوره Audrey راه طولانی را پیموده است. این فناوری در عرصه‌های مختلف پیشرفت‌های خوبی داشت؛ مثلاً عرصه پزشکی در دوره شیوع کرونا از چت بات‌هایی که با صدا کنترل می‌شدند استفاده کرد. این فناوری نشان داده که می‌تواند یکی از پرکاربردترین فناوری‌های عصر مدرن باشد.

لینک منبع

 

مطالب مرتبط

دیدگاه شما چیست؟