فناوری تشخیص گفتار و صدا تاریخچه توسعه غنی داشته که در نهایت آن را به چیزی که امروز میشناسیم تبدیل کرده است. در واقع این فناوری نقش مهمی در زندگی مدرن دارد و امکان صحبت کردن با دستگاههای مختلف را برای ما فراهم میکند. در این مطلب به بررسی خط سیر تکامل این فناوری به مرور زمان میپردازیم.
1952: سیستم Audrey
اولین گام در حوزه شناسایی صدا در اوایل دهه 50 میلادی برداشته شد. در سال 1952 آزمایشگاه Bell اولین سیستمی را طراحی کرد که قابلیت شناسایی صدای انسان را داشت و آن را Audrey نامید. این نام به نوعی چکیده کلمات Automatic Digit Recognition به معنای تشخیص خودکار ارقام بود. گرچه این حرکت یک اختراع مهم محسوب میشد اما محدودیتهای مهمی داشت.
مهم ترین محدودیت این بود که Audrey فقط قابلیت تشخیص اعداد صفر تا 9 را داشت نه کلمات را. وقتی شخصی عددی را بیان میکرد، Audrey با روشن کردن یکی از 10 چراغی که هر کدام متناظر با یک عدد بودند، بازخورد نشان میداد.
گرچه این سیستم قابلیت تشخیص اعداد با دقت 90 درصد را داشت اما محدود به تشخیص یک نوع صدای خاص بود. به همین دلیل تنها شخصی که میتوانست از آن استفاده کند، HK Davis یکی از طراحان آن بود. وقتی یک عدد بیان میشد، باید حداقل 300 میلی ثانیه تا بیان عدد بعدی فاصله وجود داشت.
علاوه بر عملکرد، کاربرد این فناوری هم محدود بود. این سیستم به جز تشخیص اعداد کاربرد خاص دیگری نداشت. یکی از کاربردهای این سیستم میتوانست شماره گیری اعداد باشد اما شماره گیری با دست بسیار سریع تر و راحت تر انجام میشد. گرچه Audrey حضور چندان پرثمری نداشت اما نقطه عطف بسیار مهمی در پیشرفت و دستاوردهای انسانی تلقی میشد.
1962: شوباکس آیبیام
یک دهه پس از Audrey، آیبیام یک سیستم تشخیص صدا را طراحی کرد. این شرکت در نمایشگاه جهانی سال 1962، یک سیستم تشخیص صدا به اسم شوباکس (Shoebox) را به نمایش گذاشت. کار اصلی شوباکس هم مثل Audrey تشخیص اعداد صفر تا نه بود اما میتوانست 6 کلمه دیگر که مربوط به عملیات ساده مثل جمع، تفریق، مجموع کل و غیره بودند را هم تشخیص دهد.
شوباکس یک ماشین محاسباتی بود که میتوانست مسائل ریاضی ساده را حل کند. خروجی این سیستم به جای چراغ روی کاغذ چاپ میشد. این قابلیتها شوباکس را به یک ماشین حساب مفید تبدیل کردند اما باز هم لازم بود که بین بیان کلمات مختلف یک فاصله وجود داشته باشد.
1971: سیستم تشخیص تماس خودکار آیبیام
پس از Audrey و شوباکس، سایر مؤسسات تحقیقاتی هم شروع به طراحی فناوری تشخیص صدا کردند. اما این تلاشها در دهه 1970 اوج گرفت یعنی زمانی که شرکت آیبیام یک اختراع کاملاً جدید را به بازار عرضه کرد. این اختراع که سیستم تشخیص تماس خودکار نام داشت، اولین سیستم تشخیص صدایی بود که بر روی سیستم تلفن استفاده میشد.
در این سیستم مهندسان با کامپیوتری در رالی کالیفرنیای شمالی تماس میگرفتند. تماس گیرنده میتوانست یکی از 5 هزار کلمه مشخص شده در واژه نامه این سیستم را بیان کند تا سیستم هم در پاسخ این کلمه را تشخیص داده و تکرار کند.
1976: هارپی
در اوایل دهه 70 میلادی، وزارت دفاع آمریکا هم جذب فناوری تشخیص صدا شد. آژانس پروژههای تحقیقاتی دفاعی پیشرفته این کشور در سال 1971 طرح تحقیقاتی تشخیص گفتار (به اختصار SUR) را راه اندازی کرد. این طرح برای چند شرکت و دانشگاه تأمین سرمایه میکرد تا به تحقیق و توسعه پروژههای تشخیص صدا کمک کند.
در سال 1976، دانشگاه کارنگی ملون توانست با کمک بودجه SUR سیستم هارپی (Harpy) را طراحی کند. این سیستم گام مهمی در زمینه تشخیص صدا محسوب میشد و قابلیت تشخیص کلمات و اعداد را داشت اما از این جهت منحصربفرد بود که میتوانست جملات کامل را تشخیص دهد.
هارپی لغت نامهای متشکل از حدود 1011 کلمه داشت که طبق آنچه در مقاله B. Lowerre و R. Reddy آمده، این یعنی بیشتر از 1 تریلیون جمله مختلف. بعداً در این نشریه اعلام شد که هارپی توانایی تشخیص کلمات با دقت 93.77 درصد را دارد.
1980: روش مارکوفی مخفی
دهه 1980 برای فناوری تشخیص صدا از اهمیت زیادی برخوردار بود چون در این دهه بود که روش مارکوفی مخفی (به اختصار HMM) ابداع شد. نیروی اصلی که به طراحی این مفهوم کمک کرد، بحث احتمالات بود.
هر زمان که سیستمی یک واج را ثبت میکند (که کوچکترین عنصر گفتار است)، در رابطه با اینکه بعد از آن چه واجی قرار میگیرد، یک احتمال مشخص وجود دارد. HMM از این احتمالات برای تعیین واجی که به احتمال زیاد پس از واج فعلی قرار میگیرد استفاده میکند. اکثر سیستمهای تشخیص گفتار امروزی همچنان از HMM استفاده میکنند.
1990: رسیدن فناوری تشخیص صدا به بازار مصرفی
از زمان شکل گیری مفهوم تشخیص صدا، تلاش برای پیدا کردن جایگاه آن در بازار مصرف شروع شد. در دهه 80 میلادی، آیبیام پیش نمونهای از یک کامپیوتر را به نمایش گذاشت که میتوانست تبدیل گفتار به متن را انجام دهد اما در اوایل دهه 90 میلادی بود که کم کم کاربرد این فناوری در زندگی روزمره مشاهده شد.
در سال 1990، Dragon Systems اولین نرمافزار تبدیل گفتار به متن را معرفی کرد که Dragon Dictate نام داشت و در اصل برای ویندوز طراحی شده بود. این نرمافزار 9 هزار دلاری از نظر فراهم کردن امکان استفاده از فناوری تشخیص صدا برای عموم مردم انقلابی شد اما یک ایراد داشت. این نرمافزار از گفتار گسسته استفاده میکرد یعنی کاربران باید بین هر کلمه توقف میکردند تا نرمافزار صحبتهای آنها را تشخیص دهد.
در سال 1996 آیبیام با Medspeak وارد این صنعت شد. Medspeak هم یک نرمافزار تبدیل گفتار به متن بود اما مشکل نرمافزار Dragon Dictate یعنی پشتیبانی از گفتار گسسته را نداشت. در عوض این سیستم قابلیت تشخیص گفتار پیوسته را داشت که همین ویژگی آن را تبدیل به یک محصول بسیار جذاب تر میکرد.
2010: دختری به اسم Siri
در دهه 2000 میلادی فناوری تشخیص صدا محبوبیت زیادی پیدا کرد. این فناوری در نرمافزارها و سختافزارهای جدیدی پیاده شد و یکی از گامهای مهم در انقلاب تشخیص صدا، دستیار دیجیتال Siri بود. در سال 2010 شرکتی به اسم Siri این دستیار صوتی را به صورت یک اپلیکیشن iOS رونمایی کرد.
در آن زمان، Siri یک نرمافزار جالب بود که میتوانست صحبتهای گوینده را تشخیص داده و یک پاسخ هوشمندانه به آن ارائه کند. این نرمافزار به قدری جالب بود که اپل در همان سال شرکت Siri را خرید و با کمی تغییر آن را تبدیل به نرمافزاری کرد که امروزه میشناسیم.
در واقع با کمک اپل بود که Siri این صدای خاص (با گویندگی سوزان بنت) را به همراه یکسری قابلیت جدید پیدا کرد. در این سیستم برای کنترل اکثر عملکردها از پردازش زبان طبیعی استفاده میشود.
2010: چهار دستیار صوتی بزرگ
همانطور که در جریان هستید، چهار نرمافزار تشخیص صدا و دستیار صوتی برتری که امروزه در بازار وجود دارند، عبارتند از:
- Siri تقریباً در همه محصولات اپل از جمله مدلهای مختلف آیفون، آیپد، آیپاد و مک وجود دارد.
- دستیار گوگل تقریباً در همه دستگاههای اندروید موجود در بازار که تعدادشان به بیشتر از 3 میلیارد عدد میرسد وجود دارد. بعلاوه کاربران میتوانند از فرمانهای آن در بسیاری از سرویسهای گوگل از جمله گوگل هوم استفاده کنند.
- آمازون الکسا هم یک دستیار صوتی برجسته و مهم است. امکان دانلود این دستیار برای دستگاههای اندروید، اپل و حتی بعضی لپ تاپهای لنوو وجود دارد.
- بیکس باس جدیدترین عضو در فهرست دستیارهای صوتی است که توسط سامسونگ طراحی شده و تقریباً در همه گوشیها و تبلتهای این شرکت وجود دارد.
تاریخچهای غنی
فناوری تشخیص صدا نسبت به دوره Audrey راه طولانی را پیموده است. این فناوری در عرصههای مختلف پیشرفتهای خوبی داشت؛ مثلاً عرصه پزشکی در دوره شیوع کرونا از چت باتهایی که با صدا کنترل میشدند استفاده کرد. این فناوری نشان داده که میتواند یکی از پرکاربردترین فناوریهای عصر مدرن باشد.