فناوری تشخیص گفتار و صدا تاریخچه توسعه غنی داشته که در نهایت آن را به چیزی که امروز می‌شناسیم تبدیل کرده است. در واقع این فناوری نقش مهمی در زندگی مدرن دارد و امکان صحبت کردن با دستگاه‌های مختلف را برای ما فراهم می‌کند. در این مطلب به بررسی خط سیر تکامل این فناوری به مرور زمان می‌پردازیم.

عنوان‌ها

۱۹۵۲: سیستم Audrey ۱۹۶۲: شوباکس آی‌بی‌ام ۱۹۷۱: سیستم تشخیص تماس خودکار آی‌بی‌ام ۱۹۷۶: هارپی ۱۹۸۰: روش مارکوفی مخفی ۱۹۹۰: رسیدن فناوری تشخیص صدا به بازار مصرفی ۲۰۱۰: دختری به اسم Siri ۲۰۱۰: چهار دستیار صوتی بزرگ تاریخچه‌ای غنی

۱۹۵۲: سیستم Audrey

اولین گام در حوزه شناسایی صدا در اوایل دهه ۵۰ میلادی برداشته شد. در سال ۱۹۵۲ آزمایشگاه Bell اولین سیستمی را طراحی کرد که قابلیت شناسایی صدای انسان را داشت و آن را Audrey نامید. این نام به نوعی چکیده کلمات Automatic Digit Recognition به معنای تشخیص خودکار ارقام بود. گرچه این حرکت یک اختراع مهم محسوب می‌شد اما محدودیت‌های مهمی داشت.

مهم ترین محدودیت این بود که Audrey فقط قابلیت تشخیص اعداد صفر تا ۹ را داشت نه کلمات را. وقتی شخصی عددی را بیان می‌کرد، Audrey با روشن کردن یکی از ۱۰ چراغی که هر کدام متناظر با یک عدد بودند، بازخورد نشان می‌داد.

گرچه این سیستم قابلیت تشخیص اعداد با دقت ۹۰ درصد را داشت اما محدود به تشخیص یک نوع صدای خاص بود. به همین دلیل تنها شخصی که می‌توانست از آن استفاده کند، HK Davis یکی از طراحان آن بود. وقتی یک عدد بیان می‌شد، باید حداقل ۳۰۰ میلی ثانیه تا بیان عدد بعدی فاصله وجود داشت.

علاوه بر عملکرد، کاربرد این فناوری هم محدود بود. این سیستم به جز تشخیص اعداد کاربرد خاص دیگری نداشت. یکی از کاربردهای این سیستم می‌توانست شماره گیری اعداد باشد اما شماره گیری با دست بسیار سریع تر و راحت تر انجام می‌شد. گرچه Audrey حضور چندان پرثمری نداشت اما نقطه عطف بسیار مهمی در پیشرفت و دستاوردهای انسانی تلقی می‌شد.

۱۹۶۲: شوباکس آی‌بی‌ام

یک دهه پس از Audrey، آی‌بی‌ام یک سیستم تشخیص صدا را طراحی کرد. این شرکت در نمایشگاه جهانی سال ۱۹۶۲، یک سیستم تشخیص صدا به اسم شوباکس (Shoebox) را به نمایش گذاشت. کار اصلی شوباکس هم مثل Audrey تشخیص اعداد صفر تا نه بود اما می‌توانست ۶ کلمه دیگر که مربوط به عملیات ساده مثل جمع، تفریق، مجموع کل و غیره بودند را هم تشخیص دهد.

شوباکس یک ماشین محاسباتی بود که می‌توانست مسائل ریاضی ساده را حل کند. خروجی این سیستم به جای چراغ روی کاغذ چاپ می‌شد. این قابلیت‌ها شوباکس را به یک ماشین حساب مفید تبدیل کردند اما باز هم لازم بود که بین بیان کلمات مختلف یک فاصله وجود داشته باشد.

۱۹۷۱: سیستم تشخیص تماس خودکار آی‌بی‌ام

پس از Audrey و شوباکس، سایر مؤسسات تحقیقاتی هم شروع به طراحی فناوری تشخیص صدا کردند. اما این تلاش‌ها در دهه ۱۹۷۰ اوج گرفت یعنی زمانی که شرکت آی‌بی‌ام یک اختراع کاملاً جدید را به بازار عرضه کرد. این اختراع که سیستم تشخیص تماس خودکار نام داشت، اولین سیستم تشخیص صدایی بود که بر روی سیستم تلفن استفاده می‌شد.

در این سیستم مهندسان با کامپیوتری در رالی کالیفرنیای شمالی تماس می‌گرفتند. تماس گیرنده می‌توانست یکی از ۵ هزار کلمه مشخص شده در واژه نامه این سیستم را بیان کند تا سیستم هم در پاسخ این کلمه را تشخیص داده و تکرار کند.

۱۹۷۶: هارپی

در اوایل دهه ۷۰ میلادی، وزارت دفاع آمریکا هم جذب فناوری تشخیص صدا شد. آژانس پروژه‌های تحقیقاتی دفاعی پیشرفته این کشور در سال ۱۹۷۱ طرح تحقیقاتی تشخیص گفتار (به اختصار SUR) را راه اندازی کرد. این طرح برای چند شرکت و دانشگاه تأمین سرمایه می‌کرد تا به تحقیق و توسعه پروژه‌های تشخیص صدا کمک کند.

در سال ۱۹۷۶، دانشگاه کارنگی ملون توانست با کمک بودجه SUR سیستم هارپی (Harpy) را طراحی کند. این سیستم گام مهمی در زمینه تشخیص صدا محسوب می‌شد و قابلیت تشخیص کلمات و اعداد را داشت اما از این جهت منحصربفرد بود که می‌توانست جملات کامل را تشخیص دهد.

هارپی لغت نامه‌ای متشکل از حدود ۱۰۱۱ کلمه داشت که طبق آنچه در مقاله B. Lowerre و R. Reddy آمده، این یعنی بیشتر از ۱ تریلیون جمله مختلف. بعداً در این نشریه اعلام شد که هارپی توانایی تشخیص کلمات با دقت ۹۳.۷۷ درصد را دارد.

۱۹۸۰: روش مارکوفی مخفی

دهه ۱۹۸۰ برای فناوری تشخیص صدا از اهمیت زیادی برخوردار بود چون در این دهه بود که روش مارکوفی مخفی (به اختصار HMM) ابداع شد. نیروی اصلی که به طراحی این مفهوم کمک کرد، بحث احتمالات بود.

هر زمان که سیستمی یک واج را ثبت می‌کند (که کوچکترین عنصر گفتار است)، در رابطه با اینکه بعد از آن چه واجی قرار می‌گیرد، یک احتمال مشخص وجود دارد. HMM از این احتمالات برای تعیین واجی که به احتمال زیاد پس از واج فعلی قرار می‌گیرد استفاده می‌کند. اکثر سیستم‌های تشخیص گفتار امروزی همچنان از HMM استفاده می‌کنند.

۱۹۹۰: رسیدن فناوری تشخیص صدا به بازار مصرفی

از زمان شکل گیری مفهوم تشخیص صدا، تلاش برای پیدا کردن جایگاه آن در بازار مصرف شروع شد. در دهه ۸۰ میلادی، آی‌بی‌ام پیش نمونه‌ای از یک کامپیوتر را به نمایش گذاشت که می‌توانست تبدیل گفتار به متن را انجام دهد اما در اوایل دهه ۹۰ میلادی بود که کم کم کاربرد این فناوری در زندگی روزمره مشاهده شد.

در سال ۱۹۹۰، Dragon Systems اولین نرم‌افزار تبدیل گفتار به متن را معرفی کرد که Dragon Dictate نام داشت و در اصل برای ویندوز طراحی شده بود. این نرم‌افزار ۹ هزار دلاری از نظر فراهم کردن امکان استفاده از فناوری تشخیص صدا برای عموم مردم انقلابی شد اما یک ایراد داشت. این نرم‌افزار از گفتار گسسته استفاده می‌کرد یعنی کاربران باید بین هر کلمه توقف می‌کردند تا نرم‌افزار صحبت‌های آنها را تشخیص دهد.

در سال ۱۹۹۶ آی‌بی‌ام با Medspeak وارد این صنعت شد. Medspeak هم یک نرم‌افزار تبدیل گفتار به متن بود اما مشکل نرم‌افزار Dragon Dictate یعنی پشتیبانی از گفتار گسسته را نداشت. در عوض این سیستم قابلیت تشخیص گفتار پیوسته را داشت که همین ویژگی آن را تبدیل به یک محصول بسیار جذاب تر می‌کرد.

۲۰۱۰: دختری به اسم Siri

در دهه ۲۰۰۰ میلادی فناوری تشخیص صدا محبوبیت زیادی پیدا کرد. این فناوری در نرم‌افزارها و سخت‌افزارهای جدیدی پیاده شد و یکی از گام‌های مهم در انقلاب تشخیص صدا، دستیار دیجیتال Siri بود. در سال ۲۰۱۰ شرکتی به اسم Siri این دستیار صوتی را به صورت یک اپلیکیشن iOS رونمایی کرد.

در آن زمان، Siri یک نرم‌افزار جالب بود که می‌توانست صحبت‌های گوینده را تشخیص داده و یک پاسخ هوشمندانه به آن ارائه کند. این نرم‌افزار به قدری جالب بود که اپل در همان سال شرکت Siri را خرید و با کمی تغییر آن را تبدیل به نرم‌افزاری کرد که امروزه می‌شناسیم.

در واقع با کمک اپل بود که Siri این صدای خاص (با گویندگی سوزان بنت) را به همراه یکسری قابلیت جدید پیدا کرد. در این سیستم برای کنترل اکثر عملکردها از پردازش زبان طبیعی استفاده می‌شود.

۲۰۱۰: چهار دستیار صوتی بزرگ

همانطور که در جریان هستید، چهار نرم‌افزار تشخیص صدا و دستیار صوتی برتری که امروزه در بازار وجود دارند، عبارتند از:

Siri تقریباً در همه محصولات اپل از جمله مدل‌های مختلف آیفون، آیپد، آیپاد و مک وجود دارد.
دستیار گوگل تقریباً در همه دستگاه‌های اندروید موجود در بازار که تعدادشان به بیشتر از ۳ میلیارد عدد می‌رسد وجود دارد. بعلاوه کاربران می‌توانند از فرمان‌های آن در بسیاری از سرویس‌های گوگل از جمله گوگل هوم استفاده کنند.
آمازون الکسا هم یک دستیار صوتی برجسته و مهم است. امکان دانلود این دستیار برای دستگاه‌های اندروید، اپل و حتی بعضی لپ تاپ‌های لنوو وجود دارد.
بیکس باس جدیدترین عضو در فهرست دستیارهای صوتی است که توسط سامسونگ طراحی شده و تقریباً در همه گوشی‌ها و تبلت‌های این شرکت وجود دارد.

تاریخچه‌ای غنی

فناوری تشخیص صدا نسبت به دوره Audrey راه طولانی را پیموده است. این فناوری در عرصه‌های مختلف پیشرفت‌های خوبی داشت؛ مثلاً عرصه پزشکی در دوره شیوع کرونا از چت بات‌هایی که با صدا کنترل می‌شدند استفاده کرد. این فناوری نشان داده که می‌تواند یکی از پرکاربردترین فناوری‌های عصر مدرن باشد.

لینک منبع

فناوری جذاب تشخیص گفتار چگونه ابداع شد؟ با تاریخچه یکی از فناوری‌های انقلابی آشنا شوید

۱۹۵۲: سیستم Audrey

۱۹۶۲: شوباکس آی‌بی‌ام

۱۹۷۱: سیستم تشخیص تماس خودکار آی‌بی‌ام

۱۹۷۶: هارپی

۱۹۸۰: روش مارکوفی مخفی

۱۹۹۰: رسیدن فناوری تشخیص صدا به بازار مصرفی

۲۰۱۰: دختری به اسم Siri

۲۰۱۰: چهار دستیار صوتی بزرگ

تاریخچه‌ای غنی

دیدگاهتان را بنویسید لغو پاسخ

جالب از سراسر وب

۱۹۵۲: سیستم Audrey

۱۹۶۲: شوباکس آی‌بی‌ام

۱۹۷۱: سیستم تشخیص تماس خودکار آی‌بی‌ام

۱۹۷۶: هارپی

۱۹۸۰: روش مارکوفی مخفی

۱۹۹۰: رسیدن فناوری تشخیص صدا به بازار مصرفی

۲۰۱۰: دختری به اسم Siri

۲۰۱۰: چهار دستیار صوتی بزرگ

تاریخچه‌ای غنی

دیدگاهتان را بنویسید لغو پاسخ

جالب از سراسر وب

مرتبط با همین مطلب

قدرت مغز آزاد شده ظهور هوش مصنوعی ایجنتیک و آینده فراتر از ربات ها

مقایسه آیفون ۱۷ پرو مکس با آیفون ۱۷ پرو

قابلیت جدید FaceTime در iOS 26؛ توقف خودکار تماس هنگام تشخیص برهنگی

نجات کوهنورد دنور با قابلیت ماهواره ای آیفون