چگونه هورمونهای ما مُخِل کار دستیارهای صوتی میشوند؟
ارتباط فردا: امروزه افراد زیادی از فناوریهای تشخیص صدا استفاده میکنند. این فناوری در استفاده از دستیارهای صوتی همچون دستیار گوگل، سیری، الکسا کاربرد دارد. همچنین برای احراز هویت در برخی از سیستمهای ایمنی و ترجمه و تایپ همزمان مورد استفاده قرار میگیرد. اما بدن ما با رشد و تکامل فناوری پیش نرفته است و برخی از تغییرات طبیعی بدن میتواند بر صدای ما تاثیر بگذارد و تغییر در صدای ما باعث بروز اختلال در چنین سیستمهایی میشود.
با افزایش سن و تغییرات هورمونی، صدای انسانها نیز تغییر میکند. از جمله عواملی که بر تغییر صدا تاثیر میگذارند میتوان به کاهش الاستیسه و کشش تارهای صوتی، تغییرات هورمونی، اختلالات ساختاری و عملکردی و ضعف عضلات کنترل کننده صدا اشاره کرد.
به همین دلیل به نظر میرسد که فناوری تشخیص گفتار باید با تغییرات صدا در تمام مراحل زندگی، احتمالا از طریق نمایههای شخصیسازیشده کاربر، سازگار شود.
ما بیش از ۵۰ هورمون در بدن خود داریم که بر همه چیز از متابولیسم و رشد گرفته تا خلق و خو و رفتار تاثیر میگذارند. با این حال یکی از تاثیرات کمتر مورد توجه قرار گرفته، تاثیر هورمونها بر گفتار انسان است. هورمونها الگوهای صدا و گفتار ما را در طول زندگی شکل میدهند و استرسهای روزمره نیز میتوانند نحوه صدای ما را تغییر دهند. در نظر گرفتن این موارد یک سؤال جالب را ایجاد میکند: هورمونها چگونه بر اپلیکیشنهای کاربردی که با فرمان صوتی و فناوری تشخیص گفتار کار میکنند، تاثیر میگذارند؟
وقتی دهانمان را باز میکنیم، هورمونها نمایش خود را آغاز میکنند
تستوسترون، استروژن، کورتیزول، دوپامین و سروتونین همگی بر جنبههای گفتار مانند لحن، فصاحت و بیان شفاف تاثیر میگذارند. بلوغ یک نمونه کلاسیک از تاثیرات هورمون بر صداست و بارداری نیز مثال واضحی ارائه میدهد. در دوران بارداری، افزایش استروژن و پروژسترون میتواند منجر به تغییرات موقت در زیر و بمی صدا شود.
یک مطالعه در سال ۲۰۱۸ تارهای صوتی زنانه را در مراحل مختلف چرخه قاعدگی بررسی کرد و هیچ تغییر قابل توجهی در معیارهای آکوستیک یا خودارزیابی پیدا نشد. با این حال، الگوهای ریز عروقی در حنجره تغییر کردند که نشان میدهد تغییرات در سطوح پروژسترون، شدت جریان خون به تارهای صوتی را تغییر میدهد. این به توضیح اینکه چرا صدا ممکن است در مراحل مختلف چرخه قاعدگی متفاوت باشد یا غیرعادی به نظر برسد، کمک میکند.
کورتیزول که به عنوان هورمون استرس نیز شناخته میشود، با افزایش سرعت و اختلال در فصاحت بر ویژگیهای گفتار تاثیر میگذارد. یک فرد مضطرب ممکن است با سرعت بیشتری صحبت کند که باعث سردرگمی اپلیکیشنهای تشخیص صدا میشود و زمانی که همان فرد در زمان دیگری آرام صحبت میکند، میتواند به طور قابل توجهی متفاوت به نظر برسد و تشخیص دقیق دستورات را برای سیستمهای خودکار دشوارتر کند.
تغییرات هورمونی به زنان محدود نمیشود. در یک مطالعه درباره مردان مسن بررسی شد که چگونه کاهش سطح هورمون میتواند بر پارامترهای صدا تاثیر بگذارد و مشخص شد که مردانی که سطح استروژن کمتری را تجربه میکنند نیز ممکن است متوجه تغییرات در ویژگیهای صدای خود شوند.
بنابراین بدن ما میتواند در دورههای مختلف زندگی با تغییر هورمونها و در نتیجه تغییر صدا، لحن و طرز گفتار بر کیفیت تشخیص اپلیکیشنها تاثیر بگذارد.
چرا اپلیکیشنهای کاربردی مبتنی بر فرمان صوتی باید خود را با تغییرات انسان وفق بدهند؟
از آنجایی که فناوری تشخیص صدا به طور فزایندهای در زندگی روزمره ما ادغام میشود، مهندسان با چالشهای تغییر صدا مواجه خواهند شد و باید سیستمها را فراگیر و در برابر تغییرات هورمونی مقاوم کنند.
به گفته اسکار پنا-کاسرز (Oscar Pena-Cáceres)، نویسنده ارشد یک مطالعه جدید در مورد یادگیری ماشینی، مدلهای تشخیص گفتار زمانی که با صداهایی که در طول زمان چه به دلیل سن، استرس یا تغییرات هورمونی چرخهای تغییر میکنند، مواجه میشوند، دچار مشکل میشوند.
به گفته پنیا کاسرز، برای غلبه بر این چالش به یک رویکرد آموزشی پویاتر نیاز است. این رویکرد طیف گستردهای از الگوهای گفتاری و تغییرات هورمونی مختلف را باید در نظر بگیرد.
در اپلیکیشنهایی که از صدا به عنوان یک روش احراز هویت بیومتریک استفاده میکنند، تغییرات هورمونی میتواند بر قابل اطمینان بودن و امنیت سیستم تاثیر بگذارد، زیرا تغییرات در صدا میتواند باعث شود سیستم کاربر را شناسایی نکند. بنابراین، مهندسان باید تلاش کنند تا الگوریتمهای تشخیص صدای تطبیقی را توسعه دهند که بتواند این تغییرات هورمونی را مدیریت کند. برای این کار ممکن نیاز به ایجاد مدلهای یادگیری عمیق باشد که بر روی دادههای متنوع آموزش داده میشوند و میتوانند به طور مداوم یاد بگیرند که با تغییرات در طول زمان سازگار شوند.
از طرف دیگر هوش مصنوعی میتواند نوسانات فرکانسهای صوتی و ویژگیهای طیفی را تجزیه و تحلیل و نظارت کند که به آن این امکان را میدهد که الگوهای مرتبط با تغییرات هورمونی را تشخیص دهد. به عنوان مثال، هورمونهای استرس گاهی اوقات میتوانند منجر به صدای بلندتر یا گفتار سریعتر و نامنظم شوند. در نتیجه، استفاده از مدلهای چندوجهی که دادههای صوتی، تاریخچه رفتار کاربر و تغییرات صوتی را با هم ادغام میکنند، میتواند دقت را در شناسایی تغییرات صدا بهبود بخشد.
وقتی از صدای خودمان خوشمان نمیآید
محبوبیت پیامهای صوتی در حال افزایش است، با این حال بسیاری از مردم از شنیدن صدای خود بیزارند. جاستین توماس (Justin Thomas)، محقق ارشد مرکز فرهنگ جهانی پادشاه عبدالعزیز (Itra) که با پروژههایی در تلاقی فناوری، روانشناسی و سلامت عمومی درگیر است، گزارش میدهد که نزدیک به نیمی از افراد با صدای ضبط شدهشان مشکل دارند. جالب این جاست که قرار گرفتن منظم در معرض صدای خودمان مانند گوش دادن به یادداشتهای صوتی ممکن است منجر به پذیرش بیشتر صدا و در نهایت علاقهمند شدن به آن شود.
توماس همچنین تلاقی اضطراب اجتماعی و هوش مصنوعی را خاطرنشان میکند. افرادی که از قضاوت منفی میترسند، ممکن است صحبت با یک ربات را آسانتر از صحبت با یک انسان ببینند. با این حال، این احساس امنیت میتواند باعث اتکای بیش از حد به چتباتها شود. اگر کسی صدای خود را دوست نداشته باشد یا اگر هوش مصنوعی نتواند لهجه یا سرعت گفتار او را درک کند، ممکن است مکالمه عمومی با هوش مصنوعی باعث ناراحتی شود که این باعث تشدید اضطراب میشود.
میتوان موقعیتهایی را تصور کرد که باید با یک ربات در جمع صحبت کنید. این میتواند مشکلاتی ایجاد کند اگر صدای خود را دوست نداشته باشید. به خصوص اگر ربات نتواند لهجه یا عصبی بودن صدای شما را درک کند. توماس افزود: اضطراب میتواند به چرخه معیوب سوء تفاهم رباتیک منجر شود که منجر به اختلال بیشتر اضطرابی میشود.
قدرت صدا، ظرافت هورمونها
تحقیقات در مورد سندرم ویلیامز (WS) نشان میدهد که صدا، موسیقی و هورمونها چقدر با هم تعامل دارند. در یک مطالعه در سال ۲۰۱۲، شرکت کنندگان مبتلا به سندرم ویلیامز افزایش چشمگیری در سطح اکسی توسین هنگام گوش دادن به موسیقی نشان دادند.
سندروم ویلیامز یک نارسایی رشد عصبی نادر است که در آن چهره به سبب افتادگی پل دماغی به شکل پریوار درمیآید. مبتلایان به این نشانگان، به شکل نامعمولی خوشرو و شاد و با ناآشنایان صمیمی هستند.
فراتر از موسیقی، حتی بلندی صدای گوینده نیز بر ایجاد حس اعتماد تاثیر میگذارد. یک مطالعه در سال ۲۰۱۱ نشان داد که زنان تصور میکنند مردانی که صدای عمیق و بمتری دارند، بیشتر در معرض خیانت هستند و این در حالی است که مردان معتقدند زنان با صدای بلندتر ممکن است کمتر وفادار باشند.
شکل دادن به آینده فناوریهای تشخیص صدا
پنیا کاسرز استدلال میکند که با درک بهتر از نحوه تاثیر هورمونها بر صدای انسان، میتوانیم سیستمهای پیچیدهتر و سازگارتری طراحی کنیم. مدلهای تشخیص گفتار باید به اندازه کافی قوی باشند تا بتوانند تغییرات صدا را در مراحل مختلف زندگی از بلوغ تا یائسگی تا اواخر بزرگسالی، درک کنند. برای رسیدن به چنین توانایی ممکن است نیاز به ایجاد پروفایلهای کاربری منحصر به فرد برای ردیابی و سازگاری با نوسانات طبیعی در گفتار افراد باشد.
توسعه این سیستمها به طور مسؤولانه نیاز به همکاری بین محققان هوش مصنوعی، مهندسان نرمافزار، زبانشناسان، متخصصان غدد درونریز و روانشناسان دارد. با تمرکز بر عدالت و فراگیری و با در نظر گرفتن جنسیت، سن و تفاوتهای فرهنگی افراد و گروههای مختلف میتوان اطمینان حاصل کرد که نسل بعدی فناوریهای تشخیص صدا نیاز به داشتن یک پایگاه جهانی از کاربران را برآورده میکنند و میتوانند پا به پای کاربران هنگام بروز تغییرات زیستی در مرحلههای مختلف پیش بروند و به وظیفه تشخیص صدای خود به خوبی عمل کنند.
همانطور که بازارهای مالی تحت تاثیر سیگنالهای اقتصادی ظریف قرار میگیرند، صدای ما نیز به طور پنهانی توسط ریتمهای هورمونی شکل میگیرد. فناوریهای صوتی تا سال ۲۰۳۲ به یک بازار ۸۴.۹۷ میلیارد دلاری تبدیل میشوند. اما همانطور که سیستمهای تشخیص گفتار پیچیدهتر میشوند، باید برای درک تفاوتهای ظریف زیستشناسی انسان نیز تکامل یابند. آینده نه تنها در گرو پیشرفتهای الگوریتمی است، بلکه به مهار تعامل ظریف بین صداهای زیستی و دیجیتال ما وابسته است.
انتهای پیام