۱۸ بهمن ۱۳۹۰

توليد گفتار ماشينى

دانشگاه استنفورد

چالش

سنتز يا تولید الكترونيكى گفتار (speech synthesis) - که در آن ماشین، گفتاری انسان گونه ایجاد می‌کند - در تحقیقات زبان شناسی پایه، فناوری‌های کمکی برای معلولین، و ابزارها و نرم افزارهای تجاری کاربرد دارد. در این میان، سیستم‌های تبدیل متن - به - گفتار (Text-To-Speech يا TTS) مورد توجه ویژه‌اى قرار دارند. به افراد لالی که برای بیان منظور خود به صورت گفتار به سنتزهای گفتاری متکی‌اند، بهترین خدمات را آن دسته از سینتی سایزرها (synthesizers) يا مولدهاى صوت الكترونيكی ارائه می دهند که می توانند گستره ای از صداهای مردانه و زنانه را تولید کنند. ترکیب کردن جنس و جنسیت با گفتار، در نحوۀ دریافت و تفسیر گفتار حائز اهمیت است (Nass, 2005).

روش کلیدی : تحلیل مفروضات جنسیتی

مفروضات جنسیتی می توانند هم در عمل گفتن و هم درعمل شنیدن (یا تفسیر آنچه شنیده می شود) تأثیر بگذارند ، حتی زمانی که گوینده يك ماشین باشد. صداها دربارۀ گوینده اطلاعات زیادی – همچون جنس، جنسیت، سن و غالباً ملیت – دربردارند، حتی اگر این اطلاعات مستقیماً بیان نشده باشند. در تولید سیستم‌های TTS با صداهای مختلف كه در فناوریهای کمکی و سایررابطه‌های بین انسان و رایانه مورد استفاده قرار مي‌گيرند، تحلیل جنس (عوامل زیست شناختی) و جنسیت (عوامل اجتماعی - فرهنگی) مهم است.

نوآوری‌های جنسیتی:

  • تولید صداهای هم مردانه و هم زنانه در فناوری‌های متن – به - گفتار : مهندسان سیستم‌های متن - به - گفتاری که اولویت ها و نتایج تحقیقاتی را بازاندیشی کرده و اهمیت تولید صداهای هر دو جنس را دریافتند، محصولات تازه‌ای مانند (DECTalk(1984 را آفریدند. سینتی سایزرهای گفتاری ِ قابل انعطافی که می توانند صداهائی تولید کنند كه نمايندۀ مردان و زنانی با سن، هویت جنسیتی و لهجه‌هاى محلی مختلف باشند، به کاربران کمک می‌کنند تا صدایی با خصوصیات مناسب انتخاب کنند.
  • درک جنسیت در گفتار : پژوهشگران با تحلیل مفروضات جنسیتی می‌توانند چگونگی انعکاس هویت فرهنگی در گفتار را بهتر درک کنند. سیستم های TTS رایانه‌ای عملاً عواملی اجتماعی هستند و پیام‌هایی که ارسال می کنند به فناوری زیرساخت، موارد استفاده، و واکنشهای کاربران آنها وابسته است.

چالش: پیش فرض مذکر در سيستم‌هاي متن - به - گفتار کمکي (Assistive TTS)

در اروپا و ايالات متحده سيستم‌هاى متن - به - گفتار براى دو منظور اصلى مورد استفاده قرار مى‌گيرند :

  • فناوري‌هاى كمكى براى كاربران داراى معلوليت : TTS مى‌تواند براى افراد لال يا داراى ساير ناتواني‌هاى گفتارى اين امكان را فراهم سازد كه با تبديل متن تايپ شده به گفتار، ارتباطات كلامى برقرار كنند. از TTS جهت خواندن كتاب، روزنامه، وب‌سايت و غيره، با صداى بلند براى كاربران نابينا نيز استفاده مى‌شود (Dutoit, 1997). اين كاركرد اخير براى دسترسى افراد داراى مشكل بينايى به اينترنت، اهميت ويژه‌اى دارد (Pal, 2011).
  • ارتباط‌هاى بين انسان و رايانه در محصولات مصرفى : براى نمونه، گيرنده‌هاى سيستم مكان يابى جهانى (GPS) معمولاً براى "خواندن" مسير حركت براى راننده از TTS استفاده مى‌كنند (Berstis, 2001).

سيستم‌هاى اوليۀ TTS كمكى مانند Votrax Type’N’Talk " نمى‌توانستند زيروبم صداى زنانه را توليد كنند" (WalshWalsh 1986, Klatt 1990). اين پيش فرض (default) تاريخى مذكر در سنتز يا توليد مصنوعى گفتار – كه نوعى جانبدارى احتمالاً ناآگاهانه بوده و شايد از اين ناشى شده باشد كه اغلب افراد حرفه اى شاغل در زمينه‌هاى مرتبط مرد بوده‌اند – مى تواند بيان منظور را براى افراد محدود كند. براى مثال، دنيس كلات، مهندس سنتز گفتار، ، مورد خانم جوانى آمريكايى را شرح مى‌دهد كه در تصادف رانندگى مجروح شده بود اما "از استفاده از دستگاه كمك گفتارى اجتناب مى‌كرد زيرا موجب مى‌شد كه مذكر به نظر رسد" (Klatt, 1987). زن جوان ديگرى كه مبتلا به فلج مغزى بود نيز گزارش داده، از اين كه تنها دستگاه كمك گفتارى در دسترس او صدائى مردانه داشته احساس نااميدى و دلسردى كرده است (Lupkin, 1998).

نوآوری جنسیتی شمارۀ ۱ : تولید گستره‌ای از هر دو صداهای مردانه و زنانه در فناوریهای متن - به - گفتار

درسال ۱۹۸۴، شركت تجهيزات ديجيتالى (Digital Equipment Corporation –DEC) مستقر در ايالات متحده، بازاريابى براى DECtalk را آغاز كرد كه يك پلاتفورم TTS بود (Leong, 1995).
DECtalk عمدتاً به وسيلۀ دنيس كلات ايجاد شد. وى بر "امكان متناسب كردن خصوصيات صدا با كاربران، به وي‍ژه مزيت ارائۀ صداى زنانه وار به زنان و بچگانه به كودكان" به عنوان "مزيت بالقوۀ DECtalk" در كاربردهاى كمكى تأكيد مى كرد (Klatt, 1987). پلاتفورم DECtalk پنج صدا را پشتيبانى مى‌كرد – دو صداى زنانۀ بالغ، دو صداى مردانۀ بالغ و يك صداى كودكانه (Turunen, 2004). صداهاى DECtalk بازنمايى صداهاى زنانه و مردانه به صورتى نوعى و قالبى (stereotypical) بودند. به همۀ اين صداها شخصيتى داده شد كه خود را با يك نام به كاربر معرفى مى‌كردند. "هارى گندهه "، يكى از صداهاى مردانه، مى‌گفت : "من شخصى درشت اندام با صداى كلفت هستم. من مى توانم همچون يك شخصيت مقتدر خدمت كنم"، در حاليكه "وندى ِ زمزمه كن "، يكى از صداهاى زنانه، مى گفت : "من صدایى بسيار آرام دارم،" و مى‌پرسيد : "با اينكه دارم زمزمه مى‌كنم، آيا مى‌توانى حرفهايم را بفهمى؟". يك نمونه از اين صداها را مى‌توانيد در ویدیو كليپ اين صفحه گوش كنيد (Klatt, 1987).

هم صداهاى مردانه و هم زنانه به زودى شاخصه‌هاى استاندارد سيستم‌هاى TTS شدند، مانند MacIn Talk Professional از شركت رايانه‌اى اپل Apple. نكتۀ مهم اين كه اين سيستم‌ها صداهاى زنانه و مردانه را با وضوح و روشنى يكسانى توليد مى‌كردند (Rupperecht, 1996).

روش : بازاندیشی اولویت‌ها و نتایج تحقیقاتی

پيش فرض تاريخى مذكر در توليد مصنوعى گفتار، استفاده از اين فناورى را محدود مى‌كرد. مهندسان دريافتند كه افزايش گسترۀ صداهاى موجود، گسترۀ كاربران TTS را افزايش مى‌دهد و لذا، براى كسب دانش در مورد اختلافات جنسى ِ ممكن در صداهاى انسانى، به مطالعات تطبيقى صداى زنان و مردان روى آوردند – تحليل جنس را ببينيد. توليد صداهاى مردانه و زنانه‌اى كه واقعى به نظررسند، هم از لحاظ مسائل بشر دوستانه و هم از ديدگاه اقتصادى، اهميت دارد.

صداى مردان و زنان با هم فرق دارند؛ شاهد قوى اين نكته اين واقعيت است كه شنوندگان مى‌توانند با دقت زياد، جنس گويندۀ بالغ را تشخيص دهند، حتی در مواردى كه نشانۀ صوتى يا ديدارى ديگرى حضور نداشته باشد. اين تشخيص نه به مشترك بودن زبان گوينده و شنونده نيازمند است و نه به بيان همۀ كلمه. براى مثال، افرادى كه مورد آزمايش قرار گرفته و به آنها يك مصوّت يا حرف صدادار ِ ضبط شده ارائه شده بود، در ۹۸.۸ درصد موارد، جنس گوينده را به درستى تشخيص دادند (Whiteside, 1998).

روش : تحليل جنس

تفاوت جنس موجب برخى از (و نه تمامى) تفاوت هاى مشاهده شده در صداهاى مردان و زنان است. تفاوت‌هاى اندامى و جسمانى – در اندازه و شكل تارهاى صوتى، طول مجراى صوتى، طول حنجره و غيره – موجب تفاوت در زيروبم صدا می‌‌شوند. صداى زنان، به دليل كوتاه‌تر و نازكتر بودن تارهاى صوتى آنان، به طور متوسط زيرتر از صداى مردان است و موجب مى‌شود كه فركانس {بسامد} پايۀ صدای زنان "حدوداً دو برابر فركانس مردان" باشد (Simpson, 2009).

مقايسۀ گسترۀ زيروبم صداى زنان و مردان به تعريف زيروبم بستگى دارد. مطالعات عموماً نشان مى‌دهند كه هنگام مقایسۀ صدای زنان و مردان از نظر گسترۀ فركانس مطلق، صدای زنان گسترۀ وسيعترى به نسبت مردان دارد. در طول تاريخ، برخى از پژوهشگران از اين مشاهده چنين دريافته‌اند كه صداى زنان دراماتيك، احساسى ، تحريك پذير، غيرمنطقى و از این قبیل است (McConnell-Ginet, 1983). حائز اهميت است كه مقايسۀ گسترۀ فركانس مطلق، جنبۀ سايكوآكوستيك (psychoacoustics) يا روانشناسى صدا ندارد. انسان ها گسترۀ زيروبم را "نه با اندازه گيرى هرتز، بلكه با استفاده از مقياس لگاريتمى يا [نيم لحن semitone]" در مى‌يابند (Henton, 1989). مقايسۀ صداى مردان و زنان بر اساس نيم لحن semitone چنين مى‌نمايد كه هرچند زنان گسترۀ فركانس مطلق بزرگترى دارند، در گفتار معمولى، مردان و زنان نيم لحن semitone مشابهى دارند. در اين مورد، بازانديشى زبان و بازنماي‍ى ديدارى به وسيلۀ مقايسۀ گسترۀ زيروبم صداى مردان و زنان بر اساس مقياس لگاريتمى (به جاى مقياس خطى)، كه از نظر دريافت دقيقتر است، اين ديدگاه كليشه‌اى كه صداى زنان دراماتيك و احساسى، و صداى مردان يكنواخت و بى احساس است را به چالش مى‌كشد – نمودار را ببينيد.

در مقياس خطى (نمودار طرف راست)، خطوط عمودى با طول مساوى، بيانگر گستره‌هاى فركانس مطلق مساوى هستند. در مقياس لگاريتمى كه نحوۀ دريافت زيروبم توسط انسان است (نمودار طرف چپ)، خطوط عمودى با طول مساوى بيانگر گستره هاى نيم‌لحن semitone مساوى هستند. يك مقدار لگاريتمى در پايۀ ۱۰– كه از نظر دريافت دقيقتر است – به محققان اين امكان را مى‌دهد كه شباهت‌هاى گستره‌هاى زيروبم صداى زنان و مردان را به چشم ببينند. داده‌ها از زنان و مردان ۲۵ تا ۲۷ ساله‌اى گردآورى شده كه زبان انگليسى شمال آمريكا را به خوبى صحبت مى‌كنند (Henton, 1989)

نوآوری جنسیتی شمارۀ ۲ : درک جنسیت در گفتار

مفروضات جنسیتی می‌توانند هم در عمل گفتن و هم در عمل شنیدن (یا تفسیر آنچه شنیده میشود) تأثیر بگذارند، حتی زمانی که گوینده يك ماشین باشد. صداها اطلاعات زیادی در بارۀ گوینده دربر دارند – اطلاعاتى همچون جنس، جنسیت، سن و غالباً ملیت – هرچند ممكن است این اطلاعات مستقیماً بیان نشده باشند. جنسیت با تولید مصنوعی گفتار مرتبط است زیرا بر گفتار انسانی تأثیر می‌گذارد : ایجاد یک سیستم TTSبا صدای "طبیعی ِ" مردانه یا زنانه، هم تقلید خصوصیات زیست شناختی (بر اساس جنس) صدای مردان و زنان را شامل مى‌شود و هم تقليد خصوصيات فرهنگی آنان را.

روش : تحلیل مفروضات جنسیتی

تحقیقات نشان داده است که باورها و رفتارهای جنسیتی بر خصوصیات صدای مردان و زنان واقعی، و همچنین بر واکنش شنوندگان ِ صداهایی که به طور مصنوعی تولید می‌شوند، تأثیر می‌گذارند.

  • تحلیل هنجارهای جنسیتی : خیلی پیش از این که TTS به نحو گسترده‌ای مورد استفاده قرار گیرد، پژوهشگران گفتار دریافته بودند که رفتارهای جنسیتی بر گفتار تأثیر می‌گذارند (Fant, 1975). زیروبم صدا اكتسابى بوده و تحت تأثیر انتظارات فرهنگی است. در سطح بین المللی، پایین آوردن زیروبم صدا می‌تواند اقتداری به سخنران تفویض کند. این رفتار برای مردان بیش از زنان تناسب جنسیتی دارد اما همۀ مردان آن را به کار نمی‌گیرند – برای مثال، مارگارت تاچر،نخست وزیر سابق انگلستان، به وسیلۀ یک مربی صدا سازی ِ تئاتر ملی آموزش داده شده بود تا صدایش را پایین آورده و به آن اقتدار بیشتری بدهد (Atkinson, 1984).
  • تحلیل هویت جنسیتی : صداها تجلیاتی از هویت اجتماعی را در خود نهفته دارند. تحقیقات در بارۀ افرادی که تغییر جنسیت داده اند، و برخی از آنان کیفیت صدای خود را تغییر می‌دهند تا شبیه جنس دیگر شود، بر توانایی افراد در تغییر صدای خود برای هماهنگی با نقش‌های جنسیتی تأکید می‌کنند (Graham-Rowan, 2006).
  • تحلیل عواملی که با جنس و جنسیت مرتبط می‌شوند : هنجارهای جنسیتی در فرهنگ‌های مختلف متفاوتند. برای مثال، اندازه‌گیری فرکانس‌های صدای پایۀ مردان و زنان نشان‌دهندۀ گرایش‌های متفاوتی در بین گویندگانی با زبانهای مختلف است : در میان گویندگان فرانسوی، زیروبم پایۀ زنان حدود ۹۰ هرتز از مردان بالاتر است، در حالی که در گویندگان چینی زیروبم زنان تنها حدود ۱۰ هرتز بالاتر است. پژوهشگران نتیجه گرفته‌اند که "گذاشتن این گونه تفاوت‌ها به حساب تفاوت‌های اندامی ِ جمعیت مورد بررسی، منطقی نخواهد بود" و این که "بخشی از این تفاوت‌ها می‌باید مربوط به رفتارهای اکتسابی باشد" (Simpson, 2009).

جنس در برابر جنسیت در گفتار

"[...] هرچند بین زنان و مردان، تفاوت‌های زیست شناختی، مانند ابعاد دهان، گلو و مجاری صدا، تأثیرهایی بر صداهایی که تولید می‌کنند دارد، این نکته نیز روشن است که ما آن گونه الگوهای صدایی را تولید می‌کنیم که با هویت جنسیتی ما متناسب باشد. [...] زمانی می‌توان بسیاری از جنبه‌های گفتاری دیگر را نیز به درستی در نظر گرفت که هم موارد غیر قابل انکار ِ زیست شناختی را مد نظر قرار دهيم و هم رفتارهای اکتسابی را" ( Simpson, 2009).

بنابراین، هویت‌ها و هنجارهاى جنسیتی در گفتار انسان نهفته‌اند. پژوهش همچنین نشان می‌دهد که شنوندگان در مورد صداهای مصنوعی نیز هنجارهای جنسیتی را به کار می‌گیرند :

  • افراد شنونده به صداهای ماشینی نیز جنس و جنسیت اختصاص می‌دهند؛ یعنی این که آنان گویندگان ماشینی را نیز زن یا مرد می‌دانند. شنوندگان، آن صداهای ماشینی را که از نظر جنس نامشخصند دوست ندارند. حتی زمانی که شنوندگان انسانی کاملاً آگاهند که صداهای نمونه توسط ماشین تولید شده‌اند، باز هم تخصیص جنسی صورت می‌گیرد. هرچند که می توان با تولید مصنوعی صدای "نامشخص" تولید کرد، باز هم شنوندگان می‌کوشند که به این گونه صداها جنس و جنسیت اختصاص دهند. ممکن است زمان بیشتری طول بکشد تا این تخصیص شكل بگيرد، یا ممکن است که تغییر كند، اما شنوندگان صداهای "نامشخص" را به لحاظ جنسی خنثی نمی‌دانند. علاوه بر این، افراد شنونده صداهای "نامشخص" را "عجیب، ناخوشایند، بی صداقت و ناروشن" محسوب می‌کنند (Nass, 2005). این نکته، آن گونه صداها را برای استفاده در فناوری های کمکی و همچنین کاربردهای تجاری گسترده تر، نامطلوب می‌كند.
  • شنوندگان به صداهاى "مردانه" يا "زنانه"‌اى كه به صورت مصنوعى توليد شده‌اند جنسيت‌هاى قالبى اختصاص مى دهند. زمانى كه شنوندگان در مورد صلاحيت، متقاعد كنندگى، جذابيت، صداقت و امثالهم ِ يك صدا قضاوت مى‌كنند، اين نكته نيز،به نوبۀ خود، بر قالب‌ها (stereotypes) و كليشه‌هائى كه شنوندگان به كار مى‌گيرند مؤثر است. مطالعه اى بر دانش آموزان ابتدايى ۹ تا ۱۱ سالۀ ايالات متحده نشان داد در بحث‌هایى كه نوعاً زنانه‌اند (مانند مواظبت از پوست و آرايش) صداهاى مصنوعاً توليد شدۀ زنانه، خوشايندتر و پذيرفتنى تر قضاوت شده‌اند. اما زمانى كه موضوع نوعاً مردانه بود (مانند فوتبال آمريكايى) صداهاى مصنوعاً توليد شدۀ مردانه، خوشايندتر و پذيرفتنى تر شناخته شده‌اند (Lee 2007, Niculescu 2009). اين نتايج بازتاب قالبهائى است كه سوژه هاى مطالعه در تعامل با گفتار مصنوعى به كار برده‌اند.

اين واقعيت كه شنوندگان انسانى به صداى مصنوعى، قالب‌هاى جنسيتى مى‌دهند، در بارۀ چگونگى استفاده از صداى مصنوعى، پرسش‌هایى اساسى بر مى‌انگيزد. به ويژه، اين هدف كه گفتار مصنوعى با ترجيحات كاربر تنظيم شود، مى‌تواند با هدف مبارزه با قالب ها مغايرتى اساسى داشته باشد. براى نمونه، كارخانۀ اتومبيل‌سازى BMW ابتدا اتومبيلى به بازار عرضه كرد كه رايانه اى در خود داشت كه با استفاده از TTS با صدایى زنانه "حرف مى‌زد". اما برخى از كاربران به "گرفتن رهنمود" از يك صداى زنانه اعتراض داشتند و پيمانكاران BMW كه سيستم TTS را طراحى مجدد مى‌كردند " تصميم گرفتند كه صدا مى‌بايست مردى را بنماياند كه اندكى برتر، تا اندازه‌اى دوستانه، و بسيار صاحب صلاحيت باشد" ( Nass, 2005). در اين مورد، رضايت كاربران شامل كاربرد TTS به نحوى بود كه قالبها را تأييد – و شايد ترويج – مى‌كرد. امروزه، گزينه‌هاى مختلفى از صداى مردانه يا زنانه، زبان، و لهجۀ قومى به مشتريان ارائه مى‌شود.

عوامل مرتبط با جنس و جنسيت : گسترش پايگاه داده‌هاى گفتارى

يكى از رويكردها به TTS، تركيب زنجيره‌اى (concatenate synthesis) است كه روش كار آن پيوستن تكه‌هاى قبلاً ضبط شدۀ گفتار طبيعى انسان به هم است. پروژۀ شبكۀ تعامل بين انسان و ماشين ِ اتحاديۀ اروپا در زمينۀ عواطف (European Union’s Human-Machine Interaction Network on Emotion ) يا HUMAINE كه در ابتدا تحت برنامۀچارچوب ششم (Sixth Framework Program ) ايجاد شد تحقيقى پيشرو را مورد حمايت قرار داد كه پايگاه داده‌هاى گفتارى زبان‌هاى اتحاديۀ اروپا راگسترش داد (Roddie, 2010). پژوهشگرانى كه پايگاه هاى داده‌ها را به هم متصل كردند از مردان و زنان به تعداد مساوى نمونه بردارى كردند (Barra-Chicote 2008, Burkhardt 2005). پژوهشگران همچنين تلاش كردند تا صداهاى تركيبى بسازند به زبان ها و لهجه‌هاى محلى مختلف – براى نمونه، محققان اسپانيايى كوشيدند " دو صدا با كيفيت بالا توليد كنند […] يكى مردانه و يكى زنانه […]" كه تلفظ كلمات با "لهجۀ كاتالان مركزى و همچنين اسپانيايى، گالى (Galician)، اوسكرى (Euskera) و انگليسى" را پشتيبانى كند (Bonafonte , 2009). كارهاى مشابه در جاهاى ديگر نيز بر لحن‌ها و لهجه‌هاى مختلف انگليسى (مانند انگلستانى، آمريكايى، استراليايى، ولزى، و جنوب آسيايى)، آلمانى (مثلاً، لهجه‌هاى مورد استفاده در مناطق مختلف آلمان و اطريش)، و فرانسوى (مثل سويسى و پاريسى) متمركز بوده‌اند (Miller 2011, Pucher 2010, Yan 2003, Sen 2002).

گفتارهاى تركيبى كه مى توانند لهجه‌هاى مختلف منطقه‌اى و اجتماعى – فرهنگى را تقليد كنند نيز، همچون گفتارهاى با قابليت هويت زنانه و مردانه، بالقوه به ترویج قالب‌ها و كليشه‌ها دامن می‌زنند. دلايلى وجود دارند كه شك كنيم شنوندگان گفتار تركيبى ِ لهجه‌دار را بر اساس قالب‌هاى نژادى، قومى، جايگاه اجتماعى – اقتصادى، مكان جغرافيايى و مانند آنها تفسير كنند (Pucher , 2009).

نتيجه گيرى

توليد صداهاى تركيبى زنانه، گام مهمى در تركيب مصنوعى صدا بود، و به گسترش كاربران TTS كمك كرد. اما قابليت توليد صداهاى "مردانه" و "زنانه" اين امكان بالقوه را در بر دارد كه قالب‌هاى جنسيتى را تقويت كند. سيستم‌هاى TTS رايانه‌اى عملاً كنش اجتماعى دارند، و پيام‌هاى اجتماعى‌اى كه مى‌فرستند به زيرساخت فناورى آنها (مثلاً به خصوصيات فنى صداهاى زنانه و مردانه)، چگونگى استفاده از آنها (مثلاً اين كه شركت ها براى معرفى محصول خود از كدام صداى تركيبى استفاده مى‌كنند) و واكنش كاربران بستگى دارد (Lee, 2008).

گام‌های بعدى

براى توليد صدا در زبان‌ها و لهجه‌هاى مختلف و بازنمايى گويندگان زن و مردى كه از نظرسن، سابقه و غيره متفاوتند، پژوهشگران در تلاشند تا مولدهاى صدایى توليد كنند كه قابليت انعطاف بيشترى داشته باشند. در اين زمينه، پيشرفت‌هاى مهم شامل موارد زير است :

  • توليد گفتار مؤثر : اطلاعات مربوط به پروژه‌هاى گفتار انسان ها از نظر وضعيت عاطفى گوينده و تأثير گذارى (افه affect) آن " به دلايل حالت طبيعى، كارآيى، و سودمندى كلى، در توليد تركيب مصنوعى گفتار مفيد است" (Cahn, 1990). اما سيستم هاى TTS موجود – هرچند مى توانند گفتار نسبتاً واضحى توليد كنند – در انتقال افه محدوديت دارند (Rebordao , 2009). فناورى‌هاى TTS تأثير گذار (داراى افه)، چه براى مقاصد كمك رسانى (مانند كمك به لال‌ها در بيان احساساتشان با صدا) و چه براى مقاصد تجارى، يكى از زمينه‌هاى تحقيقاتى فعال است (Gusikhin 2001, Luneski 2010). كلى‌تر آنكه، سيستم‌هاى رايانه‌اى با قابليت توليد گفتار افه‌دار (و "خواندن" نشانه‌هاى عاطفى از گفتار انسان) در پيشرفت روبوت‌هاى قابل معاشرت اهميتى حياتى دارند.
  • ايجاد صداهاى شخصى شده : صداهاى طبيعى، علاوه بر انتقال اطلاعات مربوط به ويژگى‌هائى مانند جنس، سن، لهجه، وضعيت عاطفى و غيره، منحصر به فرد بوده و مى‌توانند براى شناسايى انسان گوينده مورد استفاده قرار گيرند. فناورى‌هاى TTS كمكى صداهاى ثابتى ارائه مى‌دهند كه گزينه‌هاى اندكى براى شخصى كردن customization دارند. پژوهشگران در حال توليد سيستم‌هاى متن – به – گفتارى هستند كه از "توانايى‌هاى جزئى ِ صدايى" در برخى از افراد لال، براى توليد گفتارى واضح استفاده مى‌كنند كه برخى از خصوصيات هويت كاربر، شامل جنس و جنسيت كاربر را منعكس مى‌كند.

Making Machines Talk: Gendered Innovations.
Copyright © 2011 from “Gendered Innovations,” Making Machines Talk, Reproduced by permission of Gendered Innovations Stanford University.
http://genderedinnovations.stanford.edu/case-studies/machines.html#tabs-2

Works Cited

Atkinson, M. (1984). Our Masters' Voices: The Language and Body-Language of Politics. London: Methuen.
Barra-Chicote, R., Montero, J., Marcias-Guarasa, J., Lufti, S., Lucas, J., Fernandez-Martinez, F., Dharo, L., San-Segundo, R., Ferreiros, J., Cordoba, R., & Pardo, M. (2008). Spanish Expressive Voices: Corpus for Emotion Research in Spanish. Madrid: Universidad Politecnica de Madrid.

Berstis, V. (2001). Method and Apparatus for Displaying Real-Time Visual Information on an Automobile Pervasive Computing Agent. United States Patent 6,182,010. January 30.

Bonafonte, A., Aguilat, L., Esquerra, I, Oller, S., & Moreno, A. (2009). Recent Work on the FESTCAT Database for Speech Synthesis. Barcelona: Universitat Politècnica de Catalunya (UPC) Press.

Burkhardt, F., Paeschke, A., Rolfes, M., Sendlmeier, W., & Weiss, B. (2005). "A Database of German Emotional Speech." Proceedings of Interspeech/Eurospeech, 9th Biennial European Conference on Speech Communication and Technology, September 4—8, Lisbon.

Cahn, J. (1990). Generation of Affect in Synthesized Speech. Journal of the American Voice Input/Output (I/O) Society, 8, 1-19.

Dutoit, T. (1997). An Introduction to Text-to-Speech Synthesis. Netherlands: Kluwer Academic Publishers.

Fant, G. (1975). Non-Uniform Vowel Normalization. Kungliga Tekniska Högskolan (KTH) Department for Speech, Music, and Hearing Quarterly Progress and Status Report, 16 (2-3), 1-19.

Gorham-Rowan, M., & Morris, R. (2006). Aerodynamic Analysis of Male-to-Female Transgender Voice. Journal of Voice, 20 (2), 251-262.

Hasselbring, T., & Bausch, M. (2005). Assistive Technologies for Reading. Educational Leadership, 63 (4), 72-75.

Henton, C. (1989). Fact and Fiction in the Description of Female and Male Pitch. Language and Communication, 9 (4), 299-311.

Honorof, D., & Whalen, D. (2010). Identification of Speaker Sex from One Vowel across a Range of Fundamental Frequencies. Journal of the Acoustical Society of America, 128 (5), 3095-3104.

Jreige, C., Rupal, P., & Bunnell, T. (2009). "VocaliD: Personalizing Text-to-Speech Synthesis for Individuals with Severe Speech Impairment." Assets '09: The 11th international Association for Computing Machinery (ACM) Special Interest Group on Accessible Computing (SIGACCESS) Conference on Computers and Accessibility, October 25-27, Orlando.

Klatt, D., & Klatt, L. (1990). Analysis, Synthesis, and Perception of Voice Quality Variations among Female and Male Talkers. Journal of the Acoustical Society of America, 87 (2), 820-857.

Klatt, D. (1987). Review of Text-to-Speech Conversion for English. Journal of the Acoustical Society of America, 82 (3), 737-791.

Lee, E. (2008). Flattery May Get Computers Somewhere, Sometimes: The Moderating Roles of Output Modality, Computer Gender, and User Gender. International Journal of Human-Computer Studies, 66 (11), 789-800.

Lee, K., Liao, K., & Ryu, S. (2007). Children’s Responses to Computer-Synthesized Speech in Educational Media: Gender Consistency and Gender Similarity Effects. Human Communication Research, 33 (3), 310-329.

Leong, C. (1995). Effects of On-Line Reading and Simultaneous DECtalk Auding in Helping Below-Average and Poor Readers Comprehend and Summarize Text. Learning Disability Quarterly, 18 (2), 101-116.

Luneski, A., Konstantinidis, E., & Bamidis, P. (2010). Affective Medicine: A Review of Affective Computing Efforts in Medical Informatics. Information in Medicine, 49 (3), 207-218.

Lupkin, K. (1998). A Woman's Voice: Interview with Caroline Henton. Speech Technology.

McConnell-Ginet, S. (1983). Intonation in a Man’s World. In Thorne, B., Kramarae, C., & Henley, N. (Eds.), Language, Gender, and Society, pp. 69-88. Rowley: Newbury House.

Miller, J., Mondini, M., Grosjean, F., & Dommergues, J. (2011). Dialect Effects in Speech Perception: The Role of Vowel Duration in Parisian French and Swiss French. Language and Speech, Online in Advance of Print.

Nass, C., & Brave, S. (2005). Wired for Speech: How Voice Activates and Advances the Human-Computer Relationship. Cambridge: MIT Press.

Niculescu, A., van der Sluis, F., & Nijhot, A. (2009). "Femininity, Masculinity, and Androgyny: How Humans Perceive the Gender of Anthropomorphic Agents." Proceedings of the Thirteenth International Conference on Human-Computer Interaction, July 19th—July 24th, San Diego.

Pal, J., Pradhan, M., Shah, M., & Babu, R. (2011). "Assistive Technology for Vision Impairments: An Agenda for the Information Communications Technology and Development (ICTD) Community." 21st Annual Meeting of the International World Wide Web Conference Committee (IW3C2), March 28—April 1, Hyderabad, India.

Pucher, M. Schabus, D., Yamagishi, J., Neubarth, F., & Strom, V. (2010). Modeling and Interpolation of Austrian German and Viennese Dialect in Hidden Markov Model (HMM)-Based Speech Synthesis. Speech Communication, 52 (2), 164-179.

Pucher, M., Schuchmann, G., & Fröhlich, P. (2009). Regionalized Text-to-Speech Systems: Persona Design and Application Scenarios. Multimodal Signals: Cognitive and Algorithmic Issues, 5398, 216-222.

Rebordao, A., Shgaikh, M., Hirose, K., & Minematsu, N. (2009). "How to Improve Text-to-Speech (TTS) Systems for Emotional Expressivity." 10th Annual Conference of the International Speech Communication Association, September 6-10, Brighton.

Roddie, C. (2010). HUMAINE: Human-Machine Interaction Network on Emotion. Luxembourg: European Commission Publications Office.

Rupprecht, S., Beukelman, D., & Vrtiska, H. (1995). Comparative Intelligibility of Five Synthesized Voices. Augmentative and Alternative Communication, 11 (4), 244-248.

Sen, A., & Samudravijaya, K. (2002). Indian Accent Text-to-Speech System for Web Browsing. Sadhana, 27 (1), 113-26.

Simpson, A. (2009). Phonetic Differences between Male and Female Speech. Language and Linguistics Compass, 3 (2), 621-640.

Turunen, M., & Salonen, E. (2004). "Speech Interface Design." Tampere Unit for Computer-Human Interaction Speech Interface Design Workshop, September 13, Tampere, Finland.

Whiteside, S. (1998). Identification of a Speaker’s Sex: A Study of Vowels. Perceptual and Motor Skills, 86 (2), 579-584.

Yan, Q., & Vageshi, S. (2003). Analysis, Modeling and Synthesis of Formants of British, American and Australian Accents. Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1, 712-715.

سوژه ها

Coming soon
اردیبهشت ۱۳۹۱
Coming soon
فروردین ۱۳۹۱
Coming soon
اسفند ۱۳۹۰
Coming soon
بهمن ۱۳۹۰