İnsanla akıllı ortamlar arasındaki ara yüz ses olacak

Ses teknolojileri dünyada en hızlı büyüyen on teknoloji arasında yerini almış durumda.

GVZ Ses Teknolojileri Yazılım Hizmetleri A.Ş., bu konuda ülkemizde başarılı çalışmalar yürüten bir firma.
2000 yılının Ağustos ayında Koç Bilgi Grubu altında pazara merhaba diyen GVZ’nin %15 hissesi Levent Arslan’a, % 85 hissesi ise Koç Holding’e ait. Kurulduğu günden bu yana, konuşma tanıma, konuşma sentezi ve konuşmacı teyidi teknolojilerinin araştırma ve geliştirmesi konusunda çalışmalarını yürüten firma ve bu yönde gelişen teknolojiler hakkında GVZ Genel Müdürü Serhat Görgün’le görüştük.

Geleceğin teknolojileri konuşma tanıma sistemleri
Konuşma tanıma teknolojilerinin, konuşma yoluyla verilen emirlerin, gerek telefon gerekse mikrofonla akıllı ortamlara bir aksiyon olarak iletilmesini sağlayan sistemler olduğunu söyleyen Serhat Görgün, araştırma-geliştirme çalışmalarını yürüttükleri sistemler hakkında şu bilgileri verdi:
“Konuşma tanıma sistemleri sesli komutlarla birtakım bilgilere ulaşmayı ve işlem yapmayı sağlıyor. Üzerinde çalıştığımız ikinci sistem olan konuşma sentezi teknolojisi, konuşma tanıma teknolojisinin bir anlamda tersi. Bu teknoloji ile akıllı ortamlardaki metinler insan sesiyle konuşmaya çevriliyor. Üçüncü teknolojimiz ise, konuşmacı teyidi teknolojileri. Bu da konuşan kişinin sesindeki ona has özelliklerden yola çıkarak, sesin kimliğinin onaylanmasını sağlayan bir sistem. Faaliyet alanımızı; bu üç teknolojinin ticari hale gelmesi, Türkçe’ye uyarlanması, bazı ortamlarla bütünleşmesi gibi çalışmalar oluşturuyor. Bu teknolojileri bir çözüm ortamı olarak kullanıma sunuyoruz. Bu ortamda uygulama geliştiren ekiplerin sistemleriyle teknolojilerimizi bütünleştirip, bunları katma değer sağlayan çözümler haline getirmek hedefimiz. Bu üç

teknoloji gerek dünyada gerekse Türkiye’de çok yeni. Ar-ge çalışmaları bir süredir devam ediyor. Teknolojilerin belirli bir seviyeye gelmesi ve donanımların yeterli hız ve fiyat avantajını sağlamasıyla yaygınlaşmaya başladı.”

“GVZ Türkiye ses pazarının hakimi durumunda”
Bu teknoloji alanında dünyadaki rakipleriyle rekabet halinde olduklarını söyleyen Serhat Görgün, sözlerine şöyle devam etti:
“Bu yarışta önemli adımlar kaydettik. 2002 yılında Türkiye’deki ses pazarı bizim elimizdeydi. 2002 yılında bu alandaki tüm projeleri GVZ yaptı. Bu bizim için birkaç şeyi ifade diyor. Birincisi biz de teknoloji üretebiliyoruz ve tüm ekibimiz Türk bilim adamlarından oluşuyor. Bu teknolojilerin yüzde 100 kaynak kodları bize ait. Bu bir yüksek teknoloji olduğuna göre demek ki Türkiye yüksek teknoloji üretebilir. Biz bunu kanıtladık. Bunu yaparken müşterimiz olmaya aday firmalar bizi bir kenara rakibimizi diğer kenara koydular ve birçok kriteri ele alarak bizi ve onları değerlendirdiler. Bu değerlendirme sonucunda hangi kriterlerde üstün olduğumuzu bize bildirdiler. Dolayısıyla bu alanda onların bize Türkçe’de ülkemizde rakip olduğu gibi biz de yurtdışında İngilizce’de onlarla rekabet etmeye karar verdik.”

“Dünya pazarına girmeye hazırız”

“Dünya pazarında rekabete hazırlanmak için en önemli süreç, sistemi satılacağı kanallarla bütünleştirmek. Biz bunu bölgesel ve uluslararası birçok ortamda gerçekleştirdik. Sözünü ettiğimiz uluslararası şirketler sonuçta bu sistemin İngilizce’sini de satıyor. Dolayısıyla işin büyük bir kısmını hallettik. Bütünleşme açısından hiçbir problemimiz yok. Bazı çok büyük şirketlerle çalışmalar halen devam ediyor. Teknolojilerimizin İngilizce’deki performansına baktığımızda, Mart ayı gibi tam olarak hazır olabileceğimizi düşünüyoruz” diyen Görgün, Türkiye’de yapılan çalışmalar hakkında şu bilgileri verdi:
“Türkiye’deki ilk konuşma tanıma projemiz bir şirketin santralına kurduğumuz ve arayan kişinin ‘Hoşgeldiniz’ mesajı akabinde aradığı kişinin adını söyleyerek o kişiye ulaşmasını sağlayan bir proje idi. Konuşma sentezi konusundaki ilk projemiz de

Turk.Net’tekiydi. Bu proje bizim için çok önemli bir projeydi. Bu projede e-postaların telefon üzerinden Turk.Net abonelerine aktarılmasını sağlayan bir sistem kurduk.
Bu da Türkiye’deki ses sentezi teknolojileri uygulamalarının ilki oldu. Daha sonra Koç.Net’le ses senteziyle beraber ses tanıma sistemini de kullanarak, bilgisayarla mesajlaşma sisteminde yapılan işlemlerin aynısını bir telefon üzerinden yapmayı sağlayan başka bir proje geliştirdik. Bu sistemde telefon üzerinden e-posta gönderilebiliyor. E-posta metin mesajı yerine ses dosyası olarak kaydedilerek gönderiliyor. Aria ile bir birleşik mesajlaşma uygulaması hayata geçirdik. Birleşik mesajlaşma, ses mesajından faksa kadar bütün iletilerin bir mesaj kutusunda toplanması anlamına geliyor. Bizim buradaki rolümüz e-postaların telefon üzerinden okunmasıydı. Aria ile yeni projelerimiz yolda. Ses sentezi alanında Eczacıbaşı Menkul Değerler’de bir çalışmamız oldu. Bu çalışmada, firma sitesindeki metin olarak var olan bütün içeriklerin telefon üzerinden aktarılmasını sağladık. Bu proje için insan sesinden ayırt edilemeyen bir sentez yarattık ve sistem gayet başarılı bir şekilde çalışmaya devam ediyor. KoçBank’la yaptığımız bir çalışmada ise, sesli komut ile hisse senedinin ya da döviz cinsinin ismi söylenerek onunla ilgili bilginin dinlenmesini sağlayan bir sistem kurduk. Türk Hava Yolları’nda da birleşik mesaj kutusu uygulamamız çalışmakta. Beko ile ekrandaki bütün belgelerin kullanıcıya, metin seslendirmesi (Text to Speech) yöntemiyle, seslendirilerek aktarıldığı bir uygulama geliştirdik. Bu çalışma 2002 yılının ikinci yarısında başladı ve hala devam ediyor. Beko’nun fabrikasından çıkan bütün bilgisayarlarda bizim sistemlerimiz mevcut. Firma ‘Konuşan Bilgisayar’ diye bir kampanya ile satış yapıyor. Bir başka uygulama da Arçelik’le hayata geçti. Firma ile ‘Akıllı Ev Projesi’ kapsamında, ev aletlerinin telefon üzerinden kontrol edilmesi uygulaması 2002 yılında hayata geçti. Önümüzdeki dönemde, bu projenin hem telefonla hem de evin içindeyken eşyaların kumanda edilmesi şeklinde gerçekleştirilmesi gündemde. Bu teknolojiler o kadar hoş ki insan yaratıcılığıyla doğru orantılı olarak gelişebilir. Ayrıca operatörlerle yoğun çalışmalarımız sürüyor ve iki tanesiyle önümüzdeki dönemde birtakım projelere imza atacağız. 2002 yılının son çeyreğinde çok güzel çalışmalar gerçekleşti ve bu projelerin yansımaları bu ilk iki ayı etkiliyor. Çok yakın dönemde yeni projelerimizi duyuruyor olacağız. Tüm bu çalışmaları hayata geçirirken teknolojilerimizin birçok ulusal ve uluslararası platform ile entegrasyonunu gerçekleştirdik. Şu anda bizim dışımızda herhangi bir ticari metin sentezi uygulaması söz konusu değil. Birtakım akademik çalışmalar var ancak bunlar da teknik anlamda yeterli seviyede değiller.”

“6. Çerçeve Programı kapsamında Avrupa’da bir farkındalık yaratmak istiyoruz.”
Ürettikleri teknolojileri projelendirirken ortaklarla çalışmayı öngördüklerini belirten Görgün, bu noktada 2002 yılında gündeme gelen 6. Çerçeve Programı’nın kendilerine yeni kapılar açtığını ifade etti ve ekledi:
“6. Çerçeve Programı’na aktif bir şekilde katılmak ve burada gerçekleşecek birçok projede aktif olarak yer almak niyetindeyiz. Bu konuda çeşitli girişimlerimiz var. Burada amaç o destekten mümkün olduğunca çok yararlanarak şirketin maliyetlerini minimuma indirmekle sınırlı değil. Daha öncelikli bir amacımız var. Biz burada teknolojiyi üretiyoruz. Bu ürettiğimiz teknolojiyi de Avrupa’ya ve dünyaya satmak niyetindeyiz. Özetle, 6. Çerçeve Programı kapsamında Avrupa’da bir farkındalık yaratmak istiyoruz. Bu bizim için finansal getiriden çok daha önemli. Dünyada en hızlı gelişen on teknoloji alanında dünya isimleriyle rekabet ettiğimizi Avrupa’ya göstermek istiyoruz.”

“Mobil telefonlarda kullanılan ses tanıma sistemleri bu sistemlerin en ilkel halleri”
Mobil telefonlarda kullanılan sesle komut ve arama yapma uygulamalarının çok başarılı olmadığının altını çizen Serhat Görgün, bu durumun kendilerine büyük zorluklar getiren bir imaj olduğunu ve başlangıçta bu imajı yıkmakta zorlandıklarını vurguladı. Görgün iki sistem arasındaki farkı şöyle özetledi:
“Bizim teknolojilerimiz bu telefonlarda yer alan sistemlerden farklı. Telefonlarda kullanılan ses tanıma sistemleri bu tür sistemlerin en ilkel halleri. Birincisi sizin onu eğitmeniz gerekiyor. İkincisi, sadece kullanıcının sesini tanıyor. Öyle de olması gerekir belki. Ama nihayetinde bu teknolojiler işlemci, hafıza gibi kaynaklara ihtiyaç duyar ve bu kaynak telefonlarda çok yetersiz. Dolayısıyla eğitim gerektirir, konuşmacıya bağımlıdır ve çok az kaynak tüketecek şekilde sıkıştırılmıştır. Bu nedenle performansları yeterli değildir. Bizim uygulamalarımız kullanıcı bağımlı olmadığı, eğitim ihtiyacı duymadığı ve gerekli kaynak donanımları hedeflediğimiz ortamlarda bulunduğu için telefonlarda kullanılan teknolojiden çok farklı. İşin olumlu tarafından bakmak gerekirse, belki bu içinden geçilmesi gereken bir süreçti diyebiliriz. İnsanlar bu teknolojinin en ilkel hallerini gördükten sonra yeni gelen teknolojilere daha çok ilgiyle yaklaşabilirler diye düşünüyorum. Bardağın dolu tarafından baktığımızda, ‘teknolojiler ne kadar hızlı, nerelere gelmiş’ gibi bir fikir yaratabiliriz diye düşündük ve onun üzerine gittik. İnsanlara bu teknolojilerin başlangıcında nasıl olduğunu ancak zamanla ne kadar geliştiğini anlatma yoluna gittik. Bu, insanların bu teknolojilerin varlığından haberdar olması açısından önemli.”

“Otomatik sekreter servisi önümüzdeki dönemde hızla yaygınlaşacak”
“Önümüzdeki dönemde en ses getirecek ve yaygınlaşacak uygulamalarımızdan bir tanesi de otomatik sekreter (Auto Attendant) uygulamaları olacak ki dünyada da gidişat bu yönde. Otomatik sekreter uygulamasında, şirketin santralı, aradığınız kişiye, dahili numarasını çevirmek yerine, adını söyleyerek ulaşmanızı sağlıyor. Bu, dünyadaki en yaygın uygulamalardan bir tanesi. Çünkü şirketin santralı aslında bir anlamda dış dünyaya açılan kapısı. Dolayısıyla oradaki teknoloji imajı ve kullanım kolaylığı şirket hakkında bir izlenim veriyor. Böyle teknolojiyle donatılmış ve kullanıcıya yakın gelebilecek bir santral çok hoş gelebilir. Önümüzdeki dönemde buna ağırlık vereceğiz” diyen Görgün, bu alanda projeler gerçekleştirdikleri firmalar hakkında şunları söyledi:
“Koç Holding, Koç Bilgi Grubu, KoçBank, SYS, Sestek gibi çözüm ortaklarımızın yanı sıra 2002’de başarılı bir proje geliştirdiğimiz Türk Hava Yolları’nda otomatik sekreter sistemini gerçekleştirdik. Adana’da Bilfen Koleji’nde bu sistemin yanı sıra onlardan gelen talep üzerine farklı uygulamalar da geliştirdik. Örneğin veli okulu arıyor, öğrencisinin adını ve bilgisini almak istediği dersi söylüyor ve öğrencinin durumu hakkında bilgi alıyor. Koç Bilgi Grubu ile gerçekleştirdiğimiz projede de ek bir özellik var. Bir kişi dahili hattan diğer kişiyi sesli olarak arayabiliyor.”

Ses teknolojilerinin gideceği uç nokta
Belirli bir konuşmanın sayısal ortamda ses dosyasından metin haline getirilmesi üzerine iki ayrı yol olduğunu belirten Görgün, bunları, konuşmacı bağımlı ve konuşmacı bağımsız olarak sıraladı. Bu iki seçenek arasında büyük bir fark olduğunu söyleyen Serhat Görgün, sözlerine şöyle devam etti:
“Bizim teknolojilerimiz şu anda konuşmacıdan bağımsız sürüm yönünde ilerliyor. Şu an için konuşmadan metne dönüştürme yapan dünyadaki tüm örnekler konuşmacıya bağımlı. Bu tür sistemlerde bir eğitim süreci yaşanması gerekiyor. Bu yönde de çalışmalarımız var. Ancak bir operatör müşterisi aranarak, o operatörün belirli bir sisteminden faydalanması için sistemi eğitmesini söylemek mümkün değil. Dolayısıyla konuşmacı bağımsız ve ek bir eğitime gerek duymuyor bizim sistemlerimiz. Ama sesten metne uygulamalar buna ihtiyaç duyuyor. Biz aslında iki teknolojiye de sahibiz. Ama bu noktada da Türkçe, çok tanımlı olmayan, analizi yeteri kadar yapılmamış ve eklerden oluşan bir dil olmasından dolayı bizim bakış açımızla çok zor. Bu sistemde, okunan metin, olası kelimeler sisteme girilerek tanımlanır. Örneğin; birinci kelime şu on bin kelimeden biri olabilir, ikinci kelime şu sekiz bin kelimeden biri olabilir gibi. Dünyadaki teknoloji böyle. Ancak Türkçe’de, eklerden oluştuğu için sınırsız sayıda kelime var. Dolayısıyla metin sınırsız sayıda kelimeyle başlayabilir. Öte yandan, Türkçe’nin yapısından dolayı kelime cümlenin herhangi bir yerinde bulunabilir. Dolayısıyla ikinci kelime şu olabilir gibi bir varsayım öne sürülemez. Biz ar-ge çalışmalarımızda çeşitli yöntemleri deneyerek belirli bir seviyeye ulaştık. Türkçe’de bu sistem olacak ama bizim asıl odağımız konuşmacı bağımsız ve telefon üzerinden geliştirilen uygulamalar. Burada bir süre vermek çok zor ama Türkçe’de konuşmayı metne çevirecek yüksek kalitede bir uygulamayı geliştirmek, telefon üzerinden konuşmacı ve konu bağımsız bir dikte sistemi, dikte edilen metnin başka bir dile tercümesi ve o dilde bir sentezleme yöntemiyle konuşmaya çevrilmesi için önümüzde yaklaşık 7-10 yıllık bir hedef var. Örneğin; Türk Telekom’la anlaşma yaptığımızı ve burada devasa bir sistem kurduğumuzu düşünün. Türk Telekom üzerinden İspanya’yı arıyorum ve karşıdan cevaplanıyor. Ben Türk Telekom üzerinden Türkçe konuşuyorum. Türk Telekom benim burada konuştuğumu yazıya çeviriyor, İspanya’ya yazıyı gönderiyor ve İspanya’daki sistem de bu yazıyı İspanyolca olarak konuşmaya çeviriyor. Bant üzerinde yazı dolaşıyor. Bu tip uygulamalara doğru gidecek bu teknolojiler. Burada konuşmacı bağımsız ve eğitim gerektirmeyen bir dikte sistemini geliştirmenin yanı sıra telefon bandının getirdiği sorunları gidermek gerekiyor. Telefon hattından kaynaklanabilecek sorunlar söz konusu. Sonuçta bu, bizim için gitmeyi hedeflediğimiz ve teknolojilerin gideceği uç nokta. Bu sayede dil problemi ortadan kalkacak. Kültür bütünleşmesi sağlanmasının yanı sıra ticaret çok daha hızlı ve kolay olacak. Artı operatörler için avantaj sağlayacak. Şu anda bant üzerinde ses dolaşıyor ve bant sıkışıklıkları ciddi bir problem yaratıyor. Özellikle Internet protokolü üzerinden ses aktarımı yapılırken, sesin gitmesiyle, metnin gitmesi arasında büyük bir fark var. Ses, metne göre boyut olarak çok daha büyük. Gerçekleştirmeyi hedeflediğimiz sistemlerle bant genişliği kazancı olacak. Bu bizim uzun vadede gitmeyi istediğimiz nokta.”

“Gelecekte insanlarla akıllı ortamlar arasındaki ara yüz ses tanıma sistemleri olacak”
“2003 yılında en büyük hedeflerimizden biri yurtdışına açılmak. Teknolojimizi diğer dillere adapte ederek teknoloji ve yazılım üreten, bunu yaparken de yurtdışındaki diğer rakiplerle yarışabilen ve bunu Türk bilim adamlarıyla yapan bir firma kimliğine bürünmek istiyoruz. Sadece Türkiye’de sağladığımız üstünlüğü yurtdışına taşımak değil amacımız. Bunun yanında Türkiye pazarının büyüklüğü ve ekonomik durum da söz konusu. Bu teknolojilerin pazar paylarına baktığımızda, Türkiye’nin dünya pazarındaki oranı on binde üç. Bizim hedefimiz bu rakamı pazara hakim olacak şekilde çok daha yükseltmek. Yurtdışında bu teknolojileri yaygınlaştırabileceğimiz bazı kanallarımız olgunlaşmaya başladı. Dolayısıyla 2003 bu anlamda bizim için dönüm noktası.
Bizim hedefimiz Internet’in sahip olduğu içeriği ve avantajı telefon aboneleri için de erişilebilir hale getirmek. Önümüzdeki dönemde gerçekleşecek uygulamalardan bir tanesi de sesli Net kapıları. Internet’te var olan bir Net kapısını ve buradaki içeriği, bir telefon ve etkileşimli sesli yanıt (IVR) uygulaması haline getirecek projeler gerçekleştirmeyi amaçlıyoruz. Birkaç ay içinde devreye girecek projelerimizden bir tanesi de bir Net kapısı uygulaması. Bu tip servisler operatörler için çok büyük avantajlar sağlıyor. Çünkü operatörler bu servisi ya kısa mesajla ya da GPRS üzerinden verebiliyor. GPRS yaygın kullanıma ulaşmış değil. Kısa mesaj yaygın ancak üzerinden çok fazla bilgi paylaşılamıyor. Dolayısıyla katma değerli servislerde önümüzdeki dönemde ses teknolojileri kısa mesajdan da öncelikli olacak. Aynı zamanda getirdiği maliyet düşüşü ve müşteri memnuniyeti gibi avantajlarla çağrı merkezlerinde bu teknolojiler dünyada yaygın kullanıma sahip. Uç noktada gelmek istediğimiz yer, çağrı merkezinde müşterinin ses tanıma sistemleriyle, telefonda konuşarak, gerçekleştirmek istediği hizmetin gerçekleşmesini sağlamak.
Geleceğe yönelik bir projemiz de ‘kısa mesajın seslendirilmesi (SMS to speech)’ projesi. Bu uygulama ile, sabit telefondan mesaj atılabilecek ya da alınabilecek. Hatta iki mobil telefon arasında sesli kısa mesaj alışverişi mümkün olacak. Bu uygulamada metin olarak gönderilen mesaj sabit telefondan dinlenebilecek. Aynı sistem sabit telefondan sabit telefona ya da mobil telefondan mobil telefona da mümkün olabilecek.
Gelecekte insanlarla akıllı ortamlar arasındaki ara yüz ses tanıma sistemleri olacak.”