11 Haziran 2013 Salı

NLP (Natural Language Processing) de Türkçe deforme edilmiş kelimelerin köklerinin saptanması



Bu projede üzerinde deformasyon yapılmış Türkçe kelimelerin olası ait olduğu kökler tespit edilmeye çalışılmıştır. Özellikle türkçe spam filtrelemede bir alt sistem veya servis olarak kullanılması düşünülmektedir. Bilindiği gibi, spam e-mail tespitinde kelimelerin frekans bilgisine ihtiyaç duyulmaktadır. Kökleri aynı olan kelimelerin aynı kelime grubunda öbeklenerek, frekans bilgisini elde etmek için çeşitli yaklaşımlar ve araçlar bulunmaktadır. Bunlardan en başarılı olanı, zemberek yazılımıdır. Zemberek yazılımında kökleri çözümle ve öner isminde iki seçenek bulunmaktadır. Sorgulanacak kelime bozulmamışsa çözümle ile köklerine deterministik kural tabanlı dil işleme algoritmaları ile ulaşmak mümkündür.  Ancak, deformasyona uğramış kelimelerin köklerine erişim şu an için zemberek ile mümkün değildir. Geliştirdiğimiz yöntem, deforme olmuş veya üzerine belirli miktarda gürültü eklenmiş kelimelerin türkçe köklerini yine zemberek kök veri tabanını kullanarak elde etmeye çalışmaktadır. Bunun için non-linear decaying function temelinde bir yaklaşım ile kelimelerin köklere benzerlik (affinity) skorları çıkarılarak en alakalı kökler tespit edilmeye çalışılmaktadır.


Hiç yorum yok:

Yorum Gönder