Nice zamandır aklımda böyle bir şey yapmak vardı, iyi bir corpus elime geçince yapayım dedim.
Markov Zinciri, oldukça basit bir yaklaşım. Vikipedi gözünüzü korkutmasın, sade bir mantığı var. Elimizde ardarda gelen veriler var, biz bu veriler üzerinden şunun gibi bir istatistik çıkartıyoruz: "a ve b'den sonra yüzde kaç olasılıkla c gelir". "a", "b" ve "c" bizim durumumuzda gerçekten birer harf, ama bunlar birer kelime de, veya hava sıcaklığı değeri de olabilirdi. Daha sonrasında bu istatistiklere dayanarak yeni veriler üretiyoruz, ürettiğimiz veriler orijinal istatistiğe benzer bir istatistik sunuyor.
Eğer istatistiği Türkçe bir kaç hikayeden, yani Türkçe bir corpustan oluşturursak, sonuçta Türkçeymiş gibi görünen kelimeler üretebiliriz. Arada çok komik kelimeler çıkıyor, buyrun iyi eğlenceler:
http://java-apps.gencsoy.net/markov