Soru & Cevap

web crawler(dosya formatı) ...

22.12.2015 - 11:14

Web crawler projesinde kaynak bir linkten onun link verdigi url leri çekiyoruz.Ancak url formatında olmayan    mailto:xyz@abcde.tr gibi baglantılarıda çekiyor.Bunları cekmek istemiyoruz sadece http formatında almak istiyoruz bunları aradan nasıl ayırt edebiliriz???Yardım ederseniz seviniriz..

2 Görüntülenme

1 Cevap

Sitedeki sorulara cevap verebilmek için giriş yapın ya da üye olun.

picture-28812-1452251417.jpg
umutonur
22.12.2015 - 12:39

Regex kullanabilirsin.. 

String regex = "(http://)[a-zA-Z_0-9\\-]+(\\.\\w[a-zA-Z_0-9\\-]+)+(/[#&\\n\\-=?\\+\\%/\\.\\w]+)?";

if ("url.com".matches(regex)) {
    System.out.println("bu bir url'dir.");
} else {
    System.out.println("URL değiştir!");
}

Regex kullanımı hakkında pek çok kaynak internette mevcut.
Ilk bakışta çok karmaşık bişeymiş gibi görünür ama öyle değildir. 
Bence program yazan herkesin Regex Ifadelerini öğrenmesi gerek..