Soru & Cevap

web crawler(dosya formatı)

22.12.2015 - 11:14

Web crawler projesinde kaynak bir linkten onun link verdigi url leri çekiyoruz.Ancak url formatında olmayan mailto:xyz@abcde.tr gibi baglantılarıda çekiyor.Bunları cekmek istemiyoruz sadece http formatında almak istiyoruz bunları aradan nasıl ayırt edebiliriz???Yardım ederseniz seviniriz..

5 Görüntülenme

0 Beğeni

Cevap Yaz Beğen

1 Cevap

Sitedeki sorulara cevap verebilmek için giriş yapın ya da üye olun.

umutonur

22.12.2015 - 12:39

Regex kullanabilirsin..

String regex = "(http://)[a-zA-Z_0-9\\-]+(\\.\\w[a-zA-Z_0-9\\-]+)+(/[#&\\n\\-=?\\+\\%/\\.\\w]+)?";

if ("url.com".matches(regex)) {
    System.out.println("bu bir url'dir.");
} else {
    System.out.println("URL değiştir!");
}

Regex kullanımı hakkında pek çok kaynak internette mevcut.
Ilk bakışta çok karmaşık bişeymiş gibi görünür ama öyle değildir.
Bence program yazan herkesin Regex Ifadelerini öğrenmesi gerek..

Beğendim Beğenmedim

Yorum Yap