Bize Ulaşın
Sonuç bulunamadı.

ChatGPT Web Kazıma: Eğitim ve Uygulamalar

Gulbahar Karatas
Gulbahar Karatas
güncellendi Mar 10, 2026
Bakınız etik normlar

ChatGPT, yapay zekayı web kazıma işlemlerine entegre etmenin kolay bir yoludur ve geliştiricileri sürekli güncelleme gerektiren manuel ayrıştırma işlerinden kurtarır. LLM'lerin kullanımı , en iyi web kazıma uygulamalarından biri haline geliyor .

Aşağıda ChatGPT'nin web kazıma işleminde nasıl kullanıldığına ve web kazıma ile ChatGPT'nin birleştirilmesinin veri toplamayı kolaylaştırabileceği çeşitli kullanım durumlarına bakın:

ChatGPT kullanarak web sitelerinden nasıl veri kazıyabilirsiniz?

Bu eğitimde, ChatGPT'nin mevcut web bağlantılı araştırma ve kodlama iş akışlarını kullanacağız. Geliştiriciler artık manuel HTML ayrıştırmasına ek olarak, sayfaları analiz etmek ve çıkarma mantığı oluşturmak için yerleşik web arama, dosya girişleri ve derin araştırma araçlarını kullanabilirler.

1. HTML Dosyasını Yükleyin:

HTML'i yerel olarak kaydetme ve yükleme iş akışı çalışıyor, ancak artık tek birinci taraf seçeneği değil. OpenAI artık Yanıtlar API'sinde web aramayı, daha geniş dosya girişi işlemeyi ve web sonuçlarını, yüklenen dosyaları ve bağlantılı veri kaynaklarını birleştirebilen derin araştırma iş akışlarını destekliyor.

Verilerini almak istediğiniz hedef web sitesini seçin. Sayfayı HTML olarak kaydetmek için Ctrl + S (veya macOS'ta Cmd + S) tuşlarına basın. HTML dosyasını kaydetmeyi otomatikleştirmek isterseniz, aşağıdaki örnek komutu kullanabilirsiniz. Bu komut, ChatGPT'nin sağlanan URL'den HTML dosyasını kaydetmek için gerekli Python kodunu oluşturmasını sağlayacaktır.

ChatGPT'ye Örnek İstek:

“Lütfen aşağıdaki URL'den bir HTML sayfasını kaydetme işlemini otomatikleştiren bir Python betiği sağlayın: https://www.walmart.com/browse/electronics/gaming-mouse/3944_1089430_132959_1008621_4842284_9144425 Betik, sayfaya bir GET isteği göndermeli, HTML içeriğini almalı ve walmart_gaming_mouse.html adlı bir dosyaya kaydetmelidir .”

2. HTML yapısının incelenmesi:

Hedef sayfadan HTML dosyasını kaydettikten sonra, sürükleyip ChatGPT'ye bırakın.

JavaScript ile içerik oluşturan sayfalar, statik HTML incelemesinden daha fazlasını gerektirebilir. Bu durumlarda, geliştiriciler seçicileri oluşturmadan önce kaydedilen dosyanın hedef öğeleri içerip içermediğini veya web bağlantılı veya tarayıcı tabanlı bir iş akışına ihtiyaç duyulup duyulmadığını doğrulamalıdır.

ChatGPT'ye örnek komut istemi:

"Lütfen, walmart_gaming_mouse.html dosyasındaki HTML yapısını inceleyerek ürün adı, fiyatı ve ürün bağlantısını içeren doğru HTML etiketlerini ve sınıflarını belirleyen bir Python betiği sağlayın. Betik, kaydedilen HTML dosyasını yüklemeli, ürün adlarını, fiyatlarını ve bağlantılarını içeren öğeleri bulmalı ve ilgili etiket adlarını, sınıfları ve metin içeriğini yazdırmalıdır."

Denetimi otomatikleştirmek için örnek Python betiği:

3. HTML'den veri ayrıştırma:

ChatGPT'ye Örnek İstek:

"Lütfen, walmart_gaming_mouse.html adlı HTML dosyasını ayrıştırarak ürün adı, fiyat ve bağlantı gibi ürün detaylarını otomatik olarak çıkaran bir Python betiği sağlayın. Betik, HTML'yi ayrıştırmalı, sayfadaki her oyun faresine ait gerekli bilgileri çıkarmalı ve bunları CSV dosyası gibi yapılandırılmış bir biçimde saklamalıdır."

Verileri ayrıştırmak için kullanılan Python betiği:

Statik sayfalar için HTML dosyasını kaydetmek hala pratik bir yaklaşımdır. Daha dinamik iş akışları için ekipler, mevcut sayfa içeriğini incelemek, birden fazla kaynağı karşılaştırmak ve yalnızca elle kaydedilmiş bir dosyaya bağlı kalmadan çıkarma mantığı oluşturmak için web bağlantılı araştırma veya API tabanlı veri alma yöntemlerini de kullanabilirler.

4. Verilerin saklanması veya görüntülenmesi:

ChatGPT'ye Örnek İstek:

“Lütfen, walmart_gaming_mouse.html dosyasından ayrıştırılan ürün detaylarını CSV gibi yapılandırılmış bir formata kaydeden bir Python betiği sağlayın. Betik, ürün adını, fiyatını ve bağlantısını ayıklamalı ve bunları gaming_mouse_products.csv adlı bir CSV dosyasına kaydetmelidir. Ayrıca, veriler kaydedildikten sonra bir onay mesajı da göstermelidir.”

Verileri saklamak veya görüntülemek için kullanılan Python betiği:

ChatGPT'yi XPath aracı olarak kullanma

ChatGPT, XPath ifadelerini kullanarak hedef sayfadan belirli öğeleri ayıklamanıza yardımcı olabilir. ChatGPT'ye XPath kullanarak veri ayıklama hakkında soru sorduğunuzda şunları yapmanız gerekir:

  1. Öncelikle HTML yapısını inceleyin.
  2. Veri eksikliği veya JavaScript tarafından oluşturulan içerik gibi uç durumları ele alın.
  3. HTML'deki küçük farklılıkları hesaba katmak için esnek XPath ifadeleri kullanın.

XPath günümüzün veri kazıma iş akışları için hala kullanışlı olsa da, bazı siteler için alternatif olarak tarayıcıya özgü aracı arayüzleri ortaya çıkmaya başlıyor.

Örneğin, Chrome, desteklenen kullanım durumları için kırılgan DOM tahminine olan bağımlılığı azaltmak amacıyla, web sitelerinin yapay zeka ajanlarına yapılandırılmış araçlar sunmasına olanak tanımak üzere 2026 yılında WebMCP'yi önizleme aşamasında kullanıma sundu.

Çabuk :

“XPath kullanarak bu HTML dosyasındaki tüm ürün adlarını, fiyatlarını ve bağlantılarını nasıl çıkarabilirim?”

ChatGPT Yanıtı:

Web kazıma işlemlerinde ChatGPT uygulamaları

1. ChatGPT'yi veri kazıma iş akışlarına entegre edin.

MCP, Model Bağlam Protokolü'nün kısaltmasıdır. Yapay zeka sistemlerinin web ve kurumsal sistemler de dahil olmak üzere harici araçlara ve veri kaynaklarına daha yapılandırılmış bir şekilde bağlanması için standartlaştırılmış bir yöntemdir.

Bright Data tarafından sağlananlar gibi web kazıma MCP'leri , dinamik içerik oluşturma, IP rotasyonu ve bot önleme mekanizmalarını yöneten aracılar görevi görerek ChatGPT'nin doğrudan HTTP isteği işlemesi olmadan büyük ölçekli web verilerine erişmesine ve bunları işlemesine olanak tanır.

Mevcut OpenAI iş akışlarında, derinlemesine araştırma, web araması, uzaktan MCP sunucuları ve dosya tabanlı erişimi birlikte kullanabilir. OpenAI ayrıca 2026 yılında güvenilir site arama kontrolleri, uygulama/MCP bağlantıları ve canlı ilerleme takibi ile derinlemesine araştırmayı güncelleyerek, yalnızca istem tabanlı iş akışlarına kıyasla izlenen araştırma ve veri çıkarma görevleri için daha uygun hale getirmiştir.

Bu MCP'leri, GitHub Copilot gibi VSCode aracıları aracılığıyla yapılandırarak veya mcp-use gibi kütüphanelerden yararlanarak ChatGPT ile entegre edebilir, böylece sorunsuz ve ölçeklenebilir web veri çıkarma iş akışları sağlayabilirsiniz. 1

2. Kontrollü veri çıkarma için web araması ve derinlemesine araştırma.

ChatGPT artık statik girdilerden veri kazıma kodu üretmekle sınırlı değil. OpenAI'nin mevcut araç seti, güncel bilgilere ulaşmak için yerleşik web araması, kaydedilmiş kaynak materyallerle çalışmak için dosya girişleri ve web sonuçlarını, dosyaları ve uzaktan MCP kaynaklarını tek bir iş akışında birleştirebilen derin araştırma modelleri içeriyor.

Bu özellik, özellikle veri çıkarma kodunu yazmadan önce alıntılara, çok kaynaklı karşılaştırmalara veya izlenebilir araştırma çıktılarına ihtiyaç duyduğunuzda oldukça kullanışlıdır.

3. Web sitelerinden veri çekmek için kod oluşturun.

Geliştirici iş akışları için, OpenAI, web aramasının bir araç olarak etkinleştirilebildiği Yanıtlar API'si aracılığıyla web'den veri alınmasını belgelemektedir. 2026 güncellemeleri, dosya girişi desteğini genişletti ve çıkarılan belgelerin ve verilerin işlenmesini kolaylaştıran barındırılan ortam özelliklerini ekledi.

Web sitesi yapılarının ve tasarımlarının değişebileceğini ve bunun hedeflediğiniz HTML öğelerini ve özelliklerini etkileyebileceğini unutmayın. Böyle bir senaryoda, kodunuz düzgün çalışmayabilir veya istenen verileri çıkaramayabilir. Veri kazıma kodunuzu düzenli olarak izlemeniz ve güncellemeniz gerekir.

Örneğin, ürün açıklaması verilerini çıkarmak için aşağıdaki komutu kullanabilirsiniz:

Birçok web sitesi, büyük ölçekli veri toplamayı kısıtlamak için otomasyon karşıtı kontroller , hız sınırlamaları ve dinamik görüntüleme kullanır. Veri kazıma işlemine başlamadan önce, ekipler site şartlarını, robot politikalarını ve geçerli yasal gereklilikleri gözden geçirmeli ve ardından hedef sitenin teknik ve uyumluluk kısıtlamalarına uyan bir yaklaşım seçmelidir.

Konut proxy'leri veweb engelleme kaldırıcıları, sıkı bot karşıtı savunmaları aşmak için oldukça etkilidir. Veri merkezi proxy'lerinin aksine, konut proxy'leri gerçek İnternet Servis Sağlayıcıları (İSS'ler) tarafından sağlanan IP adreslerini kullanır ve bu da onları daha gerçekçi gösterir.

Web kazıma projelerinizi geliştirmek için web tarayıcınıza bir engelleme kaldırma teknolojisi entegre edebilirsiniz. Bright Data'nin Web Unlocker'ı, işletmelerin veri toplama karşıtı önlemleri aşarken web kaynaklarından etik ve yasal olarak veri toplamalarını sağlar.

1.1 Web kazıma için Python talimatları sağlayın

ChatGPT, çeşitli programlama dillerinde web kaynaklarından veri kazıma için adım adım talimatlar sunar. Bu örnekte, bir web sayfasının içeriğini almak için requests kütüphanesini ve istenen verileri ayrıştırmak ve almak için Beautiful Soup'u kullanacağız.

  1. ChatGPT, gerekli kütüphaneleri yüklemek için komut sağlar. Python'da kütüphaneleri yüklemek için aşağıdaki kodu çalıştırabilirsiniz.
  1. ChatGPT tarafından oluşturulan Python kodunu kullanarak requests ve Beautiful Soup kütüphanelerini içe aktarabilirsiniz.
  1. `Requests` kütüphanesi, hedef web sayfasının içeriğini almanıza olanak tanır. Bu kütüphaneyi kullanarak hedef sunucuya HTTP istekleri gönderebilir ve yanıtları işleyebilirsiniz. Ürün sayfasının içeriğini almak için, terminalde "https://example.com/product-page" yerine hedef web sayfası URL'sini yazarak aşağıdaki komutu çalıştırın:
  1. Bir web sayfasının içeriğini aldıktan sonra, istenen verileri çıkarmak için alınan verileri ayrıştırmanız gerekir. Beautiful Soup kütüphanesini kullanarak alınan verileri ayrıştırmak için:

Ürün başlıkları gibi ürün verilerini çıkarmak için bir e-ticaret sitesinden veri çekiyorsanız, verilere karşılık gelen gerekli etiketleri ve nitelikleri bulmak için ürün sayfasını incelemeniz gerekir.

  1. Kazınan verileri kaydetmek veya yazdırmak için ChatGPT tarafından oluşturulan kodu yazın:

2. Çıkarılan verileri temizleyin.

Verileri topladıktan sonra, alakasız unsurları ve "the", "and" gibi durdurma kelimelerini kaldırmak için metni temizlemek çok önemlidir. ChatGPT, toplanan verilerin temizlenmesi ve biçimlendirilmesi konusunda rehberlik ve öneriler sunabilir.

Diyelim ki büyük miktarda veri topladınız ve Excel'e aktardınız. Ancak verilerin düzensiz ve karışık olduğunu fark ettiniz. Örneğin, tam adlar B sütununda yer alıyor ve adları ve soyadları iki ayrı sütuna ayırmak istiyorsunuz. ChatGPT'den adları ve soyadları ayırmak için bir formül sağlamasını isteyebilirsiniz.

ChatGPT tarafından ilk adı çıkarmak için oluşturulan formül:

ChatGPT tarafından soyadını çıkarmak için oluşturulan formül:

Sponsorlu

OxyCopilot, Oxylabs tarafından sağlanan bir web kazıma API özelliğidir ve kullanıcıların istem tabanlı biçimlendirmeye göre ilgili bilgileri ayıklamasına ve istenmeyen verileri filtrelemesine olanak tanır. Aşağıdaki örnekte, API sonuçlarını yalnızca dört temel veri alanını (fiyat, ad, derecelendirme ve yorum) alarak basitleştirmek için OxyCopilot'ı kullandık. İçerik, meta etiketleri ve durum kodları gibi gereksiz ayrıntılar çıktıdan çıkarıldı, bu da verilerin işlenmesini kolaylaştırdı.

3. Çıkarılan verileri işleme

3.1 Duygu analizi gerçekleştirin

ChatGPT, yapılandırılmamış metin verilerinden yorumlanabilir bilgiler üretmek için kazınmış veriler üzerinde duygu analizi yapabilir. Örneğin, kitlenizin büyümesini analiz etmek için bir sosyal medya platformundan markanızla ilgili sosyal medya paylaşımlarını kazıdığınızı varsayalım. Verileri elde ettikten ve toplanan verileri temizledikten sonra, ChatGPT'ye metin verilerini analiz etmesini ve negatif, nötr veya pozitif olarak etiketlemesini söyleyebilirsiniz (Şekil 4).

Şekil 4: Örnek bir metin belgesinin analiz ve etiketleme sürecini göstermektedir.

İşte ChatGPT'ye duygu analizi yapmasını nasıl söyleyebileceğinize dair bir örnek:

“'Pil ömrü de uzun' metninin duygusal anlamını analiz edin.”

ChatGPT'nin sorumuza verdiği yanıt:

Duygu analizinin doğruluğunun, metnin karmaşıklığı ve bağlama bağlı hatalar gibi farklı faktörlere bağlı olarak değişebileceğini unutmayın.

3.2 Kazınan içeriği kategorize etme

ChatGPT, kazınan verileri önceden tanımlanmış kategorilere ayırmanıza yardımcı olabilir. İçeriği sınıflandırmak istediğiniz kategorileri tanımlayabilirsiniz. İşte ChatGPT kullanarak içeriği kategorize etmeye dair bir örnek:

Örnek olarak, aşağıdaki içerikleri kategorize etmek istiyoruz:

Aşağıda, ChatGPT ile kazınmış verilerin kategorize edilmesinin çıktısı yer almaktadır:

Gulbahar Karatas
Gulbahar Karatas
Sektör Analisti
Gülbahar, AIMultiple'da web veri toplama, web verilerinin uygulamaları ve uygulama güvenliği konularına odaklanan bir sektör analistidir.
Tam Profili Görüntüle

Yorumlar 1

Düşüncelerinizi Paylaşın

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450
JayLi
JayLi
Sep 04, 2023 at 06:28

It's almost useless. If you are a good coder, you can easily write this code. I think the better way to extract dynamic or difficult html content, script send html content to chatgpt by api and chatgpt need to return the answer of key content. If this way work, it will be useful. Thanks.