Skip to main content
ScrapingAnt는 헤드리스 브라우저 기능, 프록시 및 안티봇 우회 기능을 갖춘 웹 스크레이핑 API입니다. 웹 페이지 데이터를 LLM에서 접근 가능한 Markdown으로 추출할 수 있습니다. 이 특정 통합은 Markdown 추출 기능만 사용하지만 ScrapingAnt에서 제공하지만 이 통합에서 아직 구현되지 않은 더 많은 기능이 필요한 경우 문의하는 것을 주저하지 마세요.

통합 세부 정보

ClassPackageLocalSerializableJS support
ScrapingAntLoaderlangchain_community

로더 기능

SourceDocument Lazy LoadingAsync Support
ScrapingAntLoader

설정

pip을 사용하여 ScrapingAnt Python SDK 및 필요한 LangChain 패키지를 설치하세요:
pip install scrapingant-client langchain langchain-community

인스턴스화

from langchain_community.document_loaders import ScrapingAntLoader

scrapingant_loader = ScrapingAntLoader(
    ["https://scrapingant.com/", "https://example.com/"],  # List of URLs to scrape
    api_key="<YOUR_SCRAPINGANT_TOKEN>",  # Get your API key from https://scrapingant.com/
    continue_on_failure=True,  # Ignore unprocessable web pages and log their exceptions
)
ScrapingAntLoader는 스크래핑 요청을 사용자 정의하기 위한 dict - 스크래핑 구성을 제공할 수도 있습니다. ScrapingAnt Python SDK를 기반으로 하므로 공통 인수scrape_config 매개변수에 전달할 수 있습니다.
from langchain_community.document_loaders import ScrapingAntLoader

scrapingant_config = {
    "browser": True,  # Enable browser rendering with a cloud browser
    "proxy_type": "datacenter",  # Select a proxy type (datacenter or residential)
    "proxy_country": "us",  # Select a proxy location
}

scrapingant_additional_config_loader = ScrapingAntLoader(
    ["https://scrapingant.com/"],
    api_key="<YOUR_SCRAPINGANT_TOKEN>",  # Get your API key from https://scrapingant.com/
    continue_on_failure=True,  # Ignore unprocessable web pages and log their exceptions
    scrape_config=scrapingant_config,  # Pass the scrape_config object
)

로드

load 메서드를 사용하여 웹 페이지를 스크래핑하고 추출된 Markdown 콘텐츠를 가져옵니다.
# Load documents from URLs as markdown
documents = scrapingant_loader.load()

print(documents)

Lazy Load

‘lazy_load’ 메서드를 사용하여 웹 페이지를 지연 스크래핑하고 추출된 Markdown 콘텐츠를 가져옵니다.
# Lazy load documents from URLs as markdown
lazy_documents = scrapingant_loader.lazy_load()

for document in lazy_documents:
    print(document)

API reference

이 로더는 ScrapingAnt Python SDK를 기반으로 합니다. 더 많은 구성 옵션은 공통 인수를 참조하세요
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I