Extract Summit Local-Chapter Spain

Conectando a entusiastas del web scraping y sus historias en toda España.

Madrid

Extract Summit:
Local-Chapter Spain!

Durante los últimos 7 años, Extract Summit ha presentado historias de creatividad y resolución de problemas en el escenario global. El año pasado, en el Extract Summit 2024 en Austin, vimos cómo desarrolladores de todo el mundo exploran nuevas fronteras en la extracción de datos web, desarrollando soluciones innovadoras frente a una web cada vez más compleja.

Desde casos de uso relevantes como el seguimiento de datos climáticos y técnicas avanzadas de extracción web basadas en inteligencia artificial, hasta sistemas que combinan múltiples agentes de IA, infraestructuras proxy modernas, flujos de trabajo que optimizan HTML para su posterior procesamiento con LLMs y métodos éticos que respetan la integridad de los sitios web y la privacidad de los datos, la innovación fue protagonista.

Creemos que estas historias de creatividad y resolución de problemas no están limitadas a un solo lugar y, por ende, tampoco deberían limitarse a un solo evento como Extract Summit. Por eso, estamos creando comunidades locales en ciudades alrededor del mundo, espacios donde desarrolladores dedicados al web scraping pueden reunirse regularmente, compartir conocimiento y resolver retos juntos.

¿Por qué unirte?

Comparte tu historia y aporta valor a tu comunidad.

Siempre es enriquecedor compartir conocimiento en tu idioma, colaborar en soluciones significativas y fortalecer tu mercado local. Conectarte con otras personas y empresas que enfrentan desafíos similares puede ayudarte a superar obstáculos, algo fundamental en el mundo del web scraping.

25 de abril de 2025 | Madrid

Local Chapter Spain

09:30 - 10:00

Inscripción e Inauguración

10:15 - 11:10

Uso de Large Language Models (LLMs) en web scraping y extracción de datos

Iván Sánchez | Científico de datos en Zyte

Esta charla explora cómo aprovechar los Large Language Models (LLMs) para facilitar las tareas de web scraping y extracción de datos. Se presentarán métodos prácticos para la generación automática de código con LLMs para tareas de web scraping, reduciendo considerablemente el esfuerzo manual. También veremos técnicas de generación dinámica de prompts basadas en el feedback de ejecución de código, mostrando cómo mejorar el código generado de forma iterativa y automática. Además, se comparará la generación de código para web scraping con el uso directo de LLMs para extraer datos estructurados. así como estrategias de fine-tuning de modelos abiertos para necesidades específicas en extracción de datos.

11:15 - 11:55

Escalado del Web Scraping: Arquitectura para millones de solicitudes

Diego González, Ingenierio de ML en Vavacars.

¿Qué se necesita para escalar una plataforma de web scraping de unos pocos cientos de solicitudes diarias a más de 15 millones? En esta charla, Diego González explica la evolución de un sistema de web scraping a gran escala, abarcando la orquestación de rastreadores distribuidos, la programación de tareas, la gestión de la concurrencia y el procesamiento eficiente de datos a escala. También profundizará en estrategias para superar las protecciones antibots mediante la rotación de proxy, el ajuste inteligente de solicitudes y el uso de unblockers), así como en las técnicas de monitorización, métricas, registros y alertas que garantizan un funcionamiento óptimo.

Ubicación