Salario negociable
Axiom Software Solutions Limited
Austin, TX, USA
Función: Desarrollador Java con experiencia en rastreadores web Ubicación: Austin TX (Híbrido) Responsabilidades: 1. Desarrollo de rastreadores web: Diseñar e implementar rastreadores web eficientes y escalables en Java para recopilar datos de diversas fuentes en línea. 2. Extracción de datos: Desarrollar y mantener sistemas para la extracción estructurada de datos, manejando diversos formatos de datos (HTML, JSON, XML, etc.). 3. Almacenamiento y procesamiento de datos: Diseñar canalizaciones de almacenamiento y procesamiento de datos, asegurando que los datos extraídos sean limpios, estructurados y fácilmente accesibles. 4. Optimización del rendimiento: Optimizar los procesos de rastreo web para lograr mayor velocidad, eficiencia y precisión, garantizando al mismo tiempo un impacto mínimo en los sitios web de origen. 5. Manejo de errores y registro: Implementar mecanismos de manejo de errores y sistemas de registro para detectar y resolver problemas durante las operaciones de rastreo. 6. Integridad de datos y cumplimiento: Asegurar que las prácticas de recopilación de datos sean éticas, legales y cumplan con las regulaciones pertinentes (por ejemplo, robots.txt, leyes de derechos de autor). Requisitos: Dominio de Java y experiencia con bibliotecas de raspado web basadas en Java (por ejemplo, Jsoup, Apache HttpClient). Conocimiento de frameworks y herramientas de rastreo web, como Scrapy, Selenium o Puppeteer. Sólida comprensión de HTML, CSS, JavaScript y estructuras de datos web. Familiaridad con técnicas de análisis y manejo de datos para formatos comunes como JSON, XML y otros. Experiencia con tecnologías de bases de datos (SQL, NoSQL) para almacenar y gestionar datos raspados. Conocimiento de los protocolos HTTP, encabezados, proxies y manejo de carga.