
Bytebot: Agente de Escritorio de IA de Código Abierto
Una IA que tiene su propia computadora para completar tareas por ti
https://github.com/user-attachments/assets/f271282a-27a3-43f3-9b99-b34007fdd169
https://github.com/user-attachments/assets/72a43cf2-bd87-44c5-a582-e7cbe176f37f
¿Qué es un Agente de Escritorio?
Un agente de escritorio es una IA que tiene su propia computadora. A diferencia de los agentes solo de navegador o las herramientas RPA tradicionales, Bytebot viene con un escritorio virtual completo donde puede:
- Usar cualquier aplicación (navegadores, clientes de correo, herramientas de oficina, IDEs)
- Descargar y organizar archivos con su propio sistema de archivos
- Iniciar sesión en sitios web y aplicaciones usando gestores de contraseñas
- Leer y procesar documentos, PDFs y hojas de cálculo
- Completar flujos de trabajo complejos de múltiples pasos a través de diferentes programas
Considéralo como un empleado virtual con su propia computadora que puede ver la pantalla, mover el mouse, teclear en el teclado y completar tareas tal como lo haría un humano.
¿Por qué darle a la IA su propia computadora?
Cuando la IA tiene acceso a un entorno de escritorio completo, desbloquea capacidades que no son posibles con agentes solo de navegador o integraciones de API:
Autonomía completa en las tareas
Dale a Bytebot una tarea como "Descarga todas las facturas de nuestros portales de proveedores y organízalas en una carpeta" y este:
- Abrirá el navegador
- Navegará a cada portal
- Manejará la autenticación (incluyendo 2FA a través de gestores de contraseñas)
- Descargará los archivos a su sistema de archivos local
- Los organizará en una carpeta
Procesar documentos
Sube archivos directamente al escritorio de Bytebot y podrá:
- Leer PDFs completos en su contexto
- Extraer datos de documentos complejos
- Cruzar referencias de información a través de múltiples archivos
- Crear nuevos documentos basados en análisis
- Manejar formatos a los que las APIs no pueden acceder
Usar aplicaciones reales
Bytebot no está limitado a interfaces web. Puede:
- Usar aplicaciones de escritorio como editores de texto, VS Code o clientes de correo
- Ejecutar scripts y herramientas de línea de comandos
- Instalar nuevo software según sea necesario
- Configurar aplicaciones para flujos de trabajo específicos
Inicio rápido
Implementar en 2 minutos
Simplemente haz clic y añade tu clave API del proveedor de IA.
Opción 2: Docker Compose
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Add your AI provider key (choose one)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# Or: echo "OPENAI_API_KEY=sk-..." > docker/.env
# Or: echo "GEMINI_API_KEY=..." > docker/.env
docker-compose -f docker/docker-compose.yml up -d
# Open http://localhost:9992
Cómo Funciona
Bytebot consta de cuatro componentes integrados:
- Escritorio Virtual: Un entorno completo de Ubuntu Linux con aplicaciones preinstaladas
- Agente de IA: Comprende tus tareas y controla el escritorio para completarlas
- Interfaz de Tareas: Interfaz web donde creas tareas y ves trabajar a Bytebot
- APIs: Endpoints REST para la creación programática de tareas y control del escritorio
Características Principales
- Tareas en Lenguaje Natural: Solo describe lo que necesitas hacer
- Carga de Archivos: Suelta archivos en las tareas para que Bytebot los procese
- Vista en Vivo del Escritorio: Observa a Bytebot trabajar en tiempo real
- Modo de Toma de Control: Toma el control cuando necesites ayudar o configurar algo
- Soporte para Gestores de Contraseñas: Instala 1Password, Bitwarden, etc. para autenticación automática
- Entorno Persistente: Instala programas y permanecen disponibles para futuras tareas
Ejemplos de Tareas
Ejemplos Básicos
"Go to Wikipedia and create a summary of quantum computing"
"Research flights from NYC to London and create a comparison document"
"Take screenshots of the top 5 news websites"
Procesamiento de Documentos
"Read the uploaded contracts.pdf and extract all payment terms and deadlines"
"Process these 5 invoice PDFs and create a summary report"
"Download and analyze the latest financial report and answer: What were the key risks mentioned?"
Flujos de Trabajo Multi-Aplicación
"Download last month's bank statements from our three banks and consolidate them"
"Check all our vendor portals for new invoices and create a summary report"
"Log into our CRM, export the customer list, and update records in the ERP system"
Control Programático
Crear Tareas mediante API
import requests
# Simple task
response = requests.post('http://localhost:9991/tasks', json={
'description': 'Download the latest sales report and create a summary'
})
# Task with file upload
files = {'files': open('contracts.pdf', 'rb')}
response = requests.post('http://localhost:9991/tasks',
data={'description': 'Review these contracts for important dates'},
files=files
)
Control Directo del Escritorio
# Take a screenshot
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "screenshot"}'
# Click at specific coordinates
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "click_mouse", "coordinate": [500, 300]}'
Documentación completa de la API →
Configuración de tu Agente de Escritorio
1. Despliega Bytebot
Utiliza uno de los métodos de implementación anteriores para poner en marcha Bytebot.
2. Configura el Escritorio
Utiliza la pestaña Desktop (Escritorio) en la interfaz de usuario para:
- Instalar programas adicionales que necesites
- Configurar gestores de contraseñas para autenticación
- Configurar aplicaciones según tus preferencias
- Iniciar sesión en sitios web a los que quieras que Bytebot acceda
3. Comienza a Asignar Tareas
Crea tareas en lenguaje natural y observa cómo Bytebot las completa utilizando el escritorio configurado.
Casos de Uso
Automatización de Procesos Empresariales
- Procesamiento de facturas y extracción de datos
- Sincronización de datos entre múltiples sistemas
- Generación de informes a partir de múltiples fuentes
- Verificación de cumplimiento normativo entre plataformas
Desarrollo y Pruebas
- Pruebas automatizadas de interfaz de usuario (UI)
- Comprobaciones de compatibilidad entre navegadores
- Generación de documentación con capturas de pantalla
- Verificación de implementación de código
Investigación y Análisis
- Análisis competitivo en distintos sitios web
- Recopilación de datos de múltiples fuentes
- Análisis y resumen de documentos
- Compilación de investigación de mercado
Arquitectura
Bytebot está construido con:
- Escritorio: Ubuntu 22.04 con XFCE, Firefox, VS Code y otras herramientas
- Agente: Servicio NestJS que coordina las acciones de IA y del escritorio
- Interfaz de Usuario (UI): Aplicación Next.js para la gestión de tareas
- Soporte de IA: Funciona con Anthropic Claude, OpenAI GPT, Google Gemini
- Implementación: Contenedores Docker para un auto-alojamiento sencillo
¿Por qué Auto-alojar (Self-Host)?
- Privacidad de Datos: Todo se ejecuta en tu infraestructura
- Control Total: Personaliza el entorno de escritorio según sea necesario
- Sin Límites: Usa tus propias claves API de IA sin restricciones de plataforma
- Flexibilidad: Instala cualquier software, accede a cualquier sistema
Funciones Avanzadas
Múltiples Proveedores de IA
Utiliza cualquier proveedor de IA a través de nuestra integración LiteLLM:
- Azure OpenAI
- AWS Bedrock
- Modelos locales mediante Ollama
- 100+ otros proveedores
Implementación Empresarial
Implementa en Kubernetes con Helm:
# Clone the repository
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Install with Helm
helm install bytebot ./helm \
--set agent.env.ANTHROPIC_API_KEY=sk-ant-...
Guía de implementación empresarial →
Comunidad y Soporte
- Discord: Únete a nuestra comunidad para ayuda y debates
- Documentación: Guías completas en docs.bytebot.ai
- Problemas en GitHub: Reporta errores y solicita funciones
Contribuciones
¡Agradecemos las contribuciones! Ya sea:
- 🐛 Corrección de errores
- ✨ Nuevas funciones
- 📚 Mejoras en la documentación
- 🌐 Traducciones
Por favor:
- Primero revisa los issues existentes
- Abre un issue para discutir cambios importantes
- Envía PRs con descripciones claras
- Únete a nuestro Discord para discutir ideas
Licencia
Bytebot es de código abierto bajo la licencia Apache 2.0.
Dale a tu IA su propia computadora. Mira lo que puede hacer.
Construido por Tantl Labs y la comunidad de código abierto