Bytebot Logo

Bytebot: Agente de Escritorio de IA de Código Abierto

bytebot-ai%2Fbytebot | Trendshift

Una IA que tiene su propia computadora para completar tareas por ti

Desplegar en Railway

Docker Licencia Discord

🌐 Sitio Web📚 Documentación💬 Discord𝕏 Twitter


https://github.com/user-attachments/assets/f271282a-27a3-43f3-9b99-b34007fdd169

https://github.com/user-attachments/assets/72a43cf2-bd87-44c5-a582-e7cbe176f37f

¿Qué es un Agente de Escritorio?

Un agente de escritorio es una IA que tiene su propia computadora. A diferencia de los agentes solo de navegador o las herramientas RPA tradicionales, Bytebot viene con un escritorio virtual completo donde puede:

  • Usar cualquier aplicación (navegadores, clientes de correo, herramientas de oficina, IDEs)
  • Descargar y organizar archivos con su propio sistema de archivos
  • Iniciar sesión en sitios web y aplicaciones usando gestores de contraseñas
  • Leer y procesar documentos, PDFs y hojas de cálculo
  • Completar flujos de trabajo complejos de múltiples pasos a través de diferentes programas

Considéralo como un empleado virtual con su propia computadora que puede ver la pantalla, mover el mouse, teclear en el teclado y completar tareas tal como lo haría un humano.

¿Por qué darle a la IA su propia computadora?

Cuando la IA tiene acceso a un entorno de escritorio completo, desbloquea capacidades que no son posibles con agentes solo de navegador o integraciones de API:

Autonomía completa en las tareas

Dale a Bytebot una tarea como "Descarga todas las facturas de nuestros portales de proveedores y organízalas en una carpeta" y este:

  • Abrirá el navegador
  • Navegará a cada portal
  • Manejará la autenticación (incluyendo 2FA a través de gestores de contraseñas)
  • Descargará los archivos a su sistema de archivos local
  • Los organizará en una carpeta

Procesar documentos

Sube archivos directamente al escritorio de Bytebot y podrá:

  • Leer PDFs completos en su contexto
  • Extraer datos de documentos complejos
  • Cruzar referencias de información a través de múltiples archivos
  • Crear nuevos documentos basados en análisis
  • Manejar formatos a los que las APIs no pueden acceder

Usar aplicaciones reales

Bytebot no está limitado a interfaces web. Puede:

  • Usar aplicaciones de escritorio como editores de texto, VS Code o clientes de correo
  • Ejecutar scripts y herramientas de línea de comandos
  • Instalar nuevo software según sea necesario
  • Configurar aplicaciones para flujos de trabajo específicos

Inicio rápido

Implementar en 2 minutos

Opción 1: Railway (Más fácil) Deploy on Railway

Simplemente haz clic y añade tu clave API del proveedor de IA.

Opción 2: Docker Compose

git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot

# Add your AI provider key (choose one)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# Or: echo "OPENAI_API_KEY=sk-..." > docker/.env
# Or: echo "GEMINI_API_KEY=..." > docker/.env

docker-compose -f docker/docker-compose.yml up -d

# Open http://localhost:9992

Guía completa de despliegue →

Cómo Funciona

Bytebot consta de cuatro componentes integrados:

  1. Escritorio Virtual: Un entorno completo de Ubuntu Linux con aplicaciones preinstaladas
  2. Agente de IA: Comprende tus tareas y controla el escritorio para completarlas
  3. Interfaz de Tareas: Interfaz web donde creas tareas y ves trabajar a Bytebot
  4. APIs: Endpoints REST para la creación programática de tareas y control del escritorio

Características Principales

  • Tareas en Lenguaje Natural: Solo describe lo que necesitas hacer
  • Carga de Archivos: Suelta archivos en las tareas para que Bytebot los procese
  • Vista en Vivo del Escritorio: Observa a Bytebot trabajar en tiempo real
  • Modo de Toma de Control: Toma el control cuando necesites ayudar o configurar algo
  • Soporte para Gestores de Contraseñas: Instala 1Password, Bitwarden, etc. para autenticación automática
  • Entorno Persistente: Instala programas y permanecen disponibles para futuras tareas

Ejemplos de Tareas

Ejemplos Básicos

"Go to Wikipedia and create a summary of quantum computing"
"Research flights from NYC to London and create a comparison document"
"Take screenshots of the top 5 news websites"

Procesamiento de Documentos

"Read the uploaded contracts.pdf and extract all payment terms and deadlines"
"Process these 5 invoice PDFs and create a summary report"
"Download and analyze the latest financial report and answer: What were the key risks mentioned?"

Flujos de Trabajo Multi-Aplicación

"Download last month's bank statements from our three banks and consolidate them"
"Check all our vendor portals for new invoices and create a summary report"
"Log into our CRM, export the customer list, and update records in the ERP system"

Control Programático

Crear Tareas mediante API

import requests

# Simple task
response = requests.post('http://localhost:9991/tasks', json={
    'description': 'Download the latest sales report and create a summary'
})

# Task with file upload
files = {'files': open('contracts.pdf', 'rb')}
response = requests.post('http://localhost:9991/tasks',
    data={'description': 'Review these contracts for important dates'},
    files=files
)

Control Directo del Escritorio

# Take a screenshot
curl -X POST http://localhost:9990/computer-use \
  -H "Content-Type: application/json" \
  -d '{"action": "screenshot"}'

# Click at specific coordinates
curl -X POST http://localhost:9990/computer-use \
  -H "Content-Type: application/json" \
  -d '{"action": "click_mouse", "coordinate": [500, 300]}'

Documentación completa de la API →

Configuración de tu Agente de Escritorio

1. Despliega Bytebot

Utiliza uno de los métodos de implementación anteriores para poner en marcha Bytebot.

2. Configura el Escritorio

Utiliza la pestaña Desktop (Escritorio) en la interfaz de usuario para:

  • Instalar programas adicionales que necesites
  • Configurar gestores de contraseñas para autenticación
  • Configurar aplicaciones según tus preferencias
  • Iniciar sesión en sitios web a los que quieras que Bytebot acceda

3. Comienza a Asignar Tareas

Crea tareas en lenguaje natural y observa cómo Bytebot las completa utilizando el escritorio configurado.

Casos de Uso

Automatización de Procesos Empresariales

  • Procesamiento de facturas y extracción de datos
  • Sincronización de datos entre múltiples sistemas
  • Generación de informes a partir de múltiples fuentes
  • Verificación de cumplimiento normativo entre plataformas

Desarrollo y Pruebas

  • Pruebas automatizadas de interfaz de usuario (UI)
  • Comprobaciones de compatibilidad entre navegadores
  • Generación de documentación con capturas de pantalla
  • Verificación de implementación de código

Investigación y Análisis

  • Análisis competitivo en distintos sitios web
  • Recopilación de datos de múltiples fuentes
  • Análisis y resumen de documentos
  • Compilación de investigación de mercado

Arquitectura

Bytebot está construido con:

  • Escritorio: Ubuntu 22.04 con XFCE, Firefox, VS Code y otras herramientas
  • Agente: Servicio NestJS que coordina las acciones de IA y del escritorio
  • Interfaz de Usuario (UI): Aplicación Next.js para la gestión de tareas
  • Soporte de IA: Funciona con Anthropic Claude, OpenAI GPT, Google Gemini
  • Implementación: Contenedores Docker para un auto-alojamiento sencillo

¿Por qué Auto-alojar (Self-Host)?

  • Privacidad de Datos: Todo se ejecuta en tu infraestructura
  • Control Total: Personaliza el entorno de escritorio según sea necesario
  • Sin Límites: Usa tus propias claves API de IA sin restricciones de plataforma
  • Flexibilidad: Instala cualquier software, accede a cualquier sistema

Funciones Avanzadas

Múltiples Proveedores de IA

Utiliza cualquier proveedor de IA a través de nuestra integración LiteLLM:

  • Azure OpenAI
  • AWS Bedrock
  • Modelos locales mediante Ollama
  • 100+ otros proveedores

Implementación Empresarial

Implementa en Kubernetes con Helm:

# Clone the repository
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot

# Install with Helm
helm install bytebot ./helm \
  --set agent.env.ANTHROPIC_API_KEY=sk-ant-...

Guía de implementación empresarial →

Comunidad y Soporte

Contribuciones

¡Agradecemos las contribuciones! Ya sea:

  • 🐛 Corrección de errores
  • ✨ Nuevas funciones
  • 📚 Mejoras en la documentación
  • 🌐 Traducciones

Por favor:

  1. Primero revisa los issues existentes
  2. Abre un issue para discutir cambios importantes
  3. Envía PRs con descripciones claras
  4. Únete a nuestro Discord para discutir ideas

Licencia

Bytebot es de código abierto bajo la licencia Apache 2.0.


Dale a tu IA su propia computadora. Mira lo que puede hacer.

Desplegar en Railway

Construido por Tantl Labs y la comunidad de código abierto