Soporte para PDFs agregado al sistema de análisis con IA

📋 Cambios Implementados
Frontend:

 Input acepta image/*,application/pdf
 Label actualizado: "Fotografías / Documentos PDF *"
 Preview diferenciado: PDFs muestran icono 📝 rojo en lugar de imagen
 Nombre de archivo PDF visible en el preview
 Contador genérico: "archivo(s) cargado(s)"
Backend:

 Agregado pypdf==4.0.1 a requirements.txt
 Detección automática de PDFs por content_type o extensión
 Extracción de texto de PDFs usando pypdf.PdfReader
 Validación de PDFs vacíos (sin texto extraíble)
 Prompts adaptados automáticamente para PDFs
 Soporte en OpenAI y Gemini (análisis de texto en lugar de vision)
 Límite de 4000 caracteres del PDF para análisis
🎯 Funcionamiento
Usuario sube PDF → Sistema detecta tipo de archivo
Extrae texto → PyPDF lee todas las páginas
Análisis IA → Envía texto al modelo (no usa Vision API)
Respuesta → Misma estructura JSON que con imágenes
⚠️ Limitaciones
PDFs escaneados sin OCR no funcionarán (requieren texto seleccionable)
Máximo 4000 caracteres del PDF enviados al AI
📦 Versiones
Frontend: 1.0.91 → 1.0.92
Backend: 1.0.89 → 1.0.90
This commit is contained in:
2025-12-02 09:40:44 -03:00
parent d51d912962
commit bf30b1a2bf
6 changed files with 100 additions and 24 deletions

View File

@@ -207,7 +207,7 @@ def send_completed_inspection_to_n8n(inspection, db):
# No lanzamos excepción para no interrumpir el flujo normal
BACKEND_VERSION = "1.0.89"
BACKEND_VERSION = "1.0.90"
app = FastAPI(title="Checklist Inteligente API", version=BACKEND_VERSION)
# S3/MinIO configuration
@@ -2558,11 +2558,52 @@ async def analyze_image(
"message": "No hay configuración de IA activa. Configure en Settings."
}
# Guardar imagen temporalmente
# Guardar archivo temporalmente y procesar según tipo
import base64
from pypdf import PdfReader
contents = await file.read()
image_b64 = base64.b64encode(contents).decode('utf-8')
file_type = file.content_type
print(f"📄 Tipo de archivo: {file_type}")
# Detectar si es PDF
is_pdf = file_type == 'application/pdf' or file.filename.lower().endswith('.pdf')
if is_pdf:
print("📕 Detectado PDF - extrayendo texto...")
try:
from io import BytesIO
pdf_file = BytesIO(contents)
pdf_reader = PdfReader(pdf_file)
# Extraer texto de todas las páginas
pdf_text = ""
for page_num, page in enumerate(pdf_reader.pages):
pdf_text += f"\n--- Página {page_num + 1} ---\n"
pdf_text += page.extract_text()
print(f"✅ Texto extraído: {len(pdf_text)} caracteres")
if not pdf_text.strip():
return {
"status": "error",
"message": "No se pudo extraer texto del PDF. Puede ser un PDF escaneado sin OCR."
}
# Para PDFs usamos análisis de texto, no de imagen
image_b64 = None
except Exception as e:
print(f"❌ Error al procesar PDF: {str(e)}")
return {
"status": "error",
"message": f"Error al procesar PDF: {str(e)}"
}
else:
# Es una imagen
image_b64 = base64.b64encode(contents).decode('utf-8')
pdf_text = None
# Obtener contexto de la pregunta si se proporciona
question_obj = None
@@ -2714,6 +2755,13 @@ NOTA:
- "status" debe ser "ok" (bueno), "minor" (problemas leves) o "critical" (problemas graves)
- "context_match" debe ser true si la imagen muestra un componente vehicular relevante, false si no corresponde."""
user_message = "Analiza este componente del vehículo para la inspección general."
# Ajustar prompt si es PDF en lugar de imagen
if is_pdf:
system_prompt = system_prompt.replace("Analiza la imagen", "Analiza el documento PDF")
system_prompt = system_prompt.replace("la imagen", "el documento")
system_prompt = system_prompt.replace("context_match", "document_relevance")
user_message = user_message.replace("imagen", "documento PDF")
print(f"\n🤖 PROMPT ENVIADO AL AI:")
print(f"Provider: {ai_config.provider}")
@@ -2726,9 +2774,19 @@ NOTA:
import openai
openai.api_key = ai_config.api_key
response = openai.ChatCompletion.create(
model=ai_config.model_name,
messages=[
# Construir mensaje según si es PDF o imagen
if is_pdf:
# Para PDF, solo texto
messages_content = [
{"role": "system", "content": system_prompt},
{
"role": "user",
"content": f"{user_message}\n\n--- CONTENIDO DEL DOCUMENTO PDF ---\n{pdf_text[:4000]}" # Limitar a 4000 chars
}
]
else:
# Para imagen, usar vision
messages_content = [
{"role": "system", "content": system_prompt},
{
"role": "user",
@@ -2743,7 +2801,11 @@ NOTA:
}
]
}
],
]
response = openai.ChatCompletion.create(
model=ai_config.model_name,
messages=messages_content,
max_tokens=500
)
@@ -2757,11 +2819,17 @@ NOTA:
genai.configure(api_key=ai_config.api_key)
model = genai.GenerativeModel(ai_config.model_name)
# Convertir base64 a imagen PIL
image = Image.open(BytesIO(contents))
prompt = f"{system_prompt}\n\n{user_message}"
response = model.generate_content([prompt, image])
if is_pdf:
# Para PDF, solo texto
prompt_with_content = f"{prompt}\n\n--- CONTENIDO DEL DOCUMENTO PDF ---\n{pdf_text[:4000]}"
response = model.generate_content(prompt_with_content)
else:
# Para imagen, incluir imagen
image = Image.open(BytesIO(contents))
response = model.generate_content([prompt, image])
ai_response = response.text
else: