Business event tracing completed for both eveai_workers tasks and eveai_chat_workers tasks

2024-09-27 10:53:42 +02:00
parent ee1b0f1cfa
commit d9cb00fcdc
9 changed files with 306 additions and 253 deletions
--- a/eveai_workers/tasks.py
+++ b/eveai_workers/tasks.py
@@ -39,8 +39,6 @@ def create_embeddings(tenant_id, document_version_id):
    # BusinessEvent creates a context, which is why we need to use it with a with block
    with BusinessEvent('Create Embeddings', tenant_id, document_version_id=document_version_id):
        current_app.logger.info(f'Creating embeddings for tenant {tenant_id} on document version {document_version_id}')
-        current_event.log("Starting Embedding Creation Task")
-
        try:
            # Retrieve Tenant for which we are processing
            tenant = Tenant.query.get(tenant_id)
@@ -125,13 +123,13 @@ def delete_embeddings_for_document_version(document_version):


 def process_pdf(tenant, model_variables, document_version):
-    current_event.log("Starting PDF Processing")
-    processor = PDFProcessor(tenant, model_variables, document_version)
-    markdown, title = processor.process()
+    with current_event.create_span("PDF Processing"):
+        processor = PDFProcessor(tenant, model_variables, document_version)
+        markdown, title = processor.process()

    # Process markdown and embed
-    embed_markdown(tenant, model_variables, document_version, markdown, title)
-    current_event.log("Finished PDF Processing")
+    with current_event.create_span("Embedding"):
+        embed_markdown(tenant, model_variables, document_version, markdown, title)


 def process_html(tenant, model_variables, document_version):
@@ -144,29 +142,27 @@ def process_html(tenant, model_variables, document_version):
        embed_markdown(tenant, model_variables, document_version, markdown, title)


-
 def process_audio(tenant, model_variables, document_version):
-    current_event.log("Starting Audio Processing")
-    processor = AudioProcessor(tenant, model_variables, document_version)
-    markdown, title = processor.process()
+    with current_event.create_span("Audio Processing"):
+        processor = AudioProcessor(tenant, model_variables, document_version)
+        markdown, title = processor.process()

    # Process markdown and embed
-    embed_markdown(tenant, model_variables, document_version, markdown, title)
-    current_event.log("Finished Audio Processing")
+    with current_event.create_span("Embedding"):
+        embed_markdown(tenant, model_variables, document_version, markdown, title)


 def process_srt(tenant, model_variables, document_version):
-    current_event.log("Starting SRT Processing")
-    processor = SRTProcessor(tenant, model_variables, document_version)
-    markdown, title = processor.process()
+    with current_event.create_span("SRT Processing"):
+        processor = SRTProcessor(tenant, model_variables, document_version)
+        markdown, title = processor.process()

    # Process markdown and embed
-    embed_markdown(tenant, model_variables, document_version, markdown, title)
-    current_event.log("Finished SRT Processing")
+    with current_event.create_span("Embedding"):
+        embed_markdown(tenant, model_variables, document_version, markdown, title)


 def embed_markdown(tenant, model_variables, document_version, markdown, title):
-    current_event.log("Starting Embedding Markdown Processing")
    # Create potential chunks
    potential_chunks = create_potential_chunks_for_markdown(tenant.id, document_version, f"{document_version.id}.md")

@@ -195,7 +191,6 @@ def embed_markdown(tenant, model_variables, document_version, markdown, title):

    current_app.logger.info(f'Embeddings created successfully for tenant {tenant.id} '
                            f'on document version {document_version.id} :-)')
-    current_event.log("Finished Embedding Markdown Processing")


 def enrich_chunks(tenant, model_variables, document_version, title, chunks):
@@ -238,7 +233,7 @@ def enrich_chunks(tenant, model_variables, document_version, title, chunks):


 def summarize_chunk(tenant, model_variables, document_version, chunk):
-    current_event.log("Starting Summarizing Chunk Processing")
+    current_event.log("Starting Summarizing Chunk")
    current_app.logger.debug(f'Summarizing chunk for tenant {tenant.id} '
                             f'on document version {document_version.id}')
    llm = model_variables['llm']
@@ -256,7 +251,7 @@ def summarize_chunk(tenant, model_variables, document_version, chunk):
        summary = chain.invoke({"text": chunk})
        current_app.logger.debug(f'Finished summarizing chunk for tenant {tenant.id} '
                                 f'on document version {document_version.id}.')
-        current_event.log("Finished summarizing chunk for tenant ")
+        current_event.log("Finished Summarizing Chunk")
        return summary
    except LangChainException as e:
        current_app.logger.error(f'Error creating summary for chunk enrichment for tenant {tenant.id} '