Mintplex-Labs · timothycarambat · Jun 15, 2023 · Jun 14, 2023 · Jun 14, 2023 · Jun 14, 2023
diff --git a/collector/scripts/link.py b/collector/scripts/link.py
@@ -4,7 +4,6 @@
 from langchain.document_loaders import UnstructuredHTMLLoader
 from .link_utils import  append_meta
 from .utils import tokenize, ada_v2_cost
-from requests.exceptions import ReadTimeout
 
 # Example Channel URL https://tim.blog/2022/08/09/nft-insider-trading-policy/
 def link():
@@ -91,11 +90,7 @@ def links():
 # parse links from array
 def parse_links(links):
     totalTokens = 0
-    for link in links:
-        if link.endswith(".pdf"):
-            print(f"Skipping PDF file: {link}")
-            continue
-
+    for link in links:               
         print(f"Working on {link}...")
         session = HTMLSession()
 

diff --git a/collector/scripts/sitemap.py b/collector/scripts/sitemap.py
@@ -1,6 +1,7 @@
 import requests
 import xml.etree.ElementTree as ET
 from scripts.link import parse_links
+import re
 
 def parse_sitemap(url):
     response = requests.get(url)
@@ -9,7 +10,10 @@ def parse_sitemap(url):
     urls = []
     for element in root.iter('{http://www.sitemaps.org/schemas/sitemap/0.9}url'):
         for loc in element.iter('{http://www.sitemaps.org/schemas/sitemap/0.9}loc'):
-            urls.append(loc.text)
+            if not has_extension_to_ignore(loc.text):
+                urls.append(loc.text)
+            else:
+                print(f"Skipping filetype: {loc.text}")
 
     return urls
 
@@ -25,3 +29,11 @@ def sitemap():
 
     #parse links from array
     parse_links(url_array)
+
+def has_extension_to_ignore(string):
+    image_extensions = ['.jpg', '.jpeg', '.png', '.gif', '.bmp', '.pdf']
+
+    pattern = r'\b(' + '|'.join(re.escape(ext) for ext in image_extensions) + r')\b'
+    match = re.search(pattern, string, re.IGNORECASE)
+
+    return match is not None