NVIDIA-NeMo · suiyoubi · Jul 23, 2025 · Jul 23, 2025 · Jul 23, 2025 · Jul 23, 2025
diff --git a/ray-curator/ray_curator/examples/video/video_read_example.py b/ray-curator/ray_curator/examples/video/video_read_example.py
@@ -2,7 +2,7 @@
 
 from ray_curator.backends.xenna import XennaExecutor
 from ray_curator.pipeline import Pipeline
-from ray_curator.stages.video.io.video_reader_download import VideoReaderDownloadStage
+from ray_curator.stages.video.io.video_loading import VideoLoadingStage
 
 
 def create_video_reading_pipeline(args: argparse.Namespace) -> Pipeline:
@@ -12,7 +12,7 @@ def create_video_reading_pipeline(args: argparse.Namespace) -> Pipeline:
 
     # Add stages
     # Add the composite stage that combines reading and downloading
-    pipeline.add_stage(VideoReaderDownloadStage(
+    pipeline.add_stage(VideoLoadingStage(
         input_video_path=args.video_folder,
         video_limit=args.video_limit,
         verbose=args.verbose

diff --git a/ray-curator/ray_curator/stages/io/reader/file_partitioning.py b/ray-curator/ray_curator/stages/io/reader/file_partitioning.py
@@ -26,6 +26,7 @@ class FilePartitioningStage(ProcessingStage[_EmptyTask, FileGroupTask]):
     blocksize: int | str | None = None
     file_extensions: list[str] | None = None
     storage_options: dict[str, Any] | None = None
+    limit: int | None = None
     _name: str = "file_partitioning"
 
     def __post_init__(self):
@@ -79,6 +80,9 @@ def process(self, _: _EmptyTask) -> list[FileGroupTask]:
         dataset_name = self._get_dataset_name(files)
 
         for i, file_group in enumerate(partitions):
+            if self.limit is not None and len(tasks) >= self.limit:
+                logger.info(f"Reached limit of {self.limit} file groups")
+                break
             file_task = FileGroupTask(
                 task_id=f"file_group_{i}",
                 dataset_name=dataset_name,
@@ -155,9 +159,16 @@ def _parse_size(self, size_str: str) -> int:
         """Parse size string like '128MB' to bytes."""
         size_str = size_str.upper().strip()
 
-        units = {"B": 1, "KB": 1024, "MB": 1024 * 1024, "GB": 1024 * 1024 * 1024, "TB": 1024 * 1024 * 1024 * 1024}
+        # Check units in order from longest to shortest to avoid partial matches
+        units = [
+            ("TB", 1024 * 1024 * 1024 * 1024),
+            ("GB", 1024 * 1024 * 1024),
+            ("MB", 1024 * 1024),
+            ("KB", 1024),
+            ("B", 1),
+        ]
 
-        for unit, multiplier in units.items():
+        for unit, multiplier in units:
             if size_str.endswith(unit):
                 number = float(size_str[: -len(unit)])
                 return int(number * multiplier)

diff --git a/ray-curator/ray_curator/stages/video/io/video_download.py b/ray-curator/ray_curator/stages/video/io/video_download.py
diff --git a/.../stages/video/io/video_reader_download.py → ..._curator/stages/video/io/video_loading.py b/.../stages/video/io/video_reader_download.py → ..._curator/stages/video/io/video_loading.py
@@ -1,16 +1,17 @@
 from dataclasses import dataclass
 
 from ray_curator.stages.base import CompositeStage, ProcessingStage
-from ray_curator.stages.video.io.video_download import VideoDownloadStage
+from ray_curator.stages.io.reader.file_partitioning import FilePartitioningStage
 from ray_curator.stages.video.io.video_reader import VideoReaderStage
-from ray_curator.tasks import VideoTask, _EmptyTask
+from ray_curator.tasks import _EmptyTask
+from ray_curator.tasks.video import VideoTask
 
 
 @dataclass
-class VideoReaderDownloadStage(CompositeStage[_EmptyTask, VideoTask]):
+class VideoLoadingStage(CompositeStage[_EmptyTask, VideoTask]):
     """Composite stage that reads video files from storage and downloads/processes them.
 
-    This stage combines VideoReaderStage and VideoDownloadStage into a single
+    This stage combines FilePartitioningStage and VideoReaderStage into a single
     high-level operation for reading video files from a directory and processing
     them with metadata extraction.
 
@@ -29,20 +30,22 @@ def __post_init__(self):
 
     @property
     def name(self) -> str:
-        return "video_reader_download"
+        return "video_loading"
 
     def decompose(self) -> list[ProcessingStage]:
         """Decompose into constituent execution stages.
 
         Returns:
-            List of processing stages: [VideoReaderStage, VideoDownloadStage]
+            List of processing stages: [FilePartitioningStage, VideoReaderStage]
         """
-        reader_stage = VideoReaderStage(
-            input_video_path=self.input_video_path,
-            video_limit=self.video_limit
+        reader_stage = FilePartitioningStage(
+            file_paths=self.input_video_path,
+            files_per_partition=1,
+            file_extensions=[".mp4", ".mov", ".avi", ".mkv", ".webm"],
+            limit=self.video_limit,
         )
 
-        download_stage = VideoDownloadStage(
+        download_stage = VideoReaderStage(
             verbose=self.verbose
         )