DIRTAR: Discovery of Inference Rules from Text for Action Recognition

A modernized implementation of the DIRT algorithm (Lin and Pantel, 2001) with modifications for action recognition from natural language text.

Overview

DIRTAR implements a modified version of the DIRT (Discovery of Inference Rules from Text) algorithm specifically designed for action recognition. The system processes movie scripts and other narrative text to discover semantic relationships and inference rules for action classification.

Key Features

Modified DIRT Algorithm: Enhanced with lemmatization, constituency parsing, slot similarity, slot types, hypernyms, and semantic discrimination
Action Recognition: Specialized for recognizing and classifying actions in narrative text
Movie Script Processing: Optimized for processing movie script corpora
Semantic Parsing: Frame-net style rules for discriminating candidate nouns from slots
Modern Python: Updated for Python 3.8+ with modern dependencies

Installation

Prerequisites

Python 3.8 or higher
Virtual environment (recommended)

Setup

Clone the repository:

git clone <repository-url>
cd DIRTAR

Create and activate a virtual environment:

python -m venv venv
source venv/bin/activate  # On Windows: venv\Scripts\activate

Install dependencies:

pip install -r requirements.txt

Download required NLTK data:

python -c "import nltk; nltk.download('wordnet')"

Install the package in development mode:

pip install -e .

Project Structure

DIRTAR/
├── src/dirtar/                 # Main package source code
│   ├── __init__.py            # Package initialization
│   ├── dirtar.py              # Core DIRT algorithm implementation
│   ├── sentence_parser.py     # Sentence and clause parsing
│   ├── semantic_parser.py     # Semantic parsing and frame-net rules
│   ├── sentence_splitter.py   # Text preprocessing utilities
│   ├── moviescript_crawler.py # Movie corpus collection
│   ├── assign_labels_*.py     # Label assignment modules
│   ├── score_labels_*.py      # Evaluation modules
│   └── run_dirtar_tests.py    # Test runner
├── data/                      # Data directories
│   ├── experimental_labels/   # Experimental condition outputs
│   ├── scored_labels/         # Evaluation results
│   └── redo_labels_420/       # Additional label data
├── tests/                     # Unit tests
├── docs/                      # Documentation
├── requirements.txt           # Python dependencies
├── setup.py                   # Package setup configuration
└── README.md                  # This file

Core Components

1. DIRT Algorithm (`dirtar.py`)

The main implementation of the modified DIRT algorithm with experimental conditions:

Lemma-based processing
Constituency parse integration
Slot similarity calculations
Semantic type discrimination
Hypernym-based generalization

2. Sentence Processing (`sentence_parser.py`)

Parses movie scripts into sentences and clauses
Uses constituency parsing for clause extraction
Outputs structured clause triples

3. Semantic Parser (`semantic_parser.py`)

Hand-written frame-net style rules
Discriminates candidate nouns from slots
Supports experimental semantic conditions

4. Data Processing Pipeline

Movie Corpus Collection: moviescript_crawler.py
Sentence Splitting: sentence_splitter.py
Label Assignment: assign_labels_*.py
Evaluation: score_labels_*.py

Usage

Basic Usage

from dirtar import dirtar

# Load and process corpus
database = dirtar.readCorpus('movie_clauses.txt')

# Run DIRT algorithm with experimental conditions
results = dirtar.run_experiments(database)

Running Experiments

# Process movie scripts
python src/dirtar/moviescript_crawler.py

# Parse sentences into clauses
python src/dirtar/sentence_parser.py

# Run DIRT algorithm
python src/dirtar/dirtar.py

# Assign labels for evaluation
python src/dirtar/assign_labels_moviedirt.py

# Score results
python src/dirtar/score_labels_dirtar.py

Data Files

Input Data

IE_sent_key.txt: Test sentences from DUEL corpus with action class labels
movie_combo.txt: Combined movie script corpus (not included due to size)
movie_clauses.txt: Preprocessed clause triples with parse annotations

Output Data

experimental_labels/: Text files for each experimental condition
scored_labels/: F-score evaluations per experimental condition
dirtar_database_*.pkl: Serialized DIRT databases

Experimental Conditions

The system supports multiple experimental conditions:

Baseline DIRT: Standard algorithm
Lemma Integration: Using lemmatized forms
Slot Similarity: Enhanced slot matching
Semantic Types: Type-based discrimination
Hypernym Generalization: WordNet-based generalization

Evaluation

The system evaluates action recognition performance using:

F-score calculation for each action class
Overall performance across all experimental conditions
Per-action analysis for detailed evaluation

Results are saved in the scored_labels/ directory with detailed breakdowns.

Dependencies

nltk>=3.8: Natural language processing
pycorenlp>=0.3.0: Stanford CoreNLP integration
setuptools>=65.0: Package management

Contributing

Fork the repository
Create a feature branch
Make your changes
Add tests for new functionality
Submit a pull request

License

This project is licensed under the MIT License - see the LICENSE file for details.

Citation

If you use this work, please cite:

@misc{winer2017dirtar,
  title={DIRTAR: Discovery of Inference Rules from Text for Action Recognition},
  author={Winer, David},
  year={2017},
  note={Modernized implementation 2024}
}

Original Implementation

Based on the DIRT algorithm:

Lin, D., & Pantel, P. (2001). DIRT - Discovery of Inference Rules from Text. ACM SIGKDD Conference on Knowledge Discovery and Data Mining.

Contact

For questions or issues, please contact David Winer

Changelog

Version 2.0.0 (2024)

Modernized for Python 3.8+
Reorganized project structure
Updated dependencies
Added proper packaging
Enhanced documentation
Fixed compatibility issues

Version 1.0.0 (2017)

Original implementation
Core DIRT algorithm
Movie script processing
Action recognition evaluation

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
__pycache__		__pycache__
data		data
src		src
tests		tests
.gitignore		.gitignore
IE_sent_key.txt		IE_sent_key.txt
MODERNIZATION_SUMMARY.md		MODERNIZATION_SUMMARY.md
README.md		README.md
action_lemmas.txt		action_lemmas.txt
key_phrases		key_phrases
pyproject.toml		pyproject.toml
random_test.txt		random_test.txt
requirements.txt		requirements.txt
setup.py		setup.py
total_plot.pdf		total_plot.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

DIRTAR: Discovery of Inference Rules from Text for Action Recognition

Overview

Key Features

Installation

Prerequisites

Setup

Project Structure

Core Components

1. DIRT Algorithm (`dirtar.py`)

2. Sentence Processing (`sentence_parser.py`)

3. Semantic Parser (`semantic_parser.py`)

4. Data Processing Pipeline

Usage

Basic Usage

Running Experiments

Data Files

Input Data

Output Data

Experimental Conditions

Evaluation

Dependencies

Contributing

License

Citation

Original Implementation

Contact

Changelog

Version 2.0.0 (2024)

Version 1.0.0 (2017)

About

Uh oh!

Releases

Packages

Languages

drwiner/DIRTAR

Folders and files

Latest commit

History

Repository files navigation

DIRTAR: Discovery of Inference Rules from Text for Action Recognition

Overview

Key Features

Installation

Prerequisites

Setup

Project Structure

Core Components

1. DIRT Algorithm (dirtar.py)

2. Sentence Processing (sentence_parser.py)

3. Semantic Parser (semantic_parser.py)

4. Data Processing Pipeline

Usage

Basic Usage

Running Experiments

Data Files

Input Data

Output Data

Experimental Conditions

Evaluation

Dependencies

Contributing

License

Citation

Original Implementation

Contact

Changelog

Version 2.0.0 (2024)

Version 1.0.0 (2017)

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

1. DIRT Algorithm (`dirtar.py`)

2. Sentence Processing (`sentence_parser.py`)

3. Semantic Parser (`semantic_parser.py`)

Packages