Direct Multi-Turn Preference Optimization for Language Agent

This repository contains the official code for our paper Direct Multi-Turn Preference Optimization for Language Agents. (EMNLP 2024 Main Conference)

Setup

You can set up the environment and download the data by running bash setup.sh.

Run

You can complete the DMPO pipeline by running run_dmpo.sh <DATASET> <BASIC_MODEL_PATH> <NEW_MODEL_SAVING_PATH>. The script contains three sections:

Training and evaluating the SFT model
Constructing the DMPO training dataset
Training and evaluating the DMPO model

Similarly, you can run the code run_dmpo_mistral.sh <DATASET> <BASIC_MODEL_PATH> <NEW_MODEL_SAVING_PATH> to perform training using the Mistral model.

Citation

If you find this code useful, please cite our paper:

@misc{shi2024directmultiturnpreferenceoptimization,
      title={Direct Multi-Turn Preference Optimization for Language Agents}, 
      author={Wentao Shi and Mengqi Yuan and Junkang Wu and Qifan Wang and Fuli Feng},
      year={2024},
      eprint={2406.14868},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2406.14868}, 
}

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
data		data
envs		envs
eval_agent		eval_agent
fastchat		fastchat
DMPO_structure.png		DMPO_structure.png
README.md		README.md
construct_preference.py		construct_preference.py
construct_preference_nocut.py		construct_preference_nocut.py
environment_eto.yml		environment_eto.yml
requirements.txt		requirements.txt
run_dmpo.sh		run_dmpo.sh
run_dmpo_mistral.sh		run_dmpo_mistral.sh
run_dpo.sh		run_dpo.sh
run_dpo_mistral.sh		run_dpo_mistral.sh
setup.sh		setup.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Direct Multi-Turn Preference Optimization for Language Agent

Setup

Run

Citation

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Direct Multi-Turn Preference Optimization for Language Agent

Setup

Run

Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages