CodeACT: Code Adaptive Compute-efficient Tuning Framework for Code LLMs

Previous Card

Enhancing Retrieval-Augmented Generation: A Study of Best Practices

CodeACT is a novel framework designed to enhance the performance and training efficiency of Code Large Language Models (LLMs). It integrates a Complexity and Diversity Aware Sampling (CDAS) method for selecting high-quality training data and a Dynamic Pack padding strategy to minimize computational resource usage. Experimental results demonstrate that CodeACT significantly improves model performance on benchmarks while drastically reducing training time and GPU memory consumption. ✨

Article Points:

CodeACT framework enhances Code LLM performance and training efficiency.

CDAS method selects high-quality, complex, and diverse training data.

Dynamic Pack padding strategy minimizes padding tokens, optimizing resource use.

CodeACT-DeepSeek-Coder-6.7B achieved 8.6% HumanEval increase with 40% data.

Reduces training time by 78% and peak GPU memory by 27%.

K-Means is optimal for diverse data selection due to efficiency and performance.

Source:

CodeACT: Code Adaptive Compute-efficient Tuning Framework for Code LLMs

vibe coding fine tuning

Objective

Enhance LLM performance

Improve training efficiency

Key Components

CDAS (Data Sampling)

- Adaptive data selection

- Complexity & Diversity

- Uses IFD score

- K-Means for diversity

Dynamic Pack Padding

- Sorts samples by length

- Concatenates samples

- Minimizes padding tokens

Experimental Results

Significant performance increase

Reduced training time (78%)

Decreased GPU memory (27%)

40% optimal sampling rate

Advantages

Bridges open/closed-source gap

Resource-efficient training

Improved generalization

Limitations

Scope of model sizes

Ensuring code correctness

Related Work

Base Code LLMs

Data Generation methods

Data Selection techniques

Source:

CodeACT: Code Adaptive Compute-efficient Tuning Framework for Code LLMs

Next Card

Enhancing Retrieval-Augmented Generation: A Study of Best Practices

Enhance LLM performance

Improve training efficiency

CDAS (Data Sampling)

Dynamic Pack Padding

Significant performance increase

Reduced training time (78%)

Decreased GPU memory (27%)

40% optimal sampling rate

Bridges open/closed-source gap

Resource-efficient training

Improved generalization

Scope of model sizes

Ensuring code correctness

Base Code LLMs

Data Generation methods

Data Selection techniques

Titans: Learning to Memorize at Test Time

Related Cards

AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

Retrieval-Augmented Reasoning with Lean Language Models

ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants

Memory Decoder: A Pretrained, Plug-and-Play Memory for Large Language Models