Suggestion: Refactor layout feature model data generation

The layout feature model data generation seems to very similar across the various models and usually quite long functions.

It would be good to refactor and simplify those methods.

For example [FullTextParser.getBodyTextFeatured](https://github.com/kermitt2/grobid/blob/0.6.1/grobid-core/src/main/java/org/grobid/core/engines/FullTextParser.java#L481-L959) and [HeaderParser.getSectionHeaderFeatured](https://github.com/kermitt2/grobid/blob/0.6.1/grobid-core/src/main/java/org/grobid/core/engines/HeaderParser.java#L400-L822) (both more than 400 lines).

The function could be split into multiple parts, e.g.:
* select tokens to be included (e.g. filter out whitespace etc)
* generate feature vector objects
* convert feature vector object to string

The feature vectors could share functionality which would make it more clear, what actually is intended to be different.
(does `header` and `fulltext` actually need to be different?)

Perhaps that could also be more separated from what features were actually selected for the model implementation (e.g. Wapiti).

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Suggestion: Refactor layout feature model data generation #718

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Suggestion: Refactor layout feature model data generation #718

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions