GreenMap/ru-product-characteristics-extraction
Viewer • Updated • 4.67k • 26
Модель для извлечения характеристик из русскоязычных текстов с выводом в JSON. Формат промптов на которых была обучена модель хранятся в папке prompts в репозитории.
Основана на Qwen/Qwen3.5-2B-Base и дообучена под задачу extraction.
Извлеки любую характеристику из текста. Выведи в формате JSON: {"name":"","values":[{"stringValue":""}]}
Текст: <ВАШ ТЕКСТ>
Ответ:
{
"name": "Название характеристики",
"values": [
{
"stringValue": "Значение"
}
]
}
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="GreenMap/qwen3.5-2b-ru-json-extractor",
tokenizer="GreenMap/qwen3.5-2b-ru-json-extractor",
device=0,
trust_remote_code=True,
)
def build_prompt(text: str) -> str:
return (
"Извлеки любую характеристику из текста. Выведи в формате JSON: "
"{\"name\":\"\",\"values\":[{\"stringValue\":\"\"}]}\n"
f"Текст: {text}\n"
"Ответ:\n"
)
text = "выкл. авт. NXB-63"
prompt = build_prompt(text)
result = pipe(
prompt,
max_new_tokens=256,
do_sample=False,
)
output = result[0]["generated_text"]
json_part = output.split("Ответ:\n")[-1].strip()
print(json_part)
max_new_tokens=256
do_sample=False
Рекомендуется поддерживать формат промпта ближе к тому что указан в разделе "Формат входа"
Qwen/Qwen3.5-2B-Base{
"prompt": "...Ответ:\n",
"response": "{...}"
}