from pathlib import Path
from dotenv import load_dotenv

load_dotenv()

# ====================== ОСНОВНЫЕ ПУТИ ======================
BASE_DIR = Path("/home/dayhanbiz/public_html/biblioteka_search_system")

# Рабочие папки проекта
DATA_DIR = BASE_DIR / "data"
PROCESSED_DIR = BASE_DIR / "processed"
LOGS_DIR = BASE_DIR / "logs"
VECTOR_DB_DIR = BASE_DIR / "vector_db"

# ====================== ИСТОЧНИКИ ======================
SOURCE_DIRS = [
    # 1. История Туркестана, Ирана и Афганистана (современный русский)
    Path("/home/dayhanbiz/public_html/biblioteka/тестирование скриптов/Сортировка по шрифту/Отсортированные - Русский"),
    
    # 2. История Туркестана, Ирана и Афганистана (дореформенный)
    Path("/home/dayhanbiz/public_html/biblioteka/тестирование скриптов/Сортировка по шрифту/Отсортированные - Старорусский"),
    
    # 3. Водное, сельское и мелиоративное хозяйство (современный + сложная структура)
    Path("/home/dayhanbiz/public_html/suw-sharik.info/Библиотека водника, агрария и мелиоратора (ВАМ)"),
    
    # HTML файлы
    Path("/home/dayhanbiz/public_html/japbak.men/История Туркестана/Библиотека/Тексты проекта Восточная Литература"),
]

# Папка, которую нужно исключить
EXCLUDE_DIRS = [
    Path("/home/dayhanbiz/public_html/suw-sharik.info/Библиотека водника, агрария и мелиоратора (ВАМ)/Отсортированные - Старорусский"),
]

# ====================== ЦЕЛЕВЫЕ ПОЛКИ ======================
FINAL_POLKI = {
    "history": Path("/home/dayhanbiz/public_html/biblioteka/polki/История Туркестана, Ирана и Афганистана"),
    "water":   Path("/home/dayhanbiz/public_html/biblioteka/polki/Водное, сельское и мелиоративное хозяйство Туркестана"),
}

# ====================== НАСТРОЙКИ ======================
CHUNK_SIZE = 800
CHUNK_OVERLAP = 100
OLD_RUSSIAN_THRESHOLD = 35

EMBEDDING_MODEL = "intfloat/multilingual-e5-large"

# ====================== СОЗДАНИЕ ПАПОК ======================
for directory in [DATA_DIR, PROCESSED_DIR, LOGS_DIR, VECTOR_DB_DIR] + list(FINAL_POLKI.values()):
    directory.mkdir(parents=True, exist_ok=True)

print("✅ Конфигурация загружена успешно")
print(f"   Источников: {len(SOURCE_DIRS)}")
print(f"   Целевых полок: {len(FINAL_POLKI)}")
print(f"   Модель: {EMBEDDING_MODEL}")
