наборы фраз из похожих слов

Алекс Альтек

есть наборы похожих слов в файле дата.txt

нужно, можно, доступно
найти, узнать, понять
вариант, место, понятие
того, чего, ещё, как
текста, строк, фраз, вещей
который, такой, простой, свой
нам, также, и так, и что
подходит, думает, делает
по содержанию, мыслями, по сути, контенту

нужно из этих слов сделать фразы так чтобы перебрать варианты сочетаний всех слов в строках этого файла
Алиса
Разберу задачу пошагово и предложу несколько вариантов решения.

Суть задачи
У вас есть файл дата.txt с наборами слов, разбитых на строки. Нужно сгенерировать все возможные фразы, комбинируя по одному слову из каждой строки — то есть перебрать все варианты сочетаний.

Исходные данные:

нужно, можно, доступно
найти, узнать, понять
вариант, место, понятие
того, чего, ещё, как, тех
текста, строк, фраз, вещей
который, такой, простой, свой
нам, также, и так, и что
подходит, думает, делает
по содержанию, мыслями, по сути, контенту

Решение на Python

Самый надёжный способ — использовать Python с модулем itertools.product, который как раз предназначен для генерации декартова произведения (всех комбинаций).

Код:

python
import itertools

# Читаем файл
with open('дата.txt', 'r', encoding='utf-8') as file:
lines = file.readlines()

# Очищаем строки и разбиваем на слова
word_lists = []
for line in lines:
words = [word.strip() for word in line.strip().split(',')]
word_lists.append(words)

# Генерируем все комбинации
combinations = list(itertools.product(*word_lists))

# Записываем результат в новый файл
with open('результат.txt', 'w', encoding='utf-8') as output_file:
for combo in combinations:
phrase = ' '.join(combo)
output_file.write(phrase + '\n')

print(f"Сгенерировано {len(combinations)} фраз. Результат сохранён в 'результат.txt'.")

Что делает код:

Открывает файл дата.txt и читает все строки.

Для каждой строки:

убирает лишние пробелы в начале и конце (strip());

разбивает строку на слова по запятой (split(',')).

Собирает все списки слов в один общий список word_lists.

Использует itertools.product(*word_lists) для генерации всех возможных комбинаций — берёт по одному слову из каждого списка.

Объединяет слова в каждой комбинации в одну фразу с пробелами (' '.join(combo)).

Записывает каждую фразу в файл результат.txt, добавляя перенос строки.

Выводит в консоль количество сгенерированных фраз.

Расчёт количества фраз
Посчитаем, сколько всего получится фраз:

Строка 1: 3 слова

Строка 2: 3 слова

Строка 3: 3 слова

Строка 4: 4 слова

Строка 5: 4 слова

Строка 6: 4 слова

Строка 7: 4 слова

Строка 8: 3 слова

Строка 9: 4 слова

Общее количество комбинаций: 3;3;3;4;4;4;4;3;4=82 944 фразы.

Файл результат.txt будет довольно большим (сотни тысяч строк), поэтому будьте готовы к этому.

Примеры сгенерированных фраз
Вот несколько примеров того, что получится на выходе:

нужно найти вариант того текста который нам подходит по содержанию

можно узнать место чего строк такой также думает мыслями

доступно понять понятие ещё фраз простой и так делает по сути

нужно понять место как вещей свой и что делает контенту

Альтернативные способы
Если Python недоступен, вот другие варианты:

Excel / Google Таблицы:

Разнесите слова из каждой строки файла по отдельным столбцам (A, B, C и т. д.).

Используйте формулы или макросы для перемножения ячеек из разных столбцов. Это трудоёмко и не очень удобно для такого большого числа комбинаций.

Командная строка (Linux/macOS):

Можно написать скрипт на bash с вложенными циклами for. Аналогично для Windows в cmd или PowerShell, но синтаксис будет сложнее.

Онлайн;генераторы комбинаций:

Существуют веб;сервисы для генерации комбинаций списков. Введите слова из каждой строки в отдельное поле, и сервис выдаст результат. Однако они могут не справиться с 80 тыс. строк.

Важные замечания
Кодировка. Убедитесь, что файл дата.txt сохранён в кодировке UTF;8, чтобы русские буквы корректно читались и записывались.

Память. Генерация 82 944 строк — это серьёзная нагрузка для памяти. Код выше записывает результат сразу в файл, что минимизирует использование оперативной памяти.

Пунктуация. Фразы будут без знаков препинания. Если нужно, можно добавить запятые или точки на этапе формирования phrase.

Дубликаты. Если в исходных строках есть повторяющиеся слова, они будут учитываться как отдельные варианты.

Хотите, я уточню какой;то из этапов или помогу адаптировать код под другой алгоритм действий

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Алекс Альтек

Рецензии

Написать рецензию

Другие произведения автора Алекс Альтек

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.