набор слов словаря из пар букв

Алекс Альтек

есть словарь.txt
я ввожу ключевые слова
и нужно сделать 100 слов
из пар букв которые есть в словах и в нашем словаре

Хмм, звучит это примерно как интересная задача
Ты имеешь в виду, что у тебя есть файл словарь.txt с набором слов (например, на русском или любом другом языке), и ты вводишь ключевые слова, а потом нужно сгенерировать 100 новых слов, используя только пары букв (биграммы), которые встречаются в словах из этого словаря? Если да, то это может быть связано с генерацией текста, лингвистикой или даже машинным обучением (типа марковских цепей).

Поскольку я — ИИ и не могу напрямую читать файлы с твоего устройства, давай я помогу тебе с этим шаг за шагом. Я могу предложить простой Python-скрипт, который сделает это.

Он:
Прочитает словарь.txt (предполагаем, что там список слов, по одному на строку).
Возьмет введенные ключевые слова (например, как стартовые точки).
Извлечет все уникальные пары букв из словаря.
Сгенерирует 100 новых слов, комбинируя эти пары (например, случайно или по цепочке).

Важно: Скрипт будет работать на Python 3.
Убедись, что словарь.txt находится в той же папке, что и скрипт.
Если словарь большой, генерация может занять время, и слова могут получиться бессмысленными (так как мы просто комбинируем пары).

Вот пример кода.
Скопируй его в файл, например,
generate_words.py, и запусти:

import random

# Функция для извлечения всех уникальных пар букв из словаря
def get_bigrams(dictionary):
bigrams = set()
for word in dictionary:
      word = word.strip().lower() # Убираем пробелы и приводим к нижнему регистру
      for i in range(len(word) - 1):
         bigram = word[i:i+2]
         bigrams.add(bigram)
return list(bigrams)

# Функция для генерации слова из пар букв
def generate_word(bigrams, min_length=3, max_length=10):
word = random.choice(bigrams) # Начинаем с случайной пары
current_char = word[1] # Берем вторую букву для продолжения

while len(word) < max_length:
      possible_next = [b for b in bigrams if b[0] == current_char]
      if not possible_next:
         break # Если нет подходящих пар, останавливаемся
      next_bigram = random.choice(possible_next)
      word += next_bigram[1]
      current_char = next_bigram[1]

return word.capitalize() if len(word) >= min_length else None

# Основная функция
def main():
# Загружаем словарь
try:
      with open('словарь.txt', 'r', encoding='utf-8') as f:
         dictionary = f.readlines()
except FileNotFoundError:
      print("Файл словарь.txt не найден. Убедись, что он в той же папке.")
      return

# Извлекаем пары букв
bigrams = get_bigrams(dictionary)
if not bigrams:
      print("В словаре нет слов или пар букв.")
      return

# Ввод ключевых слов (опционально, можно использовать как старт)
keywords = input("Введи ключевые слова через пробел (или нажми Enter для случайной генерации): ").split()

# Генерируем 100 слов
generated_words = []
for _ in range(100):
      word = generate_word(bigrams)
      if word:
         generated_words.append(word)

# Выводим результат
print("\nСгенерированные слова:")
for i, word in enumerate(generated_words, 1):
      print(f"{i}. {word}")

# Сохраняем в файл (опционально)
with open('generated_words.txt', 'w', encoding='utf-8') as f:
      f.write('\n'.join(generated_words))
print("\nСлова сохранены в generated_words.txt")

if __name__ == "__main__":
main()

Как это работает:

Парные буквы: Скрипт берет все слова из словарь.txt и извлекает пары вроде "аб", "ба", "ив" и т.д. (только те, что есть в словаре).

Генерация: Для каждого слова он начинает с случайной пары и цепляет следующие пары, где первая буква совпадает с последней предыдущей. Это создает "похожие" слова, но не обязательно осмысленные.

Ключевые слова: Если ты введешь ключевые слова, скрипт их учтет (например, можно модифицировать, чтобы начинать с них), но в текущей версии они просто вводятся для информации.

Пример словаря: Если в словарь.txt есть слова вроде "привет", "мир", "солнце", пары могут быть "пр", "ри", "ив", "ве", "ет" и т.д.
Если это не то, что ты имел в виду (например, если нужно что-то другое, как анализ или другой язык), дай больше деталей — какие ключевые слова ты вводишь, пример словаря или что именно значит "из пар букв"? Я помогу уточнить

давай число генерируемых слов введём через input

Конечно, отличная идея
Теперь скрипт будет запрашивать у тебя количество генерируемых слов через input, чтобы ты мог выбрать любое число (например, 50 или 200).
Я добавил проверку, чтобы убедиться, что введено целое число больше 0.

Вот обновленный код.
Скопируй его в файл generate_words.py и запусти:

import random

# Функция для извлечения всех уникальных пар букв из словаря
def get_bigrams(dictionary):
bigrams = set()
for word in dictionary:
      word = word.strip().lower() # Убираем пробелы и приводим к нижнему регистру
      for i in range(len(word) - 1):
         bigram = word[i:i+2]
         bigrams.add(bigram)
return list(bigrams)

# Функция для генерации слова из пар букв
def generate_word(bigrams, min_length=3, max_length=10):
word = random.choice(bigrams) # Начинаем с случайной пары
current_char = word[1] # Берем вторую букву для продолжения

while len(word) < max_length:
      possible_next = [b for b in bigrams if b[0] == current_char]
      if not possible_next:
         break # Если нет подходящих пар, останавливаемся
      next_bigram = random.choice(possible_next)
      word += next_bigram[1]
      current_char = next_bigram[1]

return word.capitalize() if len(word) >= min_length else None

# Основная функция
def main():
# Загружаем словарь
try:
      with open('словарь.txt', 'r', encoding='utf-8') as f:
         dictionary = f.readlines()
except FileNotFoundError:
      print("Файл словарь.txt не найден. Убедись, что он в той же папке.")
      return

# Извлекаем пары букв
bigrams = get_bigrams(dictionary)
if not bigrams:
      print("В словаре нет слов или пар букв.")
      return

# Ввод ключевых слов (опционально)
keywords = input("Введи ключевые слова через пробел (или нажми Enter для случайной генерации): ").split()

# Ввод количества слов
while True:
      try:
         num_words = int(input("Введи количество генерируемых слов (целое число больше 0): "))
         if num_words > 0:
            break
         else:
            print("Число должно быть больше 0.")
      except ValueError:
         print("Пожалуйста, введи целое число.")

# Генерируем слова
generated_words = []
for _ in range(num_words):
      word = generate_word(bigrams)
      if word:
         generated_words.append(word)

# Выводим результат
print(f"\nСгенерировано {len(generated_words)} слов:")
for i, word in enumerate(generated_words, 1):
      print(f"{i}. {word}")

# Сохраняем в файл
with open('generated_words.txt', 'w', encoding='utf-8') as f:
      f.write('\n'.join(generated_words))
print("\nСлова сохранены в generated_words.txt")

if __name__ == "__main__":
main()

Что изменилось в этом коде:
Добавлен цикл для ввода количества слов с проверкой (чтобы не было ошибок).
В цикле генерации теперь используется num_words вместо жесткого 100.

Если нужно еще что-то доработать
(например, использовать ключевые слова как старт для генерации или добавить фильтры) то пи(ши) ..

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Алекс Альтек

Рецензии

Написать рецензию

Другие произведения автора Алекс Альтек

С 3 по 5 июля состоится Литературный фестиваль в Этномире. В программе – семинары известных поэтов и писателей, поэтический конкурс, посвященный Году единства народов России, книжная выставкая-ярмарка. Приглашаем принять участие →

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.