словарь значимых и незначимых слов

Алекс Альтек

# читать список незначимых слов из файла
with open("не слова.txt", "r") as f:
insignificant_words = set(f.read().splitlines())

# читать текст из файла
with open("текст.txt", "r") as f:
text = f.read()

# разделить текст на слова
words = text.split()

# список результатов
results = []

# пройти через каждое слово в тексте
for word in words:
# проверить, является ли слово незначимым
if word in insignificant_words:
      # добавить слово в список результатов
      results.append(word)

# удалить повторения из списка результатов
results = list(set(results))

# вывести список результатов по 10 в строке через пробел
for i in range(0, len(results), 10):
print(" ".join(results[i:i+10]))

** =>

бывают слова значимые и связующие
например - город, программа - это значимые слова
это, так, если, что, вроде - это связующие (не значимые слова)

теперь сделай нам список 50 значимых слов

дом, книга, компьютер, учитель, друг
машина, музыка, фильм, цветок, солнце
школа, работа, игра, город, страна
время, жизнь, любовь, семья, детство
море, лес, река, гора, небо
человек, ребенок, мужчина, женщина, девочка
брат, сестра, отец, мать, сын
смех, слезы, радость, грусть, страх
война, мир, свобода, демократия, справедливость
наука, искусство, спорт, культура, традиция
еда, вода, воздух, земля, огонь
здоровье, болезнь, лекарство, врач, больница
деньги, работа, карьера, успех, успех
дружба, доверие, честность, порядочность, ответственность
творчество, воображение, фантазия, мышление, знания
может быть пара значимых слов которые определяют содержание текста например - наука город это текст о том как устроен город и его модель напиши нам такой текст

Наука и город - это две темы, которые тесно связаны между собой и имеют множество общих аспектов. Город - это сложная система, которая включает в себя инфраструктуру, население, экономику и социальные отношения. Наука играет важную роль в понимании и развитии городов, а также в решении проблем, с которыми они сталкиваются.

Одним из основных направлений науки о городе является урбанистика, которая изучает городскую среду и процессы, происходящие в ней. Урбанисты исследуют такие вопросы, как планирование и развитие городов, управление городским хозяйством, экологические проблемы и социальные аспекты городской жизни. Благодаря их работе мы можем лучше понять, как работают города и как их можно сделать более комфортными и устойчивыми.

Еще одно важное направление науки о городе - это архитектура и дизайн. Архитекторы и дизайнеры разрабатывают проекты зданий и городских пространств, которые не только эстетически привлекательны, но и функциональны и удобны для жителей. Они также учитывают такие факторы, как экологичность, энергоэффективность и доступность для людей с ограниченными возможностями.

Но наука о городе не ограничивается только урбанистикой и архитектурой. Например, социология изучает социальные аспекты городской жизни, такие как расселение, социальная мобильность, социальная сегрегация и социальная интеграция. Экономика изучает городскую экономику, включая производство, потребление, занятость и развитие. География изучает пространственные аспекты городов, включая их расположение, размер, форму и структуру.

В целом, наука о городе - это междисциплинарная область знаний, которая включает в себя множество различных наук и дисциплин. Благодаря их работе мы можем лучше понять, как работают города и как их можно сделать более комфортными, устойчивыми и справедливыми.

продолжи текст на тему - наука город модель будущее

Наука о городе также играет важную роль в разработке моделей будущего городов. Благодаря использованию современных технологий, таких как большие данные, искусственный интеллект и моделирование, ученые могут создавать реалистичные модели городов будущего и прогнозировать их развитие.

Одна из главных задач создания моделей будущего городов - это разработка устойчивых и экологически чистых городов. Это включает в себя такие аспекты, как уменьшение выбросов парниковых газов, увеличение использования возобновляемых источников энергии, сохранение биоразнообразия и рациональное использование ресурсов. Моделирование может помочь понять, как различные решения влияют на городскую среду и как их можно комбинировать для достижения наилучших результатов.

Еще одной важной задачей создания моделей будущего городов является обеспечение доступности и справедливости. Города должны быть такими, чтобы все их жители имели равный доступ к услугам и возможностям, независимо от их социально-экономического статуса или места жительства. Моделирование может помочь понять, как различные решения влияют на доступность и справедливость, и как их можно комбинировать для достижения наилучших результатов.

Наконец, модели будущего городов также могут помочь в разработке новых подходов к городскому планированию и управлению. Например, они могут помочь понять, как различные виды транспорта и инфраструктуры могут быть интегрированы для создания более эффективной и удобной городской среды. Или как новые технологии, такие как умные города, могут быть использованы для повышения эффективности городского управления и улучшения качества жизни жителей.

В целом, наука о городе играет важную роль в создании моделей будущего городов. Благодаря использованию современных технологий и междисциплинарному подходу, ученые могут создавать реалистичные модели городов будущего и разрабатывать решения, которые помогут сделать их более устойчивыми, доступными и справедливыми.

бывают модели которые знают с кем они говорят и во время разговора они учатся так получая данные привязанные к определенному человеку при этом они держат в памяти некоторое количество данных такой привязки контекста памяти а бывают слабые модели которые не помнят кто с ней разговаривает и не могут держать много данных с привязкой к новому вопросу или теме диалога
какие параметры памяти привязки данных у этой модели ?

Существуют два основных типа языковых моделей: модели с памятью контекста и модели без памяти контекста.

Модели с памятью контекста, такие как большие языковые модели, способны сохранять в памяти определенное количество информации о предыдущих обменах в диалоге, что позволяет им поддерживать контекст и приспосабливаться к специфике общения с каждым пользователем. Такие модели могут запоминать предыдущие ответы, темы диалога и даже персональные предпочтения пользователя. Количество данных, которые такие модели могут держать в памяти, зависит от размера модели и объема обучения. Например, модель T5 от Google может запоминать до 512 токенов (элементов языковой единицы), а модель BERT от Facebook может запоминать до 1024 токенов.

Модели без памяти контекста, с другой стороны, не способны сохранять информацию о предыдущих обменах в диалоге и обрабатывают каждый запрос независимо от предыдущих.
Такие модели не могут приспосабливаться к специфике общения с каждым пользователем и не могут запоминать персональные предпочтения. Количество данных, которые такие модели могут обрабатывать, также ограничено размером модели.

В целом, параметры памяти контекста и объема данных, которые модель может обрабатывать, являются важными факторами, влияющими на качество общения и возможность приспосабливаться к специфике общения с каждым пользователем.

значит важно не то сколько вопросов задано модели - а то - сколько было связано текста и слов с этим вопросом

Верно. Важно не только количество вопросов, заданных модели, но и объем связанного с ними текста и слов. Модели с памятью контекста способны обрабатывать большие объемы текста и запоминать информацию, связанную с предыдущими вопросами и ответами, что позволяет им поддерживать контекст диалога и приспосабливаться к специфике общения с каждым пользователем.

Например, если пользователь задает несколько вопросов на одну и ту же тему, модель с памятью контекста сможет связать эти вопросы и ответить более точным и релевантным образом, чем модель без памяти контекста, которая будет обрабатывать каждый вопрос независимо от предыдущих.

Кроме того, объем текста и слов, связанных с вопросом, также важен для качества ответа модели. Чем больше информации модель может обработать и сопоставить с вопросом, тем точнее и релевантнее будет ответ. Поэтому модели с большей емкостью памяти и способностью обрабатывать большие объемы текста, как правило, дают более качественные ответы на сложные вопросы.

я хочу сделать сортировку слов на значимые и просто связующие как я об этом говорил ранее сортировать будем так - у нас будут в одном файле слова которые имеют контекст значения а в другом файле простые слова без определенного значения программа будет читать текст в файле txt и искать слова из файла со значением и без значения
затем программа будет выводить список найденных значимых слов и список слов которые она определить не смогла

не значимые слова она просто будет отбрасывать кроме того она должна понимать если у нас слово - космос то слова похожие или с тем же корнем но с другим окончанием - также относятся к этому слову

Для решения этой задачи можно использовать Natural Language Processing (NLP) библиотеки, такие как NLTK или spaCy, которые предоставляют инструменты для обработки текста и извлечения значимых слов.

Ниже приведен пример кода на Python, который использует spaCy для извлечения значимых слов из текста и сортировки их в два списка: один для значимых слов и один для слов, которые не удалось определить как значимые.

Этот код загружает модель spaCy, читает текст из файла, извлекает слова из текста и создает список токенов. Затем он проходится по каждому слову в тексте и проверяет, является ли оно значимым.
Если слово не является значимым, оно добавляется в список неизвестных слов.
Если слово является значимым, оно добавляется в список значимых слов. В конце кода выводится список значимых слов и список слов, которые не удалось определить.

Также, чтобы учитывать слова с похожими корнями, можно использовать лемматизацию, которая преобразует слово в его базовую (или лемматическую) форму. spaCy предоставляет инструмент для лемматизации, который можно использовать, чтобы учитывать слова с похожими корнями.

все наши слова на русском языке проверку на значение мы делаем сравнивая их со словами из файла txt в нём набор незначимых слов - таких как - что это или где может и так далее слова записаны в файле просто через пробел слово слово слово и так далее если слово в файле не найдено - значит оно либо значимое или неизвестное это мы определяем задав вопрос человеку если он вводит "1" значит слово значимое если он ввёл "0" значит слово не значимое не значимое слово нужно проверить на то - есть ли оно уже в нашем файле незначимых слов - и если его там нет, то мы его добавляем в файл незначимых слов

Для решения этой задачи можно использовать библиотеку NLTK (Natural Language Toolkit) для обработки текста на русском языке. Ниже приведен пример кода на Python, который реализует описанный алгоритм:

Этот код загружает набор стоп-слов из NLTK, открывает файл с незначимыми словами и файл с текстом, токенизирует текст и создает два пустых списка для значимых слов и незначимых слов. Затем он проходится по каждому слову в тексте и проверяет, является ли оно стоп-словом или незначимым словом. Если слово является незначимым, оно добавляется в список незначимых слов. Если слово не является незначимым, спрашивается пользователь, является ли оно значимым. Если слово является значимым, оно добавляется в список значимых слов. Если слово не является значимым, оно добавляется в список незначимых слов и в файл незначимых слов, если его там еще нет. В конце кода выводится список значимых слов и список незначимых слов.

stopwords - нам в данном коде не нужны нам достаточно текста в котором ищем новые слова и файла со словами у которых мы считаем нет точного значения (незначимые ) остальное сортируем так как я это сказал до этого 1 - значимое 0 - незначимое потом выводим список значимых слов а если найдено новое незначимое слово среди неизвестных то добавляем его в файл где хранятся незначимые слова

В таком случае, можно использовать следующий код на Python для решения задачи:

import re

# Открываем файл с текстом и читаем его
with open("текст.txt", "r", encoding="utf-8") as file:
текст = file.read()

# Открываем файл с незначимыми словами и читаем их
with open("не слова.txt", "r", encoding="utf-8") as file:
незначимые_слова = set(file.read().split())

# Токенизируем текст и получаем список слов
слова = re.findall(r'\b\w+\b', текст.lower())

# Создаем пустой список для значимых слов
значимые_слова = []

# Проходимся по каждому слову в списке
for слово in слова:
# Проверяем, является ли слово незначимым
if слово in незначимые_слова:
      continue
# Спрашиваем пользователя, является ли слово значимым
ответ = input(f"Является ли слово '{слово}' значимым? (1 - да, 0 - нет): ")
if ответ == "1":
      # Если слово является значимым, добавляем его в список значимых слов
      значимые_слова.append(слово)
else:
      # Если слово не является значимым, добавляем его в файл незначимых слов
      незначимые_слова.add(слово)
      with open("незначимые_слова.txt", "a", encoding="utf-8") as file:
         file.write(f"{слово} ")

# Выводим список значимых слов
print("Значимые слова:", значимые_слова)

Этот код открывает файл с текстом и файл с незначимыми словами, токенизирует текст и получает список слов. Затем он проходится по каждому слову в списке и проверяет, является ли оно незначимым.
Если слово не является незначимым, спрашивается пользователь, является ли оно значимым.
Если слово является значимым, оно добавляется в список значимых слов. Если слово не является значимым, оно добавляется в файл незначимых слов. В конце кода выводится список значимых слов.

** =>

нам нужна программа которая в тексте файла txt ищет не значимые слова
то есть слова которые связывают значимые слова
но при этом не несут лексического значения относительно содержания
нашего текста
далее программа сохраняет эти слова в файле - не слова.txt

Создание программы для поиска незначимых слов (или стоп-слов) в текстовом файле
— это интересная задача для сортировки слов и фраз текста

Вот пример простого скрипта на Python, который выполняет эту задачу:

Создайте список незначимых слов. Это могут быть предлоги, союзы и другие слова, которые не несут смысловой нагрузки.
Прочитайте текст из файла и найдите незначимые слова.
Сохраните найденные слова в отдельный файл.
Вот пример кода:

# Список незначимых слов
stop_words = set([
"и", "в", "во", "не", "что", "как", "а", "то", "он", "она", "они",
"на", "с", "к", "по", "из", "для", "у", "от", "это", "этот", "та", "то",
"так", "такой", "всё", "все", "да", "или", "но", "если", "тогда", "когда"
])

# Функция для поиска незначимых слов
def find_stop_words(file_path):
with open(file_path, 'r', encoding='utf-8') as file:
      text = file.read()

# Разбиваем текст на слова
words = text.split()

# Находим незначимые слова
found_stop_words = [word for word in words if word.lower() in stop_words]

return found_stop_words

# Сохранение незначимых слов в файл
def save_stop_words(stop_words_list, output_file_path):
with open(output_file_path, 'w', encoding='utf-8') as file:
      for word in set(stop_words_list): # Используем set, чтобы избежать дубликатов
         file.write(word + '\n')

# Основная часть программы
input_file = 'ваш_файл.txt' # Замените на имя вашего файла
output_file = 'не_слова.txt'

stop_words_found = find_stop_words(input_file)
save_stop_words(stop_words_found, output_file)

print(f"Незначимые слова сохранены в файле '{output_file}'.")
Как использовать:
Скопируйте этот код в файл с расширением .py, например, find_stop_words.py.
Замените ваш_файл.txt на имя вашего текстового файла.
Запустите скрипт.
После выполнения скрипта, все найденные незначимые слова будут сохранены в файл не_слова.txt. Убедитесь, что файл с текстом находится в той же директории, что и скрипт, или укажите полный путь к файлу. ;

нам вообще то нужно сделать словарь значимых слов
но для этого в тексте txt нужно найти незначимые слова и отбросить их

Понял, вам нужно создать словарь значимых слов, отфильтровав незначимые слова. Для этого мы можем использовать тот же подход, что и раньше, но вместо сохранения незначимых слов, мы будем собирать значимые слова. Вот пример кода, который выполняет эту задачу:

# Список незначимых слов
stop_words = set([
"и", "в", "во", "не", "что", "как", "а", "то", "он", "она", "они",
"на", "с", "к", "по", "из", "для", "у", "от", "это", "этот", "та", "то",
"так", "такой", "всё", "все", "да", "или", "но", "если", "тогда", "когда"
])

# Функция для поиска значимых слов
def find_significant_words(file_path):
with open(file_path, 'r', encoding='utf-8') as file:
      text = file.read()

# Разбиваем текст на слова
words = text.split()

# Находим значимые слова
significant_words = [word for word in words if word.lower() not in stop_words]

return significant_words

# Сохранение значимых слов в файл
def save_significant_words(significant_words_list, output_file_path):
with open(output_file_path, 'w', encoding='utf-8') as file:
      for word in set(significant_words_list): # Используем set, чтобы избежать дубликатов
         file.write(word + '\n')

# Основная часть программы
input_file = 'ваш_файл.txt' # Замените на имя вашего файла
output_file = 'значимые_слова.txt'

significant_words_found = find_significant_words(input_file)
save_significant_words(significant_words_found, output_file)

print(f"Значимые слова сохранены в файле '{output_file}'.")
Как использовать:
Скопируйте этот код в файл с расширением .py, например, find_significant_words.py.
Замените ваш_файл.txt на имя вашего текстового файла.
Запустите скрипт.
После выполнения скрипта все значимые слова будут сохранены в файл значимые_слова.txt. Убедитесь, что файл с текстом находится в той же директории, что и скрипт, или укажите полный путь к файлу.

список незначимых слов мы храним в файле - неслова.txt
и при этом формат простой -
просто набор слов через пробел

Если список незначимых слов хранится в файле неслова.txt, мы можем изменить код, чтобы сначала прочитать этот файл и загрузить незначимые слова, а затем использовать их для фильтрации значимых слов из текстового файла. Вот обновленный код:

# Функция для загрузки незначимых слов из файла
def load_stop_words(file_path):
with open(file_path, 'r', encoding='utf-8') as file:
      # Читаем слова и убираем возможные пробелы
      stop_words = set(file.read().strip().split())
return stop_words

# Функция для поиска значимых слов
def find_significant_words(input_file_path, stop_words):
with open(input_file_path, 'r', encoding='utf-8') as file:
      text = file.read()

# Разбиваем текст на слова
words = text.split()

# Находим значимые слова
significant_words = [word for word in words if word.lower() not in stop_words]

return significant_words

# Сохранение значимых слов в файл
def save_significant_words(significant_words_list, output_file_path):
with open(output_file_path, 'w', encoding='utf-8') as file:
      for word in set(significant_words_list): # Используем set, чтобы избежать дубликатов
         file.write(word + '\n')

# Основная часть программы
stop_words_file = 'неслова.txt' # Файл со списком незначимых слов
input_file = 'ваш_файл.txt'    # Замените на имя вашего текстового файла
output_file = 'значимые_слова.txt'

# Загружаем незначимые слова
stop_words = load_stop_words(stop_words_file)

# Находим значимые слова
significant_words_found = find_significant_words(input_file, stop_words)

# Сохраняем значимые слова в файл
save_significant_words(significant_words_found, output_file)

print(f"Значимые слова сохранены в файле '{output_file}'.")

Как использовать этот код:
Создайте файл неслова.txt и добавьте в него незначимые слова, разделенные пробелами.
Скопируйте этот код в файл с расширением .py, например, find_significant_words.py.
Замените ваш_файл.txt на имя вашего текстового файла.
Запустите скрипт.
После выполнения скрипта все значимые слова будут сохранены в файл значимые_слова.txt. Убедитесь, что файлы находятся в одной директории, или укажите полный путь к ним. ;

предложи мне 100 незначимых слов небольшого размера

Вот список из 100 незначимых слов небольшого размера, которые можно использовать:

и в не на с как
а что он они оно
она они это
тот же его
да ли или
от к по из
из для у так
вот бы
всё все
есть была
были есть его
её их мне
тебе нам вами
ними был будет
есть где когда почему
кто что-то кто-то такой такая такое
тогда
теперь только либо
ни если но или
ведь чтобы
как-то кто-то что-то
тогда так тут
там вот
тогда лишь
уж неужели
даже просто почти
всегда тоже сами
кто-то что-то где-то
когда-то что-то кто-то
вроде и а да но
если чтобы только
как так вот ещё этот
а но да нет или и что
это нам нужно так
в на с по к из у о от
тот такой здесь кто
для без до из-за на
против вместо против
или либо может пусть
пожалуй вроде
только даже ещё всё
однако тем не менее
более вот столько
сколько как так нет
перед же также тоже
но если раз про да им они
это просто небольшой
который мы должны
проверить на то есть
ли в нем такие у которых
есть какое то им эти не
имеют особого в том
что мы должны найти
там этом того этого этих

Далее этот список слов можно использовать в программе
для фильтрации значимых слов в тексте txt

Такой словарь из значимых слов нам поможет определять
контекст или содержание текста из набора фраз
по нескольким значимым словам

например - космос планета жизнь эволюция

далее идут фразы текста по этой тематике набора значимых слов

как нам в файле txt с текстом можно найти незначимые слова и сделать из них список без повторов

Для нахождения незначимых слов в текстовом файле и создания списка без повторов, вы можете использовать следующую процедуру:

Откройте текстовый файл в текстовом редакторе, таком как Notepad++ или Sublime Text.
Скопируйте весь текст из файла.
Откройте редактор кода, такой как Python или JavaScript, в котором вы можете работать с текстом и строками.
Вставьте скопированный текст в переменную или строку.
Разбейте текст на слова, используя метод split() или аналогичный.
Создайте список незначимых слов, которые вы хотите найти в тексте.
Используйте цикл для прохождения через каждое слово в тексте и проверьте, является ли оно незначимым словом.
Если слово является незначимым, добавьте его в список результатов.
Используйте метод set() для удаления повторов из списка результатов.
Выведите список результатов в виде текста или сохраните его в файл.
Вот пример кода на Python, который демонстрирует вышеуказанную процедуру:

# список незначимых слов
insignificant_words = [" однако", " тем не менее", " к тому же", " кроме того", " более того", " несмотря на это", " в любом случае", " в конце концов", " в результате", " в сущности", " в действительности", " в общем-то", " в принципе", " в целом", " в основном"]

# текст из файла
text = "Ваш текст из файла здесь..."

# разделить текст на слова
words = text.split()

# список результатов
results = []

# пройти через каждое слово в тексте
for word in words:
# проверить, является ли слово незначимым
if word in insignificant_words:
      # добавить слово в список результатов
      results.append(word)

# удалить повторения из списка результатов
results = list(set(results))

# вывести список результатов
print(results)

Этот код проходит через каждый.word в тексте и добавляет его в список результатов, если оно является незначимым словом. Затем он удаляет повторения из списка результатов и выводит его. Вы можете изменить список незначимых слов и текст из файла в соответствии с вашими требованиями.

текст берем из файла - текст.txt незначимые слова проверяем из файла - не слова.txt слова по 10 в строке через пробел

Вот пример кода на Python, который читает текст из файла "текст.txt" и список незначимых слов из файла "не слова.txt", а затем создает список незначимых слов в тексте без повторов, выводя по 10 слов в строке через пробел:

# читать список незначимых слов из файла
with open("не слова.txt", "r") as f:
insignificant_words = set(f.read().splitlines())

# читать текст из файла
with open("текст.txt", "r") as f:
text = f.read()

# разделить текст на слова
words = text.split()

# список результатов
results = []

# пройти через каждое слово в тексте
for word in words:
# проверить, является ли слово незначимым
if word in insignificant_words:
      # добавить слово в список результатов
      results.append(word)

# удалить повторения из списка результатов
results = list(set(results))

# вывести список результатов по 10 в строке через пробел
for i in range(0, len(results), 10):
print(" ".join(results[i:i+10]))

Этот код читает список незначимых слов из файла "не слова.txt" и текст из файла "текст.txt". Он затем проходит через каждое слово в тексте и добавляет его в список результатов, если оно является незначимым словом.
После этого он удаляет повторения из списка результатов и выводит его по 10 слов в строке через пробел.

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Алекс Альтек

Рецензии

Написать рецензию

Другие произведения автора Алекс Альтек

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.