список певцов ии

Алекс Альтек

как сделать программу которая ищет 100 имен русских певцов и певиц в сети по яндексу
Алиса
Разберу пошагово, как создать программу для поиска 100 имён русских певцов и певиц через Яндекс.

Шаг 1. Получить доступ к Яндекс XML
Для автоматизированного поиска нужен API;доступ через Яндекс XML:

Зарегистрируйтесь на Яндексе (нужен обычный аккаунт).

Перейдите на страницу Яндекс XML: xmlsearch.yandex.ru.

Получите ключ доступа (привязан к IP;адресу).

Учтите лимиты:

10 запросов/сутки — без подтверждения;

1 000 запросов/сутки — после подтверждения номера телефона.

Шаг 2. Выбрать язык программирования
Подойдут Python, C#, Java и другие. Пример — на Python (проще для старта).

Шаг 3. Установить необходимые библиотеки
В терминале выполните:

bash
pip install requests lxml
requests — для отправки HTTP;запросов;

lxml — для парсинга XML;ответов от Яндекса.

Шаг 4. Написать код программы
Пример на Python:

python
import requests
from lxml import etree

# Настройки (замените на свои)
USER = 'your_yandex_login'
KEY = 'your_api_key'

def search_artists(query, results_count=100):
url = 'https://xmlsearch.yandex.ru/xmlsearch'
# Формируем XML;запрос
xml_request = f'''<?xml version="1.0" encoding="utf-8"?>
<request>
      <query>{query}</query>
      <sortby order="ascending">rlv</sortby>
      <maxpassages>2</maxpassages>
      <groupings>
         <groupby attr="d" mode="flat" groups-on-page="{results_count}" docs-in-group="1"/>
      </groupings>
</request>'''

# Параметры GET;запроса
params = {
      'user': USER,
      'key': KEY
}

# Отправляем POST;запрос с XML;телом
response = requests.post(url, params=params, data=xml_request.encode('utf-8'))

if response.status_code != 200:
      raise Exception(f'Ошибка API: {response.status_code}')

# Парсим XML
root = etree.fromstring(response.content)
artists = []

for group in root.findall('.//group'):
      doc = group.find('doc')
      if doc is not None:
         title = doc.find('title').text
         # Извлекаем имя артиста из заголовка (упрощённо)
         artists.append(title.split(' - ')[0].strip())

return artists

# Основной вызов
if __name__ == '__main__':
queries = [
      'русские певцы',
      'российские певицы',
      'популярные исполнители России',
      'современные российские артисты'
]
all_artists = set() # Используем множество, чтобы избежать дубликатов

for q in queries:
      print(f'Ищем по запросу: {q}')
      results = search_artists(q, 25) # 25 на запрос ; 4;25 = 100
      all_artists.update(results)
      if len(all_artists) >= 100:
         break

# Берём первые 100 уникальных имён
final_list = list(all_artists)[:100]

print(f'\nНайдено {len(final_list)} уникальных исполнителей:')
for i, artist in enumerate(final_list, 1):
      print(f'{i}. {artist}')

# Сохраняем в файл
with open('russian_artists_100.txt', 'w', encoding='utf-8') as f:
      for artist in final_list:
         f.write(artist + '\n')
print('\nСписок сохранён в файл: russian_artists_100.txt')

5. Как это работает
Запросы. Программа отправляет 4 запроса с разными формулировками, по 25 результатов каждый ; итого 100 уникальных имён.

Парсинг. Из заголовка каждой найденной страницы извлекается предполагаемое имя исполнителя (упрощённая логика — можно доработать).

Дубликаты. Множество (set) автоматически убирает повторы.

Сохранение. Результат записывается в текстовый файл russian_artists_100.txt.

Шаг 6. Улучшения и нюансы
Уточнение запросов. Добавьте более узкие запросы: 'эстрадные певицы России', 'рэп-исполнители России', 'поп-звёзды 2024'.

Фильтрация. После сбора списка можно отфильтровать не;артистов (статьи, рейтинги и т.;д.) по ключевым словам.

Глубина поиска. Если 25 результатов на запрос мало, увеличьте groups-on-page, но следите за лимитом запросов.

Обработка ошибок. Добавьте повтор запроса при временной ошибке сети или API.

Логирование. Записывайте запросы и ответы для отладки.

Краткий итог
Что нужно:

Аккаунт Яндекса и ключ Яндекс XML.

Python + библиотеки requests, lxml.

Код выше (подставьте свои USER и KEY).

Запуск скрипта ; получите файл с 100 именами.

Ограничения:

Лимиты API (до 1 000 запросов/сутки).

Яндекс может блокировать частые запросы — делайте паузы между ними.

- нет давай просто по случайным страницам о музыке и попсе
Алиса
Разберу, как сделать программу для поиска 100 имён русских певцов и певиц по случайным страницам о музыке и поп;музыке — без использования API, простым и наглядным способом.

Способ: случайный обход страниц через поиск Яндекса
Программа будет:

Формировать поисковые запросы по теме «русская поп;музыка».

Получать URL;адреса случайных страниц из выдачи Яндекса.

Загружать содержимое страниц.

Извлекать имена исполнителей с помощью регулярных выражений.

Собирать уникальные имена, пока не наберётся 100.

Код программы

python
import requests
import re
import random
from bs4 import BeautifulSoup

# Список поисковых запросов
queries = [
'русские поп-исполнители',
'современные российские певцы',
'популярные певицы России 2026',
'топ российских артистов',
'звёзды российской эстрады',
'новые русские исполнители',
'хиты российской поп-музыки',
'музыкальные чарты России'
]

# Множество для хранения уникальных имён
artists = set()

# Регулярное выражение для поиска имён (русскими буквами, 2–3 слова)
name_pattern = re.compile(r'[А-ЯЁ][а-яё]+(?:\s+[А-ЯЁ][а-яё]+){1,2}')

def get_random_urls(query, num_urls=5):
"""Получает случайные URL из поисковой выдачи Яндекса"""
search_url = 'https://yandex.ru/search/'
params = {'text': query}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}
response = requests.get(search_url, params=params, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
urls = []
for link in soup.find_all('a', href=True):
      href = link['href']
      if href.startswith('https://') and 'yandex.ru' not in href:
         urls.append(href)
return random.sample(urls, min(num_urls, len(urls)))

def extract_artists_from_page(url):
"""Извлекает имена исполнителей с одной страницы"""
try:
      response = requests.get(url, timeout=10)
      soup = BeautifulSoup(response.text, 'html.parser')
      # Убираем скрипты и стили
      for script in soup(["script", "style"]):
         script.decompose()
      text = soup.get_text()
      # Ищем совпадения по шаблону имени
      matches = name_pattern.findall(text)
      # Фильтруем очевидные не;имена
      filtered = [name for name in matches if len(name.split()) <= 3 and len(name) > 2]
      return filtered
except Exception as e:
      print(f"Ошибка при обработке {url}: {e}")
      return []

# Основной цикл
while len(artists) < 100:
# Выбираем случайный запрос
query = random.choice(queries)
print(f'Ищем по запросу: {query}')
# Получаем 5 случайных URL по запросу
urls = get_random_urls(query, 5)
for url in urls:
      print(f'Обрабатываем: {url}')
      new_artists = extract_artists_from_page(url)
      artists.update(new_artists)
      print(f'Найдено имён: {len(new_artists)}, всего собрано: {len(artists)}')
      if len(artists) >= 100:
         break

# Берём ровно 100 уникальных имён
final_list = list(artists)[:100]

# Выводим результат
print('\nИтоговый список из 100 исполнителей:')
for i, artist in enumerate(final_list, 1):
print(f'{i}. {artist}')

# Сохраняем в файл
with open('russian_artists_100.txt', 'w', encoding='utf-8') as f:
for artist in final_list:
      f.write(artist + '\n')
print('\nСписок сохранён в файл: russian_artists_100.txt')

Как это работает
Запросы. Программа случайным образом выбирает запрос из списка (queries) и отправляет его в Яндекс.

URL;сбор. Из поисковой выдачи берёт 5 случайных ссылок на внешние сайты (не на Яндекс).

Загрузка страниц. По каждой ссылке загружает содержимое и очищает его от HTML;тегов, скриптов и стилей.

Извлечение имён. Ищет последовательности русских слов (1–3 слова), начинающиеся с заглавной буквы — это вероятные имена артистов.

Фильтрация. Отсеивает слишком короткие или длинные варианты, чтобы уменьшить шум.

Уникальность. Использует set(), чтобы автоматически убрать дубликаты.

Остановка. Цикл завершается, когда собрано 100 уникальных имён.

Сохранение. Результат записывается в текстовый файл.

Что нужно для запуска
Установить Python (3.7+).

Установить библиотеки:

bash
pip install requests beautifulsoup4 lxml
Запустить скрипт.

Важные нюансы и ограничения
Антибот;системы. Яндекс может блокировать частые запросы. Для обхода:

добавляйте случайные паузы (time.sleep(random.uniform(2, 5)) между запросами);

используйте прокси;серверы (если требуется масштабный сбор).

Качество данных. На страницах может быть много «шума» (имена журналистов, ведущие, названия групп и т.;д.). Для улучшения:

добавьте словарь стоп;слов (stop_words = {'автор', 'ведущий', 'редактор', ...});

фильтруйте результаты по ключевым словам ('певица', 'певец', 'исполнитель', 'звезда').

Дубликаты. set() убирает точные совпадения, но не учитывает разные написания одного имени (например, «Zivert» и «Зиверт»). Для этого можно добавить нормализацию.

Скорость. В зависимости от скорости интернета и нагрузки серверов сбор может занять 5–15 минут.

Актуальность. Имена берутся с актуальных страниц, поэтому список будет отражать современных артистов.

Краткий итог
Вы получите: файл russian_artists_100.txt с 100 уникальными именами русских певцов и певиц, собранными с реальных музыкальных страниц в интернете.

Плюсы:

не требует API;ключей;

использует открытые данные;

легко модифицировать (добавить запросы, улучшить фильтрацию).

Минусы:

возможны ложные срабатывания;

нужно учитывать лимиты запросов к Яндексу.

Если хотите, я могу помочь доработать код — например, добавить фильтрацию по жанрам, улучшить извлечение имён или реализовать сохранение в Excel

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Алекс Альтек

Рецензии

Написать рецензию

Другие произведения автора Алекс Альтек

Мы используем файлы cookie для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с Политикой обработки персональных данных и файлов cookie, нажмите здесь.