СоАвтор
СоАвтор – платформа и открытый набор инструментов для редакций и журналистов-фрилансеров, который призван сделать процесс создания контента максимально комфортным и быстрым.
Инструменты для СоАвтора разрабатываются на основе открытой аналитической платформы OT. В ближайших планах полная интеграция приложения с платформой: сбор и обработка данных, запуск аналитических алгоритмов, а также сборка и запуск приложения будет осуществляться на платформе. Публичный репозиторий с инструментами платформы OT coming soon.
Сейчас мы разрабатываем следующие инструменты:
- Отслеживание событий и трендов в режиме реального времени (работа со структурированными новостными форматами и парсинг новостных источников). Для этого мы пишем модуль для непрерывного парсинга новостных изданий и придумываем, как отслеживать информативные изменения в статьях.
- Подбор релевантных статей к готовому материалу для автоматического формирования модуля бэкграунда (справочной информации или предыстории события). Для этого мы используем инструменты для поиска семантически похожих текстов в архиве и инструменты для генерации саммари из нескольких документов.
Разработка ведется вместе с профессиональным сообществом, чтобы сделать рабочий процесс для редакций и фрилансеров максимально удобным. Платформа "СоАвтор" имеет модульную структуру. Вы можете придумать новый инструмент, который упрощает работу с текстом, или принять участие в работе над теми, что уже в разработке. Вступайте в наше сообщество на Discord и присылайте свои #идеи того, как можно использовать “СоАвтор” при работе с контентом.
English below
Запустить приложение у себя
Установка
- Скачайте файлы проекта или сделайте форк и воспользуйтесь командой
git clone
- Скачайте файлы с данными: ru_stopwords.txt и news_df.parquet
- Скачайте файлы моделей: rubert_tiny и rut5_base_sum
- Откройте терминал и перейдите в директорию проекта
- Используйте
pip install requirements.txt
, чтобы установить все нужные библиотеки
Запуск
- Поменяйте в файле
config.yaml
пути к файлам данных и моделям - Откройте терминал и перейдите в директорию проекта
- Наберите в терминале команду
streamlit run menu.py
- Приложение по умолчанию будет доступно по адресу http://localhost:8501 P.S.: приложение можно запустить на своём датасете, если будет соблюдён формат. Пример датасета и описание формата в директории
data
.
Как участвовать в разработке проекта
Текущие задачи
- Обновляемая лента новостей
- Модуль для подключения к соцсетям
- Анализ трендов по постам из социальных сетей
- Классификация evergreen новостей
Помочь решить одну из текущих проблем
- Проверьте есть ли открытые проблемы в Issues и выберите одну из них
- Если у вас есть своя идея, как законтрибьютить в этот проект, откройте в Issues новый тикет (как это сделать, описано ниже).
- Сделайте форк проекта, начните работать над тикетом и внесите свои изменения через pull request.
Добавить проблему (issue)
- Если вы нашли баг или недоработку, мы будем признательны, если вы оставите её описание в разделе Issues с тегом
bug
. - Если у вас есть вопросы по функционалу или вы не понимаете баг это или фича, оставьте нам вопрос в разделе Issues с тегом
question
. - Если у вас есть идея, какие возможности вы хотели бы ещё видеть в приложении, но не уверены, что можете их самостоятельно реализовать, добавьте описание идеи в раздел Issues с тегом
enhancement
.
Что ещё я могу делать
- Принять участие в обсуждении этого проекта или ваших собственных идей в дискорде нашего сообщества WellnessDataClub.
- Взять СоАвтор за основу для разработки собственного open source продукта. СоАвтор сейчас работает с новостями и соцсетями, вы можете начать работать с другим типом данных :)
- Примите участие в другом нашем open source проекте OpenMask
Launch this project locally
Installation
- Download project files or make fork and use
git clone
- Download data files: ru_stopwords.txt и news_df.parquet
- Download models: rubert_tiny и rut5_base_sum
- Using the terminal, change directory to the project's directory
- Use
pip install requirements.txt
Launch
- Change paths to the data and models inside
config.yaml
- Using the terminal, change directory to the project's directory
- Run
streamlit run menu.py
- The app is available with http://localhost:8501 by default P.S.: this app can be launched with your own data in the right format Dataset example, format description are in the
data
directory.
How to participate in this project
Current tasks
- Updating news feed
- One module to collect social network data
- Trend analysis based on social network posts
- Evergreen news classification
Help to resolve one of current issues
- Check if there is an open issue that you'd like to solve
- If you have your own idea or see a bug, add a new issue (instructions below)
- Make fork from this project, make changes and add them with new pull request.
Add an issue
- Add bugs or smth that has to be finished to Issues with
bug
tag. - If you have questions about functionality or code ask in Issues with
question
tag. - If you have some ideas about new functions, suggest it in Issues with
enhancement
tag.
What else can I do
- Take part in the discussion of this project or your own ideas with our Discord community WellnessDataClub.
- Use this project as a base for your own open source product. We now work with news, you csn choose another data type :)
- Become a part of our another project OpenMask