Автор Тема: Искусственный интеллект - важнейшая технология постиндустриальности  (Прочитано 22282 раз)

Оффлайн Aleph

  • Sr. Member
  • ****
  • Сообщений: 932
  • In God we trust
По описанию решения Симантек похоже на обучение ИНС с учителем.
У нас нейронные сети уже могут с семантикой работать? И грамматике обучаться? :)
На этапе классификации там могут быть "какие-нибудь сети", но сети сегодня читать документы не умеют совсем... :)
Как Вы себе это представляете пусть теоретически?

Оффлайн Name63

  • Участник
  • *
  • Сообщений: 163
О классификации и речь. Там как раз и описывалось, что пользователь выделяет фрагменты текста и учит систему правильному распознаванию тех или иных документов. Конечно может быть это чистая статистика.

Оффлайн Isya.Muhammadov

  • Full Member
  • ***
  • Сообщений: 673
  • Еврей
    • E-mail
Семантический поиск (вербалика) это только одна из задач анализа данных.
Русские евреи спасут Расею

Оффлайн Aleph

  • Sr. Member
  • ****
  • Сообщений: 932
  • In God we trust
О классификации и речь. Там как раз и описывалось, что пользователь выделяет фрагменты текста и учит систему правильному распознаванию тех или иных документов. Конечно может быть это чистая статистика.
Классификация в этой задаче - это предпоследняя проблема, которую можно решить двадцатью разными способами.
Я говорю о другом. Например о флексах. Необходимо, чтобы система имела представление о парадигме, чтобы выделение словоформы "дорога" приводил к поиску всех других дорог во всех числах и склонениях. Здесь же возникает проблема амонимии, поскольку "мне эта страна дорогА" и "дорОга шла через лес" - это не только разные лексемы, но даже и части речи разные. Если пользователь выделит слово "стали" как металл он может получить очень искженную "статистику" от глагола быть во множественном числе прошедшего времени. Кроме этого необходим парсинг, поскольку употребление местоимений сильно искажает "статистику". Необъодимо понимать какие слова являются смысловыми ключами, а какие нет, то есть должна быть решена задачи теггирования. И необходимо то или иное представление о "смысле", поскольку могут употребляться синонимы, фраземы, обороты.

То есть, перед тем как начать собирать статистику система должна иметь работающими лексику, грамматику, парсинг, онтологию.
А уж отнести какой-то объект к тому или иному классу - это школьная задача, в отличии от того, что я перечислил.

Оффлайн Rufige

  • Новичок
  • Сообщений: 31
Цитировать
Вот такой вопрос: был ли бы Вам интересен электронный референт, которому можно было давать задания по формированию каких-нибудь отчетов. По упорядочению Ваших личных архивов? По отслеживанию различных тем?
Ведь самая важная вещь - это управление сложностью, то есть борьба с энтропией, так или иначе.
Да!
Цитировать
Нет, я пришел исключительно с просветительской целью. И с методологической.
Вы просто душка!

Опишу кратко и сумбурно. Есть два проекта. Один стоит (потому что мой мозг не так хорош как хотелось бы) другой двигается. Но первый двигается посредством второго :0)
Не знаю как тут в паблике обсуждать предметно. И что конкретно можно обсудить. Но что-то обсудить нужно обязательно, раз вы выражаете готовность к просвещению! Может не публично...

Итак, первый - автономная навигационная платформа, по сути телега, аналог гугл кар, только без дорогостоящих лидаров. Основная задача slam посредством дешевых датчиков (стереокамеры (включая ик), депт камеры, любые другие датчики... попадающие в категорию дешевых и неэнергоемких, категории задаются требованиями проекта). Слэм может быть разделен на этапы - построение карты (может выполняться долго) и собственно локализация, в рамках задачи патрулирования карты. Патрулирование должно осуществляться со скоростью до 7 м\с. Это тот проект, который встал по причине отсечения лидаров и прочей дорогостоящей аппаратуры. Остались камеры а это быстрый визуальный слэм, а это математика стэйт оф арт, которую я не тяну вот так с лету, а погрузится не могу по собственной природе - требуются постоянные краткосрочные победы, то есть погружение возможно только при возможности быстро проверять результаты на практике. Кстати у меня образование математическое, но плохое, российское, то есть даже не советское... это какие то сложные формулы оторванные от реальности и потому помеченные мозгом как ненужная инфа и забытые.
Очевидно в этом проекте море аи, причем разнообразного, банальных A* до машинного обучения и распознавания объектов. У меня проблемы тут только с распознаванием и трекингом объектов, быстрым. Собственно маршрутизацию, динамику, управление и пр я тяну... полно публичной инфы стенфордские люди хорошо объясняют.

Далее второй, который движется
это узкоспециализированный (пока) кроулер. Суть его в получении корпусов текстов (и возможно доп параметров) из определенных источников, извлечение из этих корпусов полезной информации дат, имен собственных и еще ряда признаков, а так же бинарная классификация. И вот тут я продвинулся. Часть инфы поступает не текстом, а текстом на изображениях, я кнн-ом ее извлекаю. В общем делаю довольно топорную предобработку данных, за классификацию пока не брался - доделываю технические моменты, но уже давно и упорно пробую в ней разобраться - байес, нейросети...

Вот краткое сумбурное описание, надеюсь, одного из АИ проектов сообщества.
Собственно, да, мне не помешает русскоговорящий... ментор, так что ли? :0) Я изучаю англоязычные материалы, но объемы  на столько большие, что сложновато не то что выловить практическую часть, но и даже отфильтровать все. Отсюда и сумбур. Если русскоговорящий практик может дать обстоятельные рекомендации, поделиться опытом... да это ж просто  клад. На этом пока все. Потому что ваш пример с референтом интуитивно мной распознался как схожая задача со вторым проектом, а упоминание бигдата так вообще в точку, однако формат просвещения мне не до конца понятен, а задавать его вам. Что я могу спрашивать? интересно ли вам поконсультировать?
skype: snoopnstalk

Оффлайн Name63

  • Участник
  • *
  • Сообщений: 163
Только, если возможно, пиши здесь. Мне тоже интересно.

Оффлайн Aleph

  • Sr. Member
  • ****
  • Сообщений: 932
  • In God we trust
Опишу кратко и сумбурно.

По первой задаче. Бесплатформенной навигацией я занимался. Правда, платформа была довольно особенной - четырехтонный дефектоскоп в полутораметровой трубе. :) Основные источники информации - одометрическая система, датчики угловых скоростей, акселерометры. Основные проблемы - стальной экран на всем участке, парафины под катками одометров, экономия энергии на борту. Очень много интересных частных задач, например, автоматическая калибровка некоторых измерительных систем по ходу движения. Я не уверен, что эта задача пересекается с Вашей.

По второй задаче. Она понятна. Там сложность так раз в том, чем Вы еще не занимались - в создании понятийной модели предметной области. :)

По технологии нашего общения. Честно говоря, мне не очень она понятна. Если у Вас есть трудности в постановке задач - можно поговорить о постановке. Но изучать за Вас тонны англоязычных материалов я не смогу. Помощь на уровне моих решений невозможна по причине того, что мои работы коммерческие и часто решения мне просто тупо не принадлежат. Помощь на уровне консультирования зависит от сути консультирования, не стоит забывать о том, что консультирование - это часть мой текущей работы и она стоит довольно дорого, а я пришел сюда отдыхать. :)

Поэтому самый удобный уровень общения - методологический, концептуальный. Мне интересно обсуждать концепции, мне это было полезно со своей стороны, полагаю быть полезным в этом отношении Вам. Я могу быть критиком Ваших решений и подходов. Мы можем вместе обсуждать какие-то не очень небольшие материалы и события. Как-то так.

Оффлайн Rufige

  • Новичок
  • Сообщений: 31
Цитировать
о изучать за Вас тонны англоязычных материалов
конечно, об этом речи не шло. Максимум на что я рассчитывал это помощь в вопросе как подобраться к той или иной задаче, с какой стороны лучше зайти. Ведь в чем проблема с объемами, когда мало опыта - все публикации изучи а потом уже реши что лучше применить, и выбор в большей части интуитивный, получается такие... очень ресурсоемкие пробы с ошибками. Это я внес ясность.
Цитировать
Мне интересно обсуждать концепции, мне это было полезно со своей стороны, полагаю быть полезным в этом отношении Вам. Я могу быть критиком Ваших решений и подходов. Мы можем вместе обсуждать какие-то не очень небольшие материалы и события.
Да, давайте попробуем. Я думаю кроулер лучший кандидат для пробы.
Вы пишите
Цитировать
Там сложность так раз в том, чем Вы еще не занимались - в создании понятийной модели предметной области.
Я постараюсь не вдаваться в бизнес подробности, но объяснить суть. Итак где-то публикуется массив данных, в слабоструктурированной форме, бизнес ценность представляет не весь массив, но какая то его часть выявляемая при классификации. Безусловно остальная часть может собираться для некоторого анализа.
На самом деле это простая задачка, пока узкая, пока есть "предметная область", уровень структурированности данных позволяет выполнить узкую задачу алгоритмически (просто написать столько алгоритмов сколько нужно) Когда мы переходим к общей задаче, да даже если в узкой задаче уберем ограничение в виде фиксированного набора источников, алгоритмический подход не работает. Мы говорим об анализе текстов. Я еще не пользовал опеннлп\стенфорднлп\гейт и пр. И если честно пока не очень хочется, так как хочется понять как это работает там внутри, с другой стороны конечно не хочется составлять скажем словари раз уж они есть. На данный момент я использую подход который работает узко - составляю смысловые поля в виде набора слов (я их называю семантики :0)) из текста выдираю куски подходящие по семантике (влияние словоформ и описок нивелирую через растояние даремау-левенштайна это топорно, но "путь который можно пройти - не идеальный путь", то есть это работает сейчас), даты вытаскиваются просто регулярками. Я понимаю, что это никуда не годится. Вот интересно было бы услышать ваше мнение.
Понятийная модель в вашем  понимании похожа на мое описание семантик? Если нет (или я вообще непонятно что описал) не могли бы вы уточнить?
skype: snoopnstalk

Оффлайн Aleph

  • Sr. Member
  • ****
  • Сообщений: 932
  • In God we trust
Я еще не пользовал опеннлп\стенфорднлп\гейт и пр. И если честно пока не очень хочется, так как хочется понять как это работает там внутри
Это правильный подход. Сначала необходимо точно представить задачу, точно представить себе требования к каждой части данных, а уже потом можно поискать методы решения. Моя практика показывает, что писать лучше своё, чужое как правило дольше адаптировать и оно все-равно местами косо работает. При этом алгоритмы и методы изучать очень полезно.

Я постараюсь не вдаваться в бизнес подробности, но объяснить суть.
Мне показалось, или я не смог понять самого главное - выходные данные. Что это? Какие форматы (предположительно)? Как будет хранить? Как обновлять? В чем сервис задачи? Что даете пользователю? Как даете?
Честно говоря, я и задачи не понял. "Анализ текстов" - это слишком широко. Я понял, что Вы делаете какой-то индекс, где будет содержаться персона, событие и дата. Это так?

из текста выдираю куски подходящие по семантике (влияние словоформ и описок нивелирую через растояние даремау-левенштайна это топорно, но "путь который можно пройти - не идеальный путь", то есть это работает сейчас), даты вытаскиваются просто регулярками.
На самом первом этапе может и сгодится, но чуть серьезнее уже нет. Опять же, зависит от того, какая задача. Дата существует "вчера", "завтра", "потом", то есть в семантическом контексте. Для лексической идентификации на первом этапе можно использовать стеммер Портера. Всё будет зависеть от того, что Вы хотите получить.

Понятийная модель в вашем  понимании похожа на мое описание семантик? Если нет (или я вообще непонятно что описал) не могли бы вы уточнить?
Нет, не похожа. Честно говоря, в Вашем описании я пока вообще не увидел семантики. Даже намека на нее.
Давайте так, Вы попытаетесь сформулировать задачу в таком виде: вход, выход, сервис (представление выхода). Вход Вы описали, я понял, что это какой-то корпус на естественном русском языке. Выхода и сервиса пока вообще не представляю.

Оффлайн Rufige

  • Новичок
  • Сообщений: 31
Ок. Все верно. Описал не полностью. Ок.. Ок.. Так как я намерен решить задачу в общем виде, то и опишу ее на некоторой потенциальной предметной области. Идея сервиса - публично доступный, юзер френдли кроулер. Некоторый заинтересованный человек, знает о том, что там-то есть, скажем, публичный ресурс, на котором разные люди публикуют предложения интересующего его товара, если они публикуют его в структурированном виде - хорошо, это уже реализовано, если в неструктурированном, или частично структурированном (скажем мы можем выцепить блок с датой и контактными данными, блок с общем текстом предложения и пр) то уже хуже, так как вы верно заметили "сегодня в 10:00" регулярками я хоть и вытаскиваю, но чувствую себя не уверенно. Полученные данные требуется привести к определенному формату, это сейчас делается форматтерами, после того как исходные данные разбиты на требуемые поля. Данные будут доступны пользователю по апи (то есть складываются в нашу базу), ну и в личном кабинете он может их менедженерить rud.
вход - описал
выход - структурированные отформатированные данные по апи
сервис - это собственно настройка кроулинга (в идеале я хочу чтобы человек ввел урл, показал мышкой, что хочет собирать, произвел настройки форматтеров, фильтров, расписания в разумных приделах), доступ к данным по апи, да и не только по апи, ничего не мешает на мыло получать если ему нужно.

Есть здесь еще одна задача, предположим, что некоторые из тех, кто публикует предложения - мошенники. В некоторых случаях можно с высокой долей вероятности выявить, кто точно мошенник, а кто точно не мошенник (это бизнес специфика, не буду вдаваться в детали скажу только, что человек может выявить, значит может и компьютер, речь идет об определенных фразочках, словосочетаниях)
Эта последняя задача навряд ли будет доступна из коробки, но мне ее нужно реализовать даже для текущей своей версии. Я могу опять же реализовать алгоритмически, но меня это не устраивает. Проект начинался фофан (для того чтобы попробовать силы, научиться), а теперь, когда получилось чуть-чуть, хочется все больше и больше).
skype: snoopnstalk

Оффлайн Aleph

  • Sr. Member
  • ****
  • Сообщений: 932
  • In God we trust
2Rufige,

В Вашем ответе я увидел две задачи. Первая - поиск по заранее отъиндексированным сайтам при помощи какого-то "семантического" фильтра. Вторая - оценка контента сайта на предмет мошенничества. Сразу скажу по второй, она похожа на задачу фильтрации спама, есть у меня подозрение, что ее можно решить простыми способами, более того, может быть даже упоминаемые в топике ИНС подойдут вполне. Единственное, в чем не уверен, нужет ли кому-нибудь на самом деле таковой сервис, как правило в Сети самые хорошие предложения у крупных компаний, которые блюдут свою репутацию как отче наш.

Первая задача. Есть сильные сомнения, что ее можно решить в общем виде. Более того, единственный способ приблизиться к ее решению - это пытаться решать частности, постепенно складывая картинку. Командам сильных программистов не удалось как следует написать CASE системы для формальных стуктур данных, а Вы хотите реализовать обощенный форматтер. Работали с отчетами? Crystal Report, ActiveReports, с ORM системами? Формализовать неформализуемое - это довольно утомительное занятие. Я не верю в техническую возможность хорошего форматтера. Второе (и более важное) - пользователь ленив. Очень ленив. И чем дальше, тем больше он будет ленив. Ему нужна только одна кнопка. НИЧЕГО ОН НЕ СТАНЕТ КОНФИГУРИРОВАТЬ. Особенно на Вашем внутреннем языке. Даже с помощью визуальных сценариев или визардов. Исходя из этого, я бы советовал конкретизировать задачу и сформировать pre-defined отчеты.

Как Вы себе представляете свой индекс? Как у Гугла? Спросите тогда у Гильбо как Гугл поднялся и за счет чего смог проиндексировать Сеть первый раз. Гугл ставит свои зеркала в самые заштатные провайдерские конторы. То есть физически, привозит крутые сервера и ставит и платит. Это очень простой индекс по строковому включению. :)
В общем с промежуточными данными тоже мне как-то неоптимистично.

Ну и самое главное. Методика преобразования сырого текста на ЕЯ в формализованный. Как Вы ее себе примерно представляете?

Оффлайн Rufige

  • Новичок
  • Сообщений: 31
Пока я писал дополнение - вы уже ответили, все равно запощу:
наверное для полноты картины нужно дополнить. Возьмем опять же потенциальную предметную область. Допустим мы собираем предложения автомобилей с какого то аукциона, часть данных - структурирована (хотя опять же на одном аукционе структурирована по одному, на другом - по другому), а часть важных признаков содержится в тексте объявления. К примеру... ну что может быть у машин, кожаный сидения скажем. В объявлении он может быть упомянут как кожа, кожаные сидения, кожаный салон... ну еще как-то. Сейчас как я уже говорил эти данные вытаскиваются через тн "смысловые поля", то есть для приведенного примера, человек настраивает {:leater ["кожа" "кожаный"]}, при обработке данных это смысловое поле применяется (с учетом возможных отклонений) и для признака кожа мы получаем булево значение. Могут быть и более сложные примеры, предположим, мы смотрим предложения частных домов, и нам надо узнать есть ли в доме холодильник, факт наличия его может быть обозначен как холодильник, бытовая техника, и пр.
--------------
к сожалению реалии рф таковы, что много людей здесь бедные, а даже крупные компании мало за чем следят.
Кроме того проект вообще говоря в первую очередь учебный, во вторую очередь под конкретную узкую задачу наподобие тех, что я привел.
Далее с кристалами и с орм работал, орм как правило писал сам под задачу, и да именно так как вы говорите (от частностей  к общему), но орм, это такая задача... пускай и сложно, но формализуемая вообще говоря, там аи не применишь (по крайней мере я не могу)
Далее не формализованный текст в определенный формат сейчас в топорном варианте я перевожу... уже описал как)
На счет конфигурировать не будут... Это не страшно - всегда можно сконфигурировать под заказ, если и это не нужно - ок я себе оставлю - у меня на базе этой системы есть идеи нескольких проектов. В общем это не сложно проверить. Но дело ведь не в деньгах - главное опыт и знания. Вот об этом и речь.
skype: snoopnstalk

Оффлайн Aleph

  • Sr. Member
  • ****
  • Сообщений: 932
  • In God we trust
2Rufige,

то есть (если я Вас правильно понял) самое главное сейчас для Вас - это формализация текста.
Тогда ключевым словом для Вас должен стать парсинг. Он как раз находится на границе между языком и смыслом.
Мне сложно себе представить хороший парсинг без хорошей грамматики, но  может быть у Вас есть идеи по этому поводу. Честно говоря, я понял Ваш метод пока так (прошу простить, если ошибусь): у вас есть "функция" отождествления словоформ до лексемной идентификации (например, по Левенштайну). У вас есть какие-то заданные лексемные ключи, которые описывают предметку. Вы строите индекс как true для высказывания, в котором существует включение нескольких ключей. Эта коллекция и есть начальная формализация. Плюс добавляете контекст времени, если он хорошо ложиться в regex. Это Вы называете семантикой, или я неправильно реконструировал Ваш метод?

Оффлайн Rufige

  • Новичок
  • Сообщений: 31
все верно. Бьем текст на лексемы, и чекаем по ключам через леви. И с датой верно - по сути задается мапа регекс-форматтер, соответственно сейчас там штук 10 элементов, которые покрывают 80% случаев включая простые варианты сегодня\вчера.
skype: snoopnstalk

Оффлайн Rufige

  • Новичок
  • Сообщений: 31
Вот собственно хотелось бы как то генерализовать оба подхода. С датой знаю есть уже стенфордский парсер (но.. писал выше). Почему генерализовать - потому, что слишком узко, слишком много переборок. Есть ли у вас соображения?
skype: snoopnstalk

Оффлайн Aleph

  • Sr. Member
  • ****
  • Сообщений: 932
  • In God we trust
Вот собственно хотелось бы как то генерализовать оба подхода. С датой знаю есть уже стенфордский парсер (но.. писал выше). Почему генерализовать - потому, что слишком узко, слишком много переборок. Есть ли у вас соображения?
В целом, у Вас очень рациональный подход и довольно симпатичный метод, его вполне можно называть семантическим. Более того, это вполне можно назвать онтологиями, они вырождены, но в основных деталях присутствуют. Мне нравится, то, что Вы делаете, если Вас интересует моя оценка.

Со стенфордским парсером не знаком. Что касается циклов, то очень многие задачи вообще NP-полные и нужно скалярное произведение для точного решения. Либо искать частные или апроксимации (тоже нейронные сети). Поэтому циклов бояться нельзя. Другое дело, что альтернатива: память - камень довольно часто есть и ее можно специально искать, чтобы делать вычисления до момента решения основной задачи, а оформлять словари всяческие. Но, думаю, Вы это из без моих банальностей понимаете.

Вы-то сами, когда говорили об общем решении что именно имели ввиду?

Оффлайн Rufige

  • Новичок
  • Сообщений: 31
Благодарю за оценку, интересует конечно - я первый раз в жизни этим занимаюсь...
Цитировать
Вы-то сами, когда говорили об общем решении что именно имели ввиду?
Вот к примеру даты http://nlp.stanford.edu:8080/sutime/process
Очевидно там pos tagging parsing,  я еще не углубился, но кажется это разбор и тегирование токенов по какой то схеме, как уж они именно даты выцепляют я пока не знаю. Соответственно имея такой инструмент (на самом деле можно... можно использовать и их модуль) я на вход могу давать более крупные блоки, не переживая, что какая то строка не пройдет по моему конечному множеству регулярок. Подумывал на счет схожего\аналогичного подхода и для вытаскивания признаков из текста.

skype: snoopnstalk

Оффлайн Aleph

  • Sr. Member
  • ****
  • Сообщений: 932
  • In God we trust
Я Вас понял. Что касается применения конретных методов - это требует иного уровня понимания и Вашей части и алгоритма, я не готов к такой конкретизации. А вот по поводу направления развития метода вооооообще, концептуально, попробую что-нибудь сообразить. Дайте мне сутки.

Оффлайн Rufige

  • Новичок
  • Сообщений: 31
Большое спасибо. На самом деле, меня эта тема интересует не только в рамках данного проекта. Этот проект как мне кажется - хороший повод пообщаться, так как он есть, это практическая задача, а это всегда интереснее абстрактных обсуждений (по крайней мере для меня). На сколько я понял, для вас идея выглядит не столь востребованной. Ок - я в тему только вхожу мне сложно оценить рынок. И если скажем у вас (а я подозреваю у вас... более полная картина) есть какой-то пример идеи более востребованной, более интеллектуальной, буду рад выслушать, как известно ценны не так идеи, как реализации - ну так и реализовать попробую) У меня к примеру вертится в голове идея - выставить наружу сервис наподобие bigml, вооруженный... скажем стекмо weka, залить в него кучу инцеклопидической исторической информации, и дать людям вроде Степаненко несколько более продвинутые средства для анализа исторических данных... Здесь тоже я не вижу прямой коммерческой выгоды, но и сам бы поигрался, и интересующиеся могли бы экспериментировать.
skype: snoopnstalk

Оффлайн Rufige

  • Новичок
  • Сообщений: 31
Прошу прощения - я что-то пишу с ошибками...
skype: snoopnstalk

Оффлайн Andrey77

  • Участник
  • *
  • Сообщений: 144
Ок. Все верно. Описал не полностью. Ок.. Ок.. Так как я намерен решить задачу в общем виде, то и опишу ее на некоторой потенциальной предметной области. Идея сервиса - публично доступный, юзер френдли кроулер. Некоторый заинтересованный человек, знает о том, что там-то есть, скажем, публичный ресурс, на котором разные люди публикуют предложения интересующего его товара, если они публикуют его в структурированном виде - хорошо, это уже реализовано, если в неструктурированном, или частично структурированном (скажем мы можем выцепить блок с датой и контактными данными, блок с общем текстом предложения и пр) то уже хуже, так как вы верно заметили "сегодня в 10:00" регулярками я хоть и вытаскиваю, но чувствую себя не уверенно. Полученные данные требуется привести к определенному формату, это сейчас делается форматтерами, после того как исходные данные разбиты на требуемые поля. Данные будут доступны пользователю по апи (то есть складываются в нашу базу), ну и в личном кабинете он может их менедженерить rud.
Вроде нечто похожее Abbyy реализовало http://lenta.ru/news/2014/04/09/compreno/

Оффлайн Aleph

  • Sr. Member
  • ****
  • Сообщений: 932
  • In God we trust
Ок - я в тему только вхожу мне сложно оценить рынок. И если скажем у вас (а я подозреваю у вас... более полная картина) есть какой-то пример идеи более востребованной, более интеллектуальной, буду рад выслушать, как известно ценны не так идеи, как реализации - ну так и реализовать попробую)
Я занимаюсь B2B, мои представления о рынке довольно условны. Но я говорил не о рынке, а тенденциях в софте. Широкий софт с точки зрения сценариев очень сильно упрощается, специализированные программы упростить во многом нельзя, но у них емкость рынка меньше. Я боюсь что-либо предлагать Вам, просто фиксирую свои сомнения по поводу форматтера как решения для конечного пользователя.

У меня к примеру вертится в голове идея - выставить наружу сервис наподобие bigml, вооруженный... скажем стекмо weka, залить в него кучу инцеклопидической исторической информации, и дать людям вроде Степаненко несколько более продвинутые средства
Сочетание bigdata с семантической информацией тоже может иметь проблемы. Это, о чем я пытался сказать, когда упомянул "понятийное моделирование". Нужно уметь работать с моделями. Конечно, самая простая таблица - это и объект, и простейшая модель. Но проверить по ней можно только статистические гипотезы, в них семантики уже не будет.

Хотя в целом, какой-то интеллектуальный интерфейс над вики, электронными библиотеками и прочими корпусами - это интересно.

Оффлайн Aleph

  • Sr. Member
  • ****
  • Сообщений: 932
  • In God we trust
Меня могут забанить, прошу простить, если не смогу во время ответить.

Оффлайн Rufige

  • Новичок
  • Сообщений: 31
Цитировать
Широкий софт с точки зрения сценариев очень сильно упрощается, специализированные программы упростить во многом нельзя, но у них емкость рынка меньше.
С этим нельзя не согласиться

Цитировать
Я занимаюсь B2B, мои представления о рынке довольно условны.
Я конечно понимаю, что такое B2B в типичном понимании. Компания компании. Но вообще говоря этот проект и есть B2B. Я как компания - предоставляю другой какой-то компании сервис. Речь не о конечном пользователе. А о мелком бизнесе. Довольно странном с моей точки зрения, но которого в рф много. В первую очередь речь моя цель уменьшить возможности посреднического паразитического бизнеса.
Небольшой пример с местными реалиями. Квартирный вопрос очень остро стоит. Ипотеки трудноподъемны, в общем многим чтобы подняться нужно как-то арендовать. Очень многим. Как это происходит. Есть целый класс людей организаций - риэлторов, которые (помимо прочего) свой бизнес строят на том, что отлавливают в информационном пространстве собственников, желающих сдавать квартиры, определенными методами эту информацию прячут от конечного потребителя, потребителя замыкают на себя и берут комиссию. Спрятать информацию не сложно - собственники на то и собственники чтобы не париться - пульнули куда-нибудь объявление и забыли. Эти объявления на иной лад дублируются в сети. По моей статистике доходит до отношения 140-9000. Причем объявления перепубликуют за частую от частного же лица только риэлтора. Почему это выгодно. В мск, например, самая плохонькая однушка в месяц стоит $1000, комиссия как правило 70-100%.
Все течет все меняется и последнее время появилось достаточно много "бизнесов" которые занимаются тем, что все таки вырывают из сети объявления от собственников и пытаются оперативно предоставить своим клиентам. Как они вырывают - посадят офис с менеджерами, а те смотрят, обзванивают - уточняют собственник или нет.
Один из таких бизнесменов не так давно обращался ко мне - сделать ему одну простенькую утилиту. Я сделал, но подумал и тут родился кроулер).

Цитировать
Нужно уметь работать с моделями.
А можно было бы инструмент моделирования также выставить. К примеру на сервисе можно было бы сделать ряд источников. Именно не парсить постоянно вики, а закачать ряд известных массивов, подготовить и дать в виде набора подготовленных векторов, возможно по запросам пользователей добавлять новые какие-то источники.
А для существующих уже в системе исторических данных предоставить средства моделирования и анализа наподобие WEKA http://www.cs.waikato.ac.nz/ml/weka/ она на java, а из моей программной среды очень хороший доступ к джава.
skype: snoopnstalk

Оффлайн Aleph

  • Sr. Member
  • ****
  • Сообщений: 932
  • In God we trust
Все течет все меняется и последнее время появилось достаточно много "бизнесов" которые занимаются тем, что все таки вырывают из сети объявления от собственников и пытаются оперативно предоставить своим клиентам. Как они вырывают - посадят офис с менеджерами, а те смотрят, обзванивают - уточняют собственник или нет.
Один из таких бизнесменов не так давно обращался ко мне - сделать ему одну простенькую утилиту. Я сделал, но подумал и тут родился кроулер).
В таком представлении, это выглядит более перспективно, на мой вкус.

А для существующих уже в системе исторических данных предоставить средства моделирования и анализа наподобие WEKA
Сами по себе бигдэйта и дэйтамайнинг - это просто математическая статистика.
Эти задачи перпендикулярны моделированию. Когда Вы строите шаблоны ключей - это уже прообраз онтологии, когда строите и храните индексы по сообщениям на базе этих шаблонов - семантика. Мне (наверное, в силу специализации) кажется, что это отдельные задачи, которые будут Вам мешать в реализации Mining, если не 1) начинать поднимать грамматику языка и 2) начинать строить какие-то метаданные, которые будут играть роль модели "как она есть". Это гиганская работа и я не уверен, что она Вам будет нужна в небольших задачах, но идеальный жизненный цикл обработки выглядит имхо так: 1) строится понятийная модель (или мета-модель, в классической терминологии), где Вы описываете объекты, их признаки, ключи, форматы и что-то еще; 2) на основании этой модели управляется работа парсера; 3) на основании этой модели формируется промежуточный формализованный массив bigdata.

Сейчас Вы, фактически, управляетесь и без грамматики и без онтологии в явном виде. Это серьезно ограничение, которое может не дать двигаться дальше, делать более развитый сервис. А развитие грамматики и семантики - это очень большие человеко-временные ресурсы и много исследовательской работы. Вот в этом я вижу критическую точку Вашего проекта.