Что должны учитывать инвесторы при финансировании стартапов в области искусственного интеллекта
Искусственный интеллект (и, в частности, генеративный ИИ) в настоящее время считается одной из немногих областей, способных противостоять общему спаду финансирования стартапов. Инвестиции в ИИ относительно стабильны, и появляется все больше стартапов в области ИИ.
Конечно, венчурные капиталисты часто задаются вопросом, действительно ли качество настройки машинного обучения соответствует тому, что обещает презентация. Есть три момента, которые должен учитывать каждый венчурный капиталист при рассмотрении стартапа ИИ.
1. Как работает стартап
В начале следует уточнить, действительно ли стартап работает с машинным обучением или, скорее, с самостоятельно разработанной системой. Является ли система самообучающейся и улучшается ли она по мере обучения на большем количестве данных? Кроме того, самообучающееся машинное обучение также включает методы с самоконтролем или без учителя. Вопрос о том, как лучше способствовать такому самосовершенствованию, называется «онлайн-обучением».
Если это система, которая работает по определенным правилам, заранее установленным разработчиками, и не обучается с помощью данных или самообучения, то это, как правило, не настоящий ИИ — по крайней мере, в нынешнем понимании.
2. Что за модель предлагает стартап
Второй вопрос: была ли модель машинного обучения разработана самостоятельно или она использует проприетарную модель с открытым исходным кодом или стороннего производителя? Когда дело доходит до моделей с открытым исходным кодом, компании очень часто адаптируют эти модели к своему бизнес-кейсу. Примером может служить недавняя разработка ChatGPT, которая может использовать модели GPT OpenAI. Они имеют открытый исходный код, и их можно использовать для бизнеса при определенных моделях лицензий.
Таким образом, различие заключается в том, идет ли речь о внешних навыках машинного обучения, которые используются для собственной бизнес-модели и при необходимости адаптируются, или же речь идет о саморазвитом машинном обучении. Последние обычно представляют собой стартапы, занимающиеся глубокими технологиями, которые разрабатывают свои собственные базовые модели или большие языковые модели (LLM) и в которых в компании гораздо более глубокие технологические знания.
3. Какие данные использовались для обучения модели машинного обучения и кому они принадлежат
Модели машинного обучения все чаще становятся товаром. Таким образом, доступ к модели машинного обучения больше не является отличительной чертой стартапов, действительно интересным будет вопрос о том, кто и как обучал эти модели.
ИИ с каким типом и объемом данных.
Когда компания использует свои собственные данные, необходимо учитывать два аспекта. Во-первых, количество точек данных в наборе данных. Поэтому важно понять, насколько статистически значимы определенные эффекты в этом наборе данных. Большой набор данных всегда более интересен, так как статистические ошибки могут быть лучше исключены, и создается более высокий уровень доверия. Нельзя недооценивать аспект разнообразия данных. Насколько хорошо имеющиеся данные охватывают пространство, в котором живет модель? Некоторые компании могут создавать огромные наборы данных из собственных операций. Однако часто возникает проблема, заключающаяся в том, что наборы данных слишком малы, чтобы выявить значительные улучшения в результатах ИИ.
Второй аспект касается вопроса о праве собственности на данные. Как компания получила этот набор данных? Он открыт для общественности? Были ли они получены от конкретных поставщиков? А может быть, даже собраны самой компанией? Собственные данные обеспечат реальное конкурентное преимущество в ближайшие годы. Чем более закрытым является набор данных, тем сильнее способность компании обслуживать конкретный бизнес-кейс и, таким образом, строить успешную бизнес-модель.
Заключение
Инвесторы должны учитывать три момента. Во-первых, нужно выяснить, действительно ли у компании есть модели машинного обучения или это системы, основанные на правилах. Во-вторых, нужно уточнить, была ли модель куплена или разработана собственными силами. В-третьих, необходимо задаться вопросом, на каких данных обучалась модель. Чем больше, разнообразнее и приватнее набор данных, тем лучше для построения дифференцированной модели и потенциального успеха запуска ИИ.