№ 3 (119) 2023
LEGAL TECH

Юристы vs генеративный ИИ: кто победит?

ПОДЕЛИТЬСЯ:

30 ноября 2022 г. компания OpenAI выпустила свой новый продукт — ChatGPT, ставший одним из самых вирусных в истории технологий. Всего за пять дней он перешагнул отметку в 1 млн пользователей. Менее чем за два месяца ежедневное число пользователей ChatGPT превысило 100 млн. Для сравнения: самой популярной на сегодняшний день социальной сети TikTok для достижения такого результата потребовалось девять месяцев. Что же представляет собой ChatGPT, от которого люди в очередной раз «сходят с ума»? Об этом рассказывает наш постоянный автор публикаций на тему Legal Tech Хольгер Цшайге.

В наши дни написать взвешенную статью об искусственном интеллекте и его влиянии на юридический бизнес — задача непростая. Профессиональное сообщество делится на два лагеря. На тех, кто видит эйфорию вокруг ChatGPT и его аналогов как 53-ю итерацию старой песни о роботах-юристах и, соответственно, игнорирует шумиху. И на тех, кто говорит о том, что пора устраиваться курьером в «Яндекс.Еду», поскольку конец профессии юриста близок. Spoiler alert: курьеры будут заменены роботами быстрее юристов. Найти промежуточную позицию между двумя этими лагерями и обосновать ее непросто, поскольку есть аргументы «за» и «против» у обеих сторон. Можно, конечно, попросить помощи у самого чат-бота. Если студенты получают дипломы о высшем образовании на основании работы, написанной генеративным ИИ, то зачем мучиться? Но… Во-первых, я не мучаюсь, так как написание статьи для меня возможность тренировать свой мозг. Во-вторых, так, как пишу я, ИИ не напишет. Не потому, что мой стиль такой уникальный, а потому что для ИИ очень мало материалов для обучения написанию в моем стиле, так как пишу я редко.

Что же представляет собой ChatGPT, от которого люди в очередной раз «сходят с ума»?

Что случилось?

30 ноября 2022 г. компания OpenAI выпустила свой новый продукт ChatGPT. Это чат-бот на базе их большой языковой модели (large language model, LLM) GPT 3.5. До запуска ChatGPT о существовании OpenAI мало кто знал, хотя компания на рынке с 2015 г. Ее создали инвесторы и лучшие специалисты в области искусственного интеллекта как некоммерческую организацию со стартовым капиталом в 1 млрд долларов США [1]. Разработчики ИИ и раньше пользовались продуктами OpenAI, например, языковой моделью GPT 2 и 3, и генератором картинок DALL-E. Но известной на весь мир компания стала именно благодаря ChatGP T.

Решения на основе различных моделей искусственного интеллекта существуют уже много лет. Но такого качества ответов машины в мире еще не было. ChatGPT в состоянии поддерживать полноценный человеческий диалог, результат, о котором мечтает наука с времен Элизы [2]. С момента запуска чат-бота бесчисленное количество часов было потрачено как на полезные, так и бессмысленные задачи, которые ставились людьми ChatGPT. Многие из них выглядели как TikTok-Challenge: «Давайте проверим, какие функции есть у этого чат-бота».

Юристы — не стали исключением. И хотя в декабре 2022 г. попытка Дэна Каца и Майкла Боммарито заставить алгоритм сдать адвокатский экзамен (bar exam) в США провалилась, спустя всего три месяца ChatGPT сдал экзамен на уровне 10% лучших американских студентов-юристов. Это, конечно, говорит не столько о качестве алгоритма, сколько о качестве экзамена, но темпы развития языковой модели впечатляют.

По утверждению судьи из Колумбии он впервые в истории использовал ChatGPT для принятия судебного решения. Он задал алгоритму несколько вопросов по делу и включил ответы в свое решение. Основатель компании DoNotPay планировал отправить на судебное заседание человека, адвокатом которого должен был стать ChatGPT. Идея состояла в том, что человек произносит слова, нашептанные ему роботом. Ее реализацию остановили адвокатские палаты в США, пригрозив основателю DoNotPay делом о незаконном оказании юридических услуг. Своими громкими заявлениями о том, что его компания первый робот-юрист, компания уже заработала иск от паралигала, которая тестировала его сервис и усомнилась в правдивости его слов.

Чтобы развеять последние сомнения в способностях ChatGPT творить чудеса, можно привести пример поисковика Bing, который до недавнего времени, несмотря на поддержку «Майкрософта», был практически мертв [3]. Но после интеграции с ChatGPT- 4 люди неожиданно стали активно им пользоваться [4].

Технология ChatGPT

У многих пользователей ChatGPT, особенно после выхода на рынок GPT-4, было устойчивое ощущение, что эта система «понимает» их и дает исчерпывающие и корректные ответы. Другими словами, пользователь уверен, что алгоритм думает. Это, конечно, не так. Что же тогда умеет этот чат-бот (и похожие на него системы)? Кратко это сформулировал английский писатель Нил Гейман: «ChatGPT не дает вам информацию. Он дает вам предложения, выглядящие как информация» . В этом суть больших языковых моделей, алгоритмов глубокого обучения, которые могут распознавать, обобщать, переводить, прогнозировать и генерировать текст и другой контент на основе знаний, полученных из массивов наборов данных. На сегодняшний день такие алгоритмы являются преимущественным направлением развития в области обработки естественного языка. [5]

GPT — это Generative Pre-trained Transformer. Это означает, что этот трансформер [6] был предварительно обучен и может самостоятельно генерировать тексты (после выхода GPT-4 также картинки) из анализа текстовой информаций. При этом он не понимает текст, а всего лишь определяет вероятность последующего слова после анализа предыдущих слов (токенов).

В момент выхода на рынок в марте 2022 г. модель GPT-3 представляла настоящий рывок в развитии больших языковых моделей. Это алгоритм с 175 млрд параметров, обученный на датасетах, общим объемом примерно пол-триллиона токенов [7]. Предыдущая версия — GPT-2 — имела всего лишь 1,5 млрд параметров, т.е. была на два порядка меньше. Такой рост был достигнут за два года [8]. Новейшая версия GPT-4 вышла всего за год после GPT-3 (и 3,5 месяца спустя GPT- 3.5). В последнее время OpenAI перестал раскрывать информацию о количестве параметров и объеме датасетов для обучения GPT-4, так как на этом рынке резко возросла конкуренция. Говорят, что четвертая версия имеет порядка одного триллиона параметров. На что будет способен GPT-5, который по слухам, выйдет в декабре этого года, сложно себе представить.

Чтобы генерировать текст, ChatGPT 3.5 анализирует до 4096 предыдущих к определенному слову слов и определяет вероятность последующего слова [9]. Слово с наибольшей вероятностью алгоритм ставит как следую- щее слово и так с начала, пока не готов ответ. Вероятности и контекст алгоритм берет из большого массива текстов, на котором был обучен, причем вероятность появления одного и того же слова следующим зависит от предыдущих слов. Наряду с этим на сгенерированный текст также влияют другие параметры алгоритма, заданные разработчиками. В этом механизме генерации текстов и заключаются недостатки больших языковых моделей.

Недостатки больших языковых моделей

Качество текстов зависит от массива данных для обучения модели

GPT-3 и предыдущие модели были обучены на общедоступных источниках. 60% массива составляет датасет Common Crawl, куда входит информация из общего интернета. К тому же модели обучены на определенный момент времени (например ChatGPT на осень 2021 г.), и не знают все, что произошло после этой даты. Поэтому, например, для юристов слишком рискованно слепо доверять таким большим языковым моделям. Пока модели не будут обучены на массивах информации, защищенной авторским правом, их применение в профессиональной среде будет ограничено. OpenAI заявляет, что GPT-4 был обучен не только на открытых источниках, но и на части проприетарных датасетов, но на каких конкретно — не раскрывается. Здесь надо отметить, что есть другие языковые модели, в т.ч. open source, которые пользователь самостоятельно может обучать на своих датасетах [10].

Большие языковые модели «галлюцинируют»

Довольно быстро пользователи ChatGPT заметили, что алгоритм иногда выдает явно неправильные ответы. Как будто бы не знает ответ и, соответственно, его придумывает. Это прямое следствие того, как большие языковые модели генерируют текст. Такие модели «учатся» самостоятельно (self-supervised) в отличие от моделей под управлением человека (supervised). Соответственно они могут выдать результаты, не строго совпадающие с информацией из обучающего массива данных. Например, модель может цитировать не- существующее судебное решение при анализе конкретного кейса. Эту особенность моделей надо всегда учитывать при использовании ChatGPT и других систем в профессиональной среде. Allen & Overy, внедряющие первыми систему Harvey на основе ChatGPT, просили сотрудников проверять любой результат обращения к системе. Принципиально этот подход не отличается от обычной практики в юридических фирмах — живые юристы тоже могут допускать ошибки и их работу стоит проверять. Только большие языковые модели в состоянии генерировать ошибки существенно быстрее и выдавать их за чистую правду намного убедительнее любого человека…

Модели обучаются на вашей информации

Как только алгоритм использует датасеты вашей компании для анализа/обучения (контракты, меморандумы, анализы, и т.д.), эта информация становится частью модели.

Особенно критично это в случаях, когда датасеты не анонимизированные, т.е. содержат персональные данные клиентов или сотрудников. Но и другая проприетарная информация, например, интеллектуальная собственность, может случайно или преднамеренно стать частью модели. Ранее во Франции уже запретили применение искусственного интеллекта при предиктивном анализе судебной практики. А на днях итальянское ведомство по защите персональных данных временно запретило пользование ChatGPT на территории страны.

Это не единственные недостатки больших языковых моделей (и искусственного интеллекта в целом), но они сильнее всего влияют на возможность применения в профессиональной среде. Есть еще проблема «черного ящика» — отсутствие понимания, как работают алгоритмы конкретной системы. С этим связана проблема предвзятости алгоритмов. Она обусловлена параметрами, заданными разработчиками алгоритма / модели, а также ограниченным датасетом для обучения. Вопросам этики использования ИИ стоит посвятить не одну статью, в целый номер журнала. Недавняя инициатива «Future of Life Institute» приостановить на полгода разработку больших систем искусственного интеллекта отражает опасения многих о будущем человечества рядом с искусственным интеллектом.

The End of Lawyers?

Впервые многие работники умственного труда реально озаботились будущим своих профессий. Юристов уже давно пугают искусственным интеллектом. Еще в далеком 2008 г. Ричард Сасскинд ставил вопрос о скором конце профессии юриста на фоне технологического прогресса. В 2013 г. Осборн и Фрей оценивали риск автоматизации разных профессий, но для юристов он тогда был невысок (менее 5%). В 2017 г. McKinsey подсчитала, что 23% работы юриста можно автоматизировать посредством существующих технологий. Были запущены legaltech-решения, обещающие заменить юристов-людей робоюристами и робосудьями. В 2018 г. на Legalgeek Thomson Reuters даже раздавал банки с пивом, сваренным по рецепту искусственного интеллекта (весьма неплохим, между прочим). Все это, конечно, на какое-то время впечатлило юристов, но, поскольку речь шла в основном об автоматизации рутинной, малоэффективной и дешевой работы, они вскоре успокоились.

Теперь же все иначе. Если раньше среди специалистов по ИИ наблюдался консенсус — то, что сложно для человека, легко для ИИ, и наоборот — то с выходом новых генеративных моделей искусственный интеллект взялся и за интеллектуальную работу человека. Получается, что теперь ИИ может делать как то, что человеку сложно, так и то, что ему легко. Юристы начинают это понимать. По опросу Lexis Nexis, в марте этого года 39% юристов и 46% студентов юрфаков выразили уверенность по поводу того, что генеративный ИИ существенно повлияет на работу юристов. Так, о генеративном ИИ слышали 88% юристов, это на 31% больше, чем общество в целом. Правда, 81% опрошенных юристов пока не пользуется решениями, и только 2% применяют их ежедневно. Те, кто уже применяет генеративный ИИ в своей профессиональной работе, за исключением поиска юридической информации (legal research), используют этот инструмент в основном для общего повышения эффективности своей деятельности, но нужно учитывать, что ChatGPT и подобным моделям всего несколько месяцев, а адаптация технологий в юридической сфере идет, как правило, медленно…

Настоящую волну эмоций среди юристов вызвало проведенное Goldman Sachs исследование влияния ИИ на экономический рост. По его результатам, 44% работы юриста в США и Европе можно автоматизировать посредством ИИ. Речь идет как о полном вытеснении труда человека, так и об ИИ в качестве вспомогательного инструмента для него. По оценкам Goldman Sachs, ИИ может заменить почти 40% рабочих мест на рынке юридических услуг, в то время как технология будет дополнять около 60% оставшихся рабочих мест в отрасли. В других отраслях картинка для «белых воротничков» не лучше. Также стоит отметить, что исследование обращает внимание и на большой потенциал технологии ИИ в создании новых рабочих мест и профессий.

Что же теперь делать юристам? Прежде всего сохранять спокойствие. Перефразировав Марка Твена, можно сказать, что «новость о смерти юридической профессии сильно преувеличена». В последние годы я говорил о том, что мы с вами не доживем до появления сильного искусственного интеллекта. В целом я не изменил своего мнения после выхода ChatGPT, но, с учетом фанатизма многих юристов в отношении ЗОЖ, возможно, кто-то все-таки доживет. По словам Гейтса, мы всегда переоцениваем изменения, которые случатся в ближайшие два года, и недооцениваем те, которые произойдут в ближайшие 10 лет. Темп развития возможностей современных моделей ИИ впечатляет, но нельзя недооценивать мозг человека. Искусственный интеллект все же стоит рассматривать как инструмент. Как говорил Кевин Келли, основатель журнала Wired: «ИИ станет подобен электричеству. Мы добавим его ко всему, что собираемся сделать, чтобы сделать это более эффективно». При применении ИИ, как и любых других инструментов, человек должен понимать, что делает.

Это понимание — весь объем знаний и опыта человека — будет главным дифференциатором среди живых специалистов. Борьба за рабочие места идет не между человеком и машиной, она идет между людьми. От умения человека «общаться» с алгоритмами зависит качество результатов генеративного ИИ. Андрей Карпати, один из основателей OpenAI, не зря говорит «Самый популярный новый язык программирования — английский». На первый взгляд появление такой новый профессии, как «prompt engineer» может касаться напрасным. Но ИИ обычный человеческий запрос любого заказчика «делайте нам красиво» не воспринимает. Чем конкретнее запрос и контекст, тем ценее результат для бизнеса. Это еще долго останется прерогативой человека. А пока таких специалистов мало, спрос большой, даже в юридическом бизнесе. Британския юридическая фирма Mishcon de Reya ищет «legal prompt engineer». Зарплату не раскрывают, но в других отраслях такие специалисты получают от $133 000 до $335 000 в год.

Что из этого следует? Бороться с технологическим прогрессом бессмысленно. Технологиям безразличны наши переживания. В 1980-е годы преподаватели математики вышли на улицы протестовать против использования электронных калькуляторов в школах. Сегодня калькуляторы есть у всех, и преподаватели от этого не страдают. Следовательно, лучше тратить свою энергию на освоение новых технологий и думать, как с их помощью опередить конкурентов.

С применением генеративного ИИ корпоративные юристы способны осуществлять свою заветную мечту — становиться бизнес-партнерами, а не работать в качестве исполнителей типовых задач. С учетом ограничений больших языковых моделей их можно успешно применять в работе с документами (для анализа договоров на начальной стадии, быстрого создания драфтов), для сопровождения сделок (первоначальный due diligence) или ускорения поиска информации. В e-Discovery в последние годы ИИ уже успешно использовали для выявления важной информации из большого массива данных. Такие инструменты, как ChatGPT, поднимают эту работу на новый уровень. Управление кейсами (осо- бенно административная часть этой задачи) станет более простым, если поручить координацию ИИ. Чат-боты могут существенно улучшить внутреннюю и внешнюю коммуникацию юридических фирм. Аналитик рынка Legal Tech Зек Абрамовиц, конечно, пошутил, когда опубликовал свою «обновленную карту рынка legaltech», но ведь в каждой шутке есть доля правды…

Ряд вендоров уже включил возможности ChatGPT в свои решения. Harvey, в который инвестировал сам OpenAI, уже упоминал об этом. Вслед за Allen & Overy PwC Legal приобрел это решение для всех своих 4 тысяч юристов. Casetext выпустил Co-Pilot, систему на базе GPT-4, которая была обучена на дата- сетах самой компании. По мнению многих юристов, тестировавших Co-Pilot, система дает впечатляющие результаты. OpenAI недавно запустил платформу плагинов, которые позволяют соединять много систем управления с их чат-ботом. Большие языковые модели других разработчиков, например Bard от Google, также будут доступны для интеграции в собственные решения и процессы. Уже доступна платформа Google Document AI для работы с документами.

Как будет выстраиваться наша работа с развитием все более мощных моделей искусственного интеллекта, полностью зависит от нас. Еще в 1951 г. Алан Тьюринг прогнозировал вероятность того, что, начав работать, метод машинного мышления быстро превзойдет наши слабые силы. По его мнению, машины могли бы разговаривать друг с другом, чтобы оттачивать свое остроумие. Он полагал, что от нас зависит, когда машины возьмут управление на себя.

[1] Сегодня OpenAI состоит из некоммерческой OpenAI Inc. и коммерческой OpenAI LP.
[2] Виртуальный собеседник, компьютерная программа Джозефа Вейценбаума, написанная им в 1966 г.
[3] Доля поисковика на рынке в марте 2023 г. составляла 2,87%.
[4] Майкрософт является крупным инвестором в OpenA I.
[5] Natural Language Processing (NLP) – общее направление искусственного интеллекта и математической лингвистики.
[6] Архитектура глубоких нейронных сетей, представленная в 2017 г. исследователями из Google Brain.
[7] Не надо углубляться в эти термины, они приведены лишь для сравнения.
[8] На момент выхода GPT-3 был в 10 раз больше самой крупной существующей до этого большой языковой модели Turing NLG от «Майкрософта».
[9] Две версии ChatGPT– 4, соответственно, 8192 и 32768 предыдущих слов, что существенно расширяет контекст.
[10] Bloom, Dolly, Claude и др.

Возможно, вам будет
интересно