A CIÊNCIA DO PALPITE
O site de aluguel de filmes NetFlix vai dar 1 milhão de dólares
a quem melhorar em 10% seu sistema de recomendações.
Parece simples? Pois alguns dos maiores cientistas da
computação estão há três anos quebrando a cabeça para
resolver o desafio
VEJA TAMBÉM |
• Quadro: Livre associação |
Qualquer um que navegue em sites de notícias, serviços ou compras pela internet já passou pela experiência: assim que abre uma manchete ou clica em um produto para vê-lo em mais detalhe, o usuário é bombardeado com sugestões de outros itens que possam interessá-lo. Esses sistemas de recomendação são a maneira pela qual as lojas virtuais substituem a figura do vendedor e ampliam seu movimento. Nas lojas de verdade, claro, encontram-se bons e maus vendedores – há os que estudam os sinais subjetivos emitidos pelo freguês e enchem sua sacola com produtos que ele não planejava comprar, e há os desastrados, que o irritam com palpites descabidos e acabam por afugentá-lo. O mesmo acontece nos ambientes virtuais. Se o sistema é capaz de traçar um perfil fiel do cliente e seduzi-lo com sugestões que ele considera atraentes, vende mais; se o estorva, perde o negócio. A urgência dos grandes negociantes da internet em refinar seus sistemas de recomendação é tanta que o site americano de aluguel de filmes NetFlix tomou uma atitude inédita: instituiu um prêmio de 1 milhão de dólares para quem conseguisse melhorar em 10% a precisão de seu sistema de recomendação. A porcentagem pode parecer baixa – mas é uma tremenda barreira do ponto de vista da ciência de computação (e nem é preciso dizer que, rompida, pode reverter em muitos milhões de dólares a mais em volume de negócios).
Lançado em 2006, o concurso recebeu milhares de inscritos. No domingo 26, quando ele se fechou a novas contribuições, só dois times haviam atingido a meta. Batizados como Ensemble e BellKor's Pragmatic Chaos, eles são formados por coalizões de alguns dos mais brilhantes cientistas da área, ligados a grandes institutos de diversos países. Se tentasse contratar algum desses times, o NetFlix dificilmente teria cacife para bancar seu trabalho. Mas, por meio dessa "multiterceirização", não só está prestes a obter o que desejava como movimentou o meio acadêmico.
Até que o NetFlix anuncie um eventual vencedor, em setembro, ainda tem muitos números a destrinchar. O desafio, entretanto, já está rendendo frutos. As coalizões deram origem a novas empresas, e seus princípios teóricos começam a ser aplicados por outras corporações (os times são donos dos sistemas que criaram). Isso porque essa margem tão ínfima, de 10% de otimização, redundou em modelos matemáticos ultracomplexos, capazes de contabilizar variáveis que até aqui escapavam aos softwares mais usados.
O comum, quando se recebe uma sugestão de um site, é que o sistema a faça analisando o histórico de compras daquele cliente e do produto no qual ele demonstra interesse. Não é um método ruim, mas deixa algo a desejar. Primeiro, porque ignora produtos que até ali foram pouco avaliados pela clientela (as "notas" que essa clientela atribui às compras são peça-chave de qualquer sistema). Segundo, porque às vezes interpreta mal os interesses do freguês. Em um artigo publicado em 2002 no Wall Street Journal, e que virou clássico já a partir de seu título – "Meu TiVo acha que sou gay" –, o colunista Jeffrey Zaslow relatava o caso de um sujeito que, por razão desconhecida, passou a ser inundado pelo gravador digital de sua TV a cabo com programas de cunho homossexual. Na tentativa de persuadir a geringonça do contrário, ele começou a pedir atrações "de macho", como filmes de guerra – só para o aparelho então cismar que ele era um nazista contumaz.
Os dois finalistas do Net-Flix adotaram abordagens diversas, mas que podem, em tese, diminuir os equívocos e as sugestões óbvias. Em termos muito simplificados, o modelo matemático da equipe BellKor's procura dar conta das variações de gosto no tempo e até mesmo dar um peso à maneira como o humor do usuário pode influenciar sua nota – em linguagem técnica, são estudos de "dinâmica temporal". O algoritmo do time Ensemble, por sua vez, agrupa os filmes em "constelações" e determina a intensidade da ligação entre eles (veja o quadro). Muito do sucesso das duas equipes se deve ao fato de elas terem trabalhado com dados verdadeiros: à medida que treinavam seus algoritmos a interpretar os mais de 100 milhões de avaliações de 18.000 filmes, iam comparando os resultados à base real. Ambos os modelos aprimoraram em mais de 10% o sistema de sugestões já utilizado pelo NetFlix. A empresa ainda vai determinar qual deles melhor a atende. Mas, mesmo que não declare um vencedor – o regulamento prevê essa possibilidade –, uma coisa é certa: tais inovações vão propagar-se para outros ambientes virtuais. E a vitória aí é do cliente, que não mais será incomodado por "vendedores" que oferecem geladeiras a esquimós ou areia a beduínos.