### Normalização

A normalização de texto é uma etapa essencial no pré-processamento de dados textuais para aplicações em Machine Learning. Ela procura padronizar o conteúdo, eliminando variações como letras maiúsculas/minúsculas e formas no singular/plural que não alteram o significado da informação. Isso garante que o modelo interprete variações equivalentes de maneira uniforme, facilitando a aprendizagem e melhorando a performance. Um exemplo comum de normalização é converter todas as palavras para letras minúsculas, tratando “NLP” e “nlp” como a mesma entidade.

In [None]:
text = "Estou a estudar NLP"
text = text.lower()
#text: "estou a estudar nlp"
print(text)

### Stemming

O Stemming é uma técnica de normalização que reduz palavras à sua raiz comum, como "estudar" e “estudo” que são transformadas em “estud”. Apesar de gerar formas não necessariamente legíveis, essa simplificação ajuda a uniformizar o texto e preservar apenas a informação essencial para o modelo.

In [None]:
import nltk
from nltk.stem.snowball import SnowballStemmer
#Seleciona o idioma português para o stemmer
snow_stemmer = SnowballStemmer(language='portuguese')
#Quebra o text original em uma lista de plavras
text = "Estamos a ir para as nossas casas hoje"
words = text.split()
#Aplica o stemmer em cada palavra
stemmed_words = [snow_stemmer.stem(w) for w in words]
# Une a listsa de palavras em uma string única
stemmed_text = " ".join(stemmed_words)
#stemmed_text: "estam a ir par as noss cas hoj"
print(stemmed_text)

### Stopwords

Stopwords são palavras muito frequentes e pouco informativas, como artigos e preposições, que geralmente são removidas do texto para evitar ruído nos modelos. No entanto, é preciso atenção, pois palavras como “não” também costumam estar nesta lista e podem carregar significado importante. Nesse caso, é recomendável ajustar a lista de stopwords para manter termos relevantes.

In [None]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
text = "Estamos a ir para as nossas casas hoje"
stop_words = set(stopwords.words("portuguese"))
words = text.split()
text_without_stopwords_list = [w for w in words if not w in stop_words]
text_without_stopwords = " ".join(text_without_stopwords_list)
#text_without_stopwords: "Estamos ir nossas casas hoje"
print(text_without_stopwords)

### Remoção de Pontuação

Pode-se eliminar também sinais de pontuação, como “!”, “?” ou “.”, que em muitas aplicações não são informações relevantes.

In [None]:
import string

text = "Estamos a ir para as nossas casas hoje!"
translator = str.maketrans('', '', string.punctuation)
text_without_punct = text.translate(translator)
# text_without_punct: “Estamos a ir para as nossas casas hoje"

print(text_without_punct)

### Números e Caracteres Especiais

Números e caracteres especiais geralmente são removidos ou substituídos por tags (como <NUM>) durante a normalização, especialmente quando não agregam valor à análise. No entanto, esta decisão depende do contexto da aplicação: se os números forem relevantes, devem ser mantidos. Nem todos os modelos lidam bem com tags personalizadas, por isso a escolha do tratamento deve ser feita com critério.


In [None]:
import re
text = "Estudo NLP há 3 dias"
text_num_tag = re.sub(r"\d+", "<NUM>", text)
# text_num_tag: Estudo NLP há <NUM> dias"
print(text_num_tag)

### POS Tagging (Part-of-Speech Tagging)

POS tagging (Part-of-Speech tagging) é o processo de identificar e rotular automaticamente as classes gramaticais das palavras num texto, como substantivos, verbos, adjetivos, etc. Essa etapa é essencial para análises linguísticas mais precisas, permitindo compreender a função de cada palavra na frase e facilitando tarefas como análise sintática, desambiguação de sentidos e extração de informações.

In [None]:
!python -m spacy download pt_core_news_sm

import spacy

# Carrega o modelo após o download
nlp = spacy.load("pt_core_news_sm")

text = "Estudo NLP há 3 dias"
doc = nlp(text)

for token in doc:
    print(f"{token.text} -> {token.pos_}")

### Dependency Parsing

Dependency parsing é a análise das dependências sintáticas entre as palavras de uma frase, identificando qual palavra é a principal (head) e como as outras se relacionam a ela. O resultado é uma estrutura em forma de árvore que revela a hierarquia e as funções gramaticais no enunciado, sendo fundamental para entender a estrutura e o significado da frase em tarefas como tradução automática, extração de relações e compreensão de linguagem natural.

In [None]:
!python -m spacy download pt_core_news_sm

import spacy

# Carrega o modelo de português
nlp = spacy.load("pt_core_news_sm")

text = "Estudo NLP há 3 dias"
doc = nlp(text)

# Exibe informações de dependência para cada token
for token in doc:
    print(f"{token.text:10} | POS: {token.pos_:6} | DEP: {token.dep_:10} | HEAD: {token.head.text}")

### Named Entity Recognition (NER)

Named Entity Recognition (NER) é a tarefa de identificar e classificar automaticamente entidades mencionadas num texto, como nomes de pessoas, organizações, locais, datas e valores. Por exemplo, em “Microsoft é uma empresa de tecnologia fundada em Albuquerque”, o modelo reconhece “Microsoft” como organização e “Albuquerque” como local. NER é amplamente suportado por bibliotecas como SpaCy e serviços cloud como o Amazon Comprehend, inclusive para português.

In [None]:
import spacy
import pt_core_news_sm
nlp = pt_core_news_sm.load()
doc = nlp('Microsoft é uma empresa fundada em Albuquerque')
print([(X.text, X.label_) for X in doc.ents])
# Output:
# [('Microsoft', 'ORG'), ('Albuquerque', 'LOC')]

- Exemplo para um texto mais complexo da aplicação de NER

In [None]:
!python -m spacy download pt_core_news_lg

import spacy
import pt_core_news_lg  # modelo maior e mais preciso para português
from collections import Counter
import pandas as pd

# Carregar o modelo spaCy para português
nlp = pt_core_news_lg.load()

# Texto de exemplo — múltiplas entidades
texto = """
Em 12 de março de 2024, a Microsoft anunciou em Lisboa uma parceria com a Universidade do Porto
para desenvolver soluções de Inteligência Artificial aplicadas à saúde. O investimento inicial será
de 2 milhões de euros, financiado parcialmente pelo Governo de Portugal. Satya Nadella afirmou que
o projeto reforça o compromisso da empresa com a inovação tecnológica na Europa.
"""

# Processar o texto com spaCy
doc = nlp(texto)

# Extrair entidades nomeadas
entidades = [(ent.text, ent.label_) for ent in doc.ents]
print("Entidades reconhecidas:")
for ent_text, ent_label in entidades:
    print(f" - {ent_text:<30} → {ent_label}")

# Contar número de entidades por tipo
contagem = Counter([ent.label_ for ent in doc.ents])
print("\n Contagem por tipo de entidade:")
for tipo, qtd in contagem.items():
    print(f" {tipo}: {qtd}")

# Exportar para DataFrame (útil para análises)
df_ent = pd.DataFrame(entidades, columns=["Entidade", "Tipo"])
print("\n Tabela de entidades:\n")
print(df_ent)

# Exemplo de filtro: mostrar apenas ORGANIZAÇÕES
orgs = df_ent[df_ent["Tipo"] == "ORG"]
print("\n Organizações encontradas:")
print(orgs)

## Summarization

Summarization é a tarefa de gerar automaticamente um texto mais curto que preserve as informações mais relevantes de um conteúdo maior. Modelos de summarization são úteis para sintetizar documentos extensos, facilitando a compreensão rápida. Ferramentas como a HuggingFace oferecem modelos eficientes para esse fim, inclusive em português.

- Validar a instalação do torch

In [None]:
import sys
print(sys.executable)
!pip show torch

In [None]:
!pip install torch torchvision torchaudio
!pip install transformers

import torch
from transformers import pipeline

# cria o pipeline de sumarização
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

# texto de exemplo
text = (
    "A inteligência artificial (IA) refere-se à simulação de processos de inteligência humana por máquinas, "
    "especialmente sistemas computacionais. Esses processos incluem aprendizado, raciocínio e autocorreção. "
    "Aplicações específicas da IA incluem sistemas especialistas, reconhecimento de fala e visão computacional. "
    "Nos últimos anos, avanços em redes neurais profundas permitiram melhorias significativas em tarefas como "
    "tradução automática e geração de linguagem natural. Com isso, a IA tem sido cada vez mais utilizada em "
    "áreas como medicina, finanças, educação e transporte."
)

# sumarizar
summary = summarizer(text, max_length=120, min_length=40, do_sample=False)
print(summary[0]['summary_text'])

### Question Answering (QA)

Question Answering (QA) é a tarefa em que um modelo compreende um texto e responde perguntas com base nesse conteúdo. É especialmente útil para procura e extração de informações em grandes volumes de dados. Modelos de QA, como os disponíveis no HuggingFace, conseguem localizar respostas precisas diretamente no contexto fornecido.

In [None]:
from transformers import pipeline

# Pipeline com modelo compatível com português
question_answerer = pipeline("question-answering", model="mrm8488/bert-multi-cased-finetuned-xquadv1")

# Novo contexto
context = (
    "A inteligência artificial (IA) é um campo da ciência da computação que busca criar sistemas capazes de realizar tarefas "
    "que normalmente requerem inteligência humana, como reconhecimento de fala, tomada de decisões, e tradução de idiomas. "
    "Ela tem sido aplicada em diversos setores, como saúde, educação, transporte e segurança. Com o avanço das redes neurais "
    "e do aprendizado profundo, a IA passou a desempenhar papéis centrais em tecnologias modernas, incluindo assistentes virtuais "
    "e veículos autônomos."
)

# Pergunta em português
result = question_answerer(question="Em quais áreas a IA tem sido aplicada?", context=context)

# Exibe apenas a resposta
print(result['answer'])


### Tradução Automática

Tradução automática é a tarefa de converter textos de um idioma para outro. Modelos modernos são capazes de lidar com diferentes estruturas linguísticas e até traduzir siglas corretamente. Em Python, uma opção prática é usar a API do GoogleTranslator para realizar traduções de forma eficiente e precisa.

In [None]:
!pip install deep-translator

# 2. Use o tradutor
from deep_translator import GoogleTranslator

to_translate = (
    "Artificial Intelligence is transforming the way we interact with technology. "
    "From virtual assistants that respond to voice commands, to recommendation systems "
    "that help us choose what to watch or buy, AI is becoming an essential part of our daily lives. "
    "As algorithms become more sophisticated, they are now being used in fields like healthcare, "
    "education, finance, and autonomous vehicles. However, this rapid development also raises "
    "ethical concerns and questions about the future of human labor."
)

translated_text = GoogleTranslator(source='auto', target='pt').translate(to_translate)
print(translated_text)


### Transformar Texto em Feature

Modelos de Machine Learning como RandomForest, Logistic Regression, Naive Bayes e SVM (Support Vector Machine), entre outros disponíveis no Scikit-learn, exigem que os dados de entrada estejam em formato numérico. Como textos não estruturados não podem ser diretamente convertidos em float, é necessário aplicar técnicas de vetorização, como Bag of Words, TF-IDF ou Word Embeddings (por exemplo, Word2Vec ou GloVe), para transformar palavras em números. Algumas dessas abordagens preservam o contexto semântico, outras apenas a frequência. A escolha da técnica depende do objetivo da modelagem. O dataset “20 newsgroups” é um exemplo popular usado para treinar e avaliar esses modelos com dados textuais classificados por temas.

In [None]:
from sklearn.datasets import fetch_20newsgroups

# Carrega os dados de treino
twenty_train = fetch_20newsgroups(subset='train', shuffle=True, random_state=2)

# Exemplo: Visualização de uma amostra
print(f"Total de documentos: {len(twenty_train.data)}")
print(f"Categorias: {twenty_train.target_names}")
print("\nExemplo de documento:")
print(twenty_train.data[0][:500])  # primeiros 500 caracteres do primeiro documento


### Bag-of-Words

Bag-of-Words (BoW) é a técnica mais simples para transformar texto em features. É criada uma tabela onde cada coluna representa uma palavra do vocabulário e cada linha representa um documento, com valores indicando a frequência de cada palavra no texto. Embora não preserve o contexto ou a ordem das palavras, é eficaz em muitas aplicações. No Scikit-learn, essa transformação é feita com a classe CountVectorizer.

In [None]:
!pip install scikit-learn

# Importações
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer

# Carrega o dataset de treino
twenty_train = fetch_20newsgroups(subset='train', shuffle=True, random_state=42)

# Inicializa o CountVectorizer (Bag of Words)
count_vect = CountVectorizer(stop_words='english')  # remove stopwords em inglês
X_train_counts = count_vect.fit_transform(twenty_train.data)

# Exibe informações
print("Formato da matriz de vetores (documentos x palavras):", X_train_counts.shape)
print("\nExemplo de palavras no vocabulário:")
print(count_vect.get_feature_names_out()[:20])  # mostra as 20 primeiras palavras
print("\nExemplo de documento:")
print(twenty_train.data[0][:500])  # mostra os primeiros 500 caracteres do 1º documento


### TF-IDF

TF-IDF (Term Frequency–Inverse Document Frequency) é uma técnica de vetorização que melhora o Bag-of-Words ao normalizar a frequência das palavras pelo tamanho do texto e ao reduzir o peso de termos muito comuns na base. Isso evita que textos mais longos tenham influência desproporcional e destaca palavras mais relevantes. Embora ainda não capture o contexto, é bastante eficaz para diversas tarefas. No Scikit-learn, a classe TfidfVectorizer realiza essa transformação.

In [None]:
!pip install scikit-learn

# Importações
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer

# Carrega o dataset de treino
twenty_train = fetch_20newsgroups(subset='train', shuffle=True, random_state=42)

# Inicializa o vetor TF-IDF
tfidf_vectorizer = TfidfVectorizer(stop_words='english')  # remove stopwords em inglês
X_train_tfidf = tfidf_vectorizer.fit_transform(twenty_train.data)

# Exibe informações sobre a matriz
print("Formato da matriz TF-IDF (documentos x palavras):", X_train_tfidf.shape)

# Exibe palavras do vocabulário
print("\nExemplo de termos no vocabulário:")
print(tfidf_vectorizer.get_feature_names_out()[:20])

# Exemplo de valores TF-IDF (linha 0, primeiros 10 termos não-nulos)
print("\nExemplo de vetores TF-IDF do primeiro documento (valores não-nulos):")
import numpy as np
row_0 = X_train_tfidf[0].tocoo()
for i, j, v in zip(row_0.row, row_0.col, row_0.data):
    print(f"{tfidf_vectorizer.get_feature_names_out()[j]}: {v:.4f}")
    if i >= 10:
        break


- Melhorar o output ao aplicar algumas técnicas de limpeza

In [None]:
# Instala scikit-learn se estiver no Google Colab
!pip install scikit-learn

# Importações
import re
import numpy as np
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer

# ---------- LIMPEZA BÁSICA ----------
def clean_text(text):
    text = text.lower()                          # tudo em minúsculas
    text = re.sub(r'\S*@\S*\s?', '', text)       # remove emails
    text = re.sub(r'http\S+', '', text)          # remove URLs
    text = re.sub(r'\d+', '', text)              # remove números
    text = re.sub(r'[^a-zA-Z\s]', '', text)      # remove caracteres não alfabéticos
    text = re.sub(r'\s+', ' ', text).strip()     # remove espaços extras
    return text

# ---------- TOKENIZER PERSONALIZADO ----------
def custom_tokenizer(text):
    tokens = re.findall(r'\b[a-zA-Z]{2,}\b', text.lower())
    clean_tokens = []
    for token in tokens:
        if len(token) > 20:
            continue  # descarta tokens longos
        token = re.sub(r'(.)\1{2,}', r'\1\1', token)  # reduz repetições (aaaaah -> aah)
        clean_tokens.append(token)
    return clean_tokens

# ---------- CARREGAR E LIMPAR DADOS ----------
twenty_train = fetch_20newsgroups(subset='train', shuffle=True, random_state=42)
cleaned_data = [clean_text(doc) for doc in twenty_train.data]

# ---------- VETORIZAÇÃO INICIAL ----------
tfidf_vectorizer = TfidfVectorizer(stop_words='english', tokenizer=custom_tokenizer)
X_train_tfidf = tfidf_vectorizer.fit_transform(cleaned_data)

print("Formato inicial da matriz TF-IDF:", X_train_tfidf.shape)

# ---------- DETETAR TOKENS SUSPEITOS ----------
vocab = tfidf_vectorizer.get_feature_names_out()
weird_tokens = [w for w in vocab if (
    len(w) > 15 or                # palavras muito longas
    w.count(w[0]) > len(w) // 2   # uma só letra repetida (aaaaa, bbbbb)
)]

print(f"\nForam encontrados {len(weird_tokens)} tokens suspeitos (exemplo):")
print(weird_tokens[:15])

# ---------- RECRIAR MODELO SEM OS TOKENS SUSPEITOS ----------
filtered_vocab = [w for w in vocab if w not in weird_tokens]

# Refaz o vetor TF-IDF restringindo o vocabulário
tfidf_vectorizer_clean = TfidfVectorizer(
    stop_words='english',
    tokenizer=custom_tokenizer,
    vocabulary=filtered_vocab
)
X_train_tfidf_clean = tfidf_vectorizer_clean.fit_transform(cleaned_data)

print("\nFormato final da matriz TF-IDF (após limpeza):", X_train_tfidf_clean.shape)

# ---------- MOSTRAR RESULTADOS ----------
print("\nExemplo de termos limpos no vocabulário:")
print(tfidf_vectorizer_clean.get_feature_names_out()[:20])

print("\nExemplo de valores TF-IDF do primeiro documento (valores não-nulos):")
row_0 = X_train_tfidf_clean[0].tocoo()
for i, j, v in zip(row_0.row, row_0.col, row_0.data):
    print(f"{tfidf_vectorizer_clean.get_feature_names_out()[j]}: {v:.4f}")
    if i >= 10:
        break


BERT (Bidirectional Encoder Representations from Transformers)

BERT (Bidirectional Encoder Representations from Transformers) é um modelo pré-treinado desenvolvido pela Google que transforma textos em features mantendo o contexto e o significado das palavras nas frases. Baseado na arquitetura Transformer, o BERT é capaz de compreender relações semânticas complexas e é amplamente usado em tarefas avançadas de NLP. Existem várias versões do BERT, e uma das mais comuns é a bert-base-uncased, disponível pela biblioteca HuggingFace. É uma das abordagens mais eficazes para representações contextuais de texto.

In [None]:
!pip install -U sentence-transformers scikit-learn

# Importações
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

# Exemplo de corpus em português
corpus = [
    "A inteligência artificial está transformando o mundo.",
    "Sistemas de IA já são usados na medicina, educação e transporte.",
    "Receitas culinárias brasileiras são ricas em sabores e temperos.",
    "A tecnologia está cada vez mais presente na vida cotidiana."
]

# Carrega modelo multilíngue para embeddings semânticos
model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')

# Gera embeddings BERT
embeddings = model.encode(corpus, show_progress_bar=True)

# Calcula matriz de similaridade entre os textos
similarity_matrix = cosine_similarity(embeddings)

# Mostra a matriz de similaridade
import numpy as np
import pandas as pd

df_sim = pd.DataFrame(similarity_matrix, columns=[f"Texto {i}" for i in range(len(corpus))],
                      index=[f"Texto {i}" for i in range(len(corpus))])
print(df_sim.round(2))


### Aplicar modelos de Machine Learning

Após transformar o texto em features (como com TF-IDF), o processo de construção de modelos de Machine Learning segue o mesmo fluxo usado com dados estruturados. É possível, por exemplo, treinar um RandomForestClassifier diretamente com os vetores gerados. Para prever novas entradas, basta aplicar a mesma transformação com o objeto previamente ajustado (transform, e não fit_transform). Essa abordagem é válida para qualquer modelo supervisionado, e técnicas como ajuste de parâmetros e avaliação de métricas também se aplicam normalmente.

In [None]:
# Instale bibliotecas necessárias (se estiver no Colab)
!pip install -U scikit-learn

# Importações
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier

# Carrega o dataset de treino
print("Carregando dataset...")
twenty_train = fetch_20newsgroups(subset='train', shuffle=True, random_state=42)

# Exibe as categorias disponíveis
print("\nCategorias disponíveis:")
for i, cat in enumerate(twenty_train.target_names):
    print(f"{i:2d} - {cat}")

# Transforma os textos em features TF-IDF
print("\nTransformando textos em vetores TF-IDF...")
tfidf_vectorizer = TfidfVectorizer(stop_words='english')
X_train_tfidf = tfidf_vectorizer.fit_transform(twenty_train.data)

# Treina o classificador
print("Treinando modelo RandomForest...")
clf = RandomForestClassifier()
clf.fit(X_train_tfidf, twenty_train.target)
print(f"Número de árvores no modelo: {len(clf.estimators_)}")

# Função para testar entrada do usuário
def classificar_texto(texto):
    X_novo = tfidf_vectorizer.transform([texto])
    predicao = clf.predict(X_novo)[0]
    return twenty_train.target_names[predicao]

# Loop de teste interativo
print("\nDigite um texto (ou pressione Enter para sair):")
while True:
    entrada = input("\nTexto: ")
    if not entrada.strip():
        print("Encerrado.")
        break
    categoria = classificar_texto(entrada)
    print(f"→ Categoria prevista: {categoria}")


# The government announced a new economic policy
# I love computers
# My car engine is overheating after long trips

### Similaridade de Textos

A comparação entre textos é essencial em várias aplicações de NLP, como procura, deduplicação, e detecção de semântica semelhante. A similaridade pode ser calculada de forma vetorial (com BoW, TF-IDF, BERT) ou diretamente entre strings. A biblioteca FuzzyWuzzy facilita essa tarefa ao implementar métricas clássicas como a distância de Levenshtein, oferecendo métodos que consideram variações de ordem, duplicações e substrings. Além dela, há outras métricas relevantes como Jaccard, Jaro e Jaro-Winkler, que permitem medir o grau de similaridade com maior flexibilidade e precisão do que simples comparações binárias.

In [None]:
!pip install transformers fuzzywuzzy

# Importação da biblioteca
from fuzzywuzzy import fuzz

# Frases de exemplo
texto1 = "Eu gosto de café"
texto2 = "Eu gosto de café"
texto3 = "Eu não gosto de café"
texto4 = "Eu gosto de café e meu irmão também"
texto5 = "De café eu gosto"
texto6 = "Eu eu gosto gosto de de café café"

print("=== Comparações com FuzzyWuzzy ===")

# Comparação direta (match exato)
print("\n1. Ratio (match exato)")
print(f"fuzz.ratio('{texto1}', '{texto2}') = {fuzz.ratio(texto1, texto2)}")  # 100

print("\n2. Ratio (quase igual, com negação)")
print(f"fuzz.ratio('{texto1}', '{texto3}') = {fuzz.ratio(texto1, texto3)}")  # ~89

# Comparação considerando substrings
print("\n3. Partial Ratio (substring)")
print(f"fuzz.partial_ratio('{texto1}', '{texto4}') = {fuzz.partial_ratio(texto1, texto4)}")  # 100

# Comparação com ordem diferente das palavras
print("\n4. Token Sort Ratio (ordem diferente)")
print(f"fuzz.token_sort_ratio('{texto1}', '{texto5}') = {fuzz.token_sort_ratio(texto1, texto5)}")  # 100

# Comparação ignorando duplicatas
print("\n5. Token Set Ratio (duplicatas)")
print(f"fuzz.token_set_ratio('{texto1}', '{texto6}') = {fuzz.token_set_ratio(texto1, texto6)}")  # 100


### Similaridade de Cosseno sem Contexto

A Similaridade de Cosseno é uma métrica vetorial amplamente usada em NLP para medir o grau de similaridade entre textos, calculando o cosseno do ângulo entre seus vetores representados em um espaço N-dimensional. Ao aplicar técnicas como TF-IDF para transformar textos em vetores, é possível usar cosine_similarity do Scikit-learn para comparar conteúdos. Embora eficaz, essa abordagem não considera o contexto semântico das palavras, focando apenas na distribuição e frequência dos termos. É comum em sistemas de busca e recomendação baseados em conteúdo.

In [None]:
# Instalar o scikit-learn (se necessário)
!pip install scikit-learn

# Importações
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

# Lista de textos em português
text_list = [
    "Fui ao shopping",
    "Hoje fui ao shopping",
    "Gosto de café"
]

# Vetorização com TF-IDF
tfidf_vectorizer = TfidfVectorizer()
text_tfidf = tfidf_vectorizer.fit_transform(text_list)

# Cálculo da similaridade de cosseno entre todos os pares
cosine_sim = cosine_similarity(text_tfidf, text_tfidf)

# Exibição da matriz de similaridade com rótulos
df_sim = pd.DataFrame(cosine_sim, index=text_list, columns=text_list)
print("Matriz de Similaridade de Cosseno:")
print(df_sim.round(2))


### Similaridade de Cosseno com Contexto

A Similaridade de Cosseno com contexto utiliza modelos como o BERT (ou variações, como paraphrase-xlm-r-multilingual-v1) para gerar vetores que capturam o significado contextual dos textos. Ao aplicar a métrica de cosseno sobre esses vetores, é possível medir com precisão a semelhança semântica entre frases, mesmo quando expressas com palavras diferentes. Essa abordagem supera métodos tradicionais ao considerar o sentido das palavras no enunciado, sendo ideal para tarefas como detecção de paráfrases, busca semântica e agrupamento de ideias semelhantes.

In [None]:
!pip install -U sentence-transformers scikit-learn

# Importações
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

# Carrega o modelo multilíngue com suporte ao português
model = SentenceTransformer('sentence-transformers/paraphrase-xlm-r-multilingual-v1')

# Lista de textos em português
text_list = [
    "Eu moro em Portugal",
    "A minha casa fica em território português",
    "Gosto de viajar de avião"
]

# Geração dos embeddings com contexto
text_bert = model.encode(text_list, show_progress_bar=True)

# Cálculo da similaridade de cosseno entre os textos
cosine_sim = cosine_similarity(text_bert, text_bert)

# Exibição da matriz de similaridade com rótulos
df_sim = pd.DataFrame(cosine_sim, index=text_list, columns=text_list)
print("Matriz de Similaridade com Contexto (BERT):")
print(df_sim.round(2))
